Aiko permet d'utiliser gratuitement la meilleure version de Whisper pour transcrire de l’audio

Félix Cattafesta |

Développé par OpenAI, le moteur open source Whisper permet de gagner énormément de temps lorsqu'il s'agit de transcrire de l'audio. Celui-ci est basé sur l'IA et est notamment utilisé par l'application MacWhisper, très pratique mais qui nécessite de payer pour accéder aux déclinaisons les plus performantes du moteur. Aiko est un concurrent avec moins de fonctions mais qui offre d'utiliser gratuitement ce modèle plus précis.

Extrait de la Recherche du temps perdu dans Aiko.

Comme MacWhisper, Aiko repose sur une interface simple avec une fenêtre depuis laquelle on peut activer son micro pour enregistrer directement ou bien envoyer un fichier audio. Une fois cela fait, la machine mouline avant de proposer la transcription du texte. On peut alors la copier ou l'exporter sous différents formats (TXT, CSV, sous-titres…). Une centaine de langages peuvent être reconnus.

La particularité de l'app est qu'elle n'embarque que le modèle « Large » de Whisper, sans la possibilité de changer. Aiko est donc assez lourde (3 Go) et nécessite 16 Go de RAM. En contrepartie, elle devrait offrir une meilleure précision qu'avec les modèles gratuits de MacWhisper, même si elle sera logiquement un peu plus lente. L'app est disponible gratuitement sur le Mac App Store.

avatar R-APPLE-R | 

C’est obligatoire 16 GO de Ram ? Ou bien c’est possible sur un Air M1 8 GO de Ram ?
D’ailleurs faut t’il une puce M pour pouvoir en profiter ? 😈

avatar occam | 

@R-APPLE-R

Une technique assez intéressante vient d’être présentée sur GitHub, permettant de lancer des modèles génératifs LLM (large language models) sur des machines insuffisamment pourvues en mémoire, surtout VRAM. (Sachant que Whisper marche du tonnerre sur CUDA.)
https://github.com/FMInference/FlexGen
Mais j’ignore si elle a déjà été implémenté sur Mac Mx.

Jong Wook Kim confirme régulièrement sur GitHub que le modèle large demande au moins 5-6 GB, et plus en fonction du langage naturel à traiter.

avatar R-APPLE-R | 

@occam

Ok merci réponse au top et du niveau d’occam 😉

Jong Wook Kim confirme régulièrement sur GitHub que le modèle large demande au moins 5-6 GB, et plus en fonction du langage naturel à traiter.

C’est pas le cousin de Kim Jong-un ? 😂😈

avatar Nims | 

Cool ! J’ai fait 2 conneries: j’ai acheté MacWhisper hier & je me suis rendu compte après qu’il fallait minimum 10.12 (je suis en 10.11) ! Aïko quant à lui, demande 10.13.

avatar occam | 

@Nims

"Aïko quant à lui, demande 10.13."

Aiko est bien plus contraignant, selon App Store : macOS 13.1 minimum.

avatar Nims | 

@occam

Oui c’est moi qui me suis trompé : macOS 12 pour MacWhisper et Mac OS 13 pour Aiko (accessoirement 13.1) 👍🏼

avatar ratz | 

Bon, on va compter ça comme une seule et unique connerie hein , juste pour cette fois ci

avatar PiRMeZuR | 

Ça marche bien avec 8Go de mon côté. Et il est également possible d'utiliser les modèles larges en les ajoutant dans le dossier de modèles de MacWhisper. Il faut les renommer en "tiny" ou en "base".

avatar ratz | 

D'où récupères tu les modèles stp?

avatar PiRMeZuR | 
avatar Timmy | 

Est-ce que l’audio est traitée en local ?
Je me réponds : à priori oui puisqu’il faut 16Go de ram.

avatar ratz | 

Vu le stockage que l'appli prend , très certainement

avatar Morgan 1er | 

Petite question: je suis encore sous macOS 12 alors que Aiko demande macOS 13 minimum.

Existe-t-il un moyen de l'obtenir maintenant malgré tout, sans le lancer, pour qu'Aiko soit associé à mon compte iCloud et que je puisse le retrouver à l'avenir dans mes "achats" du Mac App Store le jour où je passerai à macOS 13? Si par hasard Aiko devenait payant entre temps par exemple.

Dès qu'un logiciel pareil sera associé à une fonction qui permet d'ajouter un timecode au fur et à mesure des phrases pour un export direct de sous-titres dans la foulée, ce sera royal.

avatar BeePotato | 

@ Morgan 1er : « Dès qu'un logiciel pareil sera associé à une fonction qui permet d'ajouter un timecode au fur et à mesure des phrases pour un export direct de sous-titres dans la foulée, ce sera royal. »

Ben… c’est déjà le cas, ça tombe bien. 🙂
C’est même indiqué dans l’article.

avatar BeePotato | 

@ Morgan 1er : « Si par hasard Aiko devenait payant entre temps par exemple. »

S’il devient payant, il y en aura sûrement un autre gratuit qui prendra sa place.
Note qu’en attendant de passer à MacOS 13, tu peux installer Whisper lui-même directement en suivant les instructions données sur sa page GitHub, puis l’utiliser sans passer par une application l’encapsulant.
Certes, c’est en ligne de commande, mais il n’y a rien de bien compliqué dans la procédure et les commandes (pour l’installation comme pour l’utilisation) sont toutes fournies.

avatar ratz | 

Comment font ils pour fournir ce service gratuitement ?

Ya anguille sous roche non?

avatar BeePotato | 

@ ratz : « Comment font ils pour fournir ce service gratuitement ? »

Facile : c’est juste une petite application toute simple qui encapsule un système de transcription développé par d’autres et distribué gratuitement. On pourrait certes imaginer faire payer (mais pas cher, alors) ce service rendu à ceux qui veulent un accès simplifié à Whisper, mais ce développeur s’est apparemment dit que ça n’en valait pas la peine.

avatar ratz | 

resultat d'un test a la con:

Petit test vocal afin de tester l'acuité de la reconnaissance du modèle EICO.

Alors là je vais juste parler normalement comme si j'étais à un cours et on va voir s'il met bien la ponctuation, les points, etc. s'il va à la ligne ou pas.

Notamment j'aimerais si possible manger un steak tartare.

assez impressionnant

avatar Joseki75 | 

Aiko est gratuit pour le modèle large, ce qui le rend interessant. Je voulais faire un test de fidélité par rapport à la solution que j'utilise actuellement (et il me semble qu'elle n'était pas dans le test de dictées dans un des articles de MacG.) A savoir la fonction transcription de Premiere pro, qui marche sur Mac OS 12. J'ai donc du faire l'update en Ventura (13.1) pour pouvoir faire le test.

Test fait sur une conversation de deux personnes en anglais.
verdict : premiere pro est supérieur. Non seulement on a une séparation des locuteurs, mais en plus aiko "loupe" pas mal de mots prononcés, surtout au moment du changement de locuteurs. Et c'est sans oublier la possibilité d'avoir des timecodes sur le transcript qui permet d'aller directement à un endroit souhaité. (mais Aiko a sans doute des possibilité de transcription langues exotiques que adobe n'a pas...)
A suivre, les progrès sont bluffants !

avatar Kahoxinus | 

En vrai je le teste sur un MBA i5 avec 8 Go de RAM (j'aime vivre dangereusement) et c'est assez lentos mais ça marche – clairement mieux que la version gratuite de MacWhisper qui me fait plus de fautes de transcription qu'un stagiaire pas très motivé. Faut juste le laisser tourner sensiblement plus longtemps…

CONNEXION UTILISATEUR