Depuis l’arrivée des modèles Whisper d’OpenAI, transcrire des paroles en texte sur son Mac est devenu un jeu d’enfants. De nombreuses applications basées sur cette technologie qui tourne en local ont vu le jour, des plus simples aux plus avancées. Thoth est une nouvelle option qui se distingue en particulier par sa transcription en temps réel.
Ingénieur R&D, Matthieu Veinhard a développé cette application avant tout pour consigner ses réunions techniques en visioconférence, tout en restant concentré sur ses échanges avec ses collègues. De fait, Thoth permet de capturer et de transcrire l’audio du Mac, qu’il vienne d’une application, du micro ou bien des deux à la fois. Cela fonctionne sans installer de pilote virtuel.

Une fois la réunion terminée, la transcription complète est disponible presque immédiatement, puisqu’elle a été générée en continu pendant l’échange. L’application peut ensuite identifier les différents intervenants grâce à un traitement supplémentaire assuré, toujours en local, par PyAnnote. Un moteur de recherche est intégré et il est possible d’exporter aussi bien le texte que l’audio dans les formats courants.
Pour l’heure, Thoth s’appuie uniquement sur des modèles Whisper. On a le choix du plus petit, moins fiable mais qui tire peu sur le processeur, au plus gros, plus précis mais plus gourmand. Comme tout est exécuté en local, il faut une machine suffisamment puissante, mais n’importe quel Mac Apple Silicon s’en sort avec les petits modèles — j’ai testé l’application sur un MacBook Air M1 avec 16 Go de RAM.

Il manque malheureusement les modèles Parakeet de Nvidia et SpeechAnalyzer d’Apple, qui sont beaucoup plus efficaces que ceux d’OpenAI — la transcription est beaucoup plus rapide tout en étant aussi précise. Le développeur m’a indiqué que Parakeet devrait être intégré dans les prochaines semaines.
macOS 26 concurrence Whisper avec un modèle de transcription local et très rapide
Thoth permet de télécharger d’autres modèles d’IA (Gemma, Llama, Qwen…) afin d’interagir directement avec la transcription, notamment pour générer des résumés. Tout est ainsi intégré à l’application. Cela peut être considéré comme un avantage par rapport à MacWhisper, qui nécessite une application supplémentaire (LM Studio, Ollama…) pour faire appel à une IA en local.
Le principal atout de Thoth, selon moi, est sa fenêtre de transcription en direct, qui affiche les paroles converties en texte en quasi temps réel. Pour un journaliste qui suit une conférence audio (celle d’Apple par hasard) et qui doit publier un article dans la foulée, c’est particulièrement pratique. La rapidité et la fiabilité de la transcription dépendent évidemment du modèle utilisé et de la puissance de l’ordinateur. Un Mac M1 fournit déjà un résultat convenable, même si davantage de puissance améliore nettement le confort. MacWhisper propose lui aussi un mode temps réel, mais il se révèle moins adapté à cet usage.

La version gratuite de Thoth est limitée à cinq enregistrements et à une durée maximale de 30 minutes au micro ou 15 minutes pour l’audio système, juste de quoi tester l’application. La version complète est facturée 9,99 €/mois ou 99 € en licence perpétuelle. L’application n’est pas encore traduite en français, mais cela va venir, et elle demande macOS 26 au minimum. Thoth souffre globalement de la comparaison avec MacWhisper, qui est moins cher et qui reste la référence du marché avec ses nombreuses options et optimisations. L’application est néanmoins prometteuse et intéressante dès à présent dans l’optique de transcriptions en direct.













