Chuchotis transcrit efficacement et simplement les fichiers audio en texte
Finie la tannée des transcriptions à la main des interviews, podcasts ou autres fichiers audio. Depuis fin 2022, on peut déléguer cette tâche à Whisper, un modèle de reconnaissance de langage qui fonctionne vraiment bien et qui s’exécute en local. Plusieurs applications Mac s’appuient sur la technologie d’OpenAI, l’une des dernières étant Chuchotis.
Chuchotis ne comprend pas autant de fonctionnalités que le pionnier MacWhisper, mais c’est un parti pris de son créateur qui vise une cible particulière : les journalistes. Denis Delbecq, lui-même journaliste, a privilégié la simplicité et les aides pour les reporters.
Chuchotis, qui est utilisé au quotidien par une vingtaine de personnes au média suisse Le Temps, se distingue notamment par la sélection du morceau à transcrire, l’ajout de suggestions de mots pour éviter les erreurs, le regroupement des phrases ou encore la détection des hallucinations. Le texte généré automatiquement peut être copié dans le presse-papier ou bien exporté au format Word, RTF ou SRT, avec ou sans les repères de temps.
L’application donne le choix entre le modèle moyen ou grand de Whisper, le second étant plus précis mais plus long à faire tourner. D’après mes essais, la durée de la transcription prend le même temps avec Chuchotis que MacWhisper, et le texte généré est quasi identique. À titre d’exemple, il a fallu 6 min 30 pour transcrire un podcast d’une quinzaine de minutes sur un MacBook Air M1 avec 16 Go de RAM.
MacWhisper a l’avantage d’avoir une version gratuite et plus de fonctions avancées dans sa version Pro, mais si vous cherchez un client Whisper tourné spécialement vers les journalistes, Chuchotis est pertinent. L’application est vendue 29,99 € sur le Mac App Store.
Dictée surprise pour Apple, Google et OpenAI : qui est le meilleur élève ?
Je pense à une chose : j'utilise depuis des années "Dictée" sur mon Mac, et ça m'a rendu de grands services... Quand j'ai compris comment éviter certaines confusions de sons, quel temps de gagné. Certes sans dote pas comparable, mais il y a des technologies anciennes qui marchent bien (je ne sais pas quelle part "d'IA" il y a dedans, du moins d'IA "basée sur les neurones" si c'est comme ça que ça marche.
@smog
Pareil. Quand j’étais étudiant, je dictais les paragraphes de mes devoirs.
Finalement je fais toujours la même chose avec les SMS ou certains mail, et Siri. Et toujours en dictant la ponctuation.
Mais là on parle de fournir le fichier audio du dictaphone (ou d’une vidéo je suppose). Et en interpréter le texte.
Du coup cela doit grandement faciliter la production de sous-titres !
« il a fallu 6 min 30 pour transcrire un podcast d’une quinzaine de minutes »
Ça signifie qu’il passe le fichier en accéléré ?
Je suppose que oui, mais ça m’intéresse de savoir concrètement comment ça s’utilise. On glisse un fichier dans l’app et elle « l’écoute » en silence, ou il faut lancer le fichier et choisir la vitesse nous mêmes, ou quoi ?
Et est-ce que ça transcrit aussi la parole en direct, ou faut-il qu’elle soit obligatoirement enregistrée ?
6m32 avec 8go
Pour info, la version 8 de MacWhisper vient de sortir avec pas mal de nouveautés.
J'ai un peu de mal avec Chuchotis et notamment son interface, pas vraiment dans les canons de macOS. Mais la sélection du segment à transcrire et la visualisation de l'onde audio sont un vrai plus de l'application.
Pas d’appli iOS ou iPadOS ?
@kurnemanz
Ben non, c'est pour les pro.
@Adodane
Quel est le rapport ?!
Tu crois que l’iPad pro qui vient de sortir ne peut pas faire le job ?
@kurnemanz
Aiko est sympa: simple et efficace
https://apps.apple.com/fr/app/aiko/id1672085276
@xto
👍
@xto
Merci pour la découverte ! Elle va m être très utile 😊
@xto
Je viens de le télécharger pour tester en mode dictée. Pour l’instant je suis moyennement convaincu… Ce n’est pas très rapide, ce ne semble pas plus efficace que la dictée d’Apple, je n’ai pas trouvé comment changer le modèle et, bien que les réglages proposent cette langue, il ne comprend rien au breton…
@kurnemanz
Je le regrette aussi. Faisant les enregistrement avec l’iPhone j’aurais aimé avoir une application pour transcrire dans la foulée mes interviews.
@gwen
Utilises tu Aiko ? Qu’en penses tu ?
@kurnemanz
Non, je ne connais pas. Je vais aller voir du coup. Merci.
Peut on s’en servir pour traduire une vidéo YouTube, par exemple ?
@socotran77
Peut-on s’en servir pour transcrire en temps réel un flux (1 micro ou 2 en cas d’interview et 1 vidéo) qui va passer sur YouTube ?
Y a-t-il aussi une application pour traduire (du français vers l’anglais principalement), en temps réel si possible, le flux et le verser sur YouTube ?
Merci macg. J'utilise Aiko. Ce chuchotis semble pertinent pour aller plus loin. Un article approfondi sur ce sujet serait peut-être un plus : transcription mot à mot, reformulée/corrigée, traduction à la volée, etc...
Si le développeur voulait bien lire les Human Interface Guidelines
https://developer.apple.com/design/human-interface-guidelines/
Je l’ai rejeté chez un client à cause de cette “fantaisie”.
@louik
Par curiosité : quel point précisément était la pierre d’achoppement ?
@povpom
Pour moi, en tant que macadmin, si nous devons commencer à supporter tout et n'importe quoi, c'est la fin du monde.
Plus sérieusement, si nous avons l'avantage d'être dans un environnement standardisé, l'effort d'adaptation pour la prise en main est limité et le support à l'utilisateur est simplifié, par exemple lors d'un appel téléphonique.
Pour moi, une application dont la fenêtre ne respecte pas les Human Interface Guidelines peut indiquer que le développeur ne s'en soucie pas. Dès lors, s'il ne se soucie pas des bonnes pratiques, comment lui faire confiance pour qu'il respecte les bonnes pratiques en matière de sécurité ou autres ?
Comparé à MacWhisper, que je suis depuis le tout début, il n'y a pas photo (pour moi).
Voilà ☺️
@louik
Si les développeurs d’Apple voulaient bien les lire eux aussi…
@Derw
Oui aussi, mais ce n’est pas parce que Apple s’octroie de la liberté qu’il faut se la jouer WinAmp. 😅😂
Pour un podcast de 23'30" avec un Mac Studio :
2'40" avec Chuchotis
2'33" avec MacWhisper
4'35" avec Hello Transcribe
La retranscription avec Chuchotis est du niveau de ses concurrents.
Au final, peu importe le temps de retranscription. La précision est l'élément clé, car nécessairement il faudra passer par une relecture et une correction manuelle pour les noms de famille, les acronymes, les termes techniques. Dans le cas d'un sous-titrage, de pouvoir régler le nombre de caractères du séquençage est aussi primordial. Autre atout à prendre en compte, un dictionnaire personnel intégré qui permettra également un gain de temps.
C’est marrant ces retours vers le futur.
Vers 2010, Adobe avait une version de Premiere Pro qui retranscrivait en texte le contenu audio des vidéos. Puis Adobe a retiré cette fonctionnalité.