Overcast va bientôt ajouter la transcription des épisodes de podcast, de quoi lire le texte et naviguer aisément dans l’audio. Cette fonctionnalité est proposée par Apple dans son app depuis plus de deux ans et dans bien d’autres lecteurs de podcasts concurrents, mais ce qui est intéressant ici, c’est la méthode utilisée. Marco Arment, son développeur, a eu l’idée d’exploiter le modèle de transcription d’Apple qui a le double avantage d’être extrêmement rapide et de tourner en local sur tous les produits pommés. Au lieu de faire appel à un service tiers, il a créé une infrastructure basée sur… des Mac mini M4.
Le plus petit ordinateur d’Apple et le moins cher ex-aequo avec le MacBook Neo, connaît un fort succès en ce moment. Il a gagné en popularité avec l’explosion d’OpenClaw, cet outil qui exploite les grands modèles de langage pour réaliser bon nombre de tâches sur un ordinateur. Il s’est aussi révélé être la meilleure option ici en raison de son excellent rapport performances/prix.
Silicon Valley : pourquoi le Mac mini est devenu la coqueluche de l’IA
Pour 699 € en France au prix neuf, mais souvent moins de 500 $ lors de promotions outre-Atlantique, on a un ordinateur capable de transcrire de l’audio 200 fois plus rapidement que le temps réel. Pour le dire autrement, en une minute, le Mac mini M4 de base est capable de transcrire 200 minutes d’audio. Marco Arment explique dans le dernier épisode de son podcast ATP avoir testé d’autres options et à chaque fois, c’est bien ce mini de base, le modèle le moins cher, qui sortait gagnant.
C’est pourquoi il en a d’abord fait tourner deux chez lui le temps de créer un premier prototype, puis acheté d’autres exemplaires pour mettre en place la fonction à grande échelle. Au fil du temps, il a rassemblé plusieurs dizaines de Mac mini dans la baie d’un centre de données, de quoi répondre à tous ses besoins, actuels et même futurs. Cette collection de Mac est capable de transcrire les épisodes des podcasts les plus populaires suffisamment rapidement pour que tous les utilisateurs d’Overcast aient le texte dès leur téléchargement. Il ne se contente pas des nouveaux épisodes toutefois, il transcrit aussi tout le catalogue progressivement, en commençant par les plus populaires. Par la suite, il compte faire mouliner les machines sur des épisodes de moins en moins connus et de plus en plus anciens, jusqu’à avoir tout transcrit.
L’un des intérêts du Mac mini, c’est que le matériel est très proche d’un iPhone. Cette proximité a permis à Marco Arment de faire tourner une version à peine modifiée d’Overcast sur l’ordinateur d’Apple pour effectuer la transcription. Cette base commune permet aussi d’intégrer la même fonctionnalité dans l’app publique et d’utiliser le même moteur d’Apple que sur les serveurs. Si un épisode n’est pas encore transcrit — ce sera notamment le cas des flux privés comme ceux que nous proposons à nos abonnés du Club iGen —, alors on peut lancer la transcription sur son iPhone et obtenir exactement le même résultat.
D’après ce que l’on avait pu observer en testant cette nouveauté des OS 26, le moteur de transcription d’Apple est très rapide, il consomme peu de ressources et produit un résultat de bonne qualité. On peut obtenir mieux grâce à d’autres modèles, en particulier le Parakeet de Nvidia, mais il faut alors plus de ressources ou plus de temps de traitement.
macOS 26 concurrence Whisper avec un modèle de transcription local et très rapide
La transcription dans Overcast sera limitée aux langues prises en charge par Apple, à savoir l’anglais, le français, l’allemand, le chinois (mandarin et cantonais de Hong Kong), le coréen, l’espagnol, l’italien, le japonais, et le portugais. Pour l’heure, la nouveauté est encore en bêta fermée, mais le développeur promet une sortie rapide, avec une implémentation néanmoins limitée. Il détaille dans le podcast tout le travail qui a été nécessaire, en particulier pour s’assurer que les épisodes avec publicités dynamiquement insérées au moment du téléchargement (c’est la majorité aujourd’hui) soient correctement gérés.
C’est pourquoi la première version proposera peu de fonctionnalités. À terme, les transcriptions apportent de nombreuses opportunités pour la recherche, le chapitrage automatique et les résumés des épisodes, ou encore le partage d’extraits en générant une vidéo avec des sous-titres automatiques. Avant tout cela, Overcast pourra afficher la transcription et synchroniser le texte avec la position de lecture, permettant ainsi d’accéder à une autre section de l’épisode.











