Les Français de Gladia planchent sur une version plus fiable et plus rapide de Whisper

Félix Cattafesta |

Gladia est une startup française qui propose une API de transcription audio tout juste sortie d'alpha, accessible à tous mais visant principalement un public professionnel. Elle repose sur une version perfectionnée de Whisper, le moteur d'OpenAI qui se base sur les intelligences artificielles pour améliorer la rapidité et la qualité du travail par rapport aux méthodes habituelles. TechCrunch a pu discuter avec un de ses fondateurs pour savoir quelles améliorations avaient été apportées sous le capot.

Image : Gladia.

Jean-Louis Quéguiner explique qu'un des problèmes de Whisper est qu'il a parfois tendance à « halluciner » certaines parties de la transcription. Le moteur a notamment été entraîné sur de nombreuses vidéos YouTube, où il a pu entendre de milliers de fois certaines phrases comme « N'hésitez pas à vous abonner ». Mathématiquement, il a donc plus de chance de « l'entendre » lorsqu'on lui demande une transcription et de la glisser quelque part dans le texte.

Gladia vise à résoudre ce problème, et utilise des algorithmes de prétraitement et de post-traitement afin d'améliorer les résultats. La version de Whisper utilisée a été affinée à l'aide de 3,5 millions d'heures de son professionnel pour s'accommoder à plus de sujets et d'accents.

L'idée est de faire mieux que la version classique de Whisper, dont les résultats sont déjà bluffants. Son fondateur explique avoir beaucoup investi pour améliorer la vitesse de la transcription, et propose différents services complémentaires. Son API permet par exemple de rapidement traduire un résultat dans une autre langue, ce qui sera pratique pour une entreprise souhaitant obtenir des sous-titres multilingues pour une vidéo. Elle peut identifier lorsqu'il y a plusieurs locuteurs, détecter les langages et passer d'un dialecte à l'autre si nécessaire. Gladia ajoute également automatiquement la ponctuation et la casse à ses transcriptions.

L'API peut être essayée gratuitement sur le site officiel de Gladia. Il lui aura fallu 25 secondes pour transcrire un petit reportage de trois minutes et demie, là où Aiko a demandé environ trois minutes à mon MacBook Air M1 (et a inventé des remerciements à la fin). À l'avenir, l'entreprise explique vouloir proposer de nouvelles fonctionnalités, comme un classement du contenu par thématique ou encore un système de chapitrage. Actuellement, Gladia met en avant 4 types d'utilisations sur son site : les créateurs du web, les utilisateurs de visioconférence, les centres d'appels et les entreprises.

Les prix de Gladia sont abordables par rapport à ce qui se fait sur le marché. Une formule gratuite permet de bénéficier de 10 h de transcription, et les pros seront facturés environ 1 centime de dollar la minute. En comparaison, Microsoft demande au moins 1 $ par heure, et plus en ajoutant des options. Reste à voir si Gladia continuera de se démarquer sur le long terme face à une concurrence qui va sans doute s'intensifier.

Tags
avatar ratz | 

Reste aussi a savoir s'ils garderont les 10/mois gratuites pour les non-pros ;)

avatar Demain c'est loin | 

Ma boîte utilise Trint, c’est vraiment pas mal (mais je ne sais pas s’il existe une version gratuite…)

avatar Bicus | 

Je crois qu'il y a juste les 7 jours d'essai gratuit

avatar PiRMeZuR | 

C’est très intéressant de voir d’autres équipes tenter d’améliorer Whisper, même si on aimerait que ce travail soit aussi publié en open source comme les modèles originaux. Ce n’est pas légalement obligatoire mais ça aurait du sens.

Plus que les performances et le prix, un critère de démarcation pour un service de ce type va être la garantie de respecter la RGPD et ne pas envoyer les données dans un cloud américain. Gladia semble le garantir et même proposer du « on premise » et du « air gap » pour les plus gros clients mais ils ne listent pas la liste de leurs sous-processeurs dans leur « privacy policy » donc il y a toujours un risque pour qu’ils utilisent du AWS/GCP/Azure qui même dans un datacenter EU est illégal depuis Schrems II. (👋🏼 Gladia, si vous me lisez, n’hésitez pas à le préciser et à insister sur ce respect RGPD si vous êtes bien 100% EU, ça vous aidera énormément pour les marchés publics comme les universités…).

PS: Pour ceux qui utilisent Trint et Otter.ai dans leur entreprise, il faut être conscient qu’aucun des deux n’est en conformité RGPD pour le moment (le premier utilise AWS pour le traitement, le second est américain). D’où l’intérêt d’alternatives européennes comme Gladia si elles font l’effort d’être plus respectueuses des données personnelles.

avatar Demain c'est loin | 

@PiRMeZuR

Merci pour les infos sur Trint mais ma boîte étant américaine çà ne m’étonne malheureusement pas…

avatar wallou | 

Pas sûr que les serveurs EU aient un intérêt point de vue séparation avec les US.
Illusoire l'absence d'un élément connecté a PRISM.

avatar marc_os | 

ce qui sera pratique pour une entreprise souhaitant obtenir des sous-titres multilingues pour une vidéo.

Cool, encore une catégorie de professionnels qui peut se faire du soucis pour l'avenir.
Comme si les emplois créés dans les "startup" proposant de plus en plus de services piloté à l'IA allaient compenser les licenciements.

CONNEXION UTILISATEUR