OpenAI simplifie l'intégration de ChatGPT et de Whisper avec de nouvelles API

Félix Cattafesta |

Les applications tirant parti des technologies d'OpenAI devraient se multiplier dans les prochaines semaines. L'entreprise vient d'annoncer le lancement d'API pour ChatGPT et Whisper, son moteur de transcription audio basé sur l'IA proposant des résultats très convaincants. Les développeurs tiers vont donc pouvoir facilement intégrer ces technologies dans leurs apps, le tout d'une manière moins couteuse qu'auparavant.

OpenAI explique avoir réussi à réduire les coûts de ChatGPT de 90 % depuis décembre grâce à un gros travail d'optimisation, ce qui lui permet de proposer un tarif plus abordable pour ses API. Celle-ci est déjà utilisée par certaines applications : Snapchat vient de lancer My AI, un chatbot réservé aux abonnés payants que l'on peut interroger sur tout et rien. La plateforme d'apprentissage Quizlet s'en est servie pour créer un « tuteur virtuel » avec lequel on pourra travailler, tandis que Shopify s'en sert pour un assistant de recommandation.

L'API se base sur « gpt-3.5-turbo », qu'OpenAI présente comme son meilleur modèle pour de nombreux cas d’utilisation hors chat. Son prix est de 0,002 $ par 1 000 tokens, ce qui est 10 fois moins cher que les modèles GPT-3.5 existants. Attention, car un token n'est pas égal à une requête : un outil permet de voir combien de ces crédits seront mangés par une seule phrase. Les plus gros consommateurs pourront demander une instance dédiée offrant des réglages plus précis.

Les développeurs vont également pouvoir utiliser Whisper, le modèle de transcription audio étant facturé 0,006 $ la minute. S’il est open source (vous pouvez le faire tourner gratuitement sur votre Mac), passer par une API permettra aux entreprises de proposer des transcriptions rapides sur des appareils peu puissants. L'application iOS Speak utilise par exemple Whisper pour l'apprentissage des langues et l'entrainement à la conversation.

MacWhisper, qui fait tourner Whisper en local sur Mac.

Enfin, OpenAI annonce avoir revu les conditions d'utilisation de ses API. Les requêtes envoyées ne sont plus utilisées pour entrainer les modèles, et les clients sont propriétaires des requêtes d'entrée et de sortie des modèles. La priorité des ingénieurs d'OpenAI est désormais la stabilité de ses services, et l'entreprise cherche à améliorer leur rapidité.

avatar Scooby-Doo | 

@Félix Cattafesta,

Mais d'après la horde de trolls sur ce forum, ils sont certains que cela ne fonctionne pas !

Ce seraient-ils tous plantés en beauté dans leur analyse à la culs bénis, Oomu* en pôle position ?

😁

* Bon Fred, quand tu reviendras sur Terre, merci de me contacter directement par téléphone. Je crois qu'une conversation entre quatre yeux ne me semble pas totalement superflue ! D'ailleurs je ne savais pas que la Suisse avait une agence spatiale ! Tu t'es porté volontaire pour servir de cobaye et tu as été pris faute d'autre candidat !

😁

avatar oomu | 

@Scooby-Doo

chaton j'ai pété, c'est comme les réseaux (as)sociaux, le rocknroll et films de luc besson, ça marchera JAMAIS !

c'est ça que vous attendez de moi ? je vous fourni tout fantasme que vous attendez de moi sur simple demande.

je n'ai jamais dit "ça ne fonctionne pas", j'ai pondu des pavés de textes imbuvables pour moquer, mépriser, le sensationnalisme et la tendance de geek de l'émerveillement

mais je n'ai pas écrit "ça marchera po"

j'ai par contre écrit avec amusement les limites et intérêts de cet outil , et j'ai fait un propos moqueur sur l'usage du terme "intelligence artificielle" au grès des décennies et nouveaux produit à vendre.

Bref: mon amusement n'est pas un déni. La preuve étant que j'utilise chatgpt pour écrire 1 tweet sur 3 sur twitter (génial pour contre-troller) et que je suis plutôt fan des algos de stable diffusion même si j'en vois les limites et les contraintes juridiques qui vont s'y opposer.

Bref: on s'amuse !

Amusez vous !

L'informatique c'est passionnant, amusant et excitant.

avatar Scooby-Doo | 

@oomu,

« chaton j'ai pété, c'est comme les réseaux (as)sociaux, le rocknroll et films de luc besson, ça marchera JAMAIS ! »

Je suis entièrement d'accord avec ton assertion sur les films de Luc Besson qui plante régulièrement ses productions avec une constance assez déconcertante !

Le dernier exemple en date : c'est l'adaptation hasardeuse de Valérian et Laureline !

J'ai pas pu tenir jusqu'à la moitié de ce navet.

1.

À la base de cette BD culte, nous avons deux agents qui surveille l'Espace-Temps et son bon fonctionnement, histoire que d'abominables Oomus ne viennent mettre le boxon dans le continuum temporel !

Ben Luc Besson, il est capable dans les dix premières minutes de faire arriver l'engin spatial de Valérian et Laureline en retard à un rendez-vous ultra méga super important !

Leur vaisseau était-il en panne ou ce sont les neurones ou le peu qui en reste de Besson qui étaient en panne ?

2.

Dans la BD, Valérian c'est le héros, l'homme de la situation et d'action. Laureline apporte un juste contrepoids à l'image stéréotypée de Valérian.

Le duo est équilibré et un jeu incessant est perceptible tout au long des BD !

Ben Besson se pointe, et il inverse les rôles ! Histoire que l'on pense qu'il est trop créatif et que la création d'un autre, c'est un sous-produit à maltraiter !

3.

Et on peut prendre l'exemple du Transporteur avec Jason Statham !

Transport 3, c'est un navet de première classe made in Besson 100 % pur beurre rance !

4.

Bon Fred je te laisse avec tes châtons…

😁

avatar Romuald | 

J'ai testé whisper de base, c'était une catastrophe. Peut-être très bien pour du texte au kilomètre, mais impossible de mettre des caractères diacritiques, la où dictée sur mac, malgré tous ses défauts, comprend 'deux points, ouvrez les guillemets', par exemple.
Prenez une respiration un peu longue au milieu d'une phrase, il vous collera une virgule ou un point.
Idem la mise en page : point à la ligne' se traduira par 'point à la ligne'.
Et s'il ne comprend pas un mot pas trop bien articulé il n'ira pas chercher un mot approchant dans son dictionnaire, il estimera que c'est un nom propre et vous balancera un truc improbable avec une majuscule.

Encore un effort, donc

avatar Scooby-Doo | 

@Romuald,

« J'ai testé whisper de base, c'était une catastrophe. Peut-être très bien pour du texte au kilomètre, mais impossible de mettre des caractères diacritiques, la où dictée sur mac, malgré tous ses défauts, comprend 'deux points, ouvrez les guillemets', par exemple.
Prenez une respiration un peu longue au milieu d'une phrase, il vous collera une virgule ou un point. Idem la mise en page : point à la ligne' se traduira par 'point à la ligne'.
Et s'il ne comprend pas un mot pas trop bien articulé il n'ira pas chercher un mot approchant dans son dictionnaire, il estimera que c'est un nom propre et vous balancera un truc improbable avec une majuscule. Encore un effort, donc »

👍

Je confirme, encore un gros effort et surtout des options pour préciser comment on veut que le document voix soit traité !

Pas uniquement comme du texte au kilomètre.

C'est peut-être très utile pour des rapports de conférence, et encore.

👌

avatar Nims | 

@Scooby-Doo

Quelqu’un aurait testé la version payante pour voir si ce type de problèmes persistent ? Je comptais m’offrir Whisper mais ça me décourage un peu ce que vous dites… 😕

avatar Scooby-Doo | 

@Nims,

« Quelqu’un aurait testé la version payante pour voir si ce type de problèmes persistent ? Je comptais m’offrir Whisper mais ça me décourage un peu ce que vous dites… 😕 »

Perso j'utilise depuis le tout début la version bêta gratuitement.

En trois mois environ, j'ai connu que quelques saturations pour ma part.

Par contre certains sont confrontés à ce problème beaucoup plus régulièrement.

Mon conseil :

Essayez la version gratuite de OpenAI sur leur site pour voir si cela vous convient.

Peut-être que vous penserez : cela ne marche pas !!! Chacun a son expérience avec les IA !

😁

avatar cosmoboy34 | 

@Nims

Il me semble qu’il y a eu un article sur le sujet ici même avec test à l’appui récemment 😉

avatar hptroll | 

@Nims

Oui. C’est globalement très bien mais il reste impossible de se passer de relecture.
Testé en français et en anglais avec le modèle large et le modèle moyen spécifique à l’anglais mais uniquement sur des dialogues de film, donc souvent dans des conditions sonores médiocres (comparé à une conférence avec micro ou une réunion en ligne) et avec un “sens” plus difficile à extraire pour l’IA (certaines réponses sont gestuelles ou passent par une onomatopée, etc.).

avatar Nims | 

@hptroll

Merci pour ton retour. L’autre question que j’avais c’est savoir si Whisper arrive à séparer un dialogue entre 2 intervenants (par exemple une interview?). Y a-t-il des tirets pour chaque personne ou est-ce que le texte est continu ? Il sait analyser les tonalités de voix dans un même fichier audio ?

avatar hptroll | 

@Nims

Oui dans une certaine mesure.
Dans mes dialogues de film, il distingue régulièrement un changement de prise de parole même très rapprochée dans le temps mais pas systématiquement non plus…
Bref, p’têt’ ben qu’oui, p’têt’ ben qu’non ! 😅

avatar hptroll | 

@hptroll

Pour ce qui est de la structuration de la réponse, il peut adopter le format .srt donc étiqueter chaque réponse avec le time stamp associé. C’est très propre et très pratique, ça.

avatar Scooby-Doo | 

@hptroll,

« Pour ce qui est de la structuration de la réponse, il peut adopter le format .srt donc étiqueter chaque réponse avec le time stamp associé. C’est très propre et très pratique, ça. »

Si vous faites de la transcription à partir d'un film comme vous l'expliquez, l'environnement est souvent trop bruyant.

À l'époque, Adobe Media Encoder proposait ce type de fonction de reconnaissance automatique et d'horodatage pour faire du sous-titrage par exemple.

Il me semble que la solution d'Adobe pour contourner ce problème d'environnement bruyant était de fournir au système le texte écrit des dialogues provenant du scénario.

Les acteurs ne suivent pas forcément au mot près le scénario et des modifications de dernières minutes peuvent présenter aussi ce type de différences.

Par contre, la fourniture d'un texte écrit dans la langue d'origine améliorait beaucoup la reconnaissance et l'horodatage.

👌

Visiblement, c'est aussi disponible dans Adobe Premiere :

https://helpx.adobe.com/fr/premiere-pro/using/speech-to-text.html

Sinon vous avez aussi cette solution :

https://sonix.ai/

Entre autres !

👌

PS :

https://sourceforge.net/software/compare/Adobe-Media-Encoder-vs-Transcribe-Speech-to-Text/

avatar hptroll | 

@Scooby-Doo

Merci pour ces infos !
Dans mon cas, je n’ai pas accès au scénario et je m’intéresse aussi à des vidéos de reportages, par exemple.

avatar Nims | 

@hptroll

Parfait! Je te remercie, je pense que je vais opter directement pour la version payante, ça va me faire gagner un temps fou même s’il vaut mieux passer par une relecture.

avatar BeePotato | 

@ Romuald : « J'ai testé whisper de base, c'était une catastrophe. Peut-être très bien pour du texte au kilomètre, mais impossible de mettre des caractères diacritiques, la où dictée sur mac, malgré tous ses défauts, comprend 'deux points, ouvrez les guillemets', par exemple. »

Il faut dire que d’un côté on a un système de transcription, et de l’autre un système de dictée. C’est normal qu’ils ne fassent pas exactement la même chose — ce n’est pas le but.

Il faudrait sans doute que ce soit indiqué plus clairement dans les (trop nombreux) articles des (trop nombreux) média qui parlent de ce sujet. Même chose pour ChatGPT.

avatar R-APPLE-R | 

Voilà possiblement le problème de mes raccourcis 👿

avatar jopaone | 

gpt-3.5-turbo pas encore disponible de mon côté. En cours de déploiement probablement.

avatar Scooby-Doo | 

@jopaone,

« gpt-3.5-turbo pas encore disponible de mon côté. En cours de déploiement probablement. »

Faut pas trop s'énerver non plus. Cela vient de sortir !

Et puis le site de OpenAI est super over chargé ! Pas un jour sans remarquer une saturation de leur infrastructure.

Vous savez parce que leur AI ne fonctionne pas ! C'est aussi simple que cela.

Visiblement, une foule se rue sans raison sur un truc qui ne fonctionne pas et ne rend aucun service !

C'est triste de constater autant d'inepties dans la vie…

👌

avatar abalem | 

@Scooby-Doo

Tu as l’air bien remonté dis donc 😮‍💨

avatar Scooby-Doo | 

@abalem,

« Tu as l’air bien remonté dis donc 😮‍💨 »

Non pas le moindre du Monde ! Mais par contre entendre à longueur de journée que cela ne fonctionne pas ou que c'est inutile et que dans le même temps le site d'OpenAI est trop régulièrement au maximum de ses capacités techniques, c'est totalement incohérent !

😁

avatar pat3 | 

C'est juste pas les mêmes personnes qui disent l'un et qui font l'autre, non ?

CONNEXION UTILISATEUR