SeamlessM4T, la machine à traduire de Meta

Florian Innocente |

La traduction pour les nuls, c'est en substance ce que propose SeamlessM4T conçu par Meta. Un système de traduction de langues multimodal basée sur l'IA.

Le « premier modèle linguistique de traduction tout-en-un et multimodal », c'est ainsi que Meta présente SeamlessM4T. Ce système de traduction se veut assez vaste dans le nombre de langues traitées et flexible dans la manière de le faire.

SeamlessM4T est capable de lire des textes à l'oral dans 100 langues et d'en traduire du texte vers du texte dans quasiment la même quantité (vidéo). Il peut passer un contenu audio vers un format écrit dans 100 langues également (en entrée comme en sortie).

Ces 100 langues qu'il lit à l'audio peuvent être transcrites sous la même forme vers 36 langues. Idem pour des contenus écrits qu'on lui soumet (100 langues possibles) afin d'obtenir un fichier audio (35 langues proposées)

Au-delà de ces chiffres, qui ne recouvrent qu'une fraction des langues utilisées à travers le monde (bien plus d'un millier), admet volontiers Meta, il y a la possibilité aussi pour SeamlessM4T de jongler avec des changements de langues au fil de la conversation. Ce modèle linguistique peut détecter que la personne passe d'une langue à l'autre et adapter sa traduction en temps réel. C'est l'aspect multimodal.

Meta souligne enfin que SeamlessM4T est disponible en open source avec une licence permettant à des chercheurs de l'améliorer.

avatar Olivier_D | 

Vraiment intéressant comme IA. Et d’autant plus, open-source, donc on peut au moins s’assurer que c’est pas vérolé par Meta.

avatar Baptiste_nv18 | 

@Olivier_D

Mega mise beaucoup sur l’open-source, c’est toujours ça de gagné effectivement.

avatar Paquito06 | 

@Olivier_D

“Vraiment intéressant comme IA. Et d’autant plus, open-source, donc on peut au moins s’assurer que c’est pas vérolé par Meta.”

Verolé?

avatar Lightman | 

@Paquito06

"Verolé?"

= contenant des virus.

avatar Paquito06 | 

@Lightman

Oui. Mais depuis quand il y a des virii dans le code source de Meta?

avatar BeePotato | 

@ Florian Innocente : « Ce modèle linguistique peut détecter que la personne passe d'une langue à l'autre et adapter sa traduction en temps réel. C'est l'aspect multimodal. »

Non.
Le terme multimodal désigne le fait que ça peut traiter du texte ou de l’audio, en entrée comme en sortie.

Meta fait référence au changement de langage en cours de conversation sous le nom de « code switching ».

avatar JLG91 | 

Je suis très sceptique concernant les intentions de Meta. L’open source pour améliorer le produit avant de retirer ses billes et de récupérer le travail…

avatar oomu | 

@Paquito06

comme toujours avec ces articles fumeux, il y a un mélange de communication d'entreprise, de considérations politiques et de fantasmes sur l'Humain, le Bien et le Cul du Oomu... ("faudrait pas partage les IA 'zénéraleuh' avec la maAAAAasseuuh... bouerkl")

MAIS RIEN DE CONCRET (dans cet article) sur le juridique:
- la licence du code partagé, QUID du modèle de donnée (la Vraie Valeur
- tout le reste est de la chiure en comparaison, faut vraiment asséner ce point)
- qu'est ce qui retient juridiquement, contractuellement, l'entreprise de se retourner contre des contributeurs
- quid de si des contributeurs sont eux même des acteurs industriels ?
- quid de développement de solutions tierces sur la base de ce partage ?

etc.

un très mauvais article, peut être le pire texte jamais écrit depuis Pharaon, et j'ajouterais encore plus de sarcasme exagéré si je n'étais pas poli.

le seul passage où l'auteur de l'article montre que la rédaction de Vox est légèrement humaine est ici:
"It’s also worth noting that Llama 2 also isn’t fully open. Meta didn’t release the training data used to teach the latest model, which is a key component of any AI system; researchers say it’s crucial to measuring bias in AI systems'

(le seul point pertinent de la Vie !)

Pour tout dire, les articles de fond de MacG sont d'un niveau bien plus supérieur que tout ce que produit VOX.

et à ce stade, je n'étais pas encore énervé (seulement une dent cassée à force de serrer) mais une bonne part des liens pour avoir des détails _de base_ sur de quoi on cause, sont derrière des abonnements d'AUTRES sites, comme le NY Times...

enfin bref :)

avatar Paquito06 | 

@oomu

“MAIS RIEN DE CONCRET (dans cet article) sur le juridique:
- la licence du code partagé, QUID du modèle de donnée (la Vraie Valeur
- tout le reste est de la chiure en comparaison, faut vraiment asséner ce point)
- qu'est ce qui retient juridiquement, contractuellement, l'entreprise de se retourner contre des contributeurs
- quid de si des contributeurs sont eux même des acteurs industriels ?
- quid de développement de solutions tierces sur la base de ce partage ?
etc.”

L’article n’est pas sur l’utilisation du code open source qui ne doit pas etre une inconnue du lecteur et propre a toute boite que ce soit meta, tintin, ou babar, mais pourquoi meta rend cela dispo. Et quand on s’y interesse un peu et qu’on est familier du milieu, meta publie/partage souvent son code ainsi.

avatar pocketalex | 

Ça va être pratique pour les lunettes AR ça (plusieurs prototypes dont des DIY existent déjà)

Tu es en face de quelqu’un qui ne parle pas ta langue, et tu as devant tes yeux le transcript de ce qu’il dit et sa traduction en français

avatar oomu | 

@pocketalex

y a quantités d'apps sur mobile capable déjà de fournir ça.

avatar oomu | 

je suis perplexe sur l'usage de ce terme de "IA"

ben heu, tout logiciel de "traduction" (tout comme de reconnaissance vocale) sont _tous_ issus du champs académique informatique nommé "intelligence artificielle"

déjà dans les années 80 avec des balbutiements de discuter avec un Zordi, c'était écrit dessus "au bon goût de IA !"

bah, qu'importe le discours frelaté, l'amélioration est elle réelle.

avatar picpic | 

C’est une sorte de fusion entre Whisper et DeepL si je comprends bien ?

avatar curly bear | 

On peut le tester pour comparer avec DeepL?

avatar hawker | 

Super projet, les traducteurs avec un niveau humain ne sont plus tres loin.

CONNEXION UTILISATEUR