Google présente une IA bluffante qui transforme n'importe quel texte en image

Félix Cattafesta |

Vous connaissez peut-être thispersondoesnotexist.com, un site qui génère de faux selfies en se basant sur une intelligence artificielle de NVIDIA. Google travaille sur un concept similaire, mais beaucoup plus poussé baptisé Imagen. Son fonctionnement est simple : on entre une description de quelques mots, et l'IA se charge de vous concocter une image. L'entreprise a diffusé quelques exemples dans un billet de blog, et le résultat est bluffant. Jugez par vous-même :

À gauche : « Un aigle à tête blanche fait de chocolat en poudre, de mangue et de crème fouettée ». À droite : « Un chien qui regarde avec curiosité dans un miroir et voit un chat ».

Google n'est pas le premier sur ce segment : il existe déjà le logiciel DALL-E, dont une deuxième version est sortie le mois dernier et développée par OpenAI. Selon la firme de Mountain View, son outil est plus puissant. Elle s'est amusée à comparer ses résultats avec ceux de DALL-E, et son étude montre que les évaluateurs humains préfèrent nettement Imagen aux autres méthodes.

Si ces résultats sont impressionnants, il faut toutefois nuancer : les équipes ont sans doute choisi les meilleurs résultats et omis de relayer les images floues ou à côté de la plaque. DALL-E par exemple a du mal avec les négations (« un bol de fruits sans pommes »), les visages ou encore avec les textes. Google propose sur son site une petite démo, qui permet de jouer avec une version limitée de l'IA avec seulement quelques mots utilisables.

À gauche : « Un geai bleu debout sur un grand panier de macarons arc-en-ciel ». À droite : « Un corgi mignon vivant dans une maison faite de sushis ».

Il faut dire que les résultats parfois impressionnants obtenus grâce à cette IA n'incitent pas à laisser son code open source à l'heure où les fake-news se partagent à tour de bras. « Les risques potentiels d'utilisation abusive soulèvent des inquiétudes quant à l'ouverture responsable du code et des démos », précisent les équipes de Google.

De plus, les chercheurs expliquent avoir nourri leur algorithme à l'aide de très nombreuses données non triées venant du web. Autrement dit, ils ingèrent à peu près n'importe quoi, que ce soit de la pornographie ou des contenus haineux. « Ces ensembles de données ont tendance à refléter des stéréotypes sociaux, des points de vue oppressifs et des associations désobligeantes, ou autrement nuisibles, à des groupes d'identité marginalisés », précise le texte.

À gauche : « Un fruit du dragon portant une ceinture de karaté dans la neige ». À droite : « Une sculpture transparente d'un canard réalisée en verre. La sculpture se trouve devant une peinture représentant un paysage ».

De plus, l'IA aurait un biais général en faveur de la génération d'images de personnes au teint plus clair ainsi qu'une « tendance à aligner les images représentant différentes professions sur les stéréotypes de genre occidentaux ». Les concurrents d'Imagen ont le même soucis : DALL-E a tendance à représenter le personnel de bord d'un avion comme des femmes, et les PDG comme des hommes.

Google précise également que son IA présente de sérieuses limitations lors de la génération d'images représentant des personnes. Tout cela pousse l'entreprise à conclure que son produit « n'est pas adapté à une utilisation publique sans mettre en place de garde-fous supplémentaires ».

Source
The Verge
avatar Yohmi | 

Y'aurait de quoi faire tellement de miniatures formidables pour iGen 🤭

avatar Paquito06 | 

Il y a des limites a cet IA? On peut vraiment demander tout et n’importe quoi? 🤨 I’m worried 🤣

avatar jujulec | 

@Paquito06

tout et surtout n'importe quoi !
moi je voudrais "un sushi de corgi qui se fait bouffer par un aigle transparent a cheval sur un canard en macaron dans un grand panier de fruit du dragon !"

avatar Paquito06 | 

@jujulec

Joli mix 😅

avatar DG33 | 

@jujulec

Avec ou sans pommes ?

avatar frankm | 

@Paquito06

C’est américain : pas de X

avatar Paquito06 | 

@frankm

“C’est américain : pas de X”

Y en a de partout, si tu sors d’apple et disney. C’est pas ceux qui en parlent le moins qui en mangent le plus?
https://www.yugatech.com/news/ph-among-top-countries-in-pornhub-traffic-leads-in-time-spent-per-visit/
Le coté prude, american virgin, vierge effarouchee, c’est plus une etiquette que se traine le pays que la realite en 2022 🤓

avatar v1nce29 | 

Tu peux potentiellement en générer via imagegen, dans dall.e 2 ils ont filtré le set d'apprentissage pour que ce ne soit pas possible

avatar Paquito06 | 

@v1nce29

Hmmm d’accord 👍🏼

avatar vince29 | 

Preventing Harmful Generations
We’ve limited the ability for DALL·E 2 to generate violent, hate, or adult images. By removing the most explicit content from the training data, we minimized DALL·E 2’s exposure to these concepts. We also used advanced techniques to prevent photorealistic generations of real individuals’ faces, including those of public figures.

avatar Paquito06 | 

@vince29

Merci 🤓

avatar frankm | 

@Paquito06

C’est pas l’Oklahoma qui dira le contraire…

avatar Paquito06 | 

@frankm

Pinaise cet Etat 😤

avatar cecile_aelita | 

@Paquito06

Je ne veux même pas savoir à quoi tu penses 😅

avatar Paquito06 | 

@cecile_aelita

“Je ne veux même pas savoir à quoi tu penses 😅”

Aux licornes bien sûr 😅

avatar cecile_aelita | 

@Paquito06

Bien sûr 😏😏

avatar Paquito06 | 

@cecile_aelita

En vrai j’attends a present de voir paraitre un article sur tous les trucs tordus que les bipedes les plus dérangés de ce monde auront tenté de re-creer par l’intermediaire de cet IA 😅

avatar cecile_aelita | 

@Paquito06

Bah pas moi 🤣! Justement parce que ça risque d’être tordu 😅

avatar IceWizard | 

@Paquito06

« Il y a des limites a cet IA? On peut vraiment demander tout et n’importe quoi? 🤨 I’m worried 🤣 »

J’en doute. Je pense qu’il ne s’agit en fait que d’une sorte de copier/coller très évolué utilisant les milliards d’images des bases de données de Google, gentiment offerts par les utilisateurs (ceux qui cèdent les droits de leurs photos, sans même le savoir).

avatar Paquito06 | 

@IceWizard

C’est fort possible 👍🏼

avatar smog | 

N'est-ce pas la mort annoncée de la photo "traditionnelle" (je veux dire, avec un appareil photo ;-) ?
Bientôt tout sera sujet à caution dans le domaine de l'image...

avatar MGA | 

@smog

« Bientôt tout sera sujet à caution dans le domaine de l'image... » il faut avoir conscience que c’est déjà le cas.

avatar smog | 

@MGA : oui, mais pas encore vraiment dans la tête de M. Tout-Le-Monde. On est encore loin d'une prise de conscience réelle. Ça va venir, et que deviendront les vrais photographes ? Ça risque de se limiter aux photos d'événements...

avatar Yohmi | 

@smog
Non je ne pense pas, ça reste laid et imprécis dès que l'on fait un peu attention. C'est une prouesse incroyable, mais ça reste des collages grossiers avec un "sfumato" de l'enfer.
J'aime bien faire joujou avec https://app.wombo.art ☺️

avatar reborn | 

obtenir une photo d’AH avec de faux hématomes sur le visage 🙃

avatar Malouin | 

On va vivre une époque formidable !

avatar MachuPicchu | 

En parlant d’images (le lien est un peu vague mais je viens de le remarquer), dans Plans en sélectionnant une ville, on a une sélection d’images qui montre les attractions, l’extérieur, la nourriture locale etc. Ça y était avant ça ou c’est nouveau?

avatar bax137 | 

On peut tester un autre algo de génération d’image à partir d’un texte sur ce google collab : https://colab.research.google.com/github/pharmapsychotic/latent-diffusion/blob/main/Latent_Diffusion_with_LAION_400M.ipynb

Attention à l’étape de Check gpu, il faut être sur un tesla t4 (ça ne passe pas sur un tesla k80). Il faut redemander un environnement si c’est pas bon (Google attribut les gpu sur les environnements gratuits en fonction de ce qui est dispo, on peut tomber sur des gpu moins performants).

avatar saoullabit | 

« DALL-E a tendance à représenter le personnel de bord d'un avion comme des femmes, et les PDG comme des hommes. »
Même l’IA fait fasse à la réalité (troll… au cas où)

avatar Taemangniji | 

Je voudrais une preuve que ce pays possède une arme nucléaire 😬

avatar Hoooti | 

Ça marche dans l’autre sens ?? Ça serait peut être plus pertinent en terme d’accessibilité…

avatar lmouillart | 

C'est présent dans Google Chrome depuis 2019 : https://support.google.com/chrome/answer/9311597?hl=fr

avatar gbasile | 

La page à laquelle mène le lien ne permet pas de tester, dommage

avatar radeon | 

« Je veux un fiat multipla pininfarina »
—> erreur système

avatar Le gabian | 

Excellent :))

avatar Mac13 | 

Et si "le visage du rédacteur de l'article 'xxx' à la peau orange entouré des produits contrefaits de la pomme"

Ça marche ?

J'en doute...

avatar AKZ | 

Donc Google se sert tranquillement dans nos images pour en créer de nouvelles…
Ils appellent ça de l’intelligence artificielle alors que c’est plutôt du vol.

avatar zoubi2 | 

Je trouve ça terriblement inquiétant...

avatar pocketalex | 

L'IA a tout pour inquiéter, surtout quand on voit à quel point les gens sont chaud-bouillant ces temps ci (ex : manifs qui dérapent, casseurs, extrémistes gilets jaunes, etc) voir ... ont totalement vrillé (remise en cause de la légitimité des élections, des institutions, complotisme à tout va, perte de la notion de vérité, de faits, de réalité, etc)

Dans ce contexte de défiance, de méfiance et de montée de violence, d'extrémisme, de racisme, de rejet de l'autre, arrive la capacité de créer des images de toute pièce, de faire dire à quelqu'un n'importe quoi et de partager ça en un clic au monde entier, et notamment à des communautés qui relaient sans vérifier (volontairement, ou involontairement)

Oui c'est flippant

avatar cecile_aelita | 

@pocketalex

Là pour le coup, je suis 100% d’accord avec toi😓.

Je reve qu’un jour l’IA (pour garder ce nom) puisse faire exactement l’inverse justement.
Être capable de définir si quelque chose (un image, une information, etc…) est vraie ou non.
Pour le coup cela serait une vraie avancée dans le bon sens 🙂

avatar IceWizard | 

Trump et Georges Bush signant un traité avec les reptiliens, devant un ovni, dans un hangar de la base 51, ça marche aussi ?

avatar DG33 | 

@IceWizard

On parle d’intelligence… ces deux-là n’en ont guère !

avatar pocketalex | 

Faisons bosser un peu cette IA avec des idées totalement farfelues :

"un Macintosh avec des ports USB-A et des slots PCI"

avatar thierry37 | 

Comment Google a accès à l'outil de leur concurrent pour tester et comparer ?

Les outils sont déjà en utilisation libre ?
Je croyais que c'était que des démos bien spécifiques.

avatar vince29 | 

Ils se basent sur les publications détaillant le fonctionnement.
Après si les outils ne sont pas ouverts au grand public, je suppose qu'ils sont accessibles à la communauté de l'IA.

avatar Bigdidou | 

Absolument passionnant !

CONNEXION UTILISATEUR