DALL-E 3 gère mieux le texte dans les images et s'intègre avec ChatGPT

Félix Cattafesta |

OpenAI a présenté une nouvelle version de DALL-E, son modèle d'intelligence artificielle qui permet de générer une image à partir d'une simple description textuelle. Cette troisième mouture semble radicalement plus puissante, et est désormais en mesure d'écrire correctement du texte dans une image. Le dessin ci-dessous a été réalisé grâce à la commande suivante :

Illustration d'un avocat assis sur la chaise d'un thérapeute, disant « Je me sens si vide à l'intérieur », avec un trou de la taille d'une assiette en son centre. Le thérapeute, une cuillère, prend des notes.

C'est une belle avancée, car le texte était jusqu'à présent un des gros défauts des images générées par IA : les lignes affichées donnaient généralement un gloubi-boulga incompréhensible. OpenAI n'est pas la seule à progresser dans le domaine, la dernière version de Stable Diffusion présentée dans le courant de l'été s'étant également améliorée sur ce point.

La dernière version de Stable Diffusion gère mieux les mains et les textes dans les images

La dernière version de Stable Diffusion gère mieux les mains et les textes dans les images

OpenAI explique que DALL-E 3 permet de plus facilement créer des images intéressantes sans qu'il soit nécessaire d'avoir à bidouiller sa requête en glissant des termes ciblés spécifiques. Les alternatives comme Midjourney ou Stable Diffusion impliquent souvent d'ajouter des mots précis pour obtenir un résultat convenable, comme « hyper réaliste », « détaillé », « qualité photographique », « HDR » etc. Cela ne devrait donc plus être le cas ici, ce qui va simplifier la création. Le système gère désormais plus efficacement les petits détails comme les mains, et se veut plus fidèle aux descriptions données.

« Une peinture à l'huile expressive d'un joueur de basket-ball qui fait un dunk, représenté comme une explosion d'une nébuleuse ». À droite, DALL-E 2, à gauche, DALL-E 3.

DALL-E gagne une intégration avec ChatGPT, ce qui va permettre de retoucher une image simplement en discutant avec le bot. On pourra lui demander de l'aide pour trouver de l'inspiration, et ChatGPT sera en mesure de créer une image à partir d'une conversation.

OpenAI tente de répondre à la pression montante autour des IA génératives, qui sont formées à partir d'énormes quantités de contenus trouvés en ligne sans se soucier des questions de droits d'auteurs. Le service ne pourra pas reproduire le style d'un artiste vivant, et les créateurs pourront remplir un formulaire demandant à OpenAI de ne par utiliser leur création pour l'entrainement de leurs prochains modèles. Comme par le passé, l'IA ne pourra pas créer d'image à caractère violent, sexuel ou représentant une célébrité.

Image générée avec DALL-E 3. Rappelons qu'elle a été soigneusement sélectionnée par OpenAI : il est fort probable que le résultat ne soit pas aussi impressionnant à chaque tentative.

Cette nouvelle version de Dall-E est actuellement proposée en avant-première pour les chercheurs. Elle sera disponible pour les clients ChatGPT Plus et Enterprise en octobre, via l'API et dans les Labs plus tard cet automne.

avatar jackhal | 

J'avais vu ces images, et ce matin je me suis dit : allez, je paye pour voir ce que donne Dall-E 2.
Non seulement mes prompts sont loin d'être respectés, mais en plus le rendu que j'obtiens (et que je veux de type "illustration") est la plupart du temps foireux. Ça me donne un peu l'impression de demander des illustrations à quelqu'un sous acide.
Je vais conserver mes crédits pour la V3, parce que là... je suis à des années lumières des illustrations de cet article.

avatar Napoleon2A | 

@jackhal

Remarque particulièrement pertinente notamment en ce qui concerne les vidéos réalisées par l’IA, on a vraiment l’impression de «visionner» un cauchemar. Expérience que je ne pensais jamais pouvoir reproduire dans la vie réelle.

C’est même beaucoup plus efficace que la chaîne «Souvenirs from earth» qui est presque cohérente à côté d’une IA

avatar Chris K | 

A ce que je constate pour le moment, avec Stable Diffusion, c'est que les créateurs de modèles ne sont pas trop pressés à se convertir à la version SDXL. Les quelques modèles que j'ai pu tester donnent des résultats mitigés et souvent de moindre qualité qu'avec la version précédente.

avatar Chris K | 

J'étais en train de me demander comme l'IA a fait pour en déduire qu'on parlait du fruit et non d'un avocat du barreau.. avant de me rendre compte que ce n'est pas le même mot en anglais.. suis con...

avatar PahraDeHaske | 

J'ai tenté le prompt de l'avocat dans MidJourney et c'est juste pitoyable. Total à l'ouest, moche, rarement vu un résultat aussi naze. Il est bien plus inspiré quand vous lui demandez une version Bollywood de Marry Poppins.

avatar RonDex | 

Impressionnant !

avatar Oracle | 

Pour ceux qui ont testé les trois, à ce stade vous recommandez plutôt Dall-E, Stable Diffusion ou MidJourney ?

avatar Chris K | 

@Oracle : Moi c'est Stable Diffusion que je fais tourner en local (sur un MacStudio qui me sert de serveur) et gratos avec Automatic1111.

avatar oomu | 

@Oracle

stable diffusion en local
avec l'aide de communautés qui spécialisent des modèles stable diffusion sur toutes sortes de sujet.

Gardez un avocat au chaud à ce propos, si vous comptez faire un usage commercial et éditorial d’œuvres générées par IA.

-
et n'oubliez pas, demain les Grands Artistes sont ceux qui auront des parents riches ou un éditeur riche pour pouvoir se payer les meilleurs IAs avec accès aux plus grandes bases de donnée d'oeuvres volé...Heu collectées.

avatar Lightman | 

@Oracle

Moi c'est Stable Diffusion que je fais tourner en local (sur un MacBook Air) et gratos avec Draw Things. Comme ça je suis maître de mes modèles, mes productions et à l'abri des censures.

avatar UraniumB | 

On pourra l’essayer totalement avec l’intégration dans ChatGPT Plus ou alors c’est juste pour retoucher ?

avatar oomu | 

chatgpt, créé moi une image remplissant de chaleur mon coeur vide et informe de trolleur geekesque sur forum orange...

avatar ratz | 

Dégoûté d'avoir raté le coche pr les prémices de dall-E qui permettaient d'avoir une dizaine de crédits par mois, ce qui n'est plus le cas aujourd'hui

avatar Gravoche67 | 

Testé de mon côté sur DALL-E et Bing en utilisant le même prompt et ça ne donne absolument pas les mêmes résultats j’ai pas d’avocat 🥑 mais un avocat 👩‍💼 et le texte reste autant illisible

avatar jackhal | 

C’est parce que tu as essayé avec la traduction MacG, mais en anglais, les deux mots sont distincts. Le prompt original :
An illustration of an avocado sitting in a therapist's chair, saying 'I just feel so empty inside' with a pit-sized hole in its center. The therapist, a spoon, scribbles notes.

Avec Dall-E 2, le thérapeute n’est pas là (sauf sur une où il y a simplement une cuillère, impossible de deviner son rôle supposé), les textes sont des gribouillis ressemblant à de l’écriture, et les dessins sont vraiment simplistes et… moches.

avatar Gravoche67 | 

@jackhal

Merci pour ça! Mais le rendu visuel reste perfectible et la promesse du texte pas tenue.

avatar jeanCloud | 

Le Dall-E n’est pas encore salvateur 😁

avatar souze | 

@jeanCloud

Surréaliste !

avatar Oracle | 

@jeanCloud

« Le Dall-E n’est pas encore salvateur 😁 »

👏

avatar jackhal | 

On peut trouver pas mal d’images générées par DALL-E 3, par exemple dans ce fil Twitter.
https://twitter.com/OfficialLoganK/status/1704850313889595399

avatar Absolut Piano | 

@jackhal

Merci pour le lien, c’est vrai que c’est plutôt impressionnant.
À voir quand on pourra l’essayer.

avatar Donkey | 

Il me semble qu'il y a une erreur dans la légende des 2 images de basket : "À droite, DALL-E 2, à gauche, DALL-E 3.", je pense que c'est l'inverse.

CONNEXION UTILISATEUR