Google Brain reconstitue les images pixellisées comme dans les séries TV

Mickaël Bazoge |

Les experts des séries TV ont bien de la chance : même s'ils vivent à notre époque, ils bénéficient d'une technologie révolutionnaire qui leur permet de transformer une bouillie de pixels en photo propre et nette désignant généralement le coupable ou un témoin très important. Cela donne quelque chose comme ça :

Les prodiges de l'intelligence artificielle permettent néanmoins de nous approcher de plus en plus des résultats obtenus dans les séries et les films de SF. Google Brain, une des expérimentations en intelligence artificielle d'Alphabet, peut ainsi « améliorer » une image très pixellisée de façon assez convaincante. Voici quelques exemples :

Dans la colonne de gauche, des photos de 8 pixels sur 8. Au centre, l'image 32 x 32 reconstituée par Google Brain. À droite, les images d'origine : le logiciel n'est pas si éloigné de la réalité — Cliquer pour agrandir

Comment ce miracle est-il possible ? S'il est évidemment impossible de créer de la matière à partir de rien, Google Brain exploite deux réseaux neuronaux pour s'approcher de la vérité. Le premier (« conditioning network ») compare les images 8 x 8 avec des photos en haute résolution qu'il réduit à 64 pixels.

Le second réseau (« prior network ») « ajoute » à l'image 8 x 8 des détails en haute résolution, en piochant dans un grand volume d'images HD. Quand l'image source est agrandie, ce réseau y intègre de nouveaux pixels qui correspondent autant que possible à ce que l'image peut représenter. Un exemple : il est probable qu'un pixel marron en haut de l'image soit un sourcil. Quand celle-ci est agrandie, le prior network comble le vide en piochant parmi les sourcils marron de sa collection.

L'image finale est le fruit de la cogitation de ces deux réseaux. Le résultat, c'est une représentation « plausible » de la personne ou de la scène dans la meilleure définition possible, en partant d'une image où les détails sont pratiquement inexistants. Une technique qui donne des rendus parfois étonnants :

Dans la colonne de gauche, les images à reconstituer. Les colonnes suivantes présentent des variations dans les résultats — Cliquer pour agrandir
Dans la colonne de gauche, les images source. La quatrième colonne présente les images d'origine. Dans les autres colonnes, des variations (la colonne NN affiche les images HD les plus proches des sources) — Cliquer pour agrandir

Il faut garder à l'esprit que les images en haute résolution ne sont pas réelles. Elles tentent simplement de « deviner » l'image réelle. D'ailleurs, dans le jargon on appelle les détails ajoutés numériquement des « hallucinations ». Les services de police et de justice qui seraient tentés d'appliquer cette technique doivent avoir cette prévention bien en tête : les images créées par Google Brain ne sont que des représentations numériques, et pas la réalité. Pas encore, du moins.

avatar frankm | 

C'est drôle, la personne reconstituée a des critères de mannequina, le reconstitué est plus beau que l'original. Je pense que ça sait qu'il y a un visage et que ça applique des critères standards faisant les gens beaux !

avatar violonisme | 

@frankm

Je me suis fait là même réflexion. Mais ça promet

avatar C1rc3@0rc | 

Si j'ai bien compris le systeme, en fait c'est juste un algoritme de pattern matching tres performant qui est capable de retrouver une image dans une gigantesque bibliotheque a partir d'une image de recherche pourrie. Ça ne reconstitue pas le visage, ni n'inverse le processus de compression.

Un peu comme le ferait une recherche qui trouverait dans un dico le mot «anticonstitutionnellement» a partir de «ntcnstnlmnt» et cela avec un taux de reussite tres elevé.

C'est puissant, mais c'est pas du tout du niveau des Experts qui sont capables de retrouver l'image de la carte d'identité du tueur en train de commettre son crime a partir d'un pixel reflechit sur la surface de la portiere du camion peinturluré a la laque metalisée!

Par contre, ça en dit long sur l'efficacité de recherche dont dispose Google, Facebook, et cie depuis des annees avec leurs catalogues d'images titanesques. Parce qu’évidement la publication de ce type d'algo, il se fait quand ces boites (ou l'armée, ou les agences a 3 lettres) ont des algo et des datacenter encore plus efficaces sous la main...

avatar sachouba | 

@C1rc3@0rc :
"Ça ne reconstitue pas le visage, ni n'inverse le processus de compression."

C'est évident non ? Il est impossible de retrouver de l'information perdue...

avatar noooty | 

@frankm

Les américains rêvent tous de la chirurgie esthétique...

avatar vince29 | 

La bdd des visages utilisée pour l'entrainement du NN est censée être des famous people (enfin aux US) qui ont souvent de "beaux" visages.

Mais cela aurait pu être une base de gens normaux cela n'aurait rien changé : si tu mixes le visage de 1000 gens beaux ou de 1000 personnes quelconques tu obtiens "en moyenne" le même visage.

Devant reconstruire un visage à partir de rien (ou presque) le NN reconstruit un visage moyen (écart entre les yeux, forme du nez...) qui est "statistiquement" beau

avatar SIMOMAX1512 | 

Sur la première photo ça ressemble pas , ok c'est une femme bravo au logiciel mais ce n'est clairement pas le même visage. C'est de l'extrapolation ça peut être dangereux comme système si un jour c'est utilisé dans un cadre judiciaire.

avatar JLG47_old | 

Il faut donc savoir ce que l'on cherche à voir.
Et chacun sait que si on cherche, on trouve souvent ce que l'on souhaite trouver.
On se fabrique ses propres certitudes.
Il semble que l'IA tombe dans le même biais.

avatar ErGo_404 | 

En même temps, si tu fais une recherche depuis une image de surveillance, tu sais à peu près si tu dois t'attendre à un visage ou pas.

avatar C1rc3@0rc | 

@JLG01

On est pas dans de l'IA ici mais plus dans dans algo bayesien appliqués sur des masses de profils de compression archi connus et automatique. L'efficacité vient des progres dans le big data et la puissance de traitements paralelles permise.

Parler d'apprentissage semble plus que douteux et tres orienté: les termes IA ( ou ses edulcorés approximatifs: le deep learning ou le datascience )est aujourd'hui le plus gros pot de miel de l'informatique pour capter les investissements. Vu qu'a par les specialistes de l'IA et les les mathematiciens/ statisticiens peu de monde dans les financiers y comprend grand chose, le fait d'agiter le terme IA ou deep learning ça graisse le conduit pour faire passer les finances.

Je trouve pour ma part plus interressant en terme de traitement ce que fait Sony sur ses lecteurs tres haut de gamme, qui sont capables "d'inverser" le processus de compression MP3 pour donner un peu d'ame et de relief a des fichiers MP3 par definition pourris. C'est pas de l'IA non plus, mais le resultat est ettonant.

avatar Dgamax | 

Le réseau de neurone ne sait pas si c'est un visage ou autres, c'est la toute la beauté du deep learning. Le résultat est quand même bluffant.

avatar byte_order | 

On se fabrique ses propres certitudes sur ce que l'on connaît déjà (et ce que l'on s'attend donc le plus a trouver, car c'est nettement plus hardu de s'attendre à trouver ce que l'on ne connait pas, et donc par définition à quoi on ne peut pas s'attendre...)

Et l'IA ne fait que reproduire cela, elle aussi.
La seule différence, finalement, c'est qu'elle le fait infiniment plus rapidement.

C'est à l'humain de ne pas tomber dans le piège : lui seul sait l'existence de ce biais, bien qu'il l'oublie souvent hélas, une multitude d'erreurs judiciaires étant là pour lui rappeler pourtant.

L'IA, elle, fabrique à partir de ce qu'elle connait déjà, en ignorant que cela constitue un biais.
A l'humain d'observer les déductions d'une IA avec ce biais systématiquement en tête.

avatar SugarWater | 

Bouilliedestar.com les images les plus courante étant celles de célébrités le logiciel tendra vers la version orienté beauté standard.

avatar r e m y | 

@SugarWater

Google Brain va toutes nous faire ressembler à un mix de Marya Carey et Kim Kardashian?

avatar xDave | 

@r e m y

De dos?

avatar C1rc3@0rc | 

D'un autre coté, un humain par definition, ça a une tete, un tronc, deux bras, deux jambes... donc produire l'image d'un humain c'est pas trop compliqué. ;)
Plus simple encore produire l'image d'un mamifere.
Par contre produire l'image d'un animal, la ça devient plus dur.
;)

Apres, pour ressembler a Maria Carey, ben dans le noir c'est assez simple. arf.

avatar L'Homme Improbable | 

Ca m'a l'air un peu fumeux quand même. Prenons un exemple tout bête : Sur les visages à reconstituer, la bouche occupe généralement deux pixels couleur rose foncé ou rouge. Comme l'algo va-t-il décider d'introduire ou non un sourire, et d'introduire ou non un écart des lèvres révélant de grandes dents blanches ?

Soit l'algo est réellement intelligent et interprète réellement ce qu'il voit, et donc là il invente des trucs qui ne sont ni plus ni moins probables qu'une bouche fermée, et un visage renfrogné. Soit il compare son image pixélisée à une banque d'image et fait semblant de reconstruire quelque chose à mi-chemin entre les potentielles images d'origine et l'image pixélisée du test, ce que je comprends en lisant l'article, auquel cas il n'y a aucune gloire ici...

Bref, ça ne me convainc pas...

avatar ErGo_404 | 

C'est toute la magie du deep learning. L'algo s'entraine sur des centaines de milliers de visages qui donnent un résultat comparable, et essaye de faire le chemin inverse quand on lui demande.
En gros il trouve tout seul des probabilités de trouver tel ou tel pixel à tel endroit à partir des données source.
Ce qui revient en gros à ta seconde explication.

Il faut bien voir à quoi sert un tel algorithme. Evidemment ça ne reconstruit pas magiquement un visage à partir de rien, ça ne fait que deviner au mieux ce qu'il pourrait y avoir sur ce visage. Mais avec suffisament d'entrainement l'algo devient très précis, comme on peut le voir sur les photos.
C'est largement suffisant pour obtenir un portrait robot à partir d'une image de caméra de surveillance, c'est évidemment trop peu pour servir de preuve par exemple.

avatar occam | 

@ErGo_404

L'article de Dahl, Norouzi et Shlens à la base de cette news (lien chez ArsTechnica) donne quelques détails techniques qui expliquent les limites conceptuelles de cette démonstration. Comme souvent, nous jugeons trop vite sur les apparences de la démo, et pas assez sur le fond. Mais la faute en incombe aussi aux auteurs : une présentation plus systématique et moins spectaculaire ne ferait pas la Une du web.

Le test de calibration des observateurs humains (Section 5 de l'article, “Which image, would you guess, is from a camera?”) tombe dans un panneau classique, puisqu'il a la structure d'un mini-test de Turing, mais implique trop de variables cachées que les chercheurs n'ont pas pu évaluer.

Mais songeons un instant à une autre application de ce modèle, en sens inverse : le zoom numérique. Un iPhone prend déjà une série d'images d'une même scène. Elles pourraient servir tout aussi bien comme set d'entraînement pour le réseau neuronal, afin de rendre la pleine définition au recadrage. Application en apparence beaucoup plus modeste, mais d'une complexité de calcul plus grande, et d'utilité immédiate.

avatar Alex Giannelli | 

La performance est extraordinaire, même si c'est assez limité pour le moment pour une utilisation dans un cadre judiciaire. Néanmoins, le fait d'avoir plusieurs versions d'une reconstitution peut être intéressant.

avatar jojostyle94 | 

La première image ne ressemblant à rien, pourquoi ne pas délivrer une image au pif direct ?
Plus sérieusement je trouve ça dingue :)

avatar lll | 

Si le deep learning s'inspire des résultats les plus fréquents, ne va-t-on pas vers davantage d'uniformisation encore ? Ce que j'aime dans la vie, ce sont les petites imperfections, le petit grain de sable qui déforme un peu la perfection pour lui donner du charme que la perfection n'a pas.

avatar C1rc3@0rc | 

Ce que tu nommes imperfection c'est en fait l'ecart par rapport a la norme. C'est ce qui par definition définit l'identité ( dans le sens d'unique) de la personne ou de l'objet. En fait les methodes de compression d'image ou de son reposent sur un principe qui est de n'enregistrer que ces ecarts et resumer tout ce qui est dans la norme. L'inversion de processus consiste alors a remettre en place les parties normales...

Par contre les algo de compression les plus destructifs essayent de rester dans une contrainte de dimension donnée, et ils vont commencer par "lisser" - donc supprimer - les details les plus fins qui ne sont perceptibles qu'a une minorité ou qui ne sont pas assez significatifs pour un niveau de restitution souhaité.

Si on doit afficher une image sur un écran ayant une densité de 95ppi il est inutile d'avoir des détails qui peuvent apparaître que sur un écran d'une densité de 300ppi...

avatar Eaglelouk (non vérifié) | 

Incroyable !

avatar bugman | 

Deja trés impressionnant avec une seule image. J'imagine que la suite le sera encore plus quand les traitements seront fait sur une vidéo où les images précédentes à celle traitée pourront servir à l'IA comme références.

avatar YARK | 

Génial ! Tu lui files une grille de mots croisés et t'obtiens Michael Jackson !

avatar codeX | 

Excellent !!!!

avatar CountDown | 

Pourquoi faire ? Un nouveau sujet pour améliorer l'IA ?

avatar JLG47_old | 

La photo original était en mémoire lorsque le logiciel à fonctionné?
Cela pourrait expliquer le résultat, un biais logiciel qu'il faudrait vérifier.
Il n'en reste pas moins que c'est une image imaginée, par reconstituée.

avatar Kreeger | 

Je vois pas l'intérêt de dépixeliser un fouillis de pixels qui peut très bien donner n'importe quoi comme résultat ! Autant traiter le problème à la source et faire de meilleures cameras ou de meilleurs enregistrements c'est tout. Franchement avec 8 pixels comment voulez vous arriver à retrouver les détails d'origine même approximatifs?! Un visage ou un légume écrasé avec des confettis convertis en 8 pixels pourrait donner les même 8 pixels!

CONNEXION UTILISATEUR