Google a une nouvelle technique pour affiner les images de basse résolution

Félix Cattafesta |

Google travaille actuellement sur une façon d'améliorer la résolution d'images de mauvaise qualité grâce à une intelligence artificielle. Dans un billet de blog, la firme de Mountain View a dévoilé des résultats impressionnants. Sur cette image, on peut voir l'augmentation de la résolution d'un portrait, qui passe de 64 x 64 pixels à 1024 x 1024 pixels.

Image : Google.

Le procédé utilisé ici est le SR3 (ou Super-résolution par raffinement répété). Il consiste à appliquer du bruit gaussien à une image à faible résolution jusqu'à ce qu'elle se transforme en bruit pur. Ensuite, l'IA utilise des technologies de réduction de bruit pour inverser le processus de corruption de l'image en supprimant peu à peu le bruit, et aboutir à la même image mais d'une bien plus grande définition et de meilleure qualité. Pour parvenir à ces résultats, les chercheurs ont entrainé leur modèle de calcul sur des images de haute qualité qui ont subi cette dégradation.

Cette technique permet de reconstruire efficacement une image presque sans bruit et dont la résolution est quatre fois supérieure à l'originale. Des tests ont été menés en interne avec des humains, qui ont été dupés presque une fois sur deux par les clichés recréés. Google annonce que son IA est plus puissante que celles développées jusqu'à présent : à terme, elle pourra être utilisée pour améliorer de vieilles photos de famille, mais aussi dans le domaine médical.

avatar YetOneOtherGit | 

@BLM

"- la mesure (l’image) obtenue est le produit de convolution de la matrice décrivant les qualités de l’objet originel par la matrice décrivant la transformation induite par l’appareil de mesure (ici l’appareil photo);
– Retrouver à partir d’une image les qualités de l’objet originel revient à inverser la matrice de l’appareil de mesure, puis à effectuer la convolution entre la matrice de l’image réelle par la matrice inverse de mesure;
–Tout le problème est qu’inverser une matrice de prise de vue… est impossible. Il n’y a pas unicité de la reconstruction.
– La seule méthode est celle que je décrivais : itérativement supposer une matrice descriptive de l’objet originel, simuler numériquement le produit de convolution par l’appareil de mesure, comparer l’image virtuelle obtenue avec l’image réelle, et recommencer. On obtient Les caractéristiques de l’objet originel… avec une certaine « confiance » mathématiquement mesurable."

Absolument à côté de la plaque sur les approches ML 😉

C’est toujours difficile les paradigm shift 🤓😉

Et n’oublie pas un aspect essentiel: l’enjeu est de donner une sensation pas de recréer ce qui n’existe plus ou n’a jamais existé.

avatar BLM | 

@YetOneOtherGit
Je vais donc revoir mes procédés mathématiques déterministes
;->

«n’oublie pas un aspect essentiel: l’enjeu est de donner une sensation pas de recréer ce qui n’existe plus ou n’a jamais existé.»
donc, on est d’accord : si il s’agit de donner une sensation et non pas de recréer… C’est exactement ce que je disais: l’inversion (pour repasser de l’image réelle à un objet reconstruit) n’est pas unique. Lee résultat est quelque chose qui a l’aspect de la véracité, mais qui ne l’est pas absolument. Même si je ne doute pas que l’aspect reconstruit ne doit pas être très éloigné (et il faut mathématisée ce « très éloigné », machine Learning ou pas) de l’original.
Un peu comme la reconstruction faciale faite par les criminologues ou paléontologues de l’être humain dont on retrouve le squelette.

avatar YetOneOtherGit | 

@BLM

"Je vais donc revoir mes procédés mathématiques déterministes"

Yep c’est une base 😉

avatar YetOneOtherGit | 

@BLM

"donc, on est d’accord"

Sur ce point bien évidemment.🤗

D’ailleurs nous ne sommes pas vraiment en désaccord, je te fais juste remarquer que tu abordes le pb avec les outils d’un paradigme qui n’est pas le bon 😎😉

avatar YetOneOtherGit | 

@BLM

"Lee résultat est quelque chose qui a l’aspect de la véracité, mais qui ne l’est pas absolument."

Est-il besoin de le préciser? 😳

Cela me semble évident, tu penses que ce n’est pas le cas pour tous les lecteur?

avatar raoolito | 

@YetOneOtherGit

ben disons que sur la video, là, on pourrait croire que dans 24h chrono ils avaient déjà tout compris quoi :P

avatar YetOneOtherGit | 

@raoolito

Attention quand même nous sommes sur du prototype pas sur un outil magique universelle.

C’est prometteur et impressionnant mais il faudrait voir les résultats sur un vas corpus d’images

avatar raoolito | 

@YetOneOtherGit

un visage vu de tres loin peut etre si facilement mal interprété
ca sera demonté dans n'importe quel tribunal vu qu'aucun ingénieur ne pourra décemment affirmer une certitude quand au résultat

( toujours dans l'optique 24h chrono, parce que jack bauer, si vous lui donnez la photo d'un suspect, il rigole pas le gars!)

avatar YetOneOtherGit | 

@raoolito

"( toujours dans l'optique 24h chrono, parce que jack bauer, si vous lui donnez la photo d'un suspect, il rigole pas le gars!)"

Les systèmes de vidéo surveillance sont aujourd’hui tellement performant qu’il n’y a nul besoin de ce type d’artifice.

Le ML sert à identifier les individus avec un niveau de performance absolument terrifiant.

avatar Phiphi | 

C’est bien gentil de rajouter des grains de beauté pour éviter un peu trop parfaite mais j’ai du mal à croire que le sujet ait précisément les mêmes grains de beauté aux mêmes endroits. Alors c’est chouette, ça rends la photographie réaliste, mais la personne est-elle ressemblante ?
Ce qui serait intéressant c’est d’avoir deux photos du sujet au départ, dont une en haute résolution, pour pouvoir comparer avec le résultat obtenir par le système.

avatar v1nce29 | 

Tu as des comparaisons de détails entre l'original et la reconstitution
https://iterative-refinement.github.io/

avatar Flyingbike | 

@Phiphi

Aucun algorithme n’inventera jamais du signal qui n’a pas été échantillonné comme s’il l’avait été.
Ça peut faire « réaliste » mais ça ne retrouvera pas une plaque d’immatriculation à partir d’un signal de 4x8 px. Ça n’arrivera jamais.

avatar Phiphi | 

@Flyingbike

Voilà on fait un truc agréable à l’œil. Après ça sera peut-être aussi vraisemblable qu’un portrait robot fait de mémoire mais faut pas s’attendre à faire les mêmes miracles que dans certaines séries télé 🤷‍♂️

avatar raoolito | 

@Flyingbike

surtout qu'ici l'IA a ete entrainée avec des visages et uniquement des visages…
donc des plaques d'immatriculation...

avatar pocketalex | 

"ça ne retrouvera pas une plaque d’immatriculation à partir d’un signal de 4x8 px"

L'intérêt de grandir des images trop petites, même si le résultat tient plus de l'oeuvre d'art que de la vérité la plus réaliste (ce qui est impossible sur des images trop petites), est extrêmement utile dans nombre de cas, il n'y a pas que les visages de voleurs ou les plaques d'immatriculation

Déja l'outil intégré à Photoshop m'a permi de sauver de nombreuses publication pour mes clients suite à l'envoi de source vraiment trop basse def, qui étirées à 300% donnait un résultat flou et dégueu. Avec l'IA, ça donne un résultat "passable", qui permet une validation pour publier, et donc de ne pas se planter sur le projet

Avec l'outil de Google, si les résultat sont ce que l'on peut en penser, ça va être encore mieux.

Sachant qu'une image basse def, pour moi, c'est du 800x800 ou 1000x1000, donc bien plus d'informations que du 64x64

avatar Flyingbike | 

@pocketalex

Je ne dis ps que c’est inutile ! Effectivement il y a de réelles applications.

Mais en aucun cas pour faire apparaître une image conforme à la réalité. Sauf par hasard. L’exemple des plaques d’immatriculation était en références aux séries policières évoquées plus haut.

Je crois que pas mal de personnes confondent/s’en inquiètent.

avatar ysengrain | 

Est-ce que l’intelligence artificielle est le pendant de la bêtise naturelle ?

avatar DG33 | 

@ysengrain

Une intelligence artificielle mal entraînée est naturellement bête ?

avatar Mike Mac | 

Un des usages intéressants de ces technologies d'images à la qualité augmentée, c'est qu'on pourra porter en HD - et pourquoi pas en 4K ? - tout ce que la télévision a produit en 720 x 576 pixels (et variants PAL/NTSC) pour donner une seconde jeunesse à des oeuvres ou des séries anciennes de l'ère de la vidéo analogique. Soit plus de 40 ans en songeant aux productions sur bandes 1 pouces ou 2 pouces qui précédèrent les bandes 3/4 et Betacam.

Même certaines productions faisant appel à du 16mm positif pourraient en tirer parti.

Et si un jour le 8K devient a norme, les vieux masters en 2K et 4K pourront basculer vers cette définition ++.

avatar v1nce29 | 

Encore faut-il que l'algo soit "stable" : s'il a "rempli les blancs" avec un grain de beauté ou une ride sur l'image N, il faut que ça se retrouve sur l'image suivante.

avatar Mac13 | 

Qu'ils essaient depuis la photo de QuickTake et qu'ils revoient !

avatar DouceProp | 

Whoa. Je n'arrive pas à y croire... Le procédé « invente » un visage en fait ? Sur la base d'autres photos de la personne je comprendrais... Mais là, à partir de rien...
• Ça ne sert plus à rien de censurer des visages avec des pixels.
• Ça ne sert plus à rien de proposer des photos basse déf' avant achat sur les sites de photos libres de droit... Beaming Face with Smiling Eyes

avatar JLG47_old | 

Reste à savoir ce qui est réellement réel et ce qui est réellement bidonné.
Recréer un visage finement dessiné n’implique pas qu’il soit réel, car l’IA est en mesure de deviner ou d’imaginer, jamais de recréer.
Et qu’en est-il de toute autre image qu’un visage?

avatar v1nce29 | 
avatar MikeDelph | 

Ça me rappelle deepnude

avatar jujulec | 

C'est comme un tour de magie, c'est bluffant de vérité mais ce n'est pas la RÉALITÉ !

Dans une image/photo la plus petite unité, qui est le pixel, à une information UNIQUE de couleur et c'est l'assemblage de tous ces pixels colorés qui créé une image (ou l'illusion photoréaliste), image plus ou moins nette et détaillée en fonction du nombre de pixel qui la compose.

Un algorithme qui rééchantillonne (et pour le cas découpe chaque pixel en 16 nouveaux pixels) arrive ensuite a donner l'illusion d'une augmentation de la définition parce qu'il nuance la couleur de chaque nouveau pixel en donnant, entre autre, l'illusion d'un dégradé. Pour faire cela il tient compte de la couleur de tous les pixels voisins et de tous ceux de l'image en appliquant une recette de pondération. Vous pouvez améliorer autant que vous voulez la "recette" de votre algorithme mais il ne sera jamais capable de recréer des ridules ou des boutons sur un visage si l'information n'existe pas dans l'assemblage de pixel originel !! ...sauf à faire de la magie et donc recréer une réalité alternative.
Le traitement par le passage au flou glaussien va seulement améliorer la technique mais ne change rien à l'affaire.

Leur algorithme est en fait très comparable aux algorithmes de vieillissement qui font un travail d'extrapolation et de prévision.

avatar sachouba | 

Applications médicales ?
On va se baser sur un algorithme qui "invente" des cancers sur des images médicales basse résolution ?

avatar lil0 | 

Dit de cette manière ça peut paraître absurde, mais voici une analogie qui pourrait t'éclairer.
Supposons que des policiers ont une photo basse résolution et aimeraient savoir si le suspect dans la photo tient dans sa main un couteau ou une carte. Ils appliquent cette techno et obtiennent une photo plus nette. Bien évidemment le couteau (ou la carte) visible maintenant sur la photo n'est pas exactement similaire au couteau (ou à la carte) original(e) mais en est suffisamment proche pour qu'on puisse dire avec une grande certitude que le suspect tenait dans sa main un couteau (ou une carte). Applique le même raisonnement en médecine et tu peux reconnaître des tumeurs difficiles à identifier à l'œil nu.

Plutôt que de voir cette technologie comme un processus qui invente de l'information il serait plus juste de voir ça comme un processus qui réduit l'incertitude dans une information.

avatar DahuLArthropode | 

Comme je n’y connais rien, je donne mon avis.
L’algorithme n’a pas comme seule information l’image bruitée: il a aussi l’entraînement.
En gros: quand vous savez que c’est un visage, par exemple, vous savez déjà beaucoup de caractéristiques. Par exemple, la courbure d’un sourcil ne peut pas être n’importe quoi.
Quand la police fait un portrait-robot, elle produit une image vaguement ressemblante à partir d’informations très fragmentaires.
Donc, non: un algorithme entraîné ne viole aucun théorème mathématique, il ne restaure pas d’informations disparues: il ajoute à une image floues des informations vraisemblables.

avatar YetOneOtherGit | 

@DahuLArthropode

"Comme je n’y connais rien, je donne mon avis. "

🥳🥳🥳

Une perle 👏👏👏

avatar YetOneOtherGit | 

@DahuLArthropode

"L’algorithme n’a pas comme seule information l’image bruitée: il a aussi l’entraînement. "

C’est le contraire : L’image bruitée sert à l’entraînement 😳

avatar DahuLArthropode | 

@YetOneOtherGit

L’entraînement ne consiste-t-il pas à lui faire bouffer des exemples d’images floues ET d’images à haute résolution ? (Question sérieuse et non réthorique)

avatar YetOneOtherGit | 

@DahuLArthropode

"L’entraînement ne consiste-t-il pas à lui faire bouffer des exemples d’images floues ET d’images à haute résolution ? (Question sérieuse et non réthorique)"

Evites d’utiliser le concept de flou ici qui est inapproprié.

Non ici l’apprentissage ne se fait pas avec deux versions de l’image à des richesses en pixels différentes.

Les grandes lignes du processus sont :

- Partir d’une image riche en pixel
- Bruitée itérativement l’image jusqu’à n’avoir plus que du bruit

Le processus d’apprentissage ici consiste à essayer de retrouver l’image avant injection de bruit à partir de sa version bruitée

avatar DahuLArthropode | 

@YetOneOtherGit

Mille excuses pour le vocabulaire approximatif.

Dans l’article que je me suis résolu à parcourir, quelques précisions, pour ceux que la « magie » intéresse:

The model is trained on an image corruption process in which noise is progressively added to a high-resolution image until only pure noise remains. It then learns to reverse this process, beginning from pure noise and progressively removing noise to reach a target distribution through the guidance of the input low-resolution image.

Donc, il me semble bien comprendre qu’une version à haute résolution intervient bien dans le processus d’apprentissage.

avatar YetOneOtherGit | 

@DahuLArthropode

"Mille excuses pour le vocabulaire approximatif. "

Je te taquine, t’inquiètes 😉

avatar YetOneOtherGit | 

@DahuLArthropode

"Donc, il me semble bien comprendre qu’une version à haute résolution intervient bien dans le processus d’apprentissage."

Il n’y a que la version riche en pixel qui est en jeu, comme j’essayais de te l’expliquer.

Pas d’apprentissage basé sur lowres vs hires

Tu vois le truc 😉

L’apprentissage s’appuie sur l’image et ses versions bruitées, pas sur des versions à différentes richesses en pixel d’une même image 😉

avatar YetOneOtherGit | 

@DahuLArthropode

"il ne restaure pas d’informations disparues: il ajoute à une image floues des informations vraisemblables."

Là c’est bon 👏

avatar DahuLArthropode | 

@YetOneOtherGit

"Là c’est bon 👏"

Sauf la faute d’accord sur « floues ».

avatar jujulec | 

PETIT TUYAU : pour avoir le résultat "à la va vite" d'un rééchantillonnage d'une photo en faible résolution dont on voit les pixels à l'écran il suffit de plisser les yeux jusqu'a estomper ces pixels et vous aurez peu ou prou le résultat d'un bon algorithme d'amélioration. En appliquant cette technique au deuxième exemple avec le personnage masculin vous pourrez constater que l'algorithme de google se plante un peu dans son image haute résolution au niveau de la lèvre supérieur du messieur... c'est la faiblesse d'un algorithme prédictif (et non d'amélioration) aussi bon et bluffant soit-il !

avatar v1nce29 | 

et pour le cryptage de canal + ? des conseils ?

avatar DG33 | 

@v1nce29

Certains trouvent leur bonheur en agitant la main 😇

avatar fred33 | 

Vu que Google ne donne aucune image de l’original en haute résolution pour comparer avec la prédiction… je pense qu’ils nous prennent pour des cons.

avatar v1nce29 | 

https://arxiv.org/pdf/2104.07636.pdf

On ne parle pas d'un algo de compression (encore que) : il n'y a donc pas forcément d'original en haute résolution, vu que le but c'est de générer une image crédible à partir d'une vignette.
mais tu trouveras des exemples dans le lien.

avatar YetOneOtherGit | 

@v1nce29

"mais tu trouveras des exemples dans le lien."

Le papier est effectivement on ne peut plus sérieux c’est assez affolant ce cancer de l’esprit critique qu’est la démarche hypercritique 🤯🥺

Il y à deux commentaires qui me dépassent dans le « c’est n’importe quoi » alors même que visiblement les commentateurs ne comprennent pas les bases des premises du sujet et ont des attaques basées sur ce qui ne relève même pas de l’ersatz d’argument😟

avatar YetOneOtherGit | 

@fred33

"Vu que Google ne donne aucune image de l’original en haute résolution pour comparer avec la prédiction… je pense qu’ils nous prennent pour des cons."

😳😳

Tu crois penser c’est le pb 🤯

avatar tupui | 

C’est facile d’ajouter un bruit Gaussien et ensuite d’entraîner et réseau... Encore de la poudre au yeux. Dans la vrai vie le bruit n’est pas forcément Gaussien et c’est pour ça que ça ne va rien révolutionner du tout.

avatar v1nce29 | 

je crois que t'es bon pour relire l'article.

avatar YetOneOtherGit | 

@v1nce29

"je crois que t'es bon pour relire l'article."

Et commencer d’essayer de le comprendre 🥸

avatar YetOneOtherGit | 

@tupui

"C’est facile d’ajouter un bruit Gaussien et ensuite d’entraîner et réseau... Encore de la poudre au yeux. Dans la vrai vie le bruit n’est pas forcément Gaussien et c’est pour ça que ça ne va rien révolutionner du tout."

#yakafokon 😳😳😳

À côté de la plaque dans des proportions stratosphériques et qui plus est un ramassis de conneries 🤯

avatar v1nce29 | 

Si vous aimez l'AI et les CGI je vous recommande la chaîne 2 minutes paper

https://www.youtube.com/watch?v=lCBSGOwV-_o

Pages

CONNEXION UTILISATEUR