Apple expérimente une nouvelle technologie de génération d'images et de vidéos

Stéphane Moussie |

Tim Cook le répète à l'envi depuis quelques mois : Apple prend au sérieux l'intelligence artificielle générative. Très bien, mais pour faire quoi ? On commence à le découvrir avec la parution d'un rapport technique par des chercheurs en IA de l'entreprise.

Images générées par les chercheurs d'Apple avec les Matryoshka Diffusion Models.

Dans ce document de recherche, les spécialistes d'Apple présentent une nouvelle famille de modèles de génération d'images et de vidéos en haute définition. Ces modèles se distinguent des autres par le fait qu'ils n'ont pas besoin d'être entraînés avec des modules d'upscaling pour générer des contenus en haute définition.

Le principe de la technologie transparait dans son nom, Matryoshka Diffusion Models : à chaque étape de la génération d'image, le modèle « emboîte » le travail réalisé sur la résolution inférieure dans la résolution supérieure, à l'image des poupées russes qui s'emboîtent les unes dans les autres. D'après les chercheurs d'Apple, cette méthode consistant à partager les représentations à travers différentes résolutions conduit à accélérer l'entraînement avec des résultats de grande qualité.

Schéma du fonctionnement de Matryoshka Diffusion Models. Graphique Apple.

Ces modèles peuvent servir à augmenter la définition d'une petite image ou à générer du contenu à partir d'une commande de texte, ce qui ouvre de nombreuses utilisations possibles. Dans leur point d'étape, les experts ne précisent pas la puissance de calcul nécessaire pour ces opérations, un point évidemment crucial en vue d'une éventuelle intégration aux systèmes d'exploitation et aux applications d'Apple.

Bloomberg a récemment affirmé qu'Apple voulait mettre de l'IA un peu partout dans son écosystème (Siri, Xcode, iWork, Apple Music…), mais le domaine de l'image n'était pas évoqué dans ce premier plan.

iOS 18, Siri, iWork : Apple se prépare à ajouter de l

iOS 18, Siri, iWork : Apple se prépare à ajouter de l'IA dans tout son écosystème

avatar Urubu | 

Quelle horreur Apple qui prend un nom et une référence russe pour son expérience 🙄

avatar powergeek | 

@Urubu

C'est quoi cette russophobie primaire ? Faut interdire Google aussi parce que leurs fondateurs sont d'origine russe ?

avatar Urubu | 

@powergeek

C’est pourtant le genre d’âneries qu’on lisait ici même il y’a peu. Mais je vois que le vent tourne vite 😏

avatar gwen | 

@Urubu

Je ne me rappel pas avoir lu des âneries de ce type ici. Et tant bien même, pourquoi te sens tu l’obligation de répéter ces âneries ?

avatar Link1993 | 

@Urubu

A un moment, va bien falloir appeler un chat : un chat !

avatar irishboy | 

@Urubu

Ah ouais d’accord … on en est à ce niveau là ! 🫠

avatar gwen | 

@Urubu

Et bien justement moi je trouve ça très bien. Ce nom part d’un concept et le représente parfaitement.
Il n’y a aucune raison de ne pas utiliser les mots étranger quand ils ont le sens voulu. Apprécier la culture russe ne veut pas dire cautionner les agissements du dirigeant actuel.

avatar Paquito06 | 

@Urubu

“Quelle horreur Apple qui prend un nom et une référence russe pour son expérience 🙄”

Chercher sur google le MDM, ca existe depuis belle lurette et apple ou pas, c’est un modele existant.

avatar BeePotato | 

@ Paquito06 : « Chercher sur google le MDM, ca existe depuis belle lurette et apple ou pas, c’est un modele existant. »

?
Matryoshka Diffusion Models, je ne l’ai pas vu avant cet article d’Apple.
J’ai vu MDM être utilisé plusieurs fois dans ce domaine, mais pour des noms différents : Motion Diffusion Model, Meta Diffusion Model, Molecular Diffusion Model, Masked Diffusion Model, etc.
À moins qu’il ne s’agisse d’une armée de meta-matryoshkas moléculaires masquées en mouvement, je ne crois pas que ça fasse référence à la même approche. 🙂

avatar occam | 

@BeePotato

“À moins qu’il ne s’agisse d’une armée de meta-matryoshkas moléculaires masquées en mouvement…”

Armée de meta-matryoshkas masquées : la référence ne saurait être plus apte, ni plus insidieuse :
https://spywrite.com/2018/09/26/tinker-tailor-soldier-doll/
En video :
https://www.youtube.com/watch?time_continue=12&v=TpQzYywTiO4&embeds_referring_euri=https%3A%2F%2Fspywrite.com%2F&source_ve_path=Mjg2NjY&feature=emb_logo

Inoubliable, quand on l’a vu une fois.

Soit l’équipe Gu/Zhai/Zhang/Susskind/Jaitly l’ignore ; et c’est alarmant.
Soit elle en est consciente, et c’est encore plus alarmant.

BTW, le générique visualise ce passage de John le Carré : « Smiley settled on a picture of one of those little Russian dolls that open up to reveal one inside the other, and another inside him. Of all men living, only Karla had seen the last little doll inside… », dernière petite poupée sans visage…

avatar winnipeg | 

@Urubu

Oulaaaa je vous propose pas un kawa surtout alors ☕️

avatar Gwynpl@ine | 

@Urubu

On vit vraiment dans un monde de niais, triste époque.

avatar Fredouille14 | 

Référence à un algorithme de compression ou un truc dans le genre

avatar kiddsoso | 

@Fredouille14

Tu confondrait pas avec le mkv ?

avatar Fredouille14 | 

@kiddsoso

Oui, mais c’est l’abréviation, enfin je crois

avatar cosmoboy34 | 

@Fredouille14

Le M de mkv veut dire matroska….

avatar macista | 

J’attends vraiment beaucoup de la future arrivée de l’IA dans iWork, ce serait une bel avantage comparé à Office 365 qui est payant…
Quoique dans 1 an maximum, Google aura certainement déjà ajouté ses propres fonctionnalités IA dans sa suite Workspace, gratuitement aussi.

avatar Antoine360 | 

@macista

Microsoft est en train d’ajouter de l’AI générative dans Office, c’est déjà lancé pour les pros. Mais je voulais surtout réagir pour un point : l’abonnement Microsoft 365 intègre de généreux espaces de stockage pour un prix réduit qui inclut aussi Office sur tous les devices, quelque soit le système d’exploitation. Ce n’est pas comparable.

avatar NicolasBordeaux | 

J’espère voir rapidement dans l’app Photos une fonction comme chez Google pour combiner plusieurs photos d’une même scène de groupe pour que tout le monde regarde la caméra en même temps ! J’ai dû le faire manuellement récemment en découpant deux photos de mes parents sur Aperçu pour avoir une belle photo d’eux

avatar marc_os | 

@ macista

> J’attends vraiment beaucoup de la future arrivée de l’IA dans iWork

Qu'en attendez-vous ?

avatar vince29 | 

Que ça génère automatiquement tous ces documents que les gens ne lisent pas (ou sous la contrainte)

avatar Kwikyyy | 

@vince29

Hein ? quels documents ?

avatar winnipeg | 

Apple Vision Pro ;)

avatar Ensearque | 

Travail intéressant.
Aux chercheurs et experts en DL et Transformers, qu’elle est la différence entre cette approche et celle de Google/Deepmind avec Perceiver ? Au fond, ils s’agit de multiple itérations du latent array si je ne m’abuse ?
Si quelqu’un connaît la différence je suis tout ouïe

avatar debione | 

L'image que l'on imagine va prendre le pas (et c'est en partie le cas) sur l'image réelle.
La réalité est dure, c'est certain. Réfugions nous donc dans un monde imaginaire, ou tout est super parfait, ou les rides disparaissent et les enfants toujours souriant et parfaitement obéissant quand on leur dit de pas faire de grimaces.

avatar aborrig | 

vous connaissez mkv ?
https://fr.wikipedia.org/wiki/Matroska
c'est pas d'aujourd'hui. 2003, alors la consonnance russe ... et puis faut bien que certains fassent le sale boulot

CONNEXION UTILISATEUR