IA : Qualcomm s'intéresse à la génération d'images en local

Félix Cattafesta |

Qualcomm s'intéresse aux modèles d'IA génératives tournant en local. L'entreprise vient de dévoiler ControlNet, un modèle de langage-vision dans la même veine que Stable Diffusion ou MidJourney. Une démo a été présentée, dans laquelle on peut voir une image générée sur un téléphone en moins de 12 secondes, sans passer par le cloud.

Qualcomm explique avoir utilisé une série d'optimisations au niveau de l'architecture du modèle, du logiciel d'IA et des accélérateurs du moteur neuronal pour obtenir ce résultat. La référence du téléphone utilisé n'est pas précisée, mais on peut voir que l'entreprise a mis la main à la pâte pour optimiser son modèle de 1,5 milliard de paramètres. Ce n'est pas la première fois que l'on peut utiliser un modèle du genre sur smartphone : une démo de Stable Diffusion sur Android a été présentée en début d'année. Sur iOS, il est possible de se servir du modèle de langage via des apps comme Draw Things ou AI Photo.

Le fait de pouvoir faire tourner des modèles d'IA générative en local est important : cela permet de moins dépendre du cloud, ce qui est toujours bon pour la protection de ses données privées. Si la nouveauté sert pour le moment à générer des images à partir de mots, elle pourrait rapidement infuser ici et là dans l'appareil. Qualcomm a par exemple dévoilé un modèle de langage utilisé pour donner voix à un coach de gym virtuel. Le concept se base sur un second modèle d'IA pouvant détecter et identifier les positions de gym, ce qui permet de générer des réponses dans le contexte.

La réalité mixte (au cœur du futur Vision Pro d'Apple) n'est pas en reste, et Qualcomm a également fait quelques annonces de ce côté-là. L'entreprise a notamment présenté un système de reconstruction 3D pour les apps XR mais aussi des avancées dans la création d'avatars 3D. Qualcomm a une carte à jouer dans le domaine : c'est elle qui produit les puces qui équipent les casques de Meta, principal opposant à Apple sur le terrain de la réalité mixte.

L'entreprise a également présenté ses avancées dans différents domaines, comme pour ce qui touche à l'encodage de vidéos 1080p sur smartphone ou de meilleurs algorithmes de vision par ordinateur pour les caméras de surveillance. Elle a aussi mis en avant un système de surveillance du conducteur pour véhicule, vérifiant l'état du chauffeur et le prévenant lorsqu'il détecte une pratique dangereuse (somnolence, distraction).

avatar Mrleblanc101 | 

Pratique pour afficher des images truqués de la lien 😂

avatar cecile_aelita | 

@Mrleblanc101

+1
C’est clair que nous allons de plus en plus vers un monde où le poids d’une photo n’aura bientôt plus le moindre crédit 🫤.
Alors on va me dire que ce n’est pas nouveau que l’on puisse tricher sur une photo… la différence c’est qu’à l’époque c’était réservé à une poignée de gens… maintenant en 2 clics c’est fait… donc les platistes les plus abrutis de la planète vont pouvoir, en 4 secondes s’auto-rassurer en générant images sur images des fausses preuves … 🫤.
Toujours la même histoire qui se répète … un outil créé avec toutes les bonnes intentions du monde… mais détourné immédiatement par la bêtise humaine 🫤…

avatar oomu | 

bof

ça ne sera intéressant que si on peut l’entraîner sur son propre travail pour faciliter la création d'images dérivées et conserver une direction artistique cohérente.

Parce que singer Boris Vallejo ça va bien 5mn...

"Toujours la même histoire qui se répète … un outil créé avec toutes les bonnes intentions du monde"

alors pour le coup, les "bonnes intentions" j'en doute. Ce n'est pas un hasard si la constitution du jeu d’entraînement des sociétés qui commercialisent la génération d'image est opaque. Ou la vitesse pour mettre tout ça sur le marché ET ENSUITE faire de longues tirades médiatiques qu'il est urgent de réguler les (nouveaux hein) entrants..

Tout comme Facebook fut conçu sur de _mauvaises_ intentions (jauger les jeunes étudiantEs sur leur physique et baratiner les premiers commanditaires du site), l'Histoire du Monde n'est pas qu'un grand ramassis de Naïfs.

Ça arrive, j'en conviens, souvent même, mais pas toujours. Dans le cas des services d'images génératives, j'en doute fortement.

avatar v1nce29 | 

> singer Boris Vallejo

Ça représenterait pourtant un progrès par rapport à la majorité de la production actuelle.

CONNEXION UTILISATEUR