Avatars 3D animés, grands modèles de langage sur l'iPhone, Apple publie de nouveaux travaux sur l'IA

Florian Innocente |

Apple publie de temps à autre ses travaux de recherche et deux nouveaux sont sortis ce mois-ci. L'un des documents — LLM in a flash — décrit des moyens pour utiliser de grands modèles de langage dans l'espace mémoire réduit d'un appareil tel qu'un smartphone. La capacité en RAM est très insuffisante pour stocker l'intégralité d'un modèle contenant des milliards d'entrées qui peuvent totaliser une dizaine de giga-octets.

Les chercheurs d'Apple proposent d'utiliser le stockage flash de l'appareil — par définition beaucoup plus conséquent — et de recourir à des méthodes ingénieuses pour limiter le poids des données chargées en RAM en réutilisant des choses déjà analysées lors de précédents traitements. Cela limite l'empreinte sur la mémoire vive et réduit le nombre et le temps des échanges entre le stockage flash et la RAM. La technique repose en outre sur la capacité des supports flash à transférer rapidement de gros blocs de données.



Apple a constaté que cette combinaison de méthodes lui permet d'utiliser des modèles de langage jusqu'à deux fois plus gros que la place disponible en mémoire, avec des vitesses de traitement 4 à 5 fois plus rapides avec le CPU et 20 à 25 fois plus rapides via le GPU.

Si ces travaux devaient déboucher sur une application concrète, Apple pourrait faire marcher ses fonctions d'intelligence artificielle en local plutôt que de recourir à des serveurs. Ce serait plus rapide et plus en phase avec les questions de vie privée.

Le second sujet n'a aucun lien avec le premier, il s'intéresse à la création d'avatars animés réalistes en partant d'un minimum de ressources visuelles. La méthode baptisée HUGS: Human Gaussian Splats utilise entre 50 et 100 images tirées de quelques secondes de vidéo d'un individu en mouvement.

Pas besoin qu'il soit filmé sur un fond uni, le programme va le séparer de l'environnement et, en l'espace de 30 minutes environ, le transformer en un modèle 3D photoréaliste. Il pourra être inséré dans une nouvelle scène et animé comme une marionnette — actuellement à 60 i/s. Apple, qui a collaboré avec l'Institut Max Planck sur ce problème, va prochainement mettre à disposition son code source.

avatar macista | 

C’est quelque chose que j’attends avec impatience pour iOS 18 : la capacité de poser des questions sur mes documents (et toutes mes donnes en fait) à Spotlight avec la même facilité que ChatGPT.
•Ex : quel était le dessert du restaurant dont j’ai pris la carte en photo ?
•Quel est le montant de la facture XXX ?
•Fais un tableau avec le cumul du temps d’appel pour chacun de mes contacts depuis 1 an.
•Répond au mail avec la pièce jointe qu’il demande (stockée dans iCloud)
•Envoie un message à mon groupe familial avec le résumé de ma journée et toute les photos de ma randonnée

Et si vraiment je rêve… piloter ça avec Siri 🤔😆 !

avatar guigus31 | 

@macista

Dis Siri, range un peu le bordel et les doublons dans l’app contact. Et profites-en pour ajouter une photo récente sur les contacts qui n’en ont pas, mais que j’ai dans ma bibliothèque photo. Oh puis tiens, puisque t’es là, range aussi mes photos, ma musique, et tout mon bordel numérique sur tous mes appareils. Là j’ai la fleeemme…

avatar oomu | 

n'est-ce pas à ce à quoi devrait servir un ordinateur ? aider au quotidien.

avatar lmouillart | 

Bonjour, bienvenue à cette audition. Signez ici s'il vous plaît, on vous recontactera si besoin.
* rires diaboliques *

avatar guigus31 | 

@lmouillart

😅

avatar hartgers | 

Terrifiant et impressionnant à la fois. Sur un format talkshow, Micode a évoqué le fait qu'Apple pourrait doubler tout le monde avec des LLM en local, traités sur des Mac Apple Silicon dotés d'une quantité de mémoire partagée monstrueuse pour certains usages.

avatar Florent Morin | 

@hartgers

J’ai pu tester l’intégration de Mistral sur Apple Silicon. C’est une claque. Sachant que c’est via llama.cpp qui n’a rien d’officiel vis-à-vis d’Apple.

avatar oomu | 

faut avouer que les perfs avec des ia génératives sur M1 et M2 sont impressionnantes, et on est pas encore avec tous les travaux d'optimisation d'Apple.

oui, Apple a une carte à jouer sur tout ça, mais ils ne peuvent pas attendre 5 ans pour enfin fournir en local des fonctionnalités _UTILES_.

avatar roccoyop | 

@oomu

Par contre, si l’IA est en local et qu’on découvre des bugs ou des incohérences, il va falloir mettre à jour son système à chaque fois.

Et ceux qui sont dans l’incapacité de le faire seront pénalisés. Il y aura plusieurs versions plus ou moins buggies et incohérentes au même moment.

L’avantage d’OpenAI par exemple, c’est que chez eux une MàJ sur le serveur et tout le monde se retrouve au même niveau.

Malgré tout, je préfère quand même une IA locale, même si c’est plus complexe à maintenir à jour.

On a bien 15 versions de Siri en fonction du matériel utilisé. On est déjà un peu éduqués dans ce sens.

avatar ga8an | 

Ils sont tellement en retard. Ils se font ringuardiser par la concu. Allez publié la votre grosse màj iOS avec IA integrée.

avatar Lacourt | 

Apple se met au deepfake 😂

avatar oomu | 

sur les "avatars canoniques" je suis très mitigé

certes ça permettrait facilement de mettre en scène le Macroné (ou autre politisé du jour) à la télé avec des animateurs sans le déranger en repas à Dubaï

-
mais à part ça ?
-
- M'intégrer avec un costume farfelu d'assassin d'ubisoft ? parce que je veux trop voir ma tête courir plein de sueur ?

- faciliter la compression vidéo en se contentant d'envoyer le fond et le modèle 3D de soi pour l'appel vidéo à Mère-Grand ?

-
- payer une fois un acteur/actrice, le virer un grand coup de pied au cul, et utiliser l'avatar pour faire Indiana jones 56 ?

-
- enfin faire du porno photo-réaliste sans qui que ce soit de réel (même pas de réalisateur, ni maquilleur, personne! visage inventé par algo) et enfin on saura que les moralistes ne sont pas intéressés par les gens mais par le contrôle de la pensée. (l'argument sera : qui pense, qui agit) ?

-
qq exemples au pif, mais rien de demandé par les gens
bof donc

-
par contre des IA qui fournissent toutes sortes d'informations et travaux sur nos courriers, contacts, etc , oui ça, ça serait utile.

avatar oomu | 

pas pratique le manque de retour à la ligne.

avatar Brice21 | 

@oomu

"sur les "avatars canoniques" je suis très mitigé"

Ça sera surtout utile pour les vidéoconférences à plusieurs en AR avec le Vision Pro. Il faut pouvoir représenter les autres “normalementl alors qu’ils ont un Vision Pro sur la tête.

En gros tu vas te scanner la tête dans la séquence dinitialisation du Vision Pro. En utilisant du Gaussian Splatting tu as ton avatar qui va être utilisée dans les vidéo conférences. Et au passage ce scan servira aussi à afficher ton visage sur l’écran extérieur du Vision Pro.

avatar 0MiguelAnge0 | 

La Flash a très très peu de cycle d’écritures avant que la cellule soit HS, contrairement à la DDR qui par dénition est fait pour cela.

Donc, soit cela fonctionne mais qui de la durée de vie de la Flash avec cette utilisation d’une manière régulière au bout de 2, 3 ans?

avatar BeePotato | 

@ 0MiguelAnge0 : Il s’agit là de lecture bien plus que d’écriture.

CONNEXION UTILISATEUR