Ferret, le nouveau modèle d’intelligence artificielle multimodal d’Apple

Félix Cattafesta |

Si Apple reste bien discrète dans la grande course à l’IA qui secoue toute l’industrie depuis 1 an, Cupertino continue d’affuter ses armes. Sans tambour ni trompette, l’entreprise a mis en ligne un nouveau modèle de langage baptisé Ferret au mois d’octobre. Celui-ci a pour particularité d’être multimodal, et donc de mélanger textes et images.

La démo de Ferret, disponible sur Github. L’IA a réussi à effectuer l’observation suivante : « L'objet (obj0) est un chien et l'objet (obj1) est un furet. Le chien et le furet semblent être assis ensemble dans la neige, ce qui suggère une interaction amicale ou de la camaraderie. »

Ce modèle peut déterminer les éléments composant une image, les délimiter et les identifier pour qu’ils puissent être utilisés dans une requête. Plusieurs utilisations sont possibles : l’utilisateur pourra par exemple mettre en valeur un animal sur une image, et Ferret lui indiquera de quelle espèce il s’agit. Il a la capacité de séparer un élément du reste d’un groupe, et de préciser le contexte d’une photo.

Le chercheur d’Apple Zhe Gan affirme que le modèle « montre souvent une meilleure compréhension précise des petites régions de l'image » que GPT-4V, le modèle spécialisé d’OpenAI. Deux versions ont été publiées, une avec 7 milliards de paramètres et une seconde avec 13 milliards. Apple indique que son modèle a été entraîné sur 8 GPU NVDIA A100 avec 80 Go de mémoire. Ferret est open source, même si sa mise à disposition se fait sous licence non commerciale (il ne peut pas être commercialisé en l’état).

Ce type de technologie pourrait sans problème trouver son utilité au sein de l’app Photos d’Apple en améliorant la recherche d’images. Elle pourrait également servir à un éventuel AppleGPT, qui serait en développement à Cupertino selon les rumeurs. Aux dernières nouvelles, Apple aurait prévu de mettre le paquet sur l’intelligence artificielle dans ses prochains systèmes d’exploitation et dépenserait sans compter pour percer dans le domaine.

iOS 18, Siri, iWork : Apple se prépare à ajouter de l

iOS 18, Siri, iWork : Apple se prépare à ajouter de l'IA dans tout son écosystème

La Pomme a récemment publié deux travaux de recherche liés à l’IA. Le premier concerne une technique permettant d’utiliser la mémoire flash d’un appareil pour faire tourner un large modèle de langage (LLM), tandis que le second est utilisé pour créer un avatar 3D à partir de quelques secondes de vidéo d’un individu en mouvement. Apple expérimente également avec les outils de génération d’images dans le style de DALL-E ou de Midjourney.

Source
Image d’accroche : Dall-E 3.
avatar appleadict | 

"Aux dernières nouvelles, Apple aurait prévu de mettre le paquet sur l’intelligence artificielle dans ses prochains systèmes d’exploitation et dépenserait sans compter pour percer dans le domaine."

ce qui explique sans doute pourquoi les prochains iphones non PRO devraient avoir le même SOC que les modèles PRO ...

ce qui veut aussi probablement dire qu'il y aurait une rupture de fonctionnalités entre ces modèles et les modèles antérieurs qui serait lié au matériel plus qu'au marketing

avatar Boboss29 | 

@appleadict

Rumeurs pour le processeur. Je pense surtout qu'Apple va nommer différemment ses processeurs, mais qu'il y aura toujours une différence entre la gamme pro et standard. Sûrement A18 sur les modèles standards qui seront sûrement un dérivé du A17 pro, et A18 pro sur les modèles pro (qui auront toutes les killers features du moment). Mais ça changera pas grand chose, hormis le nom marketing.

Sinon je vois mal Apple ne proposer que cette IA sur les derniers IPhone en sachant qu'un chat Gpt tourne très bien sur des iPhone plus ancien, ou qu'un Google bard se lance dans un navigateur.

avatar kantandane | 

@Boboss29

ChatGPT tourne sur des serveurs quand tu l’utilises sur iPhone, on parle ici de tourner en local !

avatar jopaone | 

@Boboss29

« sachant qu'un chat Gpt tourne très bien sur des iPhone plus ancien, ou qu'un Google bard se lance dans un navigateur »

Attention les modèles derrière chatGPT ou Bard ne tournent pas localement sur votre iPhone (et encore moins «dans le navigateur»!) mais sur de puissants serveurs. Ces modèles requièrent énormément de ressource machine et tout le challenge pour Apple est d’optimiser suffisamment leurs modèles et le matériel pour arriver à les faire tourner localement sur un iPhone/iPad/Mac.

avatar raoolito | 

@jopaone

si j’étais mauvaise langue, je dirais que les modèles d’intelligence artificielle ne les intéressaient pas, jusqu’au moment où ils se sont rendus compte que s’ils voulaient les faire tourner localement, il n’y aurait que les derniers iPhone et iPad et Mac qui pourraient faire
et là du coup ça fait declic 😁

avatar GrayDoubtfulMule | 

Au début de cette année, je serai de bonne langue et dirai que cela permet d'éviter de faire transiter des données potentiellement sensibles, et que leur choix s'inscrirait dans la politique de "contrôle de la confidentialité" à la Apple. Lorsque je discute avec des personnes qui m'avouent envoyer des courriers professionnels contenant des données potentiellement sensibles à ChatGPT pour corriger et améliorer leur texte, cela m'inquiète quelque peu.

Mais il y a probablement un équilibre à trouver, car si on ne collecte pas suffisamment de données à revendre, il faut bien générer des revenus sur le matériel vendu. Apple n'est pas une association caritative, après tout. :-)

avatar Boboss29 | 

@jopaone

Et les infos seront stockés en local sur l'iphone ? Toutes les données ? A voir... Car pour l'exemple de chat gpt c'est des To de données dont on parle... Et vu la puissance des puces A16 et A17, et antérieures, ça devrait quand même être exploitable 😊

avatar jopaone | 

@Boboss29

Vous n’avez pas l’air de maîtriser le sujet je vous invite à approfondir il y a beaucoup de ressources gratuites sur internet. Les TO de données dont vous parlez ne sont en réalité nécessaires que pour l’entraînement du modèle , une fois les paramètres ajustés on n’a plus besoin de cette quantité de données car on va juste faire des traitements en local (et non des entraînements)

avatar Boboss29 | 

@jopaone

Donc, en suivant ton raisonnement, si je demande à l'ia, déconnecté d'internet, de me faire un programme ou un résumé de tel ou tel livre, où écrire un poème dans le style de Baudelaire, (choses que fait chat gpt et qui impressionnent le grand public) il n'irait puiser nulle part ? 🙃 il faut bien qu'il y ait une base de connaissance quand même ! Après, effectivement, je n'ai pas les connaissances suffisantes pour expliquer comment ça fonctionne, mais de l'ia on en utilise sur nos iPhone depuis un moment avec plusieurs applications (photos, scan de texte, etc).

avatar jopaone | 

@Boboss29

Exactement, le modèle d’IA tire ses connaissances des données sur lesquelles il a été préalablement entraîné. Par exemple c’est pour cela qu’à la sortie de chatGPT il était mentionné que ses connaissances s’arrêtaient à 2021 (la limite de son jeu d’entraînement). L’application qui encapsule le modèle est à présent capable de faire des requêtes sur le web (avec Bing) pour chercher des infos fraîches et les donner en entrée du modèle pour traitement. Mais le modèle lui-même a toujours des connaissances limitées à une certaine date (forcément antérieure à son entraînement)

avatar BeePotato | 

@ Boboss29 : « Donc, en suivant ton raisonnement, si je demande à l'ia, déconnecté d'internet, de me faire un programme ou un résumé de tel ou tel livre, où écrire un poème dans le style de Baudelaire, (choses que fait chat gpt et qui impressionnent le grand public) il n'irait puiser nulle part ? 🙃 »

C’est bien ça.
Un peu comme toi : si on te demande ces choses-là, tu seras capable de le faire de mémoire, sans aller consulter le moindre site web. La qualité du résultat sera variable en fonction de ton expertise dans le domaine concerné (expertise acquise lors d’un apprentissage préalable), mais rien ne t’empêchera de produire un résultat tout de même (à part un moment de honte, ce qui n’existe pas encore chez ces modèles et leur permet donc de raconter n’importe quoi de façon péremptoire).

« il faut bien qu'il y ait une base de connaissance quand même ! »

La base de connaissances sert pour l’entraînement du modèle. Le modèle généré suite à ça est une synthèse de cette base de connaissances, qui permet de générer des données similaires au contenu de la base, sans plus avoir besoin d’accéder à cette dernière.
Afin d’avoir un modèle assez précis, il faut qu’il soit composé de beaucoup de paramètres et ça le rend trop gros pour tourner sur un iPhone actuel, mais on est tout de même très, très loin du poids des données d’apprentissage.

avatar appleadict | 

@Boboss29

peut-être pour faire tourner l'IA en local ...

[edit]
redondant avec les commentaires qui ont suivi 😅

avatar jerry75 | 

Avec un peu de bol, dans 5 ans je pourrai rajouter un rdv à mon agenda même si la personne ne fait pas partie de mes contact. Parce que la, si je demande à Siri un rdv avec Nathalie a 14h mardi, il ne fait que me dire que cette foutue Nathalie n’est pas dans mes contacts et refuse de noter le rdv … et si il n’y avait que ça 🙄

avatar yod75 | 

@ jerry75

Voilà... Siri attise la haine (que t'as donc fait Nathalie ???)

avatar occam | 

@yod75

> "que t'as donc fait Nathalie ???"

Objectivement ? Elle semble légèrement défavorisée par rapport à Noémie : Zoé > Noémie > Nathalie.
Verbatim :
Noémie est très jolie
Moins que Zoé, mais plus que Nathalie
Anatole il est frivole
Monsieur Gaston s'occupe du téléfon

Gaston y a l'téléfon' qui son'
Et y a jamais person' qui y répond

Dont on peut déduire que l’agent AI qui succédera à Siri sera nommé « Gaston ».

avatar yod75 | 

@occam

"Dont on peut déduire que l’agent AI qui succédera à Siri sera nommé « Gaston »."

Merci pour cette démonstration cristalline. Ils ont dû poser la question à Siri pour nommer leur IA, d'où la faute d'orthographe... pauvre Nino !

avatar noooty | 

@jerry75

Tu ne sais pas comment te servir de Siri…
Il suffit de lui dire de noter le rdv avec juste le jour et l’heure, et ensuite tu lui donnes le nom à ajouter au rdv.
Si tu lui donnes le nom avant le rdv, Siri cherchera toujours le nom dans les contacts, d’où son désarroi et ton désarroi.

avatar Paquito06 | 

@jerry75

“Avec un peu de bol, dans 5 ans je pourrai rajouter un rdv à mon agenda même si la personne ne fait pas partie de mes contact. Parce que la, si je demande à Siri un rdv avec Nathalie a 14h mardi, il ne fait que me dire que cette foutue Nathalie n’est pas dans mes contacts et refuse de noter le rdv … et si il n’y avait que ça 🙄”

Siri n’est pas de l’IA, et tu peux ajouter un rdv avec Nathalie a 14h mardi depuis 13 ans, quand Siri a ete lancé. Ca marche comme ca:
https://youtu.be/agzItTz35QQ

avatar DG33 | 

@jerry75

Le Newton savait le faire à la perfection 🙄

avatar vicento | 

@DG33

Rhaaaa le Newton. J’en ai encore un de fonctionnel à la maison 🏠

avatar TDBI | 

@jerry75

🤣

avatar fanou | 

Avec ferret ils vont passer un cap ☺️

avatar v1nce29 | 

Si c'est pour dire ça, ferret mieux de se taire.

avatar bidibulle | 

@fanou

🥳🥳🥳

avatar Paquito06 | 

@fanou

“Avec ferret ils vont passer un cap ☺️”

Pour moi aussi, ferret c’est où on achete de jolies montres 😅

avatar radeon | 

@fanou

Je ne pensais pas que quelqu’un la ferret celle-là

avatar DG33 | 

@fanou

🫠
Ferret défaire et refaire, c’est toujours travailler.

avatar M1Alex | 

Pas mal

avatar yeagermars | 

@occam
Je dirais plutôt Nino.... Rapport à Ferrer.......

avatar BlueVelvet | 

@yeagermars

Ça fait Nino Ferret.

avatar YosraF | 

Si Apple travaille bien, optimisation de la mémoire et un vrai travail sur les Intent d’app. Apple pourrait véritablement devenir le vrai leader en AI

avatar roccoyop | 

Ça ressemble à l’article de chez Tom’s guide qu’un membre de ce site ou celui de M4E avait posté, et dans les commentaires de l’article en question les gens étaient moins enthousiastes parce que toute la partie photo n’était pas dispo ou un truc comme ça. En gros c’était pas très avancé comme projet pour l’instant.

Désolé, je n’ai pas la source.

avatar bouh | 

Test amusant: si on demande quelque chose chronologique comme par exemple « quand sortira le prochain film Marvel » , bing/ChatGPT4 se plante en répondant que ce sera The Marvels et qu’il sortira le .. 8 novembre.

Celui qui me répond correctement est Google/Bard en répondant: « Au 2 janvier 2024, le prochain film Marvel à sortir en salles est Deadpool 3, le 26 juillet 2024 aux États-Unis. ». Ils ont mis le temps à le sortir mais pour mon usage donne de meilleures résultats.

On dirait que ChatGPT est figé à un temps T et n’évolue pas tant qu’on ne lui rafraîchit pas sa db alors que bard fonctionne avec des infos en temps réel.

avatar mcjo79 | 

Demande a Chat GPT 4 :
quand sortira le prochain film Marvel
ChatGPT

Le prochain film Marvel à sortir sera "Captain America: Brave New World", prévu pour le 24 juillet 2024. Ce film mettra en vedette Anthony Mackie dans le rôle de Sam Wilson, devenu officiellement le nouveau Captain America. Le casting inclut également Harrison Ford, Danny Ramirez, Carl Lumbly, Liv Tyler, et Seth Rollins. Malheureusement, il n'y a pas encore d'informations détaillées sur l'histoire de ce film.

Après cela, "Thunderbolts" sortira le 18 décembre 2024. Ce film, réalisé par Jake Schreier, rassemblera des personnages comme Julia Louis-Dreyfus (Valentina Allegra de Fontaine), Florence Pugh (Yelena Belova), Sebastian Stan (Bucky Barnes), Wyatt Russell (US Agent), David Harbour (Red Guardian), Olga Kurylenko (Taskmaster), Hanna John-Kamen (Ghost), et Harrison Ford (Thaddeus Ross). Il s'agit d'une équipe composée majoritairement de super-vilains.

Ensuite, "Blade" est prévu pour le 12 février 2025, avec Mahershala Ali dans le rôle principal. Bien que le projet soit encore en préproduction, il est probable que le film se concentre sur Blade, un personnage mi-homme mi-vampire chasseur de vampires.

Il y aura également d'autres productions Marvel en 2024 et 2025, notamment "Les Quatre Fantastiques" (28 novembre 2024), "Avengers: The Kang Dynasty" (2 mai 2025), et "Avengers: Secret Wars" (7 novembre 2025)​
​​​​​.

avatar xDave | 

Pour une boîte pour qui je bosse le logiciel DAM à une fonction de reconnaissance d’image par IA similaire.
Ça sort des mots clés et une description.

Très efficace pour indexer, ça évite énormément de saisie manuelle tout en alimentant la recherche.

avatar guibrush | 

Si on pouvait passer à autre chose que ces foutu IA…. Vous n’en avez pas marre de vous demander systématiquement si ce que vous voyez ou entendez est véridique ?

avatar DidTrebor | 

La question est : pourquoi un furet ?

avatar DG33 | 

@DidTrebor

Parce que le furet furète ?

avatar yod75 | 

Ca ne choque personne de lire qu'Apple (ou n'importe qui d'autre d'ailleurs) se réveille pour sortir une utilisation IA ? Comme si le travail sur l'IA n'avait commencé que la semaine dernière ?

avatar Boboss29 | 

@yod75

C'est surtout que beaucoup imagine que l'ia a été loupé par Apple parceque siri est nul. Or de l'IA chez  on en a depuis un moment. Depuis l'A12, les processeurs intègrent des cœurs neuronaux qui apprennent selon tes usages pour te proposer une expérience propre à chacun. Par exemple chaque matin quand je pars de chez moi, en semaine, carplay me propose le trajet jusqu'à mon boulot. Le lundi, je ne travaille pas, et j'ai par habitude d'aller à carrefour faire mes courses, bah tous les lundis, quand je démarre de chez moi, carplay me propose l'itinéraire jusqu'à carrefour. Etc... C'est bien de l'IA non ? Quand on scanne un texte, et que L'iphone te convertis le tout en texte éditable, et même de traduire à la volée, c'est de l'IA. Quand dans photos tu cherches des photos où apparaissent ton chat, ou un bateau, c'est aussi de l'IA. Etc.. L'IA est disponible déjà chez  depuis un moment quand même.

avatar Emile Courrier | 

@guibrush : je serais plutôt d'accord sur le fond... Mais il est déjà trop tard : les IA sont là et elles vont rester... Au moins jusqu'à ce qu'on considère qu'elles présentent plus d'inconvénients que d'avantages (et ce n'est probablement pas demain la veille).
La question qu'il convient de se poser, en fait, c'est : quelles régulations sur les IA ? Sur leur emploi, sur les droits d'auteur, etc...

@yod75 : Tout le monde se réveille parce que l'apparition de ChatGPT a forcé tout le monde à communiquer sur un sujet que beaucoup dans la tech travaillent, mais pensaient avoir plus de temps pour peaufiner. Comme dans d'autres domaines, les entreprises communiquent sur le sujet parce qu'elles craignent d'apparaître comme dépassées si elles ne le font pas... Et aussi parce qu'un certain nombre d'entre elles n'ont pas grand-chose d'autre sur quoi communiquer (et vendre, évidemment) : au niveau processeurs, il n'y a pas de révolution (même l'évènement créé par Apple avec ses processeurs ARM a fait long feu), qu'il n'y en a pas non plus sur les GPU, les écrans, les batteries... Tous ces domaines progressent, mais il n'y a pas de rupture telle qu'on pourrait communiquer à foison dessus... l'IA est un bouleversement, un changement de paradigme, par ce qu'elle permet et ce qu'elle induit... ...et qui va arriver assez rapidement... Passionné de photo, j'imagine ce que pourrait donner un logiciel de cataloguage de photos comme Lightroom, par exemple, (essentiel pour les pros, les amateurs avancés, les banques d'images,...) auquel on aurait adjoint une IA : le classement, la création et la gestion de bases de données en sera grandement simplifié...
Et comme le domaine des bases de données prend une part croissante dans de multiples domaines, y compris et à commencer par nos bons vieux sites Web, les évolutions possibles sont vertigineuses... ...Et ne se feront pas dans ce domaine, comme dans d'autres, sans heurts (suppression d'emplois, création de nouveaux métiers..., bouleversement de méthodes de travail..., et éventuellement aussi une surveillance accrue des citoyens au nom de la sécurité :-/ )...
La chance que représente cette émergence quasi-prématurée de l'IA, c'est que c'est une opportunité de nous préparer à ce qui va advenir... ...Histoire d'éviter éventuellement qu'un avatar de Cyberdyne ne nous pète à la gueule...

avatar BeePotato | 

Il est impossible que ce modèle existe, puisque d’après un spécialiste croisé dans ces commentaires il n’y a pas longtemps, Apple a « loupé le train de l’IA » et ne sera pas en mesure de sortir le moindre modèle avant des années. 😉

avatar bunam | 

Mon opinion : les IA déversent, avec l'aide des humains, sur le net des éléments que je considère comme nocifs comme des microplastiques. Les IA se servent de ce qu'il y a sur le net pour exister. Elles sont en train de s'autopolluer.
Apple semble prendre un chemin différent pour alimenter son monstre, en sélectionnant soigneusement ce qu'il va manger. Il se pourrait que celui d'Apple soit moins nocif.

avatar Glop0606 | 

Marrant de ne pas avoir mis cette news en gras... Perso, je pense qu'Apple a été complétement pris par surprise avec Open Ai. Cependant c'est Apple et à mon avis la WWDC va être l'une des plus importantes des dernières années. Comme d'habitude Apple arrivera avec des usages et non des fonctions bricolées et finies à la truelle (coucou MS). Le plus gros atout d'Apple comme toujours reste sa maîtrise Hardware/Software et je pense même que la sortie prématurée des M3 a à voire avec l'IA. Il y a de grandes chances que la mémoire partagée soit aussi un gros atout pour l'IA (sauf pour les 8Go). En tout cas Apple est un vendeur d'Hardware et donc il est important qu'Apple trouve une utilité à ses Apple Silicon. Donc l'IA en local pourrait être le nouveau relais de croissance du matériel Apple.
En tout cas j'attends beaucoup d'Apple: Un Siri qui aura dépassé le niveau du poulpe, photos qui sera encore mieux gérer la bibliotèque+fonctions sympa genre correction des flous etc,, imovie qui nous fera des vidéos automatisées, etc...
Mais pour moi la cerise sur la gâteau serait qu'Apple lance son moteur de recherche mais sauce IA et donc enfin la possibilité de se passer de Google. La rémunération: Pas de pub, inclus dans l'abo icloud +...

avatar raoolito | 

" je pense même que la sortie prématurée des M3 a à voire avec l'IA."
nope, c'est la sortie retardee des M2 qui a eu à voir avec les difficultiées de productions de TSMC :P

CONNEXION UTILISATEUR