Meta lance une IA qui sait discerner et trier les objets d'une image sans les avoir vus auparavant

Félix Cattafesta |

Meta vient de présenter un nouveau modèle d'intelligence artificielle baptisé « Segment Anything Model » (SAM). Celui-ci peut identifier les différents objets d'une image, même ceux qu'il n'a jamais rencontrés pendant sa période d'entraînement.

Image : Meta.

Meta explique que cette nouveauté offre une grande avancée par rapport aux techniques précédentes. Auparavant, il existait deux méthodes pour classer massivement les objets d'une banque d'images : une manuelle nécessitant la présence d'un humain guidant la machine, et une seconde automatique utilisant d'énormes bases de données annotées manuellement pour l'apprentissage. Ce nouveau modèle promet de changer la donne.

« SAM est suffisamment général pour couvrir un large éventail de cas d'utilisation et peut être utilisé d'emblée dans de nouveaux "domaines" d'images - qu'il s'agisse de photos sous-marines ou de microscopie cellulaire - sans nécessiter de formation supplémentaire », explique Meta. L'entreprise affirme que c'est une première dans le domaine. Le modèle a été entraîné pendant 3 à 5 jours sur 256 GPU A100 et peut désormais analyser des images directement en local depuis un navigateur. Il ne fonctionne pas encore complètement avec les vidéos, Meta précisant qu'il ne peut traiter que des frames individuelles.

Démo de SAM, accessible en ligne.

Une démo a été mise en ligne permettant de mieux comprendre comment tout cela fonctionne. Il est possible de demander à l'IA d'analyser une image de son choix ou tirée d'une galerie d'exemples. On peut ensuite détourer les objets simplement en cliquant dessus, en les entourant d'une boîte ou en appuyant sur un bouton offrant de tout extraire. Plus tard, il sera même possible d'écrire simplement l'objet que l'on veut retrouver pour que l'IA fasse le tri (chats, chaise, etc.).

Cette nouveauté devrait permettre de simplifier l'analyse et le traitement des images : il sera beaucoup plus facile de détecter et de classifier un type d'objets spécifiques dans une énorme base de données de clichés. La technologie pourra aussi servir pour la retouche de photos ou dans le monde de l'AR/VR, permettant au casque de mieux comprendre les objets qu'il a en face de lui.

Image : Meta.

Meta explique avoir utilisé son outil pour construire le plus grand ensemble de données de segmentation à ce jour, avec plus d'un milliard de masques tirés de « 11 millions d'images sous licence et respectant la vie privée ». La base de données (nommée SA-1B) a été créée en même temps que SAM : des annotateurs indiquaient ce qui se trouvait sur les images analysées par l'IA, qui était ensuite mis à jour avec ces nouvelles données. Ce cycle a été répété de nombreuses fois jusqu'à obtenir un modèle complet.

Si Meta concède que sa base dispose de certaines lacunes en lien avec des régions géographiques sous-représentées, SA-1B ferait bien mieux que la concurrence niveau qualité. « Nous avons analysé les biais potentiels de notre modèle en fonction du sexe, du teint et de la tranche d'âge perçus des personnes, et nous avons constaté que SAM fonctionne de manière similaire dans les différents groupes », explique le texte.

Les deux modèles sont disponibles sur Github sous des licences non commerciales. Cette présentation permet à Meta d'affirmer sa place de pointure dans le domaine de l'IA. En interne, l'entreprise dispose déjà d'équivalents à DALL-E pour l'image et la vidéo, et a publié son alternative open source à GPT-3. Hier, elle a annoncé vouloir lancer un modèle offrant de générer des publicités d'ici la fin de l'année.

avatar tupui | 

Bravo 🎉 surtout la partie dataset pour créer le modèle ! On est à des années lumières de OpenAI en terme d’éthique, moral, l’égalité, juste de respect…

Oh et le papier en lui même est x1000 plus intéressant que les 70 pages vide de sens de OpenAI. Ici on a de vrais analyses et descriptions approfondies du modèle.

avatar jujulec | 

@tupui
Pour l'AI, Meta planche également à en injecter dans leur générateur de pubs, là je ne pense pas qu'il mettrons à notre disposition une "analyse" aussi poussée...
Mais bon, ça fait du bien de voir que chez Meta ce cher docteur jekyll n'a pas été totalement digéré par son double néfaste !

avatar tupui | 

@jujulec

Oui il faut séparer ce qu’ils font de manière ouverte et philanthropique: FAIR et CZI

avatar Scooby-Doo | 

@tupui,

Enfin réussir à mettre les mots « Facebook » et « respectant la vie privée » dans le même article, c'est un exploit olympique !

😁

Surtout que question analyse beaucoup trop profonde de la vie privée, Facebook est un des leaders de cette industrie de pointe !

👌

avatar tupui | 

@Scooby-Doo

Justement non ce n’est pas Facebook. C’est FAIR et une partie des choses financées par CZI. Strictement rien à voir et pas contrôlé par FB. Eg PyTorch qui est même dans la Linux foundation. Google et aussi MS ont des choses similaires.

avatar Scooby-Doo | 

@tupui,

« Justement non ce n’est pas Facebook. »

Okay. Mais Facebook c'est quand même bien Meta à la base ! Vous pensez vraiment que Facebook ne va pas utiliser ces IA à des fins commerciales ?

😉

avatar tupui | 

@Scooby-Doo

Si bien sur et c’est pour cela qu’ils financent c’est activités. Je dis juste que les divisions sont bien séparées et ont des objectifs et méthodes de fonctionnement bien différentes.

avatar v1nce29 | 

OpenAi utilisé les datasets publics à destination des chercheurs péniblement annotés par ceux-ci sur des images collectées sans forcément trop se soucier du droits d'auteur.
Facebook utilisent les images fournies et annotées par leurs auteurs qui ont renoncé à tous leurs droits en s'inscrivant à FB.
Pas sûr que ça fasse une différence considérable.
Sauf légalement.

avatar tupui | 

@v1nce29

Pas du tout pour FAIR, qui encore une fois n’est pas FB. Lisez leur papier et aussi celui de OpenAI. OpenAI on ne sait pas ce qu’ils font et s’ils ont même légalement le droit de le faire. FAIR est on ne peut plus carré pour le coup.

(Je suis maintainer open source.)

avatar Ensearque | 

Bonjour,

Projet très impressionnant. Si j’ai le temps, je pense essayer de faire du fine-tuning ou du transfer-learning sur des images médicales.

J’apprécie beaucoup la manière dont Meta est très transparent sur la méthode et les données utilisées. Sûrement pour ça que leur papier sont souvent récompensés.

avatar Scooby-Doo | 

@Ensearque,

« J’apprécie beaucoup la manière dont Meta est très transparent sur la méthode et les données utilisées. »

Je vois surtout cette transparence pour couper l'herbe sous les pieds de la concurrence !

Ils se tirent tous la bourre pour publier en premier des articles très transparents pour prouver qu'ils sont les découvreurs.

J'ai aucun doute que dès que cela va toucher leur business model, tout va devenir super opaque !

L'algorithme de Google pour classer les liens trouvés est transparent lui ?

🙃

avatar clive-guilde | 

@Ensearque

Si vous le faite sur des images médicales (c’est aussi mon domaine) et que vous avez un GitHub je suis preneur +++

avatar Mike Mac | 

Avec tout ce qui fuse de partout en matière d'intelligence artificielle, va-t-on encore entendre les sirènes de la mort du Mac ?

Avec l'IA rédactrice, l'IA qui synthétise, l'IA qui invente les pubs et les formules qui font mouche, l'IA qui créé les illustrations, l'IA qui fait la mise en page, l'IA qui détoure les images, l'IA qui fait des vidéos, et plus demain... La seule chose qui va compter, c'est un PC avec beaucoup de RAM et une belle carte graphique à la mémoire généreuse pour favoriser la vitesse des requêtes des créatifs dopés à l'IA.

Les métiers artistiques symboles de la vitalité des ordinateurs Apple vont-il fondre comme neige au soleil et les ventes de Mac s'effondrer ?

Même la rédaction de Macge est en train de changer. Bientôt, il ne restera plus qu'un rédacteur en chef, et un stagiaire qui manipule des entités IA.

Bob l’éponge qui aspire et compresse des articles US sur Apple et les concasse en news.. Yetanothergrigri qui rédige des articles de fond en picorant à gauche et à droite de quoi nourrir la voracité des lecteurs. Sicile et Scout Bidou, IA dévoluées à la causette en boucle qui sévissent à la rubrique Commentaires, Tsin Pao qui fait la mise en page et bricole des funny illustrations. Peau de castor qui bricole de savants podcasts avec les voix suaves de Jeanne Moreau et de Gérard Depardieu. Et enfin la vidéo qui fait son apparition avec Cam Lolotte réalisatrice virtuelle lancée dans des comparatifs sans fin, habituée à plonger dans les recoins de Youtube. Même qu'elle a réussi à comparer une tablette summérienne au futur iPad 15'. Du grand art !

Enfin, un gros PC assisté d’une centaine de cartes Nvidia suffit pour fabriquer le tout à la vitesse de l’éclair. Emmaüs a même récupéré les vieux Mac de la rédac…

Grâce à ces économies drastiques, Macge devient très rentable et le patron peut enfin créer un emploi aussi virtuel que les IA pour sa nouvelle fiancée. Laquelle pourra même prétendre à sa carte de presse sans avoir eu à rédiger une ligne.

Ainsi le futur devient plus facile à prédire avec l’IA Madame Irma qui a réponse à tous vos problèmes. D’ailleurs la rubrique horoscope des magazines sera produite à bon escient par une IA. Emplois bidons qu’il était temps de supprimer !

avatar oomu | 

@Mike Mac

"maintenant, il ne reste plus que Bob et moi pour gérer la boîte et allumer l'Ordinateur Central. Mais depuis quelques temps Bob me regarde drôle...et y a cette clameur dehors..."

avatar occam | 

@Mike Mac

📇 « Même la rédaction de Macge est en train de changer. Bientôt, il ne restera plus qu'un rédacteur en chef, et un stagiaire qui manipule des entités IA. »

Les noms ! On veut les noms !

Sur un autre plan : extrapolant avec un gros grain de sel (une saline, plutôt) votre scénario de la n-ième mort annoncée du Mac, « death by AI », une autre voie est envisageable. Apple développant à fond Neural Engine pour permettre de réaliser en local tout ce qui peut l’être. Au besoin, se rabibochant avec Nvidia. Fantasque ? Absolument. Absurde ? Pas plus que ce qui se fait aujourd’hui, y compris chez Apple.

Remarquez, la mort du Mac, en principe, je n’ai plus rien contre. Surtout à cause du culte autour, qui a des traits démentiels. À défaut de quoi, une évolution dans un sens utile et intelligent ne ferait pas plus mal.

One more thing : « comparer une tablette summérienne au futur iPad 15' »
Si même xkcd vient de jouer à ce jeu… https://xkcd.com/2758/
(Bon, elle est en akkadien, pas en sumérien, mais elle provient d’Ur, c’est une tablette cunéiforme, ne chipotons pas notre meme mésopotamien.)
Pour plus :
Texte : https://cdli.mpiwg-berlin.mpg.de/search?layout=full&id=P414985
Explication : https://en.wikipedia.org/wiki/Complaint_tablet_to_Ea-nasir

avatar Scooby-Doo | 

@occam,

« Apple développant à fond Neural Engine pour permettre de réaliser en local tout ce qui peut l’être. Au besoin, se rabibochant avec Nvidia. Fantasque ? »

De ce que j'ai compris, Neural Engine, c'est plutôt pour exécuter des IA de types filtres : amélioration de l'image, suppression de bruit, augmentation de la sensibilité, etc.

Mike Mac évoque plutôt des IA sur de larges dataset ! Il voit l'IA en grand !

Concernant nVidia, après les problèmes de GPU sur certains ordinateurs portables Apple, je pense que Apple a tourné le dos à nVidia. Apple préfère AMD pour des solutions dédiées !

👌

« Bon, elle est en akkadien, pas en sumérien, mais elle provient d’Ur, c’est une tablette cunéiforme, ne chipotons pas notre meme mésopotamien. »

Mais comment faites-vous pour hisser systématiquement le débat à des niveaux stratosphériques alors que dans le même temps, je m'efforce automatiquement de ramener le débat au ras des pâquerettes !

😁

Bon, on se fait une partie de Scrabble en Cunéiforme sumérien histoire de se détendre les neurones ?

🙃

avatar occam | 

@Scooby-Doo

🧩 "Bon, on se fait une partie de Scrabble en Cunéiforme sumérien histoire de se détendre les neurones ?"

Hélas, non, SUMER et SUMERIAN ne seraient pas valables au scrabble.
https://1word.ws/sumer

CUNEIFORM en revanche, si.

Mais un scrabble cunéiforme poserait de nombreux autres problèmes. Ce serait un peu comme une partie d’échecs multidimensionnelle, où l’on glisserait selon les pièces et leurs mouvements vers des dimensions supplémentaires.

Tenez, un exemple fameux : sur le « prisme royal » de Sennacherib, colonne 1, ligne 10, les cunéiformes KUR.U₂ sont placés directement au-dessus des signes U₂.KUR dans la ligne suivante.
KUR.U₂ se lit en akkadien šadû, « montagne ».
U₂.KUR en revanche est décomposé en syllabes, ú-šat, qui dénotent l’expression ú-šat-(li-ma-an-ni-ma), « a exaucé mon vœu ».

Cette juxtaposition « orthocalligraphique », comme l’appellent les assyriologues, joue sur l’homotypie, l’hétérophonie, la paronomase par inversion de l’ordre de lecture linéaire horizontal et vertical.
Les acrostiches, les amphiboles, les anagrammes, les anastrophes, les antanaclases — pour ne citer que les figures commençant par « A » — sont fréquents et structurent intégralement la lecture des textes.

Notre pauvre scrabble opérant sur un système alphabétique et sur des syllabes qui ne portent pas de sens propre y serait abominablement inadapté.

D’ailleurs, c’est l’une de mes réticences majeures à l’égard des LLM qui ont la cote en ce moment : les systèmes linguistiques sur lesquels ils sont bâtis et entraînés sont d’une pauvreté affligeante par rapport à ce que savait faire et représenter un scribe il y a 4000 ans.

avatar Scooby-Doo | 

@occam,

« Cette juxtaposition « orthocalligraphique », comme l’appellent les assyriologues, joue sur l’homotypie, l’hétérophonie, la paronomase par inversion de l’ordre de lecture linéaire horizontal et vertical.

Les acrostiches, les amphiboles, les anagrammes, les anastrophes, les antanaclases — pour ne citer que les figures commençant par « A » — sont fréquents et structurent intégralement la lecture des textes. »

Dyslexique, vous êtes ? Vraiment ?

😉

1. vous me copierez 10 fois « chromométamérisme » ;

2. vous direz rapidement à voix haute 10 fois : « piano, panier, panier, piano ».

Prochaine partie de Scrabble en Rune puisque vous insistez pour avoir toujours raison !

😁

avatar occam | 

@Scooby-Doo

• « Dyslexique, vous êtes ? Vraiment ? »
Ben ouais.
J’ai appris, laborieusement, à faire très, très attention.

• « chromométamérisme »
Ça, je vous le copie aveugle, et pas par ctrl-C.
À mon premier labo, je faisais la colorimétrie.
Sérendipité : vous m’auriez mis un autre mot, vous m’auriez eu.

• “ vous direz rapidement à voix haute 10 fois : « piano, panier, panier, piano » ”
Ça, en revanche, non. Because dysphasie. Je peux, grâce à un long entraînement logopédique, mais pas rapidement, et pas à répétition.

• « Rune ».
J’ai d’abord lu « Dune ». C’est dire.
Et je me suis demandé si j’avais souvenir de scrabble sur Arrakis, et si je saurais le faire en chakobsa. Croiser « Ptschakoaentsche » avec « Tkemeschae », ça va ? Pour combien de points ?
(Chakobsa aurait pour moi l’avantage de ressembler aux langages imaginaires que j’écrivais, gamin dyslexique, et que personne ne savait lire.)

avatar Scooby-Doo | 

@Mike Mac,

« Scout Bidou »

Serait-ce de moi que l'on parle ?

😁

Mais pourquoi mon nom illustre a-t-il été massacré à la tronçonneuse Stihl ainsi ? Qu'ai-je donc fait de si abominable des neiges que celà ?

😁

Sinon +1000 pour votre prédiction d'un macg entièrement automatisé avec des IA un peu partout à tous les étages !

😬

Si on y réfléchit bien, chez macg un certain M. B. dont je cache pudiquement le nom pour éviter qu'il ne soit reconnu, est une IA sur pattes à lui tout seul !

En plus, c'est une IA assez sobre question consommation électrique. La bestiole offre de belles performances à faire pâlir d'envie une A100 jalouse et rancunière !

👍

Par contre, pour la nourriture, le rendement est encore beaucoup trop faible ! Dès qu'on réduit l'apport en calories, la bestiole ralentie de façon dramatique !

😁

Pour information : ce n'est pas Sicile mais Silice comme dans Apple Silicone, un peu comme ses pectoraux musclés !

😉

avatar monsieurg33K | 

Parfait pour trouver où est Charlie.

Espérons qu’ils mettent ça à profit de leurs outils de modération histoire de pas bloquer injustement des contenus d’art, et inversement.

avatar Paquito06 | 

@monsieurg33K

“Parfait pour trouver où est Charlie.
Espérons qu’ils mettent ça à profit de leurs outils de modération histoire de pas bloquer injustement des contenus d’art, et inversement.”

C’est pas facile, mais c’est aussi le but. Les utilisateurs finaux ne voient pas tout ce qui se trame en coulisse, mais y a quand meme un paquet d’humains qui postent des milliers de videos degueulasses en tout genre sur les reseaux sociaux en permanence (ca va du terrorisme a la pedophilie en passant par le sang et les armes), et faut bien l’aide de l’IA pour les traiter immediatement. Alors des fois c’est un teton legitime (art) qui se fait bloquer par l’IA, ca fait partie des dommages collateraux. Mieux vaut ca que de laisser passer certaines videos qui donneraient des cauchemars. C’est le jeu du chat et de la souris, t’as une poignee d’ingenieurs en machine learning a Meta qui se battent contre le reste du monde, dès qu’un algorithme est mis en avant, y aura un con pour contourner cela et poster une video qui n’a pas sa place en ligne, passant la moderation de l’IA.

avatar Chris K | 

Il se pourrait bien, que, subtilement et en silence, Meta abandonne sont Metaverse dans un fond de tiroir et s'engage plein pot dans l'AI...

avatar Paquito06 | 

@Chris K

“Il se pourrait bien, que, subtilement et en silence, Meta abandonne sont Metaverse dans un fond de tiroir et s'engage plein pot dans l'AI...”

Ce n’est pas a l’ordre du jour. Meta travaille sur l’IA depuis un moment (comme adobe, google, etc.) mais a recemment (comme les copains) fait de l’IA une priorite, mettant au second plan les autres projets. Le metaverse est encore un gros projet, trop mediatisé avant l’heure.

avatar Scooby-Doo | 

@Paquito06,

« Le metaverse est encore un gros projet, trop mediatisé avant l’heure. »

Le métavers, le truc bien moisi des pieds qui n'intéresse que quelques geeks.

À ranger dans le placard avec les casques de réalité virtuelle qui vous donne envie de vomir !

Inutiles et finiront avec Stadia et d'autres cadavres de l'Internet 3.0 !

🙃

avatar Paquito06 | 

@Scooby-Doo

Possible. Faudra vivre un peu plus longtemps pour voir 😅

avatar Scooby-Doo | 

@Paquito06,

« Possible. Faudra vivre un peu plus longtemps pour voir 😅 »

Ben faut effectivement que l'on ait le temps d'y arriver car un certain V. P., dont je cache pudiquement le nom pour qu'il ne soit pas reconnu, a une grosse tendance à vouloir utiliser ses jouets atomiques !

🙃

avatar Paquito06 | 

@Scooby-Doo

🤣🤣🤣

avatar Scooby-Doo | 

@Chris K,

« Il se pourrait bien, que, subtilement et en silence, Meta abandonne sont Metaverse dans un fond de tiroir et s'engage plein pot dans l'AI... »

Pourquoi pas, mais alors pourquoi avoir nommé la boîte Meta et pas AI ?

😁

avatar 0MiguelAnge0 | 

@Chris K

Pif quitte le navire, qui reste-t-il? Tom…

avatar oomu | 

" 11 millions d'images sous licence et respectant la vie privée »"

c'est bien de le signaler et donc de prendre en compte ce qui est une légitime exigence.

cela casse l'argument que "pour avancer" (dans le Progrès de l'espèèèèce HumaAAAAine et sa destiné-heu !!) il n'y a pas d'autres choix que d'agir comme un bulldozer s'appropriant le travail d'autrui sans aucune contrainte ni même un accord...

après, le diable est dans le détail, et l'industrie ne paie pas forcément à la hauteur des efforts, mais ça ,c'est le travail continuel de rapport de force et de valoriser son apport.

Au moins on est dans un cadre légal et industriel !

avatar Scooby-Doo | 

@oomu,

« c'est bien de le signaler et donc de prendre en compte ce qui est une légitime exigence. »

Parce que vous pensez que c'est par respect de la vie privée ou plutôt pour se couvrir d'éventuelles poursuites ?

👌

avatar Dr. Kifelkloun | 

Facebook va lancer une IA qui sait discerner et trier les amis d'un humain qui ne les a jamais vus auparavant.
[prospective]

avatar Scooby-Doo | 

@Dr. Kifelkloun,

« Facebook va lancer une IA qui sait discerner et trier les amis d'un humain qui ne les a jamais vus auparavant. »

👍

C'est la première idée d'application concrète pour Facebook qui m'est venu à l'esprit !

👌

avatar Dr. Kifelkloun | 

@Scooby-Doo
On prend les paris qu'ils le feront bientôt ?
Dans Le Monde Selon Zuck, rien n'est impossible... Tout ce qui sera faisable pour posséder un peu plus la vie des utilisateurs sera fait.

avatar Scooby-Doo | 

@Dr. Kifelkloun,

« On prend les paris qu'ils le feront bientôt ? Dans Le Monde Selon Zuck, rien n'est impossible... Tout ce qui sera faisable pour posséder un peu plus la vie des utilisateurs sera fait. »

👍

Je crains en effet que toutes ces IA ouvertes, gratuites, finissent tôt ou tard par avoir des applications commerciales très concrètes et pas toujours à notre avantage !

Et je partage votre idée d'application pae Facebook. Pourquoi s'en priver, ce serait la question pour eux !

🙃

avatar Mike Mac | 

@occam @oomu @Scooby-Doo

Merci pour vos pertinentes ou amusantes réflexions dans la foulée de mon long post.

Le passage sur le futur "iaginaire"* de la rédac de MacGe est une vision du tremblement de terre qui secoue bien des organes de presse dont certains ont déjà commencé à limoger du personnel parmi ses plumitifs. Le groupe de médias Axel Spinger, C.N.E.T ou Microsoft (PA Media) ayant déjà ouvert le bal.

La chute aurait pu être que la créativité dopée à l'IA ayant savonné la planche d'Apple auprès des créateurs consommateurs de Mac & iPad, la firme passe tout son matériel en RISC-V sur l'air connu de "Il faut tout changer ! Ceci est une révolution", histoire de redynamiser son commerce.

Pour le reste en summérien, en runes, en pigyin, en cyrillique, en hiéroglyphes ou autres alphabets, vive les échanges où la culture et l'humour partagent des traits d'esprits sous forme de fulgurances, plus ou moins abouties, mais excellentes pour le mental et la joie de vivre.

avatar clive-guilde | 

Merci beaucoup pour cet article qui me permet de suivre l’actualité en IA toujours utile en imagerie médicale !

CONNEXION UTILISATEUR