Ouvrir le menu principal

MacGeneration

Recherche

Meta lance une IA qui sait discerner et trier les objets d'une image sans les avoir vus auparavant

Félix Cattafesta

jeudi 06 avril 2023 à 10:46 • 38

Ailleurs

Meta vient de présenter un nouveau modèle d'intelligence artificielle baptisé « Segment Anything Model » (SAM). Celui-ci peut identifier les différents objets d'une image, même ceux qu'il n'a jamais rencontrés pendant sa période d'entraînement.

Image : Meta.

Meta explique que cette nouveauté offre une grande avancée par rapport aux techniques précédentes. Auparavant, il existait deux méthodes pour classer massivement les objets d'une banque d'images : une manuelle nécessitant la présence d'un humain guidant la machine, et une seconde automatique utilisant d'énormes bases de données annotées manuellement pour l'apprentissage. Ce nouveau modèle promet de changer la donne.

« SAM est suffisamment général pour couvrir un large éventail de cas d'utilisation et peut être utilisé d'emblée dans de nouveaux "domaines" d'images - qu'il s'agisse de photos sous-marines ou de microscopie cellulaire - sans nécessiter de formation supplémentaire », explique Meta. L'entreprise affirme que c'est une première dans le domaine. Le modèle a été entraîné pendant 3 à 5 jours sur 256 GPU A100 et peut désormais analyser des images directement en local depuis un navigateur. Il ne fonctionne pas encore complètement avec les vidéos, Meta précisant qu'il ne peut traiter que des frames individuelles.

Démo de SAM, accessible en ligne.

Une démo a été mise en ligne permettant de mieux comprendre comment tout cela fonctionne. Il est possible de demander à l'IA d'analyser une image de son choix ou tirée d'une galerie d'exemples. On peut ensuite détourer les objets simplement en cliquant dessus, en les entourant d'une boîte ou en appuyant sur un bouton offrant de tout extraire. Plus tard, il sera même possible d'écrire simplement l'objet que l'on veut retrouver pour que l'IA fasse le tri (chats, chaise, etc.).

Cette nouveauté devrait permettre de simplifier l'analyse et le traitement des images : il sera beaucoup plus facile de détecter et de classifier un type d'objets spécifiques dans une énorme base de données de clichés. La technologie pourra aussi servir pour la retouche de photos ou dans le monde de l'AR/VR, permettant au casque de mieux comprendre les objets qu'il a en face de lui.

Image : Meta.

Meta explique avoir utilisé son outil pour construire le plus grand ensemble de données de segmentation à ce jour, avec plus d'un milliard de masques tirés de « 11 millions d'images sous licence et respectant la vie privée ». La base de données (nommée SA-1B) a été créée en même temps que SAM : des annotateurs indiquaient ce qui se trouvait sur les images analysées par l'IA, qui était ensuite mis à jour avec ces nouvelles données. Ce cycle a été répété de nombreuses fois jusqu'à obtenir un modèle complet.

Si Meta concède que sa base dispose de certaines lacunes en lien avec des régions géographiques sous-représentées, SA-1B ferait bien mieux que la concurrence niveau qualité. « Nous avons analysé les biais potentiels de notre modèle en fonction du sexe, du teint et de la tranche d'âge perçus des personnes, et nous avons constaté que SAM fonctionne de manière similaire dans les différents groupes », explique le texte.

Les deux modèles sont disponibles sur Github sous des licences non commerciales. Cette présentation permet à Meta d'affirmer sa place de pointure dans le domaine de l'IA. En interne, l'entreprise dispose déjà d'équivalents à DALL-E pour l'image et la vidéo, et a publié son alternative open source à GPT-3. Hier, elle a annoncé vouloir lancer un modèle offrant de générer des publicités d'ici la fin de l'année.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Samsung devrait produire le capteur photo de l’iPhone 18

07/08/2025 à 21:50

• 7


OpenAI présente GPT-5, encore plus rapide, et plus sûr

07/08/2025 à 21:15

• 50


Ces articles du Club iGen passent en accès libre : découvrez nos contenus premium

07/08/2025 à 21:07

• 1


Test des MacBook Air M4 : faut-il lâcher la M1 ?

07/08/2025 à 21:02

• 42


Seconde bêta publique pour macOS 26

07/08/2025 à 19:45

• 7


Une déclinaison spéciale MacGeneration pour l'iPhone 17 Pro ? 🆕

07/08/2025 à 18:17

• 59


Fuite de données chez Air France : les informations personnelles de certains passagers dans la nature

07/08/2025 à 16:52

• 29


Fin de partie pour l’offre gratuite du gestionnaire de mots de passe Dashlane

07/08/2025 à 15:21

• 21


Le premier MacBook Pro OLED sortirait bien en fin d’année prochaine

07/08/2025 à 14:30

• 9


Homebrew 4.6 intègre son propre serveur MCP et commence à gérer macOS Tahoe

07/08/2025 à 14:00

• 11


Pourquoi l'arrivée d'uBlock Origin Lite sur Safari est un événement

07/08/2025 à 12:07

• 21


Plans en eau trouble : quand Apple renomme le Léman « Lac de Genève »

07/08/2025 à 11:15

• 60


OpenAI dévoilera aujourd’hui GPT-5, un modèle qui devrait faire la synthèse de ses dernières innovations

07/08/2025 à 10:19

• 22


Mission réussie pour Tim Cook : Apple échappe aux nouveaux droits de douane

07/08/2025 à 07:44

• 89


Les données de 6 millions de clients Bouygues dans la nature, IBAN compris

07/08/2025 à 07:43

• 96


100 % du verre pour iPhone et Apple Watch rapatrié aux USA, dans un contrat à 2,5 milliards de dollars

06/08/2025 à 23:30

• 16