Ouvrir le menu principal

MacGeneration

Recherche

Meta lance une IA qui sait discerner et trier les objets d'une image sans les avoir vus auparavant

Félix Cattafesta

jeudi 06 avril 2023 à 10:46 • 38

Ailleurs

Meta vient de présenter un nouveau modèle d'intelligence artificielle baptisé « Segment Anything Model » (SAM). Celui-ci peut identifier les différents objets d'une image, même ceux qu'il n'a jamais rencontrés pendant sa période d'entraînement.

Image : Meta.

Meta explique que cette nouveauté offre une grande avancée par rapport aux techniques précédentes. Auparavant, il existait deux méthodes pour classer massivement les objets d'une banque d'images : une manuelle nécessitant la présence d'un humain guidant la machine, et une seconde automatique utilisant d'énormes bases de données annotées manuellement pour l'apprentissage. Ce nouveau modèle promet de changer la donne.

« SAM est suffisamment général pour couvrir un large éventail de cas d'utilisation et peut être utilisé d'emblée dans de nouveaux "domaines" d'images - qu'il s'agisse de photos sous-marines ou de microscopie cellulaire - sans nécessiter de formation supplémentaire », explique Meta. L'entreprise affirme que c'est une première dans le domaine. Le modèle a été entraîné pendant 3 à 5 jours sur 256 GPU A100 et peut désormais analyser des images directement en local depuis un navigateur. Il ne fonctionne pas encore complètement avec les vidéos, Meta précisant qu'il ne peut traiter que des frames individuelles.

Démo de SAM, accessible en ligne.

Une démo a été mise en ligne permettant de mieux comprendre comment tout cela fonctionne. Il est possible de demander à l'IA d'analyser une image de son choix ou tirée d'une galerie d'exemples. On peut ensuite détourer les objets simplement en cliquant dessus, en les entourant d'une boîte ou en appuyant sur un bouton offrant de tout extraire. Plus tard, il sera même possible d'écrire simplement l'objet que l'on veut retrouver pour que l'IA fasse le tri (chats, chaise, etc.).

Cette nouveauté devrait permettre de simplifier l'analyse et le traitement des images : il sera beaucoup plus facile de détecter et de classifier un type d'objets spécifiques dans une énorme base de données de clichés. La technologie pourra aussi servir pour la retouche de photos ou dans le monde de l'AR/VR, permettant au casque de mieux comprendre les objets qu'il a en face de lui.

Image : Meta.

Meta explique avoir utilisé son outil pour construire le plus grand ensemble de données de segmentation à ce jour, avec plus d'un milliard de masques tirés de « 11 millions d'images sous licence et respectant la vie privée ». La base de données (nommée SA-1B) a été créée en même temps que SAM : des annotateurs indiquaient ce qui se trouvait sur les images analysées par l'IA, qui était ensuite mis à jour avec ces nouvelles données. Ce cycle a été répété de nombreuses fois jusqu'à obtenir un modèle complet.

Si Meta concède que sa base dispose de certaines lacunes en lien avec des régions géographiques sous-représentées, SA-1B ferait bien mieux que la concurrence niveau qualité. « Nous avons analysé les biais potentiels de notre modèle en fonction du sexe, du teint et de la tranche d'âge perçus des personnes, et nous avons constaté que SAM fonctionne de manière similaire dans les différents groupes », explique le texte.

Les deux modèles sont disponibles sur Github sous des licences non commerciales. Cette présentation permet à Meta d'affirmer sa place de pointure dans le domaine de l'IA. En interne, l'entreprise dispose déjà d'équivalents à DALL-E pour l'image et la vidéo, et a publié son alternative open source à GPT-3. Hier, elle a annoncé vouloir lancer un modèle offrant de générer des publicités d'ici la fin de l'année.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Bon plan : le MacBook Air M2 avec 16 Go de RAM à 825 €, un prix record 🆕

05/05/2025 à 23:09

• 2


Pourquoi votre Mac mérite un écran BenQ (et pas juste un moniteur générique) 📍

05/05/2025 à 17:05

• 0


Scroll to Zoom, un utilitaire gratuit pour zoomer en tournant la molette de votre souris

05/05/2025 à 16:42

• 11


Apple pas peu fière de lancer un nouveau bracelet Pride pour l’Apple Watch

05/05/2025 à 15:37

• 133


Starlink lance un routeur mini pour accompagner son antenne mini

05/05/2025 à 12:33

• 4


MailMaven, un nouveau client mail déjà bien équipé en fonctions et options de tri

05/05/2025 à 11:45

• 20


Comme prévu, Skype a fermé ses portes au profit de Microsoft Teams

05/05/2025 à 08:31

• 18


Tim Cook, absent de la commémoration des 100 jours de Donald Trump, envoie ses remerciements depuis l’Apple Park

04/05/2025 à 21:15

• 50


Test du Chipolo Pop, le traqueur Bluetooth multi-réseau (Apple ou Google) qui innove

04/05/2025 à 20:17

• 12


iPhone Air, Pro et pliable : Apple prépare de grands bouleversements

03/05/2025 à 18:51

• 99


Quelle est la capacité de stockage de votre Mac ?

03/05/2025 à 15:00

• 140


Fnac : 10 € offerts tous les 100 € sur des produits Apple et autres

03/05/2025 à 08:32

• 7


Sortie de veille : Apple tient bon la barre, mais cela va-t-il durer ?

03/05/2025 à 08:00

• 25


TikTok écope de 530 millions d’euros d'amende en Union européenne

02/05/2025 à 21:45

• 57


Apple aurait intégré l’IA Claude dans une version interne de Xcode, enterrant un peu plus Swift Assist

02/05/2025 à 20:45

• 36


Enfin une solution simple pour télécharger vos vidéos et playlists préférées sur YouTube

02/05/2025 à 17:35

• 0