Apple achète Emotient, spécialisé dans l'analyse des expressions

Florian Innocente |

Apple s'est offerte une nouvelle startup, baptisée Emotient. Cette information du Wall Street Journal a été confirmée par Apple, sans plus de commentaires. Emotient utilise des techniques d'intelligence artificielle pour analyser les expressions faciales, brèves ou plus longues, et en déduire les émotions exprimées par le visage des sujets.

Le quotidien explique qu'Emotient a travaillé avec des clients dans le domaine de la santé et du commerce. Dans le premier cas des docteurs essayaient de comprendre les signes de douleur exprimés par des patients qui ne pouvaient les formaliser. Dans l'autre, il s'agissait de voir comment des personnes réagissaient à des publicités ou face à des articles lors de leurs déambulations dans un magasin. Emotient a travaillé aussi avec Accenture pour tenter de voir s'il était possible d'anticiper la réponse d'un client face à une proposition financière.

Cette entreprise de San Diego avait précédemment levé 8 millions de dollars auprès d'un fonds d'investissement d'Intel, poursuit le quotidien, mais elle n'avait pu obtenir de nouveaux fonds.

Dans une vidéo de présentation de sa solution, Emotient donne quelques exemples d'utilisation. Comme de trier des images dans une base de photos en fonction des expressions des visages. Un autre implique une automobiliste avec un assistant de conduite qui chercherait à proposer un nouvel itinéraire en fonction de l'humeur décelée par le conducteur.

Tags
avatar tonzman | 

Emotien ou emotaient ?
Je crois que votre correcteur vous joue des tours :)

avatar tonzman | 

Ou même emotient, pardi.

avatar Mathias10 | 

Est-ce vraiment breveté ? J'ai déjà vu 2 produits similaires (qui donnaient l'âge en plus..) et ce n'était pas du tout cette boîte. Et je doute qu'apple s'attaquera à l'entreprise qui faisait le produit en question.

avatar flambi | 

@Mathias10 :
Apple peut très bien acheter pour autre chose que les brevets, à savoir l'expérience ou les équipes qui ont développé le produit

avatar Ginger bread | 

Ajouté à Primesense ?

avatar Splinter | 

Ils vont pouvoir nous dire si la Joconde sourit ou pas.

avatar C1rc3@0rc | 

La tu sous estime le cote taquin de Leonard de Vinci et tu surestime la puissance du pattern matching.

Car la solution dont il est question n'est pas de l'intelligence artificielle, c'est juste du pattern matching associe a un classique système de reconnaissance faciale.
C'est limité et Apple le sait. Donc s'ils sont acheté cette societe c'est pour developper des fonctions gadgets et distrayantes pas pour faire des choses sérieuses.

Et puis il n'y a qu'a regarder la video de demontration qui culmine a un niveau de ridicule rarement atteint. Pour savoir ce que sont les micro-expressions ils auraient du commencer par se passer en boucle la serie Lie to me...

«Cette entreprise de San Diego avait précédemment levé 8 millions de dollars auprès d'un fonds d'investissement d'Intel, poursuit le quotidien, mais elle n'avait pu obtenir de nouveaux fonds.»
On comprend pourquoi...

avatar PiRMeZuR | 

Encore une fois, ton message manque complètement d'à-propos.

Il y a probablement une couche de machine learning dans ce système (comme dans tous les algorithmes de reconnaissance récents), et il s'agit d'une des formes les plus prometteuses d'intelligence artificielle telle qu'on sait en faire actuellement. Évidemment qu'il s'agit de pattern matching, mais ça ne veut pas dire que la technologie est simpliste...

Quant aux usages, on parlait justement de déverrouiller son ordinateur avec la webcam sur ce site, et ce n'est qu'un des nombreux exemples. Contrôler son autoradio en deux clignements, empêcher la mise en veille d'un écran lorsque l'utilisateur lit un contenu, etc... Sans parler de tout ce qui est publicité...

avatar C1rc3@0rc | 

Tu sembles ne pas connaitre grand chose au sujet.
Il s'agit d'un post-traitement qui arrive en fin de chaine apres la capture et la reconnaissance faciale.
Je maintiens que le système est simpliste et qu'il se base sur du pattern matching, donc limité a des registres figés et limités (sans parler de la limite culturelle des expressions considérées)

La reconnaissance faciale, qui peut etre utilisée pour plein de choses, entre autre comme donnée biométrique permettant par exemple l'accès a sa machine fait en réalité plus de chose que le système présent. Pour reconnaitre un visage il faut considérer les expressions émotionnelles comme une divergence, une perturbation (parmi les autres), qu'il faut filtrer et c'est justement la puissance de ce filtre qui fait le degré d'efficacité de la reconnaissance faciale!

Les contrôles par clignement que tu évoques sont utilisés pour offrir de l'indépendance a des personnes souffrant de déficiences moteur importantes (maladie de Charcot, traumatismes vertébraux,etc). Ils ne nécessitent nullement une reconnaissance "émotionnelle", ni même du visage mais un tracking du visage permanent et de détecter la variation simple au niveau des yeux.
On fait d'ailleurs beaucoup mieux puisqu'avec des systèmes relativement simples on peut depuis un moment suivre le regard et déterminer ce qui est regardé.

Garder l'écran allumé lorsque l'utilisateur est devant ne demande même pas d'aller aussi loin, puisqu'il suffit de juste vérifier la présence, même pas besoin de faire de reconnaissance...

Si des publicitaires sont assez stupides pour croire que ce système a une valeur réelle, tant mieux, ça leurs alourdira leurs données et ça nous fera un peu de répit.

Honnêtement, je pense plutôt que ce système de pattern matching va servir dans Photo pour tagger automatiquement les images avec les mots sourire, pas content, tête d'ahurit,etc pour les post sur les réseaux sociaux (style: ouah, t'as vu ta gueule)

avatar CaptainBinouz | 

@C1rc3@0rc :
On sent que tu aimes t'écouter parler mais je suis toutefois tout à fait d'accord avec ton point de vue.

avatar C1rc3@0rc | 

C'est le fait que je constate "Tu sembles ne pas connaitre grand chose au sujet." ou que je suis cynique par rapport au niveau des réseaux sociaux qui te dérange dans la forme?

Si tu me critiques sur la forme mais que tu es d'accord avec les éléments que j'avance cela veut dire que tu connais un peu le sujet, voire que tu es ingénieur et peut etre que tu travaille dans le domaine.
En cela tu peux donc comprendre le cynisme qui m'anime de voir qu'un procédé somme toute banal ou médiocre devienne a cause d'un plan marketing le truc "amazing" avec a la clé des applications "révolutionnaires"!
Si tu te souviens c'est le meme principe qui fait les choux gras de la presse pendant des mois avec l'affaire GT Advanced: tous les pro du secteurs savaient que ce que GT annonçait etait des fadaises, mais les journaleux sont tombés dans le panneau marketing et tout cela est devenu d'un ridicule achevé.
Et ce ne ne serait pas si grave s'il n'y avait derrière des suspicions de délit d'initiés...

En l'occurence il faut aussi se méfier d'Apple en la matière.
On a vu depuis quelques années maintenant (2012?) qu'il y a clairement une dissociation de la realité. Lorsque Apple a voulu concurrencer Google Map avec le ridicule qu'est devenu Plan. Pourtant Apple en a fait du marketing et en a aligné des billets pour essayer de se mettre a niveau: meme aujourd'hui l'app Google Map sur iPhone est toujours largement meilleurs que le Plan d'Apple.

avatar bobibou | 

S'est offert pas offerte
Décidément ces temps ci la syntaxe est en vacances n

avatar ovea | 

Apple s'offre une troupe de théâtre …

Y a dès brevet sur le langage du corps, où il faut juste avoir fait quelque chose comme de la chorégraphie ?

avatar C1rc3@0rc | 

ovea

Une société qui est base sur les travaux de Paul Ekman a en effet deposé des brevets.
Les théories de Ekman basées sur ses recherches sont très contestées surtout par rapport a la dimension socio-culturelle des expressions.
Les applications de ses théories sont aussi critiqués a cause de l'absence de preuves scientifiques. Le psychologue Charles Honts après avoir tenté de reproduire les résultats de Ekman et estimé que l'efficacité de sa theorie appliquée avait autant de chance de déterminer l'émotion véritable qu'en tirant a pile ou face!

La PNL a aussi du se remettre en question sur un sujet proche qui est les mouvements oculaires. Le dogme rapidement présent estimait que les mouvement oculaires étaient universels et que leur interprétation était elle aussi universelle. Aujourd'hui la procedure normale en PNL est d'étalonner a chaque communication la signification de mouvement oculaires et de recouper l'observation par une autre technique (stabilité logique, changement d'état émotionnel non congruent,..)

avatar alan1bangkok | 

sans intérêt pour moi .
ma femme fait toujours la gueule .....

avatar DouceProp | 

Mouahahahahaha !

avatar iDanny | 

@bobibou :
C'est pas faux :)

Et à la fin de l'article, c'est plutôt "l'humeur décelée chez le conducteur", pas "par le conducteur" :B

avatar Un Type Vrai | 

Bizarre que 100% des exemples donnés soit des personnes qui miment des émotions.

Ceci prouve que le système ne fonctionne pas...

Non ?

avatar Michel Binette | 

C1rc3@0rc

Tu aimes VRAIMENT ta propre érudition (que je ne conteste pas).

855 mots, c'est quand même un discours de 10 minutes!

avatar C1rc3@0rc | 

Ah tu as vraiment mis 10 min a lire?
Et tu as lu avant d'écrire ce qui te place déjà dans une certaine elite.

Et je dois pas être non plus si exceptionnel, paraît-il que Twitter va faire sauter la barrière des 140 caractères ;)

avatar vrts | 

mais qui à le temps de lire les pavés de C1rc3@0rc ou Oomu ici ?

j'imagine même pas les avoir en face, ça doit être l'enfer une soirée avec eux...

J'AVAIS une amie qui avait ce talent de parler 10min pour un contenu de 20 sec. Horrible.

avatar ergu | 

Tu as raison : qui peut bien avoir le temps de réfléchir de nos jours quand la vie est si simple et que chaque sujet peut se résumer en deux ou trois slogans à compréhension immédiate ?

avatar vrts | 

raté...
On peut dire des choses complexes et pertinentes en quelques phrases.
Mais tu as le droit d'aimer des pavés de textes qui ne racontent pas grand chose.

avatar ergu | 

Fichtre !
J'attends donc que tu prêches par l'exemple.

avatar C1rc3@0rc | 

@vrts
Si tu peux arriver a condenser sans enlever d'informations, je suis intéressé.
Il me semble n'avoir pas mis de redondance inutile, ni placé de contenu émotionnel/affectif insignifiant (du genre, c'est nul, j'aime pas, rien a faire, ca me gonfle, ca me soule,...)

Un grand merci que de me comparer a Oomu, c'est flatteur.

avatar françois bayrou | 

J'espère qu'ils ne se sont pas basés sur Steven Seagal pour calibrer leur truc

http://geekadelphia.com/wp-content/uploads/2008/04/steven_segal_emotion_chart.jpg

avatar ergu | 

Le logiciel qui sera capable de déceler quoi que ce soit sur le visage de Steven Seagal sera une vraie prouesse technique.

avatar BeePotato | 

@ C1rc3@0rc : « Il s'agit d'un post-traitement qui arrive en fin de chaine apres la capture et la reconnaissance faciale. »

Ben encore heureux que ce traitemetn arrive après la capture plutôt qu’avant ! :-P
Quant à la reconnaissance faciale, elle n’est impliquée à aucun moment dans cette histoire (mais évidemment, si on voulait viser une application utilisant un modèle adapté à l’utilisateur, on glisserait une phase d’identification avant — cependant, je n’ai pas franchement d’idée d’application de la détection d’émotions qui nécessiterait ça).

Je ne vais pas pour autant, moi, avoir l’idiotie de conclure que « tu ne connais pas grand chose au sujet » juste à cause de ces deux petites erreurs.

« Je maintiens que le système est simpliste et qu'il se base sur du pattern matching, donc limité a des registres figés et limités »

Mais qu’est-ce que l’intelligence artificielle, sinon du pattern matching ? Ici, ils expliquent bien que leur reconnaissance exploite des réseaux de neurones (pardon, « deep learning » comme on dit de nos jours), ce qui suffit généralement pour qu’on fasse entrer ça sous le terme ultra-vague d’intelligence artificielle.

Quant aux « registres figés et limités »… ben oui, évidemment, on chercher à reconnaître un gamme limitée d’émotion à partir d’une seule modalité : le visage. Même un humain, si on lui demande d’accomplir cette tâche, se limitera à quelques cas typiques de base. Il n’y a pas tellement de possibilité de faire plus que ça à partir d’une information aussi pauvre. Pour analyser finement l’état émotionnel de quelqu’un, il faut bien plus d’informations que juste une vue 2D de son visage.

Mais ce n’est pas la technique utilisée qui est en cause, c’est la définition même de la tâche (catégorisation d’émotion à partir uniquement d’images 2D du visage). C’est peut-être bien à ça que tu faisais référence quand tu disais que « le système est simpliste », mais ce n’était pas vraiment clair.

avatar C1rc3@0rc | 

Quant à la reconnaissance faciale, elle n’est impliquée à aucun moment dans cette histoire
T'es serieux la?
Comment peux tu faire de l'analyse d'expression si tu ne fais pas de reconnaissance faciale?
Il faut un referenciel neutre pour estimer la divergence qu'entraine une expression émotionnelle et ensuite simplifier cette divergence (pattern simplifié) pour qu'elle corresponde un motif stéréotypé (émotion). C'est du pattern matching, mais il faut bien identifier les traits du visage, donc faut étalonner et ça implique de reconnaitre le visage...
Quand bien même on serait face a une technologie extraterrestre capable de cette prouesse, l'objectif est de lier l'émotion au visage de la personne, donc de reconnaitre la personne...

Mais qu’est-ce que l’intelligence artificielle, sinon du pattern matching ?
Serieux?
Limiter l'intelligence artificielle a du partern matching? Whaou, la je suis soufflé.
L'utilisation d'un filtre mathématique nommé improprement "réseau de neurones" ne suffit pas a qualifier le systeme d'intelligence artificielle. On est face a un traitement statistique élaboré, mais tout de meme.

Bon un exemple: la reconnaissance vocale. On fait appel a du pattern matching pour faire correspondre les sons a des mots identifiés, et a partir de la on obtient des phrases voire des discours entiers.
Il y a meme dans le processus dans certain cas des composants qui sont équipés de "réseau de neurones" pour filtrer des bruits ambiants, ou normaliser les fréquences pour éviter que les différences d'intonations empêchent la reconnaissance.

Mais la reconnaissance vocale c'est pas de l'intelligence artificielle. L'intelligence artificielle elle intervient après, pour interpréter les phrases, donner un sens et plus encore quand il faut pouvoir rentrer dans un processus conversationnel non normalisé.

C'est la même différence entre un correcteur orthographique et un correcteur grammaticale sémantique.

avatar BeePotato | 

@ C1rc3@0rc : « T'es serieux la? »

Oui. En ce qui te concerne, en revanche, j’ai parfois un doute. :-)

« il faut bien identifier les traits du visage, donc faut étalonner et ça implique de reconnaitre le visage... »

Non.
Ça implique de détecter la présence et la position d’un visage (voire de plusieurs, d’après leurs vidéos) et de ses traits. Aucunement de le reconnaître.

Un détection de visage est donc nécessaire. Une reconnaissance d’un visage particulier, non.

« Quand bien même on serait face a une technologie extraterrestre capable de cette prouesse »

Rien d’extra-terrestre là dedans, rassure-toi.

« l'objectif est de lier l'émotion au visage de la personne, donc de reconnaitre la personne... »

Absolument pas.
L’objectif est de détecter une émotion sur un visage. C’est tout.
Cette détection peut se faire dans le cadre d’une application où on aura besoin de connaître l’identité de la personne et où le seul moyen d’identification disponible sera son visage — dans ce cas, et dans ce cas seulement, on aura effectivement besoin de faire aussi, en parallèle de l’identification d’émotion (et non en amont comme tu l’expliquais), une reconnaissance de visage.
Mais on peut tout aussi bien utiliser cette technologie dans le cadre d’une application où on n’a aucun besoin d’identifier la personne dont on détecte les émotions. Des exemples de telles applications sont montrés dans les vidéos de présentation incluses dans l’article. Je t’invite à les visionner. ;-)

avatar BeePotato | 

« Serieux? »

Oui, encore une fois (c’est marrant, cette manie de considérer que les gens peuvent ne pas être sérieux juste parce qu’ils écrivent un truc avec lequel tu n’es pas d’accord).

« Limiter l'intelligence artificielle a du partern matching? Whaou, la je suis soufflé. […] On est face a un traitement statistique élaboré, mais tout de meme. »

Qu’est-ce que l’intelligence, sinon un traitement statistique élaboré ?
C’est en ce sens (donc en ayant une vision large du « pattern matching » et de ses utilisations possibles) qu’il fallait prendre ma remarque.
Mais quelque chose me dit que cet éclaircissement ne te suffira tout de même pas… :-)

« Bon un exemple: la reconnaissance vocale. On fait appel a du pattern matching pour faire correspondre les sons a des mots identifiés »

En fait, non, on les fait généralement correspondre à des phonèmes. C’est ensuite, à partir des diverses suites possibles de phonèmes qui ont été identifiées, qu’on essaye de trouver des phrases qui tiennent à peu près debout.

« Il y a meme dans le processus dans certain cas des composants qui sont équipés de "réseau de neurones" pour filtrer des bruits ambiants, ou normaliser les fréquences pour éviter que les différences d'intonations empêchent la reconnaissance. »

On les utilise pour bien plus que ça, de nos jours.

« L'intelligence artificielle elle intervient après, pour interpréter les phrases, donner un sens et plus encore quand il faut pouvoir rentrer dans un processus conversationnel non normalisé. »

Tu réalises qu’on utilise les mêmes outils pour ça aussi ?

« C'est la même différence entre un correcteur orthographique et un correcteur grammaticale sémantique. »

Ben justement. ;-)

avatar BeePotato | 

Je poursuis :

C’est un système apparemment efficace (si on en croit leurs vidéos de propagande et le fait qu’ils ont réussi à en convaincre Apple) pour une tâche, elle, relativement basique.
Je te rejoins sur les possibles applications chez Apple d’une telle tâche : un mode supplémentaire de classement des clichés dans Photos est ce qui semble le plus évident.
Mais il est aussi bien possible qu’Apple décide d’utiliser ça comme montré dans les vidéos, pour de l’analyse de réaction à des pubs diffusées via un futur modèle d’Apple TV. C’est très américain, ça, de se dire qu’on réagit forcément avec des émotions bien visibles durant une pause de pub (en France, on se contente plutôt d’en profiter pour aller pisser).

Un autre point sur lequel je suis tout à fait d’accord avec toi, c’est la crainte que les ensembles de données utilisés pour l’apprentissage du système soient très culturellement marqués USA. En tout cas, c’est l’impression qui se dégage quand on regarde ces vidéos — mais peut-être son-elles volontairement limitées à un style américains parce qu’elles sont destinées à des Américains, qui sait ?
Ce qui est sûr, c’est que si c’est bien le cas, ce système aura sans doute du mal à fonctionner tel quel dans d’autres parties du monde, notamment en Asie.

avatar DouceProp | 

Apple nous prépare une belle faciale en somme.

CONNEXION UTILISATEUR