Apple achète Lattice Data pour éclairer les « dark data »

Mickaël Bazoge |

Apple se renforce un peu plus dans le domaine de l’intelligence artificielle. Le constructeur s’est offert Lattice Data pour une somme évaluée à 200 millions de dollars. Évidemment, la Pomme n’a pas nommément confirmé l’acquisition, se retranchant derrière l’habituel commentaire « Apple achète de petites entreprises technologiques de temps en temps, et nous ne donnons pas de détails sur nos projets ».

Lattice Data est une entreprise aux compétences singulières : elle a développé un moteur qui avale des « dark data » (des données non structurées : pas de contexte, pas de catégories, pas de tags) pour mieux recracher des données exploitables grâce à la magie de l’apprentissage automatique. La société commercialise DeepDive, un système mis au point à Stanford afin « d’extraire la valeur des données non structurées ».

Ce type de technologie peut par exemple servir dans la recherche médicale. On ignore évidemment ce qu’Apple a derrière la tête, mais on peut penser que la matière grise derrière cet extracteur de « dark data » trouvera son utilité dans Siri, ResearchKit, et dans tous les secteurs où l’intelligence artificielle est exploitée chez Apple (lire : Apple a l'intelligence artificielle discrète mais partout présente).

avatar narugi | 

J'avoue ne pas avoir bien compris après relecture de l'article. Un exemple illustré aurait été plaisant pour comprendre ce qu'est "une donnée non structurée".

avatar Hideyasu | 

@narugi

Des données collectées en vrac, mais ça me paraît étonnant justement de collecter des données sans les classer automatiquement dès la collecte

avatar kubernan | 

@Hideyasu : Peut-être que ces données sont traitées via des réseaux de neurones non supervisés.

avatar C1rc3@0rc | 

C'est juste du datamining, qu'importe le moteur et les techniques qui sont utilisées derriere, il s'agit ici de rendre visible des donnees qui sont considerees comme non signifiantes par les traitements utilisés habituelement.

Ça n'a aucun interet aujourd'hui, mais cela permet de constituer des banques (pour ne pas dire des mines) de donnees qui vont representer l'avenir de toutes les societes dans a centaine d'annees a venir.
Aujourd'hui on a ni les moyens, ni les interets pour utiliser ces donnees (c'est pour cela qu'elles ne sont pas visibles), mais au fur et a mesure de l'evolution des connaissances et de la puissance de traitement informatique, ces donnees vont devenir essentielles.
C'est pour cela que les grands groupes augmentent leurs datacenter...

avatar Woaha | 

@narugi

Une donnée non structurée ce sont des données non catégorisées. En gros on donne n'importe quoi au système (image son ou code ou texte) et il retrouve des motifs récurrents dedans, il l'organise.

avatar occam | 

@narugi

Voici un exemple que je connais un peu, ayant eu l'occasion de travailler avec le programme et la base de données :
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0113523

PaleoDeepDive y fait un boulot assez respectable de synthèse et de classification automatique.

Le problème, quand j'ai participé aux essais, était qu'il n'y avait pas de filtre portant sur la qualité de l'information.
Le programme ne savait, en gros, pas reconnaître un très bon papier d'un médiocre et un travail state-of-the-art d'un bourrage de crâne suranné.

Dans toute synthèse, il faut obligatoirement appliquer des filtres de qualité. Sinon la masse médiocre devient la norme, et les mauvais papiers prennent autant de poids que les exceptionnels. J'espère que DeepDive aura fait des progrès dans cette direction entre-temps.

avatar LeGrosJeanLou | 

@occam

Est-ce qu'on pourrait imaginer utiliser le triage de dark data pour éliminer les fake news ?

avatar occam | 

@LeGrosJeanLou

C'est concevable, en principe.
Encore une fois, l'écueil principal, c'est le modèle de validation des données.
Or ce modèle dépend en grande partie de votre système subjectif de valeurs.

Exemplification par l'absurde : vous êtes convaincu que la terre est plate. Vous entraînez votre version de DeepDive à rejeter a priori tous les articles de géographie qui se réfèrent à un sphéroïde. Vous finissez avec un florilège d'articles "flat-earth". Votre récolte sera hautement cohérente, en accord avec le modèle de référence, mais complètement à côté de la plaque ( pun intended ) par rapport à la réalité.

Il faudrait donc commencer par établir un modèle géophysique qui s'auto-construit à partir des données observables, ce qui est beaucoup plus laborieux, mais qui inévitablement converge vers un sphéroïde plutôt qu'un disque.

Le problème de base est donc épistémologique et cognitif.

avatar bunam | 

Et à quand le tour d'IBM ? ?

avatar Choquant | 

@bunam

T'as fumé non ?

avatar IceWizard | 

@bunam

IBM c'est quand même 141 millards de $, ce qui ferait un gros trou dans les économies d'Apple .. On est loin de la "petite entreprise technologique".

avatar whocancatchme | 

200M de $ ! Bordel y'en a qui doivent passer une bonne soirée ?

avatar odeckmyn2 | 

Je ne vois pas où vous voyez usage de l'IA dans researchkit !

avatar IceWizard | 

ResearchKit permet d'accumuler une énorme quantité d'informations médicales brutes. L'IA peut aller farfouiller dans ces dark data pour trouver des liens entre les choses, comme par exemple (cas fictif) "la masse osseuses des personnes de plus de 50 ans mangeant des cerises et du saumon une fois par semaine est 7,5% supérieure à la normale". Ou encore : "l'apparition d'un cancer de l'estomac est précédé de divers petits changements métaboliques, jugés jusqu'à présent insignifiants par la médecine classique".

avatar zoubi2 | 

@IceWizard

Tout à fait d'accord. À une condition quand-même : Que la conclusion puisse être validée statistiquement. Surtout pour des questions de santé, qui touchent tout le monde.

Vous le savez certainement, on ne compte plus le nombre d'articles du genre "La consommation de petits-beurres le matin augmente les risques de cancer du pouce".

avatar occam | 

@zoubi2

"Que la conclusion puisse être validée statistiquement."

Cela va assommer 99.9% des lecteurs de MacG, si jamais il y en a qui lisent ce fil, mais comme les stats sont ma passion en plus de mon gagne-pain, je dois réagir.

La soi-disante validité statistique est une baudruche, pour deux raisons :
1 — la corrélation implique une relation causale généralement factice
2 — les tests de validité ne sont la plupart du temps que du "p-hacking", les implications de H0 et de sa réjection étant généralement mal comprises.

Exemple : la corrélation entre marche bipède chez H. sapiens et taux de mortalité est unitaire.
p <<< 0.05 (ou 0.01, ou 0.001, si l'échantillon est de taille suffisante).

Mais, quoique la conclusion soit valide statistiquement, l'hypothèse est fallacieuse, car les variables sont à la fois parfaitement co-dépendantes, conditionnelles et disjointes.
Trop de statistiques biomédicales se conforment à ce modèle pernicieusement non-sensique mais gratifiant.

CONNEXION UTILISATEUR