Apple achète Lattice Data pour éclairer les « dark data »
Apple se renforce un peu plus dans le domaine de l’intelligence artificielle. Le constructeur s’est offert Lattice Data pour une somme évaluée à 200 millions de dollars. Évidemment, la Pomme n’a pas nommément confirmé l’acquisition, se retranchant derrière l’habituel commentaire « Apple achète de petites entreprises technologiques de temps en temps, et nous ne donnons pas de détails sur nos projets ».

Lattice Data est une entreprise aux compétences singulières : elle a développé un moteur qui avale des « dark data » (des données non structurées : pas de contexte, pas de catégories, pas de tags) pour mieux recracher des données exploitables grâce à la magie de l’apprentissage automatique. La société commercialise DeepDive, un système mis au point à Stanford afin « d’extraire la valeur des données non structurées ».
Ce type de technologie peut par exemple servir dans la recherche médicale. On ignore évidemment ce qu’Apple a derrière la tête, mais on peut penser que la matière grise derrière cet extracteur de « dark data » trouvera son utilité dans Siri, ResearchKit, et dans tous les secteurs où l’intelligence artificielle est exploitée chez Apple (lire : Apple a l'intelligence artificielle discrète mais partout présente).
J'avoue ne pas avoir bien compris après relecture de l'article. Un exemple illustré aurait été plaisant pour comprendre ce qu'est "une donnée non structurée".
@narugi
Des données collectées en vrac, mais ça me paraît étonnant justement de collecter des données sans les classer automatiquement dès la collecte
@Hideyasu : Peut-être que ces données sont traitées via des réseaux de neurones non supervisés.
C'est juste du datamining, qu'importe le moteur et les techniques qui sont utilisées derriere, il s'agit ici de rendre visible des donnees qui sont considerees comme non signifiantes par les traitements utilisés habituelement.
Ça n'a aucun interet aujourd'hui, mais cela permet de constituer des banques (pour ne pas dire des mines) de donnees qui vont representer l'avenir de toutes les societes dans a centaine d'annees a venir.
Aujourd'hui on a ni les moyens, ni les interets pour utiliser ces donnees (c'est pour cela qu'elles ne sont pas visibles), mais au fur et a mesure de l'evolution des connaissances et de la puissance de traitement informatique, ces donnees vont devenir essentielles.
C'est pour cela que les grands groupes augmentent leurs datacenter...
@narugi
Une donnée non structurée ce sont des données non catégorisées. En gros on donne n'importe quoi au système (image son ou code ou texte) et il retrouve des motifs récurrents dedans, il l'organise.
@narugi
Voici un exemple que je connais un peu, ayant eu l'occasion de travailler avec le programme et la base de données :
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0113523
PaleoDeepDive y fait un boulot assez respectable de synthèse et de classification automatique.
Le problème, quand j'ai participé aux essais, était qu'il n'y avait pas de filtre portant sur la qualité de l'information.
Le programme ne savait, en gros, pas reconnaître un très bon papier d'un médiocre et un travail state-of-the-art d'un bourrage de crâne suranné.
Dans toute synthèse, il faut obligatoirement appliquer des filtres de qualité. Sinon la masse médiocre devient la norme, et les mauvais papiers prennent autant de poids que les exceptionnels. J'espère que DeepDive aura fait des progrès dans cette direction entre-temps.
@occam
Est-ce qu'on pourrait imaginer utiliser le triage de dark data pour éliminer les fake news ?
@LeGrosJeanLou
C'est concevable, en principe.
Encore une fois, l'écueil principal, c'est le modèle de validation des données.
Or ce modèle dépend en grande partie de votre système subjectif de valeurs.
Exemplification par l'absurde : vous êtes convaincu que la terre est plate. Vous entraînez votre version de DeepDive à rejeter a priori tous les articles de géographie qui se réfèrent à un sphéroïde. Vous finissez avec un florilège d'articles "flat-earth". Votre récolte sera hautement cohérente, en accord avec le modèle de référence, mais complètement à côté de la plaque ( pun intended ) par rapport à la réalité.
Il faudrait donc commencer par établir un modèle géophysique qui s'auto-construit à partir des données observables, ce qui est beaucoup plus laborieux, mais qui inévitablement converge vers un sphéroïde plutôt qu'un disque.
Le problème de base est donc épistémologique et cognitif.
Et à quand le tour d'IBM ? ?
@bunam
T'as fumé non ?
@bunam
IBM c'est quand même 141 millards de $, ce qui ferait un gros trou dans les économies d'Apple .. On est loin de la "petite entreprise technologique".
200M de $ ! Bordel y'en a qui doivent passer une bonne soirée ?
Je ne vois pas où vous voyez usage de l'IA dans researchkit !
ResearchKit permet d'accumuler une énorme quantité d'informations médicales brutes. L'IA peut aller farfouiller dans ces dark data pour trouver des liens entre les choses, comme par exemple (cas fictif) "la masse osseuses des personnes de plus de 50 ans mangeant des cerises et du saumon une fois par semaine est 7,5% supérieure à la normale". Ou encore : "l'apparition d'un cancer de l'estomac est précédé de divers petits changements métaboliques, jugés jusqu'à présent insignifiants par la médecine classique".
@IceWizard
Tout à fait d'accord. À une condition quand-même : Que la conclusion puisse être validée statistiquement. Surtout pour des questions de santé, qui touchent tout le monde.
Vous le savez certainement, on ne compte plus le nombre d'articles du genre "La consommation de petits-beurres le matin augmente les risques de cancer du pouce".
@zoubi2
"Que la conclusion puisse être validée statistiquement."
Cela va assommer 99.9% des lecteurs de MacG, si jamais il y en a qui lisent ce fil, mais comme les stats sont ma passion en plus de mon gagne-pain, je dois réagir.
La soi-disante validité statistique est une baudruche, pour deux raisons :
1 — la corrélation implique une relation causale généralement factice
2 — les tests de validité ne sont la plupart du temps que du "p-hacking", les implications de H0 et de sa réjection étant généralement mal comprises.
Exemple : la corrélation entre marche bipède chez H. sapiens et taux de mortalité est unitaire.
p <<< 0.05 (ou 0.01, ou 0.001, si l'échantillon est de taille suffisante).
Mais, quoique la conclusion soit valide statistiquement, l'hypothèse est fallacieuse, car les variables sont à la fois parfaitement co-dépendantes, conditionnelles et disjointes.
Trop de statistiques biomédicales se conforment à ce modèle pernicieusement non-sensique mais gratifiant.