« Privacité différentielle » : comment Apple collecte vos données sans collecter vos données

Anthony Nelzin-Santos |

Bien qu’elle se soit érigée en championne du chiffrement, Apple n’a jamais été opposée à la collecte de données personnelles. Au contraire : si elle s’est opposée aux demandes du FBI, c’est bien pour protéger les données qu’elle avait collectées. Plus que jamais, la firme de Cupertino amasse une mine d’informations sur vos usages, pour nourrir les algorithmes des suggestions Spotlight ou de la reconnaissance vocale. Mais en adoptant des mécanismes de privacité différentielle, Apple veut concilier le traitement des données à grande échelle avec la protection de l’intimité personnelle.

Quelques formules derrière la privacité différentielle. Rassurez-vous, nous ne ferons pas de mathématiques dans les lignes qui suivent. Image Apple.
Quelques formules derrière la privacité différentielle. Rassurez-vous, nous ne ferons pas de mathématiques dans les lignes qui suivent. Image Apple.

« Nous pensons que les nouveautés et la vie privée devraient aller de pair », explique Craig Federighi :

La privacité différentielle est un sujet de recherche dans le domaine de la statistique et de l’analyse de données, qui exploite le hachage, l’échantillonnage et la génération de bruit pour permettre [un] apprentissage participatif qui préserve parfaitement l’intimité des données individuelles. Apple a réalisé un travail super important dans ce domaine afin de permettre le déploiement à grand échelle de la privacité différentielle.

Vous n’avez pas tout compris ? Reprenons les explications. Imaginons que vous travaillez dans l’équipe chargée des suggestions Spotlight : pour affiner les suggestions d’applications ou d’actualité, vous avez besoin de savoir quelles applications et quelles actualités ont été sélectionnées par les utilisateurs selon le moment de la journée et le lieu. Mais vous devez le faire de telle manière qu’il soit impossible de savoir quelles applications ou quelles actualités ont été sélectionnées par un utilisateur en particulier.

Parce que vous ne travaillez pas vraiment dans l’équipe chargée des suggestions Spotlight, vous vous dites qu’il suffit d’anonymiser les données envoyées. Sauf qu’il serait possible d’utiliser les informations de localisation pour croiser certaines informations avec d’autres données localisées, comme celles que l’on peut trouver sur les réseaux sociaux, et in fine de retrouver un utilisateur. L’anonymisation ne suffit pas : Netflix l’a appris à ses dépens.

Vous faites confiance à Apple ? Grand bien vous en fasse, mais les données collectées sur votre iPhone peuvent être stockées chez Google ou Amazon, et traitées par de petites sociétés spécialisées dont vous n’avez jamais entendu parler. Pas besoin d’évoquer la perspective d’un piratage de grande ampleur pour comprendre comment de telles données peuvent échapper au contrôle de l’utilisateur.

D’où l’utilité de la privacité différentielle, qui sort doucement des universités, où elle est étudiée depuis une quinzaine d’années. Le gouvernement américain exploite ses principes pour extraire des recensements les données sur les déplacements, qui peuvent instruire les politiques publiques en matière d’infrastructures.

Google et Microsoft s’en servent pour récupérer certains mots-clefs de leurs moteurs de recherche, afin de suivre l’évolution d’une épidémie de grippe par exemple. Mais le déploiement d’Apple sera sans doute le plus important jamais réalisé dans le domaine, et surtout le plus systématique : il concernera de nombreux aspects de l’utilisation de centaines de millions d’appareils.

Lorsque l’utilisateur cliquera sur une suggestion Spotlight, son appareil n’enverra pas directement toutes les informations associées à cette action. Apple n’ayant pas fourni les détails de son implémentation, et par souci de simplification, on peut imaginer qu’il tirera un chiffre au hasard : si tel ou tel chiffre sort, les données réelles seront chiffrées et hachées avant d’être envoyées ; sinon, un jeu de données aléatoire sera envoyé après avoir été chiffré et haché.

Une fois le « bruit » ajouté, certains utilisateurs envoient des données fausses (ici leur préférence pour lindentation), alors que les autres envoient les bonnes données. Image Apple.
Une fois le « bruit » ajouté, certains utilisateurs envoient des données fausses (ici leur préférence pour l’indentation), alors que les autres envoient les bonnes données. Image Apple.

Le serveur connaît la probabilité que tel ou tel chiffre ait été tiré, et donc la quantité de données qui relèvent du bruit plutôt que du signal, et sait aussi comment les décoder. Mais il ne sait pas quelles données sont exactes et quelles données sont aléatoires : à l’échelle d’un individu ou d’un petit groupe, le jeu de données n’est pas fiable, et la vie privée de chacun est préservée. À l’échelle de plusieurs centaines de millions de personnes toutefois, il permet de mener un traitement massif et plutôt pertinent.

Ou du moins, il le permet si le bruit n’est pas trop important : plus il l’est, plus il est difficile de dégager le signal original ; mais moins il l’est, plus il est facile de retrouver les données originales et d’en faire « fuiter » des informations privées. Toute l’efficacité du système repose donc sur la définition de la marge d’erreur : Apple se contente d’un intervalle de confiance de 60 %, un chiffre qui ne serait pas suffisant pour des recherches démographiques ou épidémiologiques, mais qui l’est sans doute pour des suggestions de liens et d’applications.

Plus on collecte de données, plus le jeu de donnée est fiable, et moins il est possible de faire « fuiter » des données individuelles.
Plus on collecte de données, plus le jeu de donnée est fiable, et moins il est possible de faire « fuiter » des données individuelles.

La firme de Cupertino prend d’autres précautions contre les « pièges » statistiques. Elle limite ainsi le nombre de données envoyées par chaque utilisateur : si un utilisateur contribue beaucoup plus que les autres à un jeu de données, ses informations privées sont plus vulnérables. Elle supprime aussi toutes les données de manière périodique, ne conservant que les résultats.

L’ensemble de ce mécanisme — mathématiquement et statistiquement beaucoup plus complexe que ne le sont ces explications — permet théoriquement de concilier intimité et collecte. Et en pratique ? Il est difficile de le dire sans jeter un coup d’œil sous le capot. Aaron Roth l’a bien fait, mais le co-auteur du livre de référence sur la privacité différentielle se contente d’applaudir l’initiative d’Apple, sans la juger. Ce qui n’est déjà pas si mal.

avatar reborn | 

@Vouzemoi :
Bah moi je me sers pas de spotlight, maps, icloud et j'ai desactivé les suggestions siri. Donc Apple ne prélève pas grand chose, ou plutôt je ne leur donne pas grand chose. L'important est d'avoir le choix et on l'a.

Et le plus important Apple, bien qu'elle collecte ces informations que les utilisateurs veulent bien transmettre afin de recevoir des suggestions, elle ne les revend pas.

avatar byte_order | 

Ah, la pub dans App Store, c'est gratos pour l'annonceur ?

avatar reborn | 

moi j'ai compris qu'Apple vend l'emplacement à l'annonceur, pas les données issue de l'utilisateur

avatar byte_order | 

Ils vendent un emplacement *contextualisé* avec les données issues de l'utilisateur.
Tout comme Google (sauf que l'algo de Google semble bien meilleur, c'est le coeur de business, faut dire).

avatar harisson | 

Si on avait voulu de la vraie "privacité", il aurait fallu développer un modèle hybride P2P-Cloud (ou full p2p) plutôt que de s'appuyer sur une logique full Cloud.

avatar heret | 

Google et Microsoft s’en servent pour récupérer certains mots-clefs de leurs moteurs de recherche, afin de suivre l’évolution d’une épidémie de grippe par exemple.

Google ne suit pas l'évolution d'une épidémie de grippe, mais l'évolution géographique de la peur d'avoir la grippe, nuance.

Gouverner par les statistiques, comme ça tout sera uniforme et tellement plus simple. Triste avenir en perspective.

avatar elamapi | 

Mon propos a été mal interprété (et je me suis mal exprimé).

Ca ne me "choque" pas que les données soit analysées. Ce qui me choque c'est qu'Apple soit vu et acclamé comme le "chevalier" blanc de la protection des données, alors que mis à part leur bonne parole on a rien du tout.

Et qu'a l'inverse, google, qui explique clairement analyser les données pour cibler le pub soit vu comme le mal personnifié.

Pour moi, les deux se valent largement sur ce point.

avatar Simeon | 

En même temps, c'est le cœur du business de Google. Ils ne peuvent pas dire qu'ils ne le font pas.
Alors qu'Apple réalise pour l'instant la majeure partie de ses profits en vendant du matériel.

avatar en ballade | 

Comment faire confiance à une societe qui met encore des disques durs à 5400 trs? Bref je plaisante mais la finalité de Appl€ est et sera toujours l'argent. Alors quand les filons seront épuisés, la publicité viendra gentiment faire son apparition et ça commence. Google M$ ou Appl€ même combat!

avatar marc_os | 

@ en ballade
Et toi, tu travailles gratuitement ?

avatar XiliX | 

@en ballade

Bah on verra en ce moment là... !

Avec des si on peut dire ce qu'on veut

avatar patrick86 | 

"Google M$ ou Appl€ même combat!"

Pourquoi ne remplacez-vous jamais le 'e' de Google par un '€' ?

avatar byte_order | 

Goog£e M$ Appl€

Comme ça, les anglais seront content ;-)

avatar patrick86 | 

"Goog£e M$ Appl€

Comme ça, les anglais seront content ;-)"

Certes… Mais trois sigles différents ? Trop compliqué pour 'en ballade' :-)

avatar Splinter | 

"Privacité" n'existe pas en français, on parle de vie privée ou de confidentialité.

avatar spece92 | 

@Splinter 1

avatar alan1bangkok | 

M'en fout moi
Mieux vaut s'en foutre ou ne pas avoir de smartphone ni d'utiliser internet
Apple Google Microsoft pour moi c'est Kif Kif , je ne crois pas aux beaux discours

avatar MightyMac | 

Je suis à deux doigts d'acheter une Renault Kadjar.

avatar reborn | 

pareil^^

avatar denisdp | 

Ah ah ah excellent ! Ca m'a bien fait rire !

avatar e2x | 

Vous faites chier un peu avec vos leçons d'orthographe et de vocabulaires! Comme si on pouvait pas dire ou inventer c'qu'on veut à partir du moment qu'on s'est fait comprendre.
Haa ces royalistes !

avatar BLM | 

«à partir du moment qu'on s'est fait comprendre. Haa ces royalistes !»
Évidemment, quand on parle de façon approximative, il est compréhensible de ne pas attacher une importance royaliste à la précision du langage…
"Royaliste" ? Pourquoi ? c'est une posture républicaine de jacter n'importe comment ?
Au passage "Ha" (et pas "haa") exprime plutôt la surprise, la peur (ou une émotion quelconque); ce qui n'est probablement pas votre idée. Vous vouliez peut-être dire: "ah"; voire: "aaah!", interjection de douleur devant l'intolérance des chantres du beau vocabulaire, employé à bon escient.
Le problème est qu'il est incertain "qu'on s'est fait bien comprendre" si chacun "peut dire ou inventer c'qu'il veut" en donnant aux mots une acception personnelle, protéiforme, fluctuante selon le contexte, en chargeant son interlocuteur de la responsabilité de l'intelligibilité du message.
Le langage est une convention de communication; non, chacun ne peut pas babiller comme il l'entend.

avatar Derw | 

"Le langage est une convention de communication; non, chacun ne peut pas babiller comme il l'entend."

En fait si. Chacun peut babiller comme il l’entend. Par contre, plus il s’éloignera de la convention plus il prendra le risque d’être mal compris. C’est à chacun de faire son choix et non à une police auto-proclamée de la bien-disance de le faire. Personnellement, il est des expressions hors convention que je trouve enrichissantes et d’autres affligeantes. Pour les secondes, je me contente de les ignorer (excepté pour mes enfants) sans me permettre les remontrances…

avatar BLM | 

«"Le langage est une convention de communication; non, chacun ne peut pas babiller comme il l'entend."

En fait si. Chacun peut babiller comme il l’entend. Par contre, plus il s’éloignera de la convention plus il prendra le risque d’être mal compris. »
Oui, c'est vrai, je me suis mal exprimé, je suis parfaitement d'accord: chacun peut babiller comme il veut pour autant qu'il renonce à communiquer.
Et il est vrai aussi que je ne recule pas devant les néologismes dont le son me plaît (tels que "bouleversifier" ou "accumonceler". Souvent des "mots-valises", des télescopages de sonorités).
Jouer avec la langue est amusant, mais même alors on suit des règles, l'esprit de la langue.

avatar Rictusi | 

Bravo à BLM pour ce message, si seulement tous le monde pouvait l'entendre.

avatar ovea | 

N'utilisez aucun « service » Apple c'est mieux :
À l'heure des IA c'est la meilleure solution pour ne pas se décharger de la responsabilité de le faire nous même, tout du moins en français … et c'est sans doute le meilleur moyen de pousser Apple à se réveiller en ne favorisant pas l'anglais au sens large du terme car entre Doubaï(lle) et le sud de l'Angleterre (qui se terre) ce n'est pas vraiment la même langue.
En tout cas pour Siri, oui ! … la langue compte et la collecte des données en est la pierre angulaire mais à un prix que peut de cerveaux normalement constitués sont capables d'évaluer d'un point de vu ethnologique ou anthropologique.
Pour ce qui est du monde des maths qu'y s'y rattache, c'est encore plus compliqué quand on ne sait pas encore reproduire les intentions que véhicule la voix, encore moins lorsqu'on ne connait pas la et les personnes qui constituent le groupe d'échange oral.

avatar Orus | 

"« Nous pensons que les nouveautés et la vie privée devraient aller de pair », explique Craig Federighi"

Et vous y croyez ? Vous croyez vraiment que les services de renseignements américains n'auront pas accès à vos données ? Amusant.

avatar lmouillart | 

Les VP sont des commerciaux. La règle ? Ne jamais faire confiance à un commercial. Son métier c'est d'adapter son discourt pour se différencier de la concurrence et vendre.

avatar XiliX | 

@lmouillart

On ne fait rien alors si on ne peut croire personne ???

avatar lmouillart | 

Si ce n'est pas auditable, transparent et vérifié par des tiers : non, surtout quand on parle de marché de plusieurs 100ènes de milliards de $.

avatar dscreve | 

Le terme correct est "Intimité différentielle"....La privacité, cela ne veut rien dire.....

avatar rikki finefleur | 

Pourtant Tim cook avait promis qu'apple ne récupérait pas les données des utilisateurs et ne les collectait pas..
Ha ben si en fait.

Étonnant non.
Il ne faut pas etre naif, pour répondre aux besoins et aux habitudes du client , il faut bien les connaitre ses habitudes, les relations, où il va , ce qu'il fait, ce qu'il regarde, les collecter, les historiser..
Cook a menti et ce n'est pas la première fois..

avatar BLM | 

Non, il n'a pas vraiment menti: Apple ne répond pas aux besoins DU client en épiant et enregistrant tout ce que fait LE client; Apple [tente de] répondre aux attente de la clientèle en définissant des profils type à partir de données remontées de millions de clients anonymes.
Un peu de que font les instituts de sondage mais à une toute autre échelle.
Apple comme Google peuvent à partir des données de géolocalisation envoyées par leurs appareils prévoir des embouteillages, mais cela peut être fait en tirant une vitesse moyenne de déplacement pour des milliers de véhicules sur une zone à partir de données, "anonymisées" ou pas; ds le second cas, les données sont ajoutées au profil DU client.
De même nos photos peuvent être utilisées pour mettre au point une intelligence artificielle de reconnaissance de formes, de thèmes, sur les serveurs centraux [de Google]; les données extraites de ces photos étant ajoutées au profilage client, ou bien les algorithmes d'IA étant mis en œuvre en local sur l'appareil sans que le contenu de chaque photo soit ajouté à mon profil psy. L'algorithme peut reconnaître des chats sur mes photos et me les grouper ds 1 "dossier" local; Google peut s'apercevoir que 20 chats différents sont reconnaissables sur mes photos et en tirer des enseignements qui me vaudront une publicité ciblée ou une euthanasie générale le jour où un redoutable virus des félidés se propagera.
Les 2 approches sont quand même "vachement" différentes !

avatar rikki finefleur | 

BLM
Désolé .
Cook a rappelé dans de nombreux messages ou émission de tv, qu'apple ne collectait pas les données de ces clients. C'était faux.
Quand tu collectes, tu épies obligatoirement. Sinon je ne vois pas ce que tu collectes. C'est absurde.
Et comme l'a si bien dit un internaute , aucune une entreprise indépendante ne certifie l'utilisation des données collectées, C'est l’opacité totale..

Ce qui est déprimant , c'est surtout de voir ces constructeurs prendre la main sur les clients, connaitre la vie des clients, et qu'on ne puisse rien y faire.

C'est aux hommes politiques d’interdire définitivement la collecte des données si le client la refuse, , et/ou qu'une société-relais intermédiaire dans le cheminement des données par exemple fasse de l'anonymisation de l'utilisateur , quand c'est nécessaire.

Il n'y a rien a attendre de ces multinationales, sur l'emprise qu'elles veulent appliquer à nos vies.

avatar BLM | 

«Quand tu collectes, tu épies obligatoirement. Sinon je ne vois pas ce que tu collectes. C'est absurde.»
Non, c'est ce qu'explique clairement l'article: la Sécurité Routière pourrait se mettre en cheville avec les fournisseurs de téléphonie mobile
  • pour tirer une vitesse moyenne anonyme de l'ensemble des véhicules sur les routes, puis – s'apercevant que les limitations ne sont pas respectées – renforcer les contrôles et "prûner" le contrevenant pris en flagrant délit ou améliorer les infrastructures ou… (etc).
  • Mais elle pourrait aussi tirer la vitesse moyenne de chaque véhicule –clairement identifié – et "mancher" tous les automobilistes "rapides" qui alors seraient effectivement épiés (et ceci n'est pas une fiction, hélas, avec le recours à l'électronique embarquée dont les données peuvent être exploitées par les forces de l'ordre. Mais c'est un autre sujet)
Tout le pb ds le 1er cas est effectivement de récupérer la vitesse du quidam sans identifier ledit quidam, J'ai tendance à penser qu'Apple le fait honnêtement; après… on peut douter de la probité d'Apple, ou de l'inviolabilité des procédures mises en place, ou…
On peut être paranoïaque; mais personne –pour l'instant– n'est obligé de posséder un smartphone.
C'est le délicat pb de la balance entre le bénéfice obtenu et le risque encouru.

avatar spece92 | 

Les mecs qui doutent d'Apple sont des trolls Android au minimum

avatar tbr | 

Personnellement, je pars du principe que dès que je suis connecté, il n'y a plus de vie privée. Alors qu'on me parle de "privatisé différentielle" ou autre(s) technique(s) exploitable(s), moi, j'appelle cela du bullshit marketing.
> Qui ne veut pas être épié, que ce soit ouvertement (par Google, Microsoft, etc.) ou plus... discrètement (secrètement ?) par Apple, ne doit/peut pas se plaindre : il est connecté. S'il ne veut pas être épié, simple, il se déconnecte.

Alors, oui, mais comment profiter des bienfaits du Net de l'intercommunication entre les peuples, de la "connaissance universelle" sans être connecté — nous avons tous mis la main dans le pot de miel et c'est si bon — donc sans être analysés, que ce soit par X ou par Y ?
Question de choix...

Ce choix, pour ma part, est réfléchi. Je sais (ou crois savoir plutôt) que Google exploite mes données à des fins commerciales et je le laisse con-sciemment faire. Ai-je tort ou pas — Le miel est si bon ? Quand à Apple... Ben c'est pareil ! J'ai bien conscience que mes données ne lui sont pas inutiles. Juste que sa technique pour les exploiter est différente mais le but final est tout de même une question de fric, ma valeur intrinsèque, ce que je leur rapporte.

Combien de fric perdu pour ces grandes entreprises si tout le monde leur disait Fcuk Off ! ?

C'est donc ainsi pour moi une illusion que de croire qu'on peut conserver un certain niveau d'intimité quand on est connecté. Il n'existe plus de vie privée sur le Net et ce n'est pas Apple qui l'en empêchera. Question de temps...

Conclusion, cela m'importe peu que X ou Y utilise telle(s) ou telle(s) technique(s) pour rentabiliser ma présence sur le Net — j'ai aussi mangé de ce miel et j'ai trouvé ça très bon. Ce qui m'importe, c'est de savoir que je le fais de manière volontaire, consciente, en choisissant si je m'expose avec ma vraie identité ou si je me "planque" derrière un pseudo, comme ici par exemple. Le temps viendra où plus rien ne sera secret.

avatar lome_bbrr | 

je suis quand même un peu déçu d'Apple. TC qui répétait qu'ils ne collectaient rien...
bon en fait si ils collectent.
Mais si les ventes de matériel et d'apps continuent de baisser, le jour où elles ne suffiront plus à verser les gros dividendes? que va faire Apple de toutes ces données...... j'ai une petite idée

Pages

CONNEXION UTILISATEUR