Fermer le menu
 

« Privacité différentielle » : comment Apple collecte vos données sans collecter vos données

Anthony Nelzin-... | | 10:26 |  88

Bien qu’elle se soit érigée en championne du chiffrement, Apple n’a jamais été opposée à la collecte de données personnelles. Au contraire : si elle s’est opposée aux demandes du FBI, c’est bien pour protéger les données qu’elle avait collectées. Plus que jamais, la firme de Cupertino amasse une mine d’informations sur vos usages, pour nourrir les algorithmes des suggestions Spotlight ou de la reconnaissance vocale. Mais en adoptant des mécanismes de privacité différentielle, Apple veut concilier le traitement des données à grande échelle avec la protection de l’intimité personnelle.

Quelques formules derrière la privacité différentielle. Rassurez-vous, nous ne ferons pas de mathématiques dans les lignes qui suivent. Image Apple.
Quelques formules derrière la privacité différentielle. Rassurez-vous, nous ne ferons pas de mathématiques dans les lignes qui suivent. Image Apple.

« Nous pensons que les nouveautés et la vie privée devraient aller de pair », explique Craig Federighi :

La privacité différentielle est un sujet de recherche dans le domaine de la statistique et de l’analyse de données, qui exploite le hachage, l’échantillonnage et la génération de bruit pour permettre [un] apprentissage participatif qui préserve parfaitement l’intimité des données individuelles. Apple a réalisé un travail super important dans ce domaine afin de permettre le déploiement à grand échelle de la privacité différentielle.

Vous n’avez pas tout compris ? Reprenons les explications. Imaginons que vous travaillez dans l’équipe chargée des suggestions Spotlight : pour affiner les suggestions d’applications ou d’actualité, vous avez besoin de savoir quelles applications et quelles actualités ont été sélectionnées par les utilisateurs selon le moment de la journée et le lieu. Mais vous devez le faire de telle manière qu’il soit impossible de savoir quelles applications ou quelles actualités ont été sélectionnées par un utilisateur en particulier.

Parce que vous ne travaillez pas vraiment dans l’équipe chargée des suggestions Spotlight, vous vous dites qu’il suffit d’anonymiser les données envoyées. Sauf qu’il serait possible d’utiliser les informations de localisation pour croiser certaines informations avec d’autres données localisées, comme celles que l’on peut trouver sur les réseaux sociaux, et in fine de retrouver un utilisateur. L’anonymisation ne suffit pas : Netflix l’a appris à ses dépens.

Vous faites confiance à Apple ? Grand bien vous en fasse, mais les données collectées sur votre iPhone peuvent être stockées chez Google ou Amazon, et traitées par de petites sociétés spécialisées dont vous n’avez jamais entendu parler. Pas besoin d’évoquer la perspective d’un piratage de grande ampleur pour comprendre comment de telles données peuvent échapper au contrôle de l’utilisateur.

D’où l’utilité de la privacité différentielle, qui sort doucement des universités, où elle est étudiée depuis une quinzaine d’années. Le gouvernement américain exploite ses principes pour extraire des recensements les données sur les déplacements, qui peuvent instruire les politiques publiques en matière d’infrastructures.

Google et Microsoft s’en servent pour récupérer certains mots-clefs de leurs moteurs de recherche, afin de suivre l’évolution d’une épidémie de grippe par exemple. Mais le déploiement d’Apple sera sans doute le plus important jamais réalisé dans le domaine, et surtout le plus systématique : il concernera de nombreux aspects de l’utilisation de centaines de millions d’appareils.

Lorsque l’utilisateur cliquera sur une suggestion Spotlight, son appareil n’enverra pas directement toutes les informations associées à cette action. Apple n’ayant pas fourni les détails de son implémentation, et par souci de simplification, on peut imaginer qu’il tirera un chiffre au hasard : si tel ou tel chiffre sort, les données réelles seront chiffrées et hachées avant d’être envoyées ; sinon, un jeu de données aléatoire sera envoyé après avoir été chiffré et haché.

Une fois le « bruit » ajouté, certains utilisateurs envoient des données fausses (ici leur préférence pour lindentation), alors que les autres envoient les bonnes données. Image Apple.
Une fois le « bruit » ajouté, certains utilisateurs envoient des données fausses (ici leur préférence pour l’indentation), alors que les autres envoient les bonnes données. Image Apple.

Le serveur connaît la probabilité que tel ou tel chiffre ait été tiré, et donc la quantité de données qui relèvent du bruit plutôt que du signal, et sait aussi comment les décoder. Mais il ne sait pas quelles données sont exactes et quelles données sont aléatoires : à l’échelle d’un individu ou d’un petit groupe, le jeu de données n’est pas fiable, et la vie privée de chacun est préservée. À l’échelle de plusieurs centaines de millions de personnes toutefois, il permet de mener un traitement massif et plutôt pertinent.

Ou du moins, il le permet si le bruit n’est pas trop important : plus il l’est, plus il est difficile de dégager le signal original ; mais moins il l’est, plus il est facile de retrouver les données originales et d’en faire « fuiter » des informations privées. Toute l’efficacité du système repose donc sur la définition de la marge d’erreur : Apple se contente d’un intervalle de confiance de 60 %, un chiffre qui ne serait pas suffisant pour des recherches démographiques ou épidémiologiques, mais qui l’est sans doute pour des suggestions de liens et d’applications.

Plus on collecte de données, plus le jeu de donnée est fiable, et moins il est possible de faire « fuiter » des données individuelles.
Plus on collecte de données, plus le jeu de donnée est fiable, et moins il est possible de faire « fuiter » des données individuelles.

La firme de Cupertino prend d’autres précautions contre les « pièges » statistiques. Elle limite ainsi le nombre de données envoyées par chaque utilisateur : si un utilisateur contribue beaucoup plus que les autres à un jeu de données, ses informations privées sont plus vulnérables. Elle supprime aussi toutes les données de manière périodique, ne conservant que les résultats.

L’ensemble de ce mécanisme — mathématiquement et statistiquement beaucoup plus complexe que ne le sont ces explications — permet théoriquement de concilier intimité et collecte. Et en pratique ? Il est difficile de le dire sans jeter un coup d’œil sous le capot. Aaron Roth l’a bien fait, mais le co-auteur du livre de référence sur la privacité différentielle se contente d’applaudir l’initiative d’Apple, sans la juger. Ce qui n’est déjà pas si mal.


Les derniers dossiers

Ailleurs sur le Web


88 Commentaires

avatar IGerard 17/06/2016 - 10:39 via iGeneration pour iOS

Bravo d'aborder ce sujet :)

On vous attend pour nous parler de cette perle que constitue Playground sur iPad ;)

avatar macbook60 17/06/2016 - 15:49 via iGeneration pour iOS

@IGerard :
Tu l'as teste ? Merci

avatar elamapi 17/06/2016 - 10:43

En même temps, qui va aller vérifier que les données collectées sont anonymisées convenablement ? Vu que personne n'a le droit d'y accéder ...

C'est donc sur la parole d'une entreprise et de ses dirigent qui l'affirme qu'on droit croire que les données collectées et concervées seront à l'abris de tout ? Hahahha la blague épique.



avatar iDuplo 17/06/2016 - 11:23 (edité)

Plus que la parole, c'est le businnes model qu'il faut analyser, ainsi que les enjeux.
Apple s'est lancé dans cette croisade de la défense de la vie privée car elle est compatible voir bonne pour son business. Si un gouvernement, Google, facebook ou autres nous sort le même discours, j'aurais beaucoup moins confiance.
Après si les gouvernements pouvaient missionnés des audits de sécurité pour ce genre d'outils ce serait mieux...

avatar rikki finefleur 17/06/2016 - 11:51 (edité)

iDuplo
il n'y a pas de vie privée a partir du moment ou elle collecte des données pour étudier ton comportement, ou tu vas, ce que tu fais. Que ceci soit partiel ou non..
Après tu peux essayer de donner des noms marketing.. la vie privée a disparu.

Comme tu le dis , les gouvernement ne font jamais d'audit, et l'on découvre qu'une société soit disant , ne faisant jamais de collecte en faisait . Mais bon qui pouvait croire le contraire, sinon des gens biens naifs.

avatar C1rc3@0rc 17/06/2016 - 14:17 (edité)

@iDuplo
Mais Google et Facebook ont le meme discours...

La question se pose en fait a deux niveaux:
- securitaire étatique
- commerciale

Avec un element subsidiaire qui est la persistance des données et leur interoperabilité...

Est ce que l'anonymisation et sa solidité a du sens par rapport a des intérêts étatiques: non!
Tout ce qui se passe sur les réseaux est légalement accessible aux agences d'état. Echelon est une réalité, les boites noires de Kazeneuve aussi et le Patriot Act est la preuve ultime s'il en fallait encore.

Est ce que l'anonymisation et sa solidité a du sens par rapport a des intérêts commerciaux: oh que oui!
Tant que le business model d'Apple c'est de vendre des machines et que celui de Google c'est de vendre des espaces publicitaires précisément ciblés, l'anonymat des clients de ces deux sociétés est la clé de voute de leur business. On peut donc leur faire confiance a ce niveau pour garder au sec ce secret industriel fondamental.

Maintenant vient le problème subsidiaire.
Que se passe-t-il lorsque les datacenter de ces sociétés sont piratés?
Que se passe-t-il si ces société disparaissent ou changent de business model?
Est ce que l'information identifiante peut être reconstituer?

En fait la vraie question c'est combien de temps et de quelle puissance le hacker ou l'acquéreur de ces données aura-t-il besoin pour identifier les individus derrière les profils ultra precis?

Et la réponse se trouve chez Facebook. Inutile de présenter Facebook comme le grand Satan, depuis le début on sait pertinemment qu'est ce qui est derrière cette société. Facebook c'est le plus puissant outil d'ingénierie sociale au monde, un serveur central capable de cartographier intégralement une personne et son environnement social. Et Facebook a été construit pour créer de la donnée précise a partir de données partielles! C'est aujourd'hui l'outil de graphe social le plus efficace.

Donc l'anonymisation c'est du vent au final...

avatar bonnepoire 17/06/2016 - 13:16

Tu le dis toi-même, si personne n'a le droit d'y accéder, ça reste privé...

avatar XiliX 17/06/2016 - 14:15 (edité)

@elamapi

"En même temps, qui va aller vérifier que les données collectées sont anonymisées convenablement ? Vu que personne n'a le droit d'y accéder ..."

Un spécialiste de sécurité peut très facillement mettre un sniffer et vérifie si les données sont anonymes ou non

avatar Stardustxxx 17/06/2016 - 14:31 (edité)

@XiliX
Les donnees sont cryptées avant d'etre envoyer. Ca risque d'être compliquer a identifié..

avatar XiliX 17/06/2016 - 15:47

@Stardustxxx

Certes... comme tu dis c'est plus compliqué, mais pas impossible.
Donc rien que pour ça j'en doûte que Apple prendrait le risque. Car s'ils se font chopper, ça va leur coûter beaucoup trop cher.

avatar Thaasophobia 17/06/2016 - 15:25

Vie privée versus Liberté vs Transparence

Pour avoir bossé sur le sujet: La SEULE et UNIQUE solution de garantir la vie privée est:

1. de se passer de serveurs centraux pour le partage des données (bittorrent)
2. de tracker l'historique des access aux données dans une base incorruptible (blockchain)
3. que le propriétaire de la donnée sache à tout moment qui y a access avec quel niveau d'accréditation etc.
4. que le propriétaire puisse connaitre qui utilise ses données pour quels traitements et d'en connaitre les conclusions.
Le tout en open-source.

Si cela vous parait complexe, sachez que toutes les briques existes et que le movement est en marche.
http://www.linformaticien.com/actualites/id/40773/tim-berners-lee-l-inve...
ou encore
http://www.decentralizedweb.net/learn-more/

Merci Macg pour cet article.

avatar Ali Baba 17/06/2016 - 10:57 via iGeneration pour iOS

J'ai l'impression que cet article contient plusieurs erreurs et contresens. Je ne sais pas d'où sort le chiffre de 60% par exemple. S'il vient de la diapo utilisée pour illustrer, c'est un gros contresens car ce chiffre ne décrit pas la marge d'erreur mais le résultat.

avatar XiliX 17/06/2016 - 14:17

@Ali Baba

Les 60% représentent une valeur statistique de fiabilité du résultat.
Pour Apple 60% suffit pour dire qu'un résultat est fiable ce n'est pas une marge d'erreur.

avatar JuGdx 17/06/2016 - 10:57 via iGeneration pour iOS

@elamapu : de toute façons quel autre choix? Et puis personne ne t'obliges dans ce cas de posséder un device iOS! Donc ton choix est de faire confiance à ce genre de processus.
C'est tout de même marrant qu'une personne dédiant un ouvrage sur le chiffrement et sécurité ne se permette pas de juger mais seulement de saluer la firme (comme le dit l'article); alors que des personnes moins instruites sur le sujet le fassent sans aucun appui mais que par des suppositions...et seulement pour émettre une critique.
Si Apple ne prenait pas d'initiatives (qu'ils chiffrent réellement les données ou pas); ils ne pourraient pas évoluer et nous proposer de nouvelles choses.

avatar C1rc3@0rc 17/06/2016 - 14:40

@JuGdx

«Si Apple ne prenait pas d'initiatives (qu'ils chiffrent réellement les données ou pas); ils ne pourraient pas évoluer et nous proposer de nouvelles choses.»

Cela est vrai mais encore faut il bien identifier le sens de ce développement.

En l'occurence, aucune de ces sociétés n'offrent de nouvelles choses. Les principes et le méthodes datent de plus de 30 ans au minimum. La différence aujourd'hui c'est l'échelle et la vitesse!

Si on prend Siri et Cie, les principes n'ont pas evolué d'un iota, et plutot qu'un developpement d'une intelligence artificielle vraie, on a affaire a des monstres de puissance qui ne font que mettre en correspondance des demandes standarisées avec des reponses adaptées aux besoins commerciaux du moment.

Il y a encore 5 ans, les PC faisaient la course a la puissance. Rappelons nous aussi du passage au PowerPC sur Mac qui inaugurait un saut de puissance incroyable par rapport aux annees de stagnation des processeurs 68k.
Aujourd'hui on assiste a l'inverse: Intel a dominé le marché mais le x86 est a bout de souffle et ne parvient pas a progresser reelement. Et que fait Apple: plutot que de faire de son mieux pour fournir les machines les plus puissantes et fonctionnelles possible, Apple va au contraire châtrer ses machines pour qu'elles perdent toute puissance et autonomie.

Pourquoi? Parce que simplement un netbook est inféodé a une serveur central qui collecte tout.
Apple comme Microsoft font tout pour assujetir l'utilisateur et rendre impossible de passer par un autre parcours, standarisé, que celui prevu. On est ici fasse a une chaine de travail dans laquelle les utilisateurs sont normalisés.
C'est Orwelien, soviétique, mais au final tellement capitaliste: on exploite le plus vite et le plus intensément le filon, sans se préoccuper des conséquences.

Seule certitude, la voie actuelle d'Apple est l'anti-these de celle d'Apple de 97 ou de 83...

avatar deltiox 17/06/2016 - 11:09 via iGeneration pour iOS

N'empêche il a raison
Tout ce qui est décrit la l'est sur la base des déclarations d'une entreprise

Comment vérifier que ces processus sont respectés à la lettre ?

Dans chaque cas, au bout du compte, on demande à l'utilisateur de faire confiance à une societe collectrice d'informations (sachant que les hommes dans cette societe changent et que les données collectées elles restent).

Ce qui me gêne c'est qu'aucune societe ne semble aller vers : vous avez le contrôle total, si vous ne souhaitez pas communiquer du tout vos données, libre à vous.

avatar steph0678 17/06/2016 - 11:24 via iGeneration pour iOS

@deltiox :
Dans ce cas comme dis plus haut autant ne pas posséder de smartphone car tout n'est que confiance dans la mesure où chacun est expert dans son domaine. D'ailleurs cette confiance est stipulée contractuellement.

Fais-tu confiance à ta banque quand tu y déposes ton salaire ? Fais-tu confiance à ta banque sur la confidentialité de toutes tes transactions bancaires ?
Fais-tu confiance à ta compagnie aérienne quand tu mets le pied dans un avion ?

Oui il y a un moment où il faut bien s'en remettre à la confiance. Mais rappelons nous qu'Apple seul contre tous à tenu dans l'affaire de San Bernardino et a refusé de créer une porte dérobée dans son système.

Et rappelons nous que SNOWDEN lui même et qui n'a rien (à gagner pour le coup !) a félicité Apple pour sa politique de confidentialité !

avatar deltiox 17/06/2016 - 12:01 via iGeneration pour iOS

@steph0678 :
Ne pas se méprendre
Je n'ai pas critiqué Apple
Ne t'emporte pas

Je dis juste regretter qu'une societe ne propose pas pour ce qui est des smartphones de laisser la possibilité aux données de l'utilisateur de ne pas être utilisées/remontées

Nb: pour la banque la question en France ne se pose pas, un compte bancaire est obligatoire.
Et non, je ne leur fait pas confiance, mais je n'ai pas trouve une meilleure solution

avatar C1rc3@0rc 17/06/2016 - 14:57

@deltiox

Apple est criticable sur beaucoup de sujet, mais en l'occurence elle ne fait pas pire que les autres. Qu'Apple perde son ame c'est une autre histoire mais cela est factuel.

La question de la confiance se pose au moment ou l'on a le choix et donc des alternative: face aux cartel des banques en collusion avec les etats (quand ils ne sont pas simplement subornonnés aux banques..) il n'est pas question de confiance: on n'a aucun choix.
Les compagnies aeriennes, de meme, elles sous controle depuis longtemps et doivent fournir leurs données.

On avait encore quelques alternatives avec les train ou la bagnole si on prend le sujet des transports, mais c'est fini ou sur le point de l'etre.

Rappelons qu'il y a une réalité, c'est que progressivement les paiements en espèces, seul moyen anonyme, deviennent illégaux!

Pour 2 raisons très simple: les banques travaillent avec plus e 95% de valeurs qu'elles n'ont pas et qui n'existent pas et redoutent une seule chose, qu'un peu plus de 5% de leurs sujets veuillent recuperer leurs fonds en espèces!

L'autre raison c'est justement l'intérêt des états a supprimer l'anonymat: tout autre moyen de paiement que les espèces permet de tracer le comportement des gens. Et il est facile ensuite de "tenir" les gens avec la menace de la confiscation du pouvoir d'achat. De plus sans especes, pas de contrainte d'assurances sur du concret, donc l'administratif peut raconter n'importe quoi par rapport a sa gestion, il n'y a aucune reference pour controler.

Le principe de la démocratie sépare clairement et definie obligatoirement le domaine privé du domaine public, c'est un fondamentaux. Les dictatures, monarchies ou autres, effacent le domaine privé pour amalgamer l'individu dans le groupe.
Et l'informatique, donc les telecom, sont un lieu d'action tres puissant.

avatar byte_order 17/06/2016 - 12:17

> Et rappelons nous que SNOWDEN lui même et qui n'a rien (à gagner pour le coup !)
> a félicité Apple pour sa politique de confidentialité !

Et invite à utilisé Signal plutôt que toute autre messagerie instantanée propriétaire, même chiffrée.
Comme quoi la confiance de Snowden dans Apple s'arrête à sa capacité de vérifier que ce qui est dit est bien la réalité.

Dans le cas de San Bernadino, d'ailleurs, on n'a pas pu vérifier. Entre ce que affirme Apple publiquement et ce qu'ils ont fait ou pas pour le FBI, il peu y avoir un léger décalage, mais comme c'est dans l'opacité la plus totale, ma confiance s'arrête là.

avatar C1rc3@0rc 17/06/2016 - 15:03 (edité)

«Dans le cas de San Bernadino, d'ailleurs, on n'a pas pu vérifier.»

Ben on sait ce que le FBI a dit: il n'y avait rien sur l'iPhone!
Le contraire aurait d'ailleurs ete ettonant car le FBI aurait alors pu etre accusé d'obstruction a une enquete anti-terroriste, sur le simple fait que le FBI a refusé de traiter ce cas dans le cadre de la lutte anti-terroriste... Il s'agissait donc que d'une grosse arnaque politicienne qui comptait sur le fait qu'une firme ferme sa gueule et serve de faire valoir pour dezinguer les principes de la Constitution...

Mais si Apple a tenu bon, c'est aussi par ce qu'ils savaient qu'il s'agissait de manipulation politicienne et qu'ils étaient certains de gagner.

avatar byte_order 17/06/2016 - 17:09

Entre savoir ce que Apple et le FBI a dit et ce qui s'est vraiment passé en coulisse, y'a un monde.
D'autant que, en effet, c'était une manouvrière politicienne.
Mais on aurait tord de croire que la manœuvre n'avait lieu que d'un côté ou de ne pas envisager qu'elle ai été organisé plus collégialement que ce que l'un et l'autre sera jamais prêt à reconnaître.

Reste que on a aucun moyen de vérifier quoi que ce soit sur la véracité de leur affirmation.
Et en la matière, cela reviens donc a leur accorder notre confiance aveuglement, rien d'autre, alors que leur intérêt premier ne peut pas être confondu avec le notre.

avatar ysengrain 17/06/2016 - 11:14

Mon app "Le Robert" ne connait pas le mot "privacité".
En revanche "privacy" peut se traduire de 2 manières:
- intimité
- vie privée

Aaron Roth que vous citez, utilise le mot "privacy".
Y aurait il une erreur de traduction ? du même ordre que celle de "experience" devenu en français "expérience" alors qu'il s'agit d'utilisation.

avatar Simeon 17/06/2016 - 11:24

Je pense que le néologisme vise à restreindre l'extension de ces concepts à la collecte de données dans la sphère informatique.
Mais ce n'est effectivement pas très élégant. D'autant que l'anglais conserve un mot d'usage courant.

avatar sebkun 17/06/2016 - 11:32 (edité)

en l'occurrence, une simple recherche google aurait permis à l'auteur de savoir qu'on parle d'intimité différentielle : https://fr.wikipedia.org/wiki/Intimité_différentielle

sachant que je suis tombé sur cette page en cherchant "privacité différentielle"……… j'ai trouvé l'article très intéressant en soi, c'est pour ça que j'ai fait l'effort de créer un compte et commenter. Car je trouve de plus en plus, sur les sites de news, des traductions que je qualifierais de "relue hâtivement" avec des formules idiomatiques mal traduites, parfois des contresens… et je trouve ça dommage.

Pages