« Privacité différentielle » : comment Apple collecte vos données sans collecter vos données

Bien qu’elle se soit érigée en championne du chiffrement, Apple n’a jamais été opposée à la collecte de données personnelles. Au contraire : si elle s’est opposée aux demandes du FBI, c’est bien pour protéger les données qu’elle avait collectées. Plus que jamais, la firme de Cupertino amasse une mine d’informations sur vos usages, pour nourrir les algorithmes des suggestions Spotlight ou de la reconnaissance vocale. Mais en adoptant des mécanismes de privacité différentielle, Apple veut concilier le traitement des données à grande échelle avec la protection de l’intimité personnelle.

Quelques formules derrière la privacité différentielle. Rassurez-vous, nous ne ferons pas de mathématiques dans les lignes qui suivent. Image Apple.

« Nous pensons que les nouveautés et la vie privée devraient aller de pair », explique Craig Federighi :

La privacité différentielle est un sujet de recherche dans le domaine de la statistique et de l’analyse de données, qui exploite le hachage, l’échantillonnage et la génération de bruit pour permettre [un] apprentissage participatif qui préserve parfaitement l’intimité des données individuelles. Apple a réalisé un travail super important dans ce domaine afin de permettre le déploiement à grand échelle de la privacité différentielle.

Vous n’avez pas tout compris ? Reprenons les explications. Imaginons que vous travaillez dans l’équipe chargée des suggestions Spotlight : pour affiner les suggestions d’applications ou d’actualité, vous avez besoin de savoir quelles applications et quelles actualités ont été sélectionnées par les utilisateurs selon le moment de la journée et le lieu. Mais vous devez le faire de telle manière qu’il soit impossible de savoir quelles applications ou quelles actualités ont été sélectionnées par un utilisateur en particulier.

Parce que vous ne travaillez pas vraiment dans l’équipe chargée des suggestions Spotlight, vous vous dites qu’il suffit d’anonymiser les données envoyées. Sauf qu’il serait possible d’utiliser les informations de localisation pour croiser certaines informations avec d’autres données localisées, comme celles que l’on peut trouver sur les réseaux sociaux, et in fine de retrouver un utilisateur. L’anonymisation ne suffit pas : Netflix l’a appris à ses dépens.

Vous faites confiance à Apple ? Grand bien vous en fasse, mais les données collectées sur votre iPhone peuvent être stockées chez Google ou Amazon, et traitées par de petites sociétés spécialisées dont vous n’avez jamais entendu parler. Pas besoin d’évoquer la perspective d’un piratage de grande ampleur pour comprendre comment de telles données peuvent échapper au contrôle de l’utilisateur.

D’où l’utilité de la privacité différentielle, qui sort doucement des universités, où elle est étudiée depuis une quinzaine d’années. Le gouvernement américain exploite ses principes pour extraire des recensements les données sur les déplacements, qui peuvent instruire les politiques publiques en matière d’infrastructures.

Google et Microsoft s’en servent pour récupérer certains mots-clefs de leurs moteurs de recherche, afin de suivre l’évolution d’une épidémie de grippe par exemple. Mais le déploiement d’Apple sera sans doute le plus important jamais réalisé dans le domaine, et surtout le plus systématique : il concernera de nombreux aspects de l’utilisation de centaines de millions d’appareils.

Lorsque l’utilisateur cliquera sur une suggestion Spotlight, son appareil n’enverra pas directement toutes les informations associées à cette action. Apple n’ayant pas fourni les détails de son implémentation, et par souci de simplification, on peut imaginer qu’il tirera un chiffre au hasard : si tel ou tel chiffre sort, les données réelles seront chiffrées et hachées avant d’être envoyées ; sinon, un jeu de données aléatoire sera envoyé après avoir été chiffré et haché.

Une fois le « bruit » ajouté, certains utilisateurs envoient des données fausses (ici leur préférence pour lindentation), alors que les autres envoient les bonnes données. Image Apple. — Une fois le « bruit » ajouté, certains utilisateurs envoient des données fausses (ici leur préférence pour l’indentation), alors que les autres envoient les bonnes données. Image Apple.

Le serveur connaît la probabilité que tel ou tel chiffre ait été tiré, et donc la quantité de données qui relèvent du bruit plutôt que du signal, et sait aussi comment les décoder. Mais il ne sait pas quelles données sont exactes et quelles données sont aléatoires : à l’échelle d’un individu ou d’un petit groupe, le jeu de données n’est pas fiable, et la vie privée de chacun est préservée. À l’échelle de plusieurs centaines de millions de personnes toutefois, il permet de mener un traitement massif et plutôt pertinent.

Ou du moins, il le permet si le bruit n’est pas trop important : plus il l’est, plus il est difficile de dégager le signal original ; mais moins il l’est, plus il est facile de retrouver les données originales et d’en faire « fuiter » des informations privées. Toute l’efficacité du système repose donc sur la définition de la marge d’erreur : Apple se contente d’un intervalle de confiance de 60 %, un chiffre qui ne serait pas suffisant pour des recherches démographiques ou épidémiologiques, mais qui l’est sans doute pour des suggestions de liens et d’applications.

Plus on collecte de données, plus le jeu de donnée est fiable, et moins il est possible de faire « fuiter » des données individuelles.

La firme de Cupertino prend d’autres précautions contre les « pièges » statistiques. Elle limite ainsi le nombre de données envoyées par chaque utilisateur : si un utilisateur contribue beaucoup plus que les autres à un jeu de données, ses informations privées sont plus vulnérables. Elle supprime aussi toutes les données de manière périodique, ne conservant que les résultats.

L’ensemble de ce mécanisme — mathématiquement et statistiquement beaucoup plus complexe que ne le sont ces explications — permet théoriquement de concilier intimité et collecte. Et en pratique ? Il est difficile de le dire sans jeter un coup d’œil sous le capot. Aaron Roth l’a bien fait, mais le co-auteur du livre de référence sur la privacité différentielle se contente d’applaudir l’initiative d’Apple, sans la juger. Ce qui n’est déjà pas si mal.

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

« Privacité différentielle » : comment Apple collecte vos données sans collecter vos données

MacGeneration a besoin de vous

Actualités

Un 14 juillet avec le Président de la République : quand le Vision Pro s’invite aux Journées européennes du patrimoine

Bonne surprise : les AirPods Pro 3 sont (encore) en stock

MacBook Air à 599 $ : A18 Pro ou A19 Pro sous le capot ?

Remind Me Faster 6 devient une véritable app pour tous les Mac

Des iPhone 17 Pro et Pro Max en stock

Pub Apple : l'iPhone 17 Pro aime le vent, la boue et globalement s'en prendre plein la figure

iPhone Air, iPhone 17, Pro et Pro Max : les surprises des derniers tests d’autonomie

Promo : le MacBook Air M2 16/256 Go à 799 €

Nvidia et Intel annoncent un partenariat à 5 milliards pour concurrencer AMD

Vendez votre ancien iPhone, vite fait bien fait

La Chine interdit à ses géants de la tech les puces Nvidia, et Huawei annonce prendre la relève

Ubiquiti présente toute une gamme de NAS, dont un petit UNAS 2 qui rappelle fort la Time Capsule

iOS 26 : notre guide des nouveautés est en vente !

Tim Cook, invité privilégié à la visite d'État de Trump au Royaume-Uni

Le dock USB4 de Razer et ses 14 prises en promo à 213 € au lieu de 250 €

macOS Tahoe : pas de presse-papiers dans Spotlight ? N’oubliez pas de l’activer

Image du moment

Tests

Test de deux stations d’accueil pour Mac mini M4, pour retrouver l’USB-A et plus encore

Test de l’écran PA32QCV d'Asus : une alternative abordable au Pro Display XDR ?

Test du « superchargeur » Genki Moonbase : la multiprise qui balance des ports

Test du Razer Joro : un clavier compact plus tourné vers le PC que vers le Mac

Mini-test du chargeur Ugreen Nexode à câble rétractable

Test de l’Aura Aspen : un cadre photo numérique raffiné