En résumé:
- PCWorld rapporte que de grands modèles linguistiques peuvent efficacement désanonymiser les publications en ligne anonymes en analysant les modèles de texte et en les reliant à des identités réelles sur toutes les plateformes.
- Les chercheurs ont réussi à connecter les utilisateurs de Reddit aux comptes Netflix et les publications de Hacker News aux profils LinkedIn, révélant ainsi des informations personnelles telles que l’âge et l’emploi.
- La meilleure défense contre cette menace pour la vie privée est d’éviter de partager des données personnelles en ligne, car même de courts quiz anonymes peuvent conduire à l’identification de l’utilisateur.
Les grands modèles de langage ne sont pas doués pour beaucoup de choses, comme compter les doigts ou suggérer des recettes de pizza. Mais une chose que « l’IA » est assez bon pour analyser d’énormes quantités de données et trouver des connexions possibles qui ne sont pas immédiatement évidentes. Cela le rend parfait pour démasquer les publications anonymes sur Internet, selon un nouveau document de recherche.
Des chercheurs de l’ETH Zurich et de la bourse de recherche MATS associée à Berkeley ont exécuté un programme (PDF) collectant des données à partir de sources avec des noms d’utilisateur généralement anonymes, comme Reddit. En collectant les publications des utilisateurs sur des sous-reddits de films apparentés mais distincts, puis en alimentant les données LLM d’une fuite de données Netflix, ils pourraient identifier des utilisateurs spécifiques associés à ces comptes et ainsi les lier à leurs vrais noms.
Avec une seule recommandation de film partagée sur Reddit, 3,1 % des utilisateurs anonymes pourraient être associés à un compte Netflix spécifique avec une précision de 90 %. Avec cinq à neuf recommandations de films partagées, ce chiffre est passé à 23,2 %. Avec plus de 10 partages, ce chiffre est passé à un chiffre étonnant de 48,1 pour cent, avec 17 pour cent du total identifié avec une confiance quasi totale.
Une autre expérience a été menée en connectant des comptes anonymes sur Hacker News (un forum, et non un site réellement malveillant) avec des identités confirmées publiquement sur LinkedIn. Les utilisateurs proposant des informations généralisées dans de courts messages au fil du temps pourraient exposer leur véritable identité, avec des données telles que l’âge, la ville de résidence, l’emploi, etc., avec un haut degré de certitude. Cela ne fonctionnerait pas pour tous les comptes, et ce n’est rien qu’un enquêteur privé (ou même un profane dévoué) ne puisse faire… mais l’automatisation et l’échelle sont stupéfiantes.

Un exemple particulièrement accablant est celui d’un quiz anonyme de 10 minutes donné par un chercheur anthropique de l’équipe. Sept pour cent des 125 utilisateurs ont pu être identifiés individuellement sur la base de leurs réponses textuelles au questionnaire, avec des données extrapolées telles que leur travail (« Je travaille en biologie, dans la recherche »), leurs études, des outils spécifiques et même le type d’anglais qu’ils ont utilisé dans leur réponse (comme l’orthographe britannique pour « analyser »).
Les résultats de la recherche ne confirment pas que quiconque sur un site puisse être retrouvé sur la base de son activité anonyme. Plus vous divulguez d’informations personnelles, même si elles semblent générales, plus vous êtes vulnérable – et ce n’est pas nouveau. Les utilisateurs se « doxxent » depuis les débuts du Web et avant, tout comme les enquêteurs des forces de l’ordre et autres fouineurs.
Mais l’automatisation du processus – la création de systèmes capables de parcourir le Web et de trouver des associations sûres entre les publications anonymes et non anonymes – pourrait présenter de nouveaux dangers pour ceux qui souhaitent garder leur activité en ligne privée. L’ère des médias sociaux a largement supplanté l’époque des « pseudonymes », mais les communautés anonymes sur des sites comme Reddit restent importantes, en particulier pour ceux qui font partie de groupes vulnérables ou ciblés. Comme le dit le document, « la désanonymisation est l’une des nombreuses façons par lesquelles les LLM donnent du pouvoir à la fois aux criminels et aux acteurs étatiques ».
Comme le rapporte Ars Technica, les chercheurs ont proposé des suggestions pour atténuer votre risque personnel. Des plates-formes comme Reddit peuvent imposer des limites plus strictes à l’accès LLM aux API pour les données personnelles, et les fournisseurs d’« IA » peuvent surveiller l’activité pour tenter de détecter ceux qui les utilisent pour tenter une campagne de désanonymisation de masse.
Mais le moyen le plus simple et le plus fiable d’empêcher que vos données personnelles soient associées à un compte anonyme est bien sûr de s’assurer que ces données ne soient jamais mises en ligne.










