Les chercheurs découvrent que la méthode courante pour tester les fuites de modèles de langage d'IA pourrait être défectueuse

Une nouvelle étude révèle qu’une méthode largement utilisée pour évaluer les fuites de données dans les grands modèles linguistiques pourrait être défectueuse, soulevant des inquiétudes quant à la confidentialité des données de l’IA.

Des chercheurs de l'École d'ingénierie et de sciences appliquées de l'Université de Virginie et de l'Université de Washington ont dévoilé une faille importante dans une méthode courante utilisée pour tester les fuites de données potentielles dans les grands modèles linguistiques (LLM).

L'équipe a mis en évidence ces résultats dans un papier publié pour examen par les pairs le 10 juillet et présenté à la Conférence sur la modélisation du langage à l'Université de Pennsylvanie le mois dernier.

L’étude remet en question la fiabilité des attaques par inférence d’appartenance (MIA), un outil essentiel pour mesurer les risques d’exposition aux informations dans les systèmes d’IA.

« Nous constatons que les MIA surpassent à peine les suppositions aléatoires dans la plupart des paramètres à travers différentes tailles et domaines de LLM », indique le résumé de l'article, révélant une vulnérabilité critique dans les pratiques actuelles de l'IA.

Les MIA sont censés agir comme un audit de confidentialité, déterminant la quantité d'informations qu'un modèle divulgue sur des données de formation spécifiques.

« C'est un moyen de mesurer la quantité d'informations que le modèle divulgue sur des données de formation spécifiques », a déclaré dans un communiqué le co-auteur David Evans, professeur d'informatique qui dirige le groupe de recherche sur la sécurité à l'UVA. communiqué de presse.

Cependant, les résultats de l’étude suggèrent que ces méthodes ne parviennent pas à mesurer avec précision les risques d’inférence.

Lors de la création de LLM, les développeurs collectent de grandes quantités de textes et d'images provenant d'Internet et d'autres sources, ce qui rend la sécurité de ces données de formation primordiale. Les déductions tirées du contenu généré pourraient exposer des données privées, ce qui s'avère problématique pour les développeurs comme pour les utilisateurs.

L’équipe a évalué cinq MIA courants à l’aide de l’ensemble de données open source « The Pile », qui englobe diverses collections de données textuelles provenant de 22 sources telles que Wikipédia et PubMed. La recherche a révélé que la nature dynamique des données linguistiques complique la définition de ce qui constitue un membre d’un ensemble d’apprentissage.

« Nous avons constaté que les méthodes actuelles de conduite d'attaques d'inférence d'appartenance sur les LLM ne mesurent pas réellement bien l'inférence d'appartenance, car elles souffrent de difficultés à définir un bon ensemble représentatif de candidats non membres pour les expériences », a ajouté Evans.

Cette fluidité du langage rend difficile l’identification des véritables fuites de données. Comme l’indique l’article, des recherches antérieures ont peut-être démontré par erreur une inférence de distribution plutôt qu’une inférence d’appartenance précise en raison de changements dans la distribution des données.

L'équipe de recherche a rendu ses conclusions accessibles via un projet appelé MIMIR, qui prône des évaluations plus rigoureuses et plus précises des risques pour la vie privée liés aux LLM. Bien que les données actuelles suggèrent que les risques d'inférence pour les enregistrements individuels dans les données de pré-formation sont faibles, la nature interactive des LLM open source présente de nouveaux défis.

Anshuman Suri, co-premier auteur et ancien doctorant de l'UVA aujourd'hui chercheur postdoctoral à l'Université Northeastern, a souligné que l'ajustement des LLM existants avec de nouvelles données augmente la vulnérabilité aux erreurs.

« Nous savons cependant que si un adversaire utilise des LLM existants pour s'entraîner sur ses propres données, ce que l'on appelle le réglage fin, ses propres données sont beaucoup plus susceptibles d'être erronées que les données observées pendant la phase d'entraînement d'origine du modèle », a déclaré Suri dans le communiqué de presse.

Les chercheurs soulignent la nécessité de meilleures méthodes pour évaluer les problèmes de confidentialité des systèmes d'IA, un défi à relever par la communauté plus large de l'IA dans les années à venir.