Predicting memorization within Large Language Models fine-tuned for classification

25 Juil. 2025

Publications

Une avancée vers une protection proactive de la vie privée dans les modèles de langage

Nous avons le plaisir d’annoncer que notre article de recherche a été accepté à ECAI 2025 – la 28e Conférence européenne sur l’intelligence artificielle, qui se tiendra à Bologne en octobre prochain.

L'objectif principal de ce travail mené par ORAILIX

Les modèles linguistiques (LM) sont connus pour mémoriser involontairement des informations sensibles provenant de leurs ensembles de données d'entraînement, qui peuvent ensuite être divulguées lors de l'inférence. Pour éviter de telles violations de la vie privée, nous avons besoin de mécanismes fiables d'audit et de protection de la vie privée.

Alors que diverses méthodes d'audit existantes sont souvent coûteuses et réactives, elles ne détectent les vulnérabilités qu'après que la mémorisation ait eu lieu. Dans cet article, nous présentons une nouvelle méthode permettant de prédire quels échantillons sont susceptibles d'être mémorisés avant que la mémorisation ne se produise dans un contexte de classification.

Notre approche est simple, ne nécessite aucun modèle fantôme (shadow model), et s’appuie sur des signaux d’information théorique entre le modèle et ses données d'entraînement. Les résultats prometteurs de cette étude ouvrent la voie à des défenses plus proactives et ciblées pour protéger la vie privée dans les grands modèles de langage (LLMs).

Cette recherche s’inscrit dans le cadre de la chaire « IA Responsable et de Confiance », fruit de la collaboration entre l’École Polytechnique et le Groupe Crédit Agricole. 

Lien de l’article : https://arxiv.org/abs/2409.18858

Lien de la conférence : ECAI 2025 – 28th European Conference on Artificial Intelligence

Plus d’informations seront partagées à l’occasion de l’ECAI 2025 en octobre prochain, à Bologne.

Retour à la liste