Stage M2: Vulnérabilités des modèles d'IA lors de la phase d'adaptation H/F
Stage Gif-sur-Yvette (Essonne) Développement informatique
Description de l'offre
Détail de l'offre
Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
2024-33828Description de l'unité
Situé à Saclay, en Ile-de-France sud, le CEA LIST (http://www-list.cea.fr/) est un centre de recherche scientifique et technologique dédié au développement de logiciels, de systèmes embarqués et de capteurs pour des applications destinées à la défense, la sécurité, l'énergie, le nucléaire, l'environnement et la santé. Le CEA LIST fait partie de l'écosystème dynamique et stimulant de l'Université Paris Saclay. Il compte plus de 700 chercheurs se focalisant sur les systèmes numériques intelligents, centrés autour de l'intelligence artificielle, l'usine du futur, l'instrumentation innovante, les systèmes cyberphysiques et la santé numérique. Au sein de cet institut, le Laboratoire Instrumentation Intelligente, Distribuée et Embarquée (LIIDE) développe des fonctionnalités innovantes d'intelligence artificielle pour la mesure répartie et l'apprentissage frugal et distribué.
Description du poste
Domaine
Mathématiques, information scientifique, logiciel
Contrat
Stage
Intitulé de l'offre
Stage M2: Vulnérabilités des modèles d'IA lors de la phase d'adaptation H/F
Sujet de stage
Si l'IA avec l'apprentissage profond ont permis de réaliser des progrès significatifs dans de nombreux domaines, le déploiement de ces technologies s'accompagne de risques spécifiques. En effet, un système d'IA présente de nombreuses vulnérabilités tout au long de son cycle de vie qu'un acteur malveillant peut exploiter afin d'attaquer l'intégrité du modèle, son éthique ou compromettre la confidentialité des données d'entrainement. Historiquement, les menaces contre les modèles d'IA se concentraient à l'étape d'inférence avec des attaques de type évasion ou appartenance. Mais au cours de la dernière décennie, l'apprentissage fédéré a ouvert une nouvelle brèche en facilitant les attaques par empoisonnement durant l'étape d'entrainement (attaques backdoor et byzantine). Et désormais, l'utilisation massive de modèles pré-entrainés fournit de nouvelles possibilités d'attaques lors de la phase d'adaptation des modèles (fine-tuning).
Durée du contrat (en mois)
6
Description de l'offre
Nous observons actuellement l’augmentation de la mise à disposition de modèles profonds pré-entrainés (modèles de fondations) qui vont ensuite être adaptés pour la réalisation d’une tache spécifique. Cette phase d'adaptation fournit de nouvelles possibilités d'attaques qui vont être étudiées au cours de ce stage.
Ainsi, le/la candidat(e) sera amener à étudier certains verrous parmi lesquels :
Comment assurer la pérennité de l’empoisonnement (attaque backdoor) d’un modèle pré-entrainé lors de l’étape de fine-tuning ?
Comment empoisonner de façon efficace un modèle pré-entrainé lors d’une étape de fine-tuning ?
La base de données utilisée pour le fine-tuning est-elle particulièrement vulnérable face aux attaques d’appartenance ?
Quelles sont les nouvelles attaques qui peuvent être envisagées autour de l’utilisation d’un RAG (Génération Augmentée par Récupération) ?
Le stage débutera par une étude bibliographique liée aux verrous du stage avant de se focaliser sur l’un d’entre eux avec la proposition et la mise en œuvre d’attaques innovantes. Les cas d’usage envisagés durant le stage seront la détection d’objets (modèle de type Retinanet) et/ou la génération de textes (modèle de type LLM).
Profil recherché
Profil du candidat
Le stage s’adresse à un(e) étudiant(e) du cycle ingénieur/universitaire cherchant un stage M2 et manifestant l’envie de travailler dans le milieu de la recherche avec un intérêt manifeste pour la cybersécurité des IA. Idéalement, le/la candidat(e) suit actuellement une formation en lien avec le domaine de l’Intelligence Artificielle/Machine Learning. La connaissance des principaux algorithmes d’optimisation, des différents types de modèles ainsi que la maîtrise de Python sont indispensables. Durant le stage, le/la candidat(e) sera en relation directe avec un expert en cybersécurité de l’IA. Nous attendons qu’il/elle soit capable d'apporter sa rigueur, son enthousiasme et sa curiosité pour la recherche. Nous offrons la possibilité à nos stagiaires de participer à la conférence JDSE (Junior conference on Data Science and Engineering) afin de les familiariser avec le déroulement d’une conférence scientifique.
La durée du stage est de 6 mois minimum et sera rémunéré.
Conformément aux engagements pris par le CEA en faveur de l’intégration de personnes en situation de handicap, cet emploi est ouvert à tous et toutes.