Stage M2: attaques de confidentialité en apprentissage fédéré H/F
Alternance Gif-sur-Yvette (Essonne) Développement informatique
Description de l'offre
Détail de l'offre
Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
2024-33776Description de l'unité
Situé à Saclay, en Ile-de-France sud, le CEA LIST (http://www-list.cea.fr/) est un centre de recherche scientifique et technologique dédié au développement de logiciels, de systèmes embarqués et de capteurs pour des applications destinées à la défense, la sécurité, l’énergie, le nucléaire, l’environnement et la santé. Le CEA LIST fait partie de l’écosystème dynamique et stimulant de l'Université Paris Saclay. Il compte plus de 700 chercheurs se focalisant sur les systèmes numériques intelligents, centrés autour de l’intelligence artificielle, l’usine du futur, l’instrumentation innovante, les systèmes cyberphysiques et la santé numérique. Au sein de cet institut, le Laboratoire Instrumentation Intelligente, Distribuée et Embarquée (LIIDE) développe des fonctionnalités innovantes d’intelligence artificielle pour la mesure répartie et l’apprentissage frugal et distribué.
Description du poste
Domaine
Mathématiques, information scientifique, logiciel
Contrat
Stage
Intitulé de l'offre
Stage M2: attaques de confidentialité en apprentissage fédéré H/F
Sujet de stage
En 2016, Google publie les principes fondateurs de l'apprentissage fédéré avec la promesse de faire de l'apprentissage statistique sans compromettre les données des clients. Il s'agit d'une approche collaborative où plusieurs clients participent à l'apprentissage du modèle sans transmettre leurs données personnelles, mais uniquement les paramètres du modèle mis à jour localement puis agrégés sur le serveur central. Par construction, l'apprentissage fédéré apparait ainsi comme une solution pour assurer la confidentialité des données mais pas pour la confidentialité du modèle dont les paramètres sont échangés entre les clients et le serveur tout au long du processus d'apprentissage. Or il est tout à fait possible pour un serveur malveillant (honnête mais curieux) d'inférer de l'information sur les données d'apprentissage d'un client à partir des paramètres du modèle. Ce sont ces attaques dites de confidentialité qui seront étudiées au cours du stage.
Durée du contrat (en mois)
6
Description de l'offre
Le but du stage consiste à étudier les attaques de confidentialité dans le cadre de l'apprentissage fédéré [1]. Classiquement, un serveur malveillant (honnête mais curieux) tente d'inférer de l'information sur les données d'apprentissage à partir du gradient envoyé par le client (gradient-based attack [2]). Cela peut être fait par des méthodes d'optimisation inversée, où l'attaquant essaie de trouver les entrées (données originales) qui produiraient les gradients observés en minimisant la distance entre les gradients produits et observés tout en utilisant une fonction de régularisation qui permet de structurer les images reconstruites [3, 4, 5].
Dans un premier temps, le stagiaire se familiarisera avec l’apprentissage fédéré en implémentant un exemple ‘jouet’ de classification d’images. Dans un deuxième temps, il se concentrera sur les attaques à base de gradient en effectuant une étude bibliographique et en réalisant une étude comparative des attaques les plus prometteuses. Enfin le stagiaire travaillera avec son équipe encadrante à proposer une attaque innovante (en testant de nouvelles fonctions de régularisation ou en établissant des liens avec l’IA explicable).
[1] Google AI blog: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
[2] Zhu et al., Deep leakage from gradients, 2019
[3] Geiping et al., Inverting Gradients – How easy is it to break privacy in federated learning?, 2020
[4] Yin et al., See through gradients: Image batch recovery via GradInversion, 2021
[5] Zhu et al., R-GAP: Recursive Gradient Attack on Privacy, 2021
Profil recherché
Profil du candidat
Le stage s’adresse à un(e) étudiant(e) du cycle ingénieur/universitaire cherchant un stage M2 et manifestant l’envie de travailler dans le milieu de la recherche. Idéalement, le/la candidat(e) suit actuellement une formation en lien avec le domaine de l’Intelligence Artificielle/Machine Learning. La connaissance des algorithmes d’optimisation en Machine Learning ainsi que la maîtrise de Python sont indispensables. Durant le stage, le/la candidat(e) sera en relation directe avec les membres de l’équipe d’apprentissage fédéré (deux ingénieurs-chercheurs, un thésard et deux post-doctorants). Nous attendons qu’il/elle soit capable d'apporter sa rigueur, son enthousiasme et sa curiosité pour la recherche.
La durée du stage est de 6 mois minimum et sera rémunéré.
Pièces à fournir : CV + lettre de motivation + relevés de notes des 3 dernières années
Rejoignez-nous, venez développer vos compétences et en acquérir de nouvelles !
Vous avez encore un doute ? Nous vous proposons :
- L'opportunité de travailler au sein d'une organisation de renommée mondiale dans le domaine de la recherche scientifique,
- Une expérience à la pointe de l’innovation, comportant un fort potentiel de développement industriel,
- Des moyens expérimentaux exceptionnels et un encadrement de qualité,
- La possibilité de participer à la conférence JDSE (Junior conference on Data Science and Engineering) afin de vous familiariser avec le déroulement d’une conférence scientifique,
- Un équilibre vie privé – vie professionnelle reconnu,
- Un réseau de bus privatif à disposition des salariés,
- Une politique de diversité et d'inclusion,
- Un CSE actif en termes de loisirs et d’activités extra-professionnelles.
Conformément aux engagements pris par le CEA en faveur de l’intégration de personnes en situation de handicap, cet emploi est ouvert à tous et toutes.
In line with CEA's commitment to integrating people with disabilities, this job is open to all.