Stage recherche - Watermarking de données Tabulaires F/H
Stage Lannion (Côtes-d'Armor)
Description de l'offre
about the role
#watermarking #privacy #modèlegénératif
Contexte : Que ce soit sous forme de tableaux de données marketing ou de logs réseau/machines, les données tabulaires sont omniprésentes chez Orange. Mais une grande part de ces données contient des informations privées (noms, adresses, numéros de téléphones etc.). L’utilisation de données synthétiques anonymisées en remplacement des vraies données fait désormais partie intégrante du processus de gestion des données. Dans ce domaine, les modèles génératifs tabulaires à base de diffusion (3; 4) sont ceux qui offrent le meilleur compromis entre la performance et la préservation de la vie privée (3; 4). Mais l’anonymat n’est pas la seule garantie que l’on voudrait avoir avant de partager des données avec un tiers. Il est aussi primordial de garantir leur traçabilité afin d’éviter une utilisation ou une diffusion abusive. Les progrès récents des technologies de signature statistiques ou ”Watermaking” sur des modèles de langages et sur des générateurs d’images par diffusion sont très prometteurs. La conception de ces signatures soulève deux défis majeurs : le compromis entre la qualité des données et la détectabilité, et leur robustesse face aux opérations de post-édition, telles que les suppressions, les arrondis et les insertions. A ce jour peu de travaux ont été publiés sur la signature de données tabulaires (1;5).
Ce stage aura pour objectif d’explorer les différentes méthodes qui permettent d’insérer des signatures dans des données tabulaires afin d’en certifier l’origine. On établira d’abord un état de l’art en se focalisant sur les spécificités des données tabulaires. Dans un second temps on expérimentera différentes méthodes de signatures couplées à des systèmes génératifs à base de diffusion et on cherchera à vérifier leur robustesse face à diverses attaques.
Références
[1] Anonymous. Tabwak : A watermark for tabular diffusion models. Preprint, 2024. Under review.
[2] Hengzhi He et al. Watermarking generative tabular data. preprint, 2024.
[3] G Charbel N Kindji et al. Under the hood of tabular data generation models: the strong impact of hyperparameter tuning. Preprint, 2024. Under review.
[4] Hengrui Zhang et al. Mixed-type tabular data synthesis with score-based diffusion in latent space. ICLR, 2024.
[5] Yihao Zheng et al. Tabularmark : Watermarking tabular datasets for machine learning. preprint, 2024.
about you
Ingénieur ou master en mathématiques/informatique, science des données, apprentissage statistique. Un intérêt équilibré pour les aspects théoriques et techniques de l’apprentissage automatique. La maîtrise de l’anglais, de Linux et de PyTorch est essentielle.
additional information
— Le stage se déroulera dans une équipe de recherche et développement de haut niveau, dont l’expertise en traitement statistique des données et apprentissage est reconnue au sein d’Orange et à l’international ;
— Les travaux issus de ce stage pourront faire l’objet d’une publication ;
— Possibilité de poursuivre en thèse dans l’équipe ;
— Le cadre de vie exceptionnel qu’offre la ville de Lannion.
Modalités
Début du stage à partir de février 2025. Durée flexible entre 4 et 6 mois. Rémunération entre 1000€ et 2000€ net/mois selon le profil de l’étudiant().
department
Basée à Lannion (22) au sein d'Orange Innovation, l'équipe Machine Learning & PROFiling déploie son activité dans le domaine des statistiques, machine learning et intelligence artificielle, depuis des travaux fondamentaux jusqu'à l'accompagnement des unités opérationnelles d'Orange sur des cas d'usage précis.
L'équipe se compose d'une vingtaine de permanents et accueille actuellement quatre doctorants.
contract
Internship
Start date : 03 Feb 2025
Niveau d’études préparé pendant le stage
Indemnité brute selon école
Bac+5
de 1572 € à 2096 € / mois
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.