Stage Masquage de l'attention pour le traitement des variables manquantes sur les données tabulaires F/H
Stage Lannion (Côtes-d'Armor) Développement informatique
Description de l'offre
about the role
#Machinelearning #IA #apprentissageautomatique #PyTorch #scikit-learn #optuna
Contexte : Que ce soit sous forme de tableaux de données marketing, de logs réseau ou de logs machines, les données tabulaires sont omniprésentes chez Orange. Les avancées des réseaux de neurones, en particulier des transformers, sont indéniables dans les domaines du texte, de l’image ou de l’audio. Cependant, paradoxalement, ils sont assez inefficaces sur les données tabulaires. En effet, les données tabulaires sont souvent hétérogènes. Elles combinent des variables catégorielles et continues avec des distributions complexes, tronquées ou discrètes. Certaines tables contiennent également des variables ordinales, des champs textuels et des dates. Il est aussi très courant d’avoir des données manquantes.
Ainsi, lorsqu’il s’agit de déployer des modèles prédictifs sur des données tabulaires, les outils d’apprentissage automatique "classiques" comme XGBoost ou Khiops restent de loin les plus efficaces et les plus robustes [2].
Mais dans certains cas, il peut être nécessaire de combiner des données tabulaires avec d’autres contenus, tels que des images, des textes ou des séries temporelles ; on peut aussi vouloir réaliser une adaptation de domaine ou un apprentissage par transfert avec des fonctions de coût adaptées. Dans ces situations, la flexibilité des réseaux de neurones est très intéressante.
Mais pour atteindre la performance des modèles classiques, nous devons utiliser des encodages et des architectures appropriés [3], et nous devons gérer correctement les variables manquantes. Dans [4], les auteurs proposent d’utiliser le masquage d’attention à la place de l’imputation.
L’objectif principal de ce stage est d’améliorer la méthode proposée dans [4] et d’évaluer si la gestion des valeurs manquantes par masquage d’attention apporte des améliorations par rapport à l’imputation classique.
Nous établirons d’abord un état de l’art sur les transformers appliqués aux données tabulaires et sur la gestion des valeurs manquantes [voir par exemple 1, 4, 5]. Nous étudierons ensuite l’impact des méthodes de masquage d’attention pour traiter différents scénarios de données manquantes : Missing Completely At Random (MCAR), Missing At Random (MAR) ou Missing Not At Random (MNAR) [5]. Nous comparerons avec des méthodes d’imputation standards (valeurs constantes, moyennes, plus proches voisins, etc.) et des modèles tabulaires de l’état de l’art (Khiops, XGBoost)
[1] Revisiting Deep Learning Models for Tabular Data. NeurIPS 2021.
[2] Why do tree-based models still outperform deep learning on typical tabular data? NeurIPS 2022.
[3] Tabular Data Generation: Can We Fool XGBoost? TRL Workshop@NeurIPS 2022.
[4] Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets. 2024. Preprint.
[5] Still More Shades of Null: A Benchmark for Responsible Missing Value Imputation. 2024. Preprint.
about you
- Vous êtes ingénieur ou master en mathématiques/informatique, science des données, apprentissage statistique.
- Vous avez un intérêt équilibré pour les aspects théoriques et techniques de l’apprentissage automatique.
- Vous aimez lire et analyser des articles scientifiques et la partie rédactionnelle
- La maîtrise de l’anglais, de Linux et de PyTorch est essentielle.
additional information
- Le stage se déroulera dans une équipe de recherche et développement multiculturelle de haut niveau, dont l’expertise en traitement statistique des données et apprentissage est reconnue au sein d’Orange et à l’international ;
- Les travaux issus de ce stage pourront faire l’objet d’une publication ;
- Le cadre de vie à Lannion, en bord de mer
- des opportunités de poursuite sur des sujets de thèse dans l’équipe sont possibles;
department
Basée à Lannion (22), au sein d'Orange Innovation, l'équipe Machine Learning & PROFiling déploie son activité dans le domaine des statistiques, machine learning et intelligence artificielle, depuis des travaux fondamentaux jusqu'à l'accompagnement des unités opérationnelles d'Orange sur des cas d'usage précis.
L'équipe se compose d'une vingtaine de permanents et accueille actuellement quatre doctorants.
contract
Internship
Start date : 01 Apr 2025
Niveau d’études préparé pendant le stage
Indemnité brute selon école
Bac+5
de 1572 € à 2096 € / mois
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.