Les offres de “Orange”

Nouveau Orange

Stage recherche - Adaptation d'outils d'introspection de modèles linéaires à des forêts d'arbres F/H

  • Stage
  • Châtillon-en-Vendelais (Ille-et-Vilaine)
  • Développement informatique

Description de l'offre

about the role

"Vous rêvez de comprendre comment l' IA prend ses décisions, alors candidatez" Bruno, manager

Les fonctions d’influences sont des outils permettant d’analyser le changement infinitésimal de la prédiction d’un algorithme par rapport aux données d’entrainements [1]. Elles permettent notamment de mieux comprendre la décision d’un algorithme, en mettant en exergue les exemples d’apprentissage qui ont le plus influencé le modèle dans sa prise de décision. En particulier, un exemple qui a beaucoup d’influence sur sa propre décision peut être considéré comme un exemple mal-étiqueté [2].

 

Cet outil fondamental a notamment été développé pour des modèles linéaires, mais plus récemment pour des modèles linéarisables [3] tels que les réseaux de neurones [4, 5].

 

Orange Innovation s’intéresse à développer ces outils pour les arbres de décision, une famille d’algorithme d’apprentissage adapté aux données tabulaires, qui sont les données auxquelles les data scientists font le plus souvent face.

 

Comme les arbres de décisions sont des modèles [GI1] constants par morceaux, il est possible de les étudier sous le cadre théorique des méthodes à noyaux, dont le noyau est défini par le partitionnement de l’espace des attributs induit par la structure de l’arbre [6]. Bien que cette approche puisse fonctionner sur des forêts d’arbres, aucune formulation exacte existe pour les méthodes à base de boosting.

 

Des travaux antérieurs ont montré qu’il est possible d’estimer ces fonctions d’influence pour les ensembles d’arbres de décision de cette manière [7].

 

L’objectif de ce stage est de reproduire les algorithmes et expériences réalisées dans [7] et de tester d’autres approches de linéarisations d’arbres de décisions notamment, la distillation par un modèle linéarisable, la conversion en un arbre différentiable, ou bien l’utilisation de différences finies.

 

Le stagiaire répondra à ces questions en s’appuyant sur les outils développés au sein d’Orange Innovation : https://github.com/orange-opensource/mislabeled, en collaboration avec ses tuteurs de stage ainsi qu’avec les autres chercheurs d’Orange. 

 

Références

[1] Cook "Detection of influential observation in linear regression.” 1977

[2] George, Thomas, Nodet, Pierre, Bondu Alexis, and Lemaire Vincent. “Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark.” (2024)

[3] George, Thomas. "Deep networks training and generalization: insights from linearization." 2023

[4] Koh, Pang Wei, et al. "Understanding black-box predictions via influence functions.” 2017

[5] Yeh, Chih-Kuan, et al. "Representer point selection for explaining deep neural networks." 2018

[6] Scornet, Erwan. "Random forests and kernel methods." 2016

[7] Brophy, Jonathan, et al. "Adapting and evaluating influence-estimation methods for gradient-boosted decision trees." 2023

 

about you

Master 2 ou école d’ingénieur, spécialité data science/machine learning.

Une envie de découvrir le métier de chercheur via un stage de recherche. Vous êtes intéressé par poursuivre sur une thèse en apprentissage automatique.

Des connaissances en statistiques, mathématiques et/ou apprentissage statistique sont indispensables. 

Intérêt pour les aspects applicatifs et théoriques du sujet. 

Le ou la candidate devra idéalement connaitre les outils suivants : 

·                   Python 

·                   Git 

·                   Scikit-learn 

·                   Pytorch 

 

"Venez rejoindre une équipe de passionnés, solidaires, qui vont de la recherche à l' opérationnel" Bruno, manager

additional information

 

Vous travaillerez en collaboration avec les chercheurs d’Orange Innovation sur des thèmes de recherche au plus proche des problématiques industrielles, et à la pointe de l’état de l’art dans le domaine de l’apprentissage. En fonction des résultats, le stage pourra déboucher sur la préparation d’une publication scientifique. 

department

L'analyse de données et l'intelligence artificielle constituent aujourd'hui des puissants leviers pour Orange permettant à la fois de réinventer la relation client mais également d'optimiser et d'automatiser la gestion de nos réseaux, d'améliorer l'expérience client et d'apporter un avantage différenciant vis-à-vis de nos clients.

L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.

Au sein de la division Innovation, le domaine fonctionnel Digital Cloud Services a pour ambition de proposer à toutes les équipes de développement logiciel d’Orange l’ensemble des fondamentaux techniques communs, structurellement sécurisés et automatisés, utilisables par tous et partout, capables de soutenir des productions digitales, rapides et de qualité, sur l’ensemble du cycle de vie de celles-ci : de la conception jusqu’au fonctionnement nominal (run) en passant par le développement, le test, le déploiement, la supervision ou l'intégration de l'IA.

Dans ce cadre, vous rejoignez l'équipe Automated Data Intelligence at Scale, qui regroupe des chercheurs, des data scientists opérationnels et des architectes logiciels. Sa mission s'étend de la recherche académique à l'industrialisation de solutions opérationnelles.

 

contract

Internship

Duration : 6 months

Start date : 03 Mar 2025

Level : Master 2

Paid internship

Only your skills matter

Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements