Stage recherche - Prévision de séries temporelles: un focus sur la transformation des données. F/H
Stage Châtillon-en-Vendelais (Ille-et-Vilaine) Développement informatique
Description de l'offre
about the role
"Rejoignez une équipe dynamique, solidaire dans un campus à l'américaine et des installations derniers cris" Bruno, manager
Une série temporelle est une suite de valeurs ordonnées dans le temps, qui sont généralement mesurées selon un pas de temps régulier. A Orange, ce type de données est très répandu : ex. volume de trafic de roaming, nombre de connexions à une application, nombre de personnes observés dans une zone géographique, volume des formations effectuées, etc. La prévision de ces séries temporelles est essentielle pour Orange car elle permet un grand nombre de cas d’usage.
Pour se faire, plusieurs familles d’approches existent : les approches statistiques, les approches de machine learning et les approches de deep learning. Les approches de machine learning, en particulier les modèles de régression, sont très performants mais n’apprennent pas directement à partir de la série temporelle. Un prétraitement [1, 2] est nécessaire en amont pour transformer cette série de valeurs en un jeu de données d’apprentissage supervisé (X, y). Dans ce stage, nous nous intéressons à cette tâche de prétraitement avec l’objectif de répondre aux questions suivantes :
1. Comment choisir les sous-séquences de la série temporelle (individus statistiques) tout en minimisant la dépendance entre elles et donc l’impact sur le sur-apprentissage ;
2. Quelles caractéristiques sont pertinentes à calculer à partir des sous-séquences, de quels types sont-elles et dans quels outils d’auto-feature engineering sont-elles (est ce tsfresh ? ou MiniRocket ? ou …?).
Missions :
- Bref état de l’art des méthodes de prévision avec un zoom sur les méthodes de régression (ex. XGBoost, LightGBM) et plus précisément sur le prétraitement effectué avant d’appliquer ce type de modèle.
- Etat de l’art des librairies existantes de calcul de caractéristiques à partir de séries temporelles, telles que tsfresh, MiniRocket et Khiops (notre librairie d’autofeature engineering à Orange : https://khiops.org/). Une ou deux librairies représentatives seront retenues pour la suite.
- Implémentation d’un pipeline de transformation de séries temporelles en un jeu de données tabulaires en fonction de l’horizon de prévision cible.
- Evaluation du pouvoir prédictif des caractéristiques de chacune des librairies retenues sur plusieurs jeux de données incluant à la fois des données publiques et des données d'Orange.
- Analyse de l’importance des caractéristiques : quelles caractéristiques faut-il calculer et dans quel cas ?
Les résultats obtenus pourraient, en fonction de leur qualité, faire l’objet d’un article scientifique.
[1] Cerqueira, V., Moniz, N. and Soares, C., 2021. Vest: Automatic feature engineering for forecasting. Machine Learning, pp.1-23.
[2] Makridakis, S., Spiliotis, E. and Assimakopoulos, V., 2022. M5 accuracy competition: Results, findings, and conclusions. International Journal of Forecasting, 38(4), pp.1346-1364.
about you
Profil souhaité :
• BAC + 5, Master informatique et/ou statistiques ou école d'ingénieur.
• Intérêt pour la recherche et pour les aspects applicatifs et théoriques du sujet.
Compétences :
• Des connaissances minimales en statistiques, mathématiques et/ou apprentissage statistique sont indispensables. Une expérience avec les données temporelles est un plus.
• Développement en Python avec des librairies de machine learning (ex. XGBoost, Scikit-learn).
"Vous rêvez d'analyser un grand nombre de données, de créer des algorithmes et de les valoriser jusqu'à la publication, rejoignez nous" Yassine, tuteur
additional information
Vous travaillerez en collaboration avec les chercheurs d’Orange Innovation sur des thèmes de recherche au plus proche des problématiques industrielles, et à la pointe de l’état de l’art dans le domaine de l’apprentissage. En fonction des résultats, le stage pourra déboucher sur la préparation d’une publication scientifique.
department
L'analyse de données et l'intelligence artificielle constituent aujourd'hui des puissants leviers pour Orange permettant à la fois de réinventer la relation client mais également d'optimiser et d'automatiser la gestion de nos réseaux, d'améliorer l'expérience client et d'apporter un avantage différenciant vis-à-vis de nos clients.
L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Au sein de la division Innovation, le domaine fonctionnel Digital Cloud Services a pour ambition de proposer à toutes les équipes de développement logiciel d’Orange l’ensemble des fondamentaux techniques communs, structurellement sécurisés et automatisés, utilisables par tous et partout, capables de soutenir des productions digitales, rapides et de qualité, sur l’ensemble du cycle de vie de celles-ci : de la conception jusqu’au fonctionnement nominal (run) en passant par le développement, le test, le déploiement, la supervision ou l'intégration de l'IA.
Dans ce cadre, vous rejoignez l'équipe Automated Data Intelligence at Scale, qui regroupe des chercheurs, des data scientists opérationnels et des architectes logiciels. Sa mission s'étend de la recherche académique à l'industrialisation de solutions opérationnelles.
contract
Internship
Duration : 6 months
Start date : 03 Mar 2025
Level : Master 2
Paid internship
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.