Stage - Extension d'un framework de datascience pour supporter de multiples formats de données F/H
Stage Lannion (Côtes-d'Armor)
Description de l'offre
about the role
"Vous revez de contribuer à un projet open source autour de l'IA, rejoignez-nous !" Bruno manager
Avec Khiops [1] l'apprentissage automatique sur des données tabulaires devient un jeu d'enfant. Comme les données proviennent de sources et processus très divers, il est temps pour Khiops d'accueillir et donc de supporter en entrée de nouveaux formats de données. Ce stage consiste à étudier le format Parquet qui permet un accès rapide aux données et à déterminer les évolutions nécessaires de l'interface d'entrée/sortie de Khiops pour permettre son intégration.
Le principal verrou est la nature compressée et structurée du format Parquet, tandis que Khiops manipule habituellement des fichiers de type CSV au format texte. Avec Khiops de nombreux traitements sont possible, impliquant des indexations et conversions des données vers des types natifs. Cette différence de format implique qu'il faudra chercher des solutions afin que Khiops puisse accéder aléatoirement et efficacement au contenu mais également bénéficier des métadonnées contenues dans les fichiers Parquet afin de convertir correctement les enregistrements.
Dans un premier temps le support de ce format sera prototypé sous forme de module indépendant, afin de valider la faisabilité de l'extraction des informations nécessaires à Khiops. Ce module s'appuiera sur le SDK Apache Arrow [3] et pourra servir de base à l'implémentation finale. Dans une seconde phase, il s'agira de faire évoluer le composant chargé de l'interfaçage avec les différents service de stockage des principaux clouds (Google, Amazon, Azure) afin de permettre toutes les combinaisons [ cloud x format de données ], ceci afin de permettre l'intégration future de nouveaux formats de données.
[1] Khiops https://khiops.org
[2] Apache Parquet https://parquet.apache.org,
[3] Apache Arrow https://github.com/apache/arrow
about you
Profil souhaité :
• BAC + 5, Master informatique ou école d'ingénieur.
Compétences :
- Connaissances en C/C++
- Génie logiciel
- Une connaissance du Big Data et des stockages associés serait un plus
"Ce stage dans un cadre exceptionnel, est une opportunité de découvrir une magnifique région, à 5km de la mer, pour pratiquer des sports nautiques ou sous-marins. Il faut avoir son permis B obligatoirement ! "Bruno, manager
additional information
Vous travaillerez sur un projet Opensource ambitieux, visant à faciliter l'usage de l'Intelligence Artificielle pour tous.
department
L'analyse de données et l'intelligence artificielle constituent aujourd'hui des puissants leviers pour Orange permettant à la fois de réinventer la relation client mais également d'optimiser et d'automatiser la gestion de nos réseaux, d'améliorer l'expérience client et d'apporter un avantage différenciant vis-à-vis de nos clients.
L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Au sein de la division Innovation, le domaine fonctionnel Digital Cloud Services a pour ambition de proposer à toutes les équipes de développement logiciel d’Orange l’ensemble des fondamentaux techniques communs, structurellement sécurisés et automatisés, utilisables par tous et partout, capables de soutenir des productions digitales, rapides et de qualité, sur l’ensemble du cycle de vie de celles-ci : de la conception jusqu’au fonctionnement nominal (run) en passant par le développement, le test, le déploiement, la supervision ou l'intégration de l'IA.
Dans ce cadre, vous rejoignez l'équipe Automated Data Intelligence at Scale, qui regroupe des chercheurs, des data scientists opérationnels et des architectes logiciels. Sa mission s'étend de la recherche académique à l'industrialisation de solutions opérationnelles.
contract
Internship
Duration : 6 months
Start date : 03 Feb 2025
Level : Master 2
Paid internship
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.