Stage - NLP Data Scientist F/H
Stage Lannion (Côtes-d'Armor)
Description de l'offre
about the role
*Sujet du stage :
Conception d'une métrique automatique pour l'évaluation des textes générés.
*Contexte :
De nombreuses mesures automatiques ont été proposées pour évaluer les capacités génératives des modèles de langage [1, 4-6, entre autres]. Cependant, la plupart de ces études se concentrent principalement sur l'anglais, ce qui limite leur applicabilité à d'autres langues. Afin d'améliorer la couverture linguistique, nous visons à développer une métrique automatique spécifique au français.
Durant ce stage, vous explorerez la littérature existante et les différentes approches pour créer des métriques automatiques, par exemple les méthodes de type Likert [1] et les méthodes basées sur l'empan [2,3]. L'accent sera mis sur le développement d'une métrique pour évaluer les textes générés par les grands modèles de langage (LLM). Les principales étapes consisteront à créer un corpus d'entraînement, à finetuner le modèle et à effectuer des évaluations. La métrique finale sera comparée à des évaluateurs basés sur des LLM en utilisant des ensembles de données internes et publiques.
Ce stage fait partie d'un programme de recherche consacré au traitement du langage naturel et à la modélisation de langage, couvrant des domaines tels que la modélisation du dialogue, le fine-tuning, la distillation des connaissances et l'analyse sémantique. Vous travaillerez dans un environnement collaboratif avec des collègues travaillant sur des sujets connexes.
*Vous participerez aux principales missions de :
- Création de données synthétiques : construction d'un corpus d'entraînement
- Fine-tuning supervisé des modèles de langage
- Analyse comparative des solutions existantes
- Evaluation de la méthode proposée sur des données internes et publiques
Bibliographie :
[1] Prometheus: Inducing Fine-grained Evaluation Capability in Language Models. Kim et al., ICLR 2024
[2] xcomet: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Guerreiro et al., TACL 2024
[3] Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation, Kasner and Dušek, ACL 2024
[4] TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks. Jiang et al., Transactions of Machine Learning Research, 2024.
[5] INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with Automatic Feedback Xu et al., ACL 2023.
[6] CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation, Ke et al., ACL 2024.
about you
- Étudiant.e en dernière année d'École d'Ingénieur ou de Master 2 (BAC+5) dans le domaine de l’apprentissage automatique et/ou traitement du langage naturel (NLP)
- Expérience en Machine Learning, Deep Learning
- Solides compétences en informatique :
· Python
· Linux, shell
· git
- Expérience avec des grands modèles de langue (LLM)
- Langues : anglais obligatoire, la connaissance du français est un plus.
additional information
- développement professionnel : vous participez à la recherche et au développement de pointe dans le domaine du NLP
- stage effectué au centre de Recherche & Développement d'Orange Innovation : vous participez à divers événements, y compris des ateliers et des séminaires
- une publication scientifique pourra être réalisée en fonction des résultats
- emplacement près de la mer : beaux paysages, activités de plein air
- cantine sur place : repas subventionnés
- date de début : flexible, entre janvier-mars 2025
- Le stage est également ouvert aux étudiants anglophones
department
Au sein d’Orange Innovation, la direction Data AI a pour ambition de développer l’usage de la Data et de l’Intelligence Artificielle, en étroite collaboration avec les pays dans lesquels Orange est implanté, sur leurs cas d’usages et leurs besoins métier. Dans cette direction, l’équipe DESKIN développe des produits et des services à base de technologies d’Intelligence Artificielle (IA), et d’IA Générative pour le Traitement Automatique du Langage Naturel.
Plus précisément, les missions de l’équipe DESKIN sont les suivantes :
1. Développer des outils d’IA multilingues, concevoir des solutions complètes de traitement, de manipulation, d’évaluation et visualisation de données textuelles à destination des directions métiers d’Orange, en utilisant les dernières technologies et modèles d’IA Génératives,
2. Accompagner les équipes métiers pays dans l’analyse de données textuelles et conversationnelles, pour des besoins Orange ou des besoins de clients externes,
3. Mener des travaux de recherche et d’anticipation pour développer ou adapter de nouvelles technologies d’IA adaptées aux contenus textuels.
L’équipe rassemble des compétences et métiers complémentaires : chercheur.e, doctorant.e, architecte, ingénieur.e logiciel, data scientist, développeur.
contract
Internship
Duration : 6 months
Start date : 03 Feb 2025
Level : Master 2
Paid internship
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.