Stage recherche IA - Implémentation d'une Distillation de Modèles de Langage en Encodeurs de Parole F/H - Orange - Cesson-Sévigné

Description de l'offre

Profil

L'équipe R&D 'Multimedia Contents Analysis Technologies' (MAS) au sein de l'entité Data & IA se concentre sur la recherche en apprentissage neuronal pour analyser divers types de contenus multimédias (image, audio, vidéo). Plus récemment, l'équipe a renforcé son expertise dans le domaine de l'analyse vocale, en se spécialisant notamment dans la transcription automatique de la parole en texte Elys, Data Scientist et tutrice
· Vous êtes une personne sympathique et accessible, créant un environnement de travail détendu et convivial, tout en étant toujours enthousiaste et ouvert.e à la discussion pour partager des idées
· Vous accordez une grande importance aux retours, et vous êtes toujours preneur.se de feedbacks constructifs pour vous améliorez dans votre travail
· Vous êtes capable d'analyser en profondeur les solutions proposées, et vous faites preuve d'une grande curiosité pour explorer de nouvelles technologies et approches innovantes

Mission

L'apprentissage de représentations permet d'intégrer des connaissances sémantiques et syntaxiques dans des vecteurs numériques. D'abord appliquées aux données textuelles avec des approches comme FastText [1] et BERT [2], ces méthodes non supervisées nécessitent de grandes quantités de données. Pour l'audio, des techniques similaires, comme Wav2Vec 2.0 [3], proposent un cadre d'apprentissage auto-supervisé pour les représentations vocales

Contrairement au texte, les données audio sont plus rares, de qualité variable, et contiennent moins de connaissances explicites. Une solution consiste à entraîner des modèles multimodaux, comme SONAR [5], qui aligne les représentations d'encodeurs pour l'audio et le texte afin de créer des représentations multimodales et indépendantes du langage. Cette approche est prometteuse, mais la seule implémentation disponible [6] ne permet que l’inférence des modèles SONAR pré-entraînés, ne permettant pas leur entraînement sur d’autres données.
Le livrable attendu est une implémentation du modèle SONAR en pytorch capable de supporter à la fois, l’inférence et l’entrainement du modèle. Dans l’idéal, cette implémentation sera ensuite open-sourcée et éventuellement implémentée au sein du framework Speechbrain 7
· Un travail bibliographique sera tout d’abord nécessaire afin d’acquérir la compréhension théorique du fonctionnement du modèle SONAR ainsi qu’une étude de faisabilité de son implémentation dans le framework Speechbrain
· L’implémentation fournie se devra d’être modulaire, permettant de tester différents encodeurs/décodeurs (si le temps le permet)

[1] Bojanowski, P., Grave, E., Mikolov, T., Sutskever, I., & Joulin, A. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, 5, 135-146.[2] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT).[3] Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli. 2020. wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33:1244912460.[5] Paul-Ambroise Duquenne and Holger Schwenk and Benoit Sagot: SONAR: Sentence-Level Multimodal and Language-Agnostic Representations[6] https://github.com/facebookresearch/SONAR[7] https://speechbrain.github.io/

Compétences

· Vous préparez actuellement un Master 2 ou équivalent (école d’ingénieurs) dans le domaine de l’IA - en particulier sur les réseaux de neurones
· Vous avez des compétences en informatique, êtes familier à la programmation orientée objet et maitrisez Python
· Une expérience (projets, stage) en apprentissage automatique appliqué à des données audio est un plus

Votre équipe

En rejoignant notre équipe, tu intègreras une ambiance conviviale et pleine de bonne humeur où la qualité de vie au travail est une priorité. Nous sommes une vingtaine de personnes, principalement des ingénieurs, des chercheurs et des doctorants, tous passionnés. Chez nous, tout le monde est pleinement intégré, y compris nos stagiaires, qui participent activement à la vie de l'équipe. Si tu recherches un environnement où tu peux évoluer, apprendre et partager dans une super ambiance, tu es au bon endroit ! Elys, Data Scientist et tutrice

Localisation/Information

Vous travaillez dans les locaux d'Orange Atalante sur Cesson-Sévigné

Vous recherchez un stage au premier semestre 2025 pour une durée de six mois.

Perspectives

Un environnement de travail stimulant et enrichissant.Intégration au sein d’équipes pluridisciplinaires.Secteur de la recherche et de l’innovation.Mission à véritable enjeu.

contract

Internship

Start date : 01 Mar 2025

Niveau d’études préparé pendant le stage

Indemnité brute selon école

Bac+5

de 1572 € à 2096 € / mois

Only your skills matter

Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.

Les offres de “Orange”

Description de l'offre