Stage recherche IA - Implémentation d'une Distillation de Modèles de Langage en Encodeurs de Parole F/H
Stage Cesson-Sévigné (Ille-et-Vilaine) Développement informatique
Description de l'offre
Profil
L'équipe R&D 'Multimedia Contents Analysis Technologies' (MAS) au sein de l'entité Data & IA se concentre sur la recherche en apprentissage neuronal pour analyser divers types de contenus multimédias (image, audio, vidéo). Plus récemment, l'équipe a renforcé son expertise dans le domaine de l'analyse vocale, en se spécialisant notamment dans la transcription automatique de la parole en texte Elys, Data Scientist et tutrice
· Vous êtes une personne sympathique et accessible, créant un environnement de travail détendu et convivial, tout en étant toujours enthousiaste et ouvert.e à la discussion pour partager des idées
· Vous accordez une grande importance aux retours, et vous êtes toujours preneur.se de feedbacks constructifs pour vous améliorez dans votre travail
· Vous êtes capable d'analyser en profondeur les solutions proposées, et vous faites preuve d'une grande curiosité pour explorer de nouvelles technologies et approches innovantes
Mission
L'apprentissage de représentations permet d'intégrer des connaissances sémantiques et syntaxiques dans des vecteurs numériques. D'abord appliquées aux données textuelles avec des approches comme FastText [1] et BERT [2], ces méthodes non supervisées nécessitent de grandes quantités de données. Pour l'audio, des techniques similaires, comme Wav2Vec 2.0 [3], proposent un cadre d'apprentissage auto-supervisé pour les représentations vocales
Contrairement au texte, les données audio sont plus rares, de qualité variable, et contiennent moins de connaissances explicites. Une solution consiste à entraîner des modèles multimodaux, comme SONAR [5], qui aligne les représentations d'encodeurs pour l'audio et le texte afin de créer des représentations multimodales et indépendantes du langage. Cette approche est prometteuse, mais la seule implémentation disponible [6] ne permet que l’inférence des modèles SONAR pré-entraînés, ne permettant pas leur entraînement sur d’autres données.
Le livrable attendu est une implémentation du modèle SONAR en pytorch capable de supporter à la fois, l’inférence et l’entrainement du modèle. Dans l’idéal, cette implémentation sera ensuite open-sourcée et éventuellement implémentée au sein du framework Speechbrain 7
· Un travail bibliographique sera tout d’abord nécessaire afin d’acquérir la compréhension théorique du fonctionnement du modèle SONAR ainsi qu’une étude de faisabilité de son implémentation dans le framework Speechbrain
· L’implémentation fournie se devra d’être modulaire, permettant de tester différents encodeurs/décodeurs (si le temps le permet)
[1] Bojanowski, P., Grave, E., Mikolov, T., Sutskever, I., & Joulin, A. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, 5, 135-146.[2] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT).[3] Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli. 2020. wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33:1244912460.[5] Paul-Ambroise Duquenne and Holger Schwenk and Benoit Sagot: SONAR: Sentence-Level Multimodal and Language-Agnostic Representations[6] https://github.com/facebookresearch/SONAR[7] https://speechbrain.github.io/
Compétences
· Vous préparez actuellement un Master 2 ou équivalent (école d’ingénieurs) dans le domaine de l’IA - en particulier sur les réseaux de neurones
· Vous avez des compétences en informatique, êtes familier à la programmation orientée objet et maitrisez Python
· Une expérience (projets, stage) en apprentissage automatique appliqué à des données audio est un plus
Votre équipe
En rejoignant notre équipe, tu intègreras une ambiance conviviale et pleine de bonne humeur où la qualité de vie au travail est une priorité. Nous sommes une vingtaine de personnes, principalement des ingénieurs, des chercheurs et des doctorants, tous passionnés. Chez nous, tout le monde est pleinement intégré, y compris nos stagiaires, qui participent activement à la vie de l'équipe. Si tu recherches un environnement où tu peux évoluer, apprendre et partager dans une super ambiance, tu es au bon endroit ! Elys, Data Scientist et tutrice
Localisation/Information
Vous travaillez dans les locaux d'Orange Atalante sur Cesson-Sévigné
Vous recherchez un stage au premier semestre 2025 pour une durée de six mois.
Perspectives
Un environnement de travail stimulant et enrichissant.Intégration au sein d’équipes pluridisciplinaires.Secteur de la recherche et de l’innovation.Mission à véritable enjeu.
contract
Internship
Start date : 01 Mar 2025
Niveau d’études préparé pendant le stage
Indemnité brute selon école
Bac+5
de 1572 € à 2096 € / mois
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.