Stage - Recherche en compression audio neuronale avec des méthodes de quantification avancées F/H - Orange - Lannion

Description de l'offre

about the role

En compression audio, les approches conventionnelles ont atteint une saturation technologique, en particulier pour les signaux mono et stéréo ; l’état de l’art représenté par des codecs comme EVS ou Opus s’appuie sur des méthodes de codage par prédiction linéaire ou par bancs de filtres/transformées fréquentielles. Depuis 2018, on observe une émergence de méthodes de compression audio basées sur les réseaux de neurones, avec des méthodes telles que WaveNet, LPCNet et plus récemment des codecs comme SoundStream.

Le codage audio neuronal est ainsi un domaine de recherche très actif, offrant la promesse d’atteindre une bonne qualité audio à des débits jusque-là inatteignables avec des techniques classiques.

L’objectif du stage est d’étudier les modèles de compression audio neuronale de l’état de l’art et de concevoir et tester de nouveaux algorithmes utilisant des techniques de quantification avancées.

Les modèles actuels de l’état de l’art s’appuient sur une approche « de bout en bout » par autoencodeur, avec une représentation discrète de l’espace latent (qui est l’espace dans lequel le signal d’entrée est « plongé » en sortie d’un encodage neuronal). Cette représentation discrète est typiquement apprise en appliquant une quantification de type scalaire ou vectorielle.

Le travail de stage (6 mois) se déroulera selon un calendrier décrit ci-dessous :

· Etude des modèles de compression audio neuronale actuels (1 mois)
· Conception de nouvelles méthodes de codage audio, développements, tests de qualité subjectifs et objectifs (4 mois)
· Rédaction (1 mois)

En particulier, vous travaillerez directement avec un doctorant dont la thèse traite de la problématique du codage audio par réseaux de neurones.

Bibliographie indicative

[1] N. Zeghidour, A. Luebs, A. Omran, J. Skoglund, and M. Tagliasacchi, “SoundStream: An End-to-End Neural Audio Codec,” Jul. 2021, http://arxiv.org/abs/2107.03312

[2] Hong Goo Kang, W. Bastiaan Kleijn, Jan Skoglund, Michael Chinen, Convolutional Transformer for Neural Speech Coding, 155th Audio Engineering Society Convention, Oct. 2023

[3] Andreas Brendel, Nicola Pia, Kishan Gupta, Lyonel Behringer, Guillaume Fuchs, Markus Multrus, Neural Speech Coding for Real-time Communications using Constant Bitrate Scalar Quantization, Sept. 2024, https://arxiv.org/abs/2405.08417

about you

Formation souhaitée

· Vous êtes actuellement en Master 2 ou école d’ingénieur à dominante recherche et vous préparez une formation dans le domaine du traitement du signal, de l’apprentissage automatique et/ou de l’audio

Pré-requis techniques :

· Maîtrise du traitement du signal audio
· Bonnes connaissances en théorie des probabilités
· Connaissances en méthodes d’apprentissage automatique, si possible en réseaux de neurones
· Maîtrise de Python. Idéalement expérience avec PyTorch.

Aptitudes personnelles :

· Forte appétence pour le traitement du signal et l’audio
· Maîtrise de l’anglais

additional information

Vous travaillerez au sein de l’équipe de traitement de la parole et du son. Vous serez amené à échanger avec les différents membres de l’équipe, experts sur les domaines du traitement audio multicanal, le développement informatique et l’intelligence artificielle liés à l’audio.
Vous contribuerez, au sein d’une équipe motivée, à la recherche de domaines en plein essor. Vous travaillerez ainsi sur des technologies qui seront de plus en plus utilisées dans le futur. Vous pourrez être amenés à déposer un ou plusieurs brevets, et à participer à la publication d’articles.

department

Le département Audio et Telco Services a pour ambition d’offrir à nos clients la meilleure expérience digitale, en anticipant, développant et intégrant de bout en bout les services de communication temps réel multicanaux. Le département porte également une expertise sur les devices mobiles et une expertise audio/voix, de la recherche au delivery.

3 équipes constituent le département :

·       Equipe Rich Instant Messaging qui porte le Skill center Google RCS et les activités de messaging

·       Equipe Mobile Service and Sollicitation qui assure le développement des services mobiles et des plateformes associées

·       Equipe Immersive Communications and Audio Expertise qui travaille sur les activités de recherche et de standardisation dans le domaine de l’audio.

contract

Internship

Duration : 6 mois

Start date : 03 Mar 2025

Niveau d’études préparé pendant le stage

Indemnité brute selon école

Bac+5

de 1572 € à 2096 € / mois

Only your skills matter

Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.

Les offres de “Orange”

Description de l'offre