Parole et chant

1. Analyse/reconnaissance de chant

Sur base d’un signal audio, différentes informations sur la performance vocale peuvent être extraites, comme les hauteurs et durées des notes. Diverses applications peuvent alors être imaginées, comme la génération automatique de partitions, des synthétiseur musicaux contrôlables par la voix, ou des logiciels interactifs d’enseignement du chant et de la musique.

3. Reconnaissance d'expressions et émotions en parole

La communication parlée utilise des canaux dits paralinguistiques (intonation, rythme, rires, hésitations, etc.) pour transmettre à l’auditeur des informations sur l’état émotionnel du locuteur.
Ces informations peuvent être exploitées également en communication homme-machine en reconnaissance (analyse de parole et de vidéo du visage, et interprétation de l’état du locuteur par la machine)

Exemple – Reconnaissance de l’intensité du rire.
Parler avec le sourire implique une modification subtile des formants vocaux, qui est perçue par l’interlocuteur. Il est donc important de pouvoir synthétiser une telle parole « amusée ».
Lorsque l’état émotionnel s’intensifie, la parole amusée fait apparaître de petits éclats de rire dans les séquences verbales, qui impliquent parfois que le locuteur répète son dernier mot. Enfin, lorsque le rire devient franc, il occupe tout le terrain verbal, et la parole devient impossible. Ces effets audiovisuels peuvent être analysés de manière automatique.

2. Reconnaissance automatique de parole

Reconnaissance automatique de la parole: Transformer un signal vocal en information exploitable par exemple par un module de traitement du langage naturel. Plus précisément, nos recherches antérieures ont porté sur la reconnaissance de parole avec une quantité limitée de données d’entraînement, ou la reconnaissance de parole dans un environnement acoustique bruyant et réverbérant.

Exemple : Dictée vocale, kit main-libre, domotique

4. Synthèse vocale

Les systèmes de synthèse Text-To-Speech, permettant de synthétiser la parole à partir d’un texte, existent depuis plusieurs décennies et se sont très récemment amélioré avec l’arrivée des Deep Neural Networks (DNN) ou réseaux de réseaux de neurones profonds. Ces systèmes offrent une excellente qualité de parole, avec des voix obtenues par analyse de dizaines d’heures de parole. Le défi que rencontrent aujourd’hui les chercheurs a donc évolué : il faut désormais être capable de produire, des voix remarquables, semblables à celles des acteurs, possédant un grain spécifique et une grande capacité d’expressivité. C’est le champ de la synthèse vocale dite « expressive ».

Application concrète: Ce sujet de recherche possède plusieurs domaines d’applications. Des exemples sont la lecture expressive, l’interaction multimodale homme-machine, les jeux vidéo ou encore l’intelligence artificielle. Dans le domaine des jeux vidéo, il permettra de créer des personnages réalistes ou des avatars de chat émotionnels. Particulièrement, pour les jeux vidéo RPG (Role Play Game) dans lequel le joueur se trouve par exemple dans une quête, il serait possible de changer la façon de parler des avatars en fonction de la situation dans lesquels ils se trouvent (Attaque d’un adversaire, drame, succès, etc.).