VIZART3D : RETOUR ARTICULATOIRE VISUEL POUR L’AIDE A LA PRONONCIATION

Thomas Hueber, Pierre Badin, Gérard Bailly, Atef Ben-Youssef, Frédéric Eliséi

GIPSA-lab, UMR 5216/CNRS/INP/UJF/U.Stendhal, Grenoble, France

thomas.hueber@gipsa-lab.grenoble-inp.fr

L’objectif du système Vizart3D est de fournir à un locuteur, en temps réel, et de façon automatique, un retour visuel sur ses propres mouvements articulatoires. Les applications principales de ce système sont la rééducation orthophonique (correction phonétique) et l’aide à l’apprentissage des langues étrangères [1].

Le système Vizart3D est basé sur une tête parlante virtuelle qualifiée d’« augmentée », car elle laisse apparaître, en plus des lèvres, les articulateurs de la parole normalement cachés comme la langue. Cette tête parlante, développée au GIPSA-lab, est construite à partir de données IRM, CT (computed tomography) et vidéo, acquises sur un locuteur de référence.

L’objectif du système Vizart3D est d’animer automatiquement cette tête parlante à partir de la voix de l’utilisateur. Il s’agit de déterminer, à partir de l’analyse acoustique du signal de parole, la configuration articulatoire la plus probable. Ceci s’effectue en 3 étapes (exécutées toutes les 10 ms) :

(1) Conversion de voix : l’enveloppe spectrale de la voix de l’utilisateur (extraite par analyse mel-cepstrale) est transformée en une enveloppe spectrale dite « cible », qui peut être vue comme l’enveloppe qui aurait été obtenue si la même séquence phonétique avait été prononcée par le locuteur de référence ; dans notre implémentation, nous utilisons une méthode de régression nonlinéaire de type GMR (Gaussian Mixture Regression), qui nécessite l’enregistrement préalable, par l’utilisateur, de quelques dizaines de séquences de type VCV [2].

(2) Inversion acoustico-articulatoire : une cible articulatoire (position de la langue (3 points), des lèvres (2 points), et de la mâchoire (1 point)) est estimée à partir de l’enveloppe spectrale cible déterminée à l’étape 1. Cette étape, qui utilise également une régression de type GMR, est basée sur l’analyse d’un large corpus de données audio et articulatoires, acquises par articulographie électromagnétique 2D (EMA), sur le locuteur de référence.

(3) Animation 3D : les paramètres de contrôle de la tête parlante sont inférés par régression linéaire, à partir de la cible articulatoire estimée à l’étape 2.

Une vidéo de notre prototype est disponible sur http://www.gipsa-lab.fr/projet/vizart3D/

t_hueber

VIZART3D : RETOUR ARTICULATOIRE VISUEL POUR L’AIDE A LA PRONONCIATION

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *