Bientôt un casque audio pour lire sur les lèvres

- par scorroyer

logo-article

Des chercheurs de l’Université de Cornell aux Etats-Unis présentent actuellement, dans le cadre d’un congrès sur les interfaces utilisateurs, un casque audio permettant de lire sur les lèvres de notre interlocuteur et ce, sans caméra pour diffuser le visage du locuteur.

« C-Face », comme ils l’ont appelé, est composé de 2 minis caméras posées chacune sur un écouteur audio. Elles scrutent les mouvements musculaires des joues de l’utilisateur et saisissent la manière dont-ils tendent ou détendent la peau, selon l’expression du visage.

Ces données sont ensuite utilisées pour créer un modèle 3D du visage, en utilisant un algorithme de deep learning.

Cet algorithme a été conçu afin d’extrapoler les mouvements liés à 42 zones importantes du visage proches de la bouche, des yeux et des sourcils, comme nous l’explique cet article « C-Face » publié par les chercheurs du laboratoire SciFi Lab sur leur site internet.

Douze configurations de caméras sont utilisées, à des distances différentes de la peau : 1, 2 ou 3 cms et selon 4 angles de vues différents : -10, -20, -30 ou -40 degrés.

Afin d’entraîner l’algorithme, un chercheur a reproduit les mêmes mouvements du visage, dans chacune de ces configurations.

Par la suite, des tests ont étés effectués avec des outils de captation faciale standard, grâce à une caméra fixant le visage, et un algorithme de vision par ordinateur.

Après une série de tests, effectués auprès de 9 personnes, le modèle généré grâce à l’algorithme liés au capteur propose des résultats proches d’un modèle de visage capté par caméra, car l’écart est seulement de 77 mm quand le système est installé dans des écouteurs, et 74 mm quand il est installé dans un casque audio.

Ces différences augmentent cependant, à 1,43 et 1,39 mm quand on se concentre seulement sur les 20 points du visage les plus sollicités.

les chercheurs de l’université ont testé deux types d’applications :

  • une traduction de ces mouvements par 8 émoticônes d’après les plus courants (sourire, colère,bisou…).
  • une traduction commandant les mots en les articulant sans les prononcer, semblable à du mime.

Les résultats se sont également montrés satisfaisants avec le port d’un masque anti-covid, ou des lunettes comme nous l’explique cet article, « un casque audio pour lire sur les lèvres », publié sur « sciencesetavenir.fr ».

 

 

Partager cet article

Poster un commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *