Desde hace cinco años, cinco investigadores de la la facultad de Ingeniería (UNR) y del Centro Franco-Argentino de Ciencias de la Información y de Sistemas (Cifasis) del Conicet, trabajan en el procesamiento de señales multimedia con múltiples aplicaciones prácticas que permiten a las personas comunicarse con la computadora de la misma forma en que lo hacen entre sí. El objetivo 2012 es sumarle a la imagen generada los gestos faciales y los movimiento de las manos al hablar.

El veloz avance de la informática permite que las computadoras resuelvan cada vez más problemas de la vida cotidiana y los equipos con la capacidad de contestar a un saludo o interpretar una orden son cada vez más frecuentes. En este marco, un grupo de científicos locales trabajó en la animación de cabezas virtuales activadas por la señal del habla, en tiempo real.

“Al producirse la señal de una persona que está hablando se puede animar en froma sincronizada un clon que mueve los labios acorde con que la persona dice”, explicó Juan Carlos Gómez, director del proyecto a Rosario3.com, y agregó que “esa imagen virtual puede parecerse a una persona real”.

“El sistema –que fue presentado en la International Conference on Multimedia & Expo 2011, Barcelona, España, donde ganó el primer premio en el “Technicolor Best Student Paper Award”– permitiría el uso de teléfonos comunes a personas con dificultades auditivas; también podrían utilizarlo personas con discapacidad motriz para comuniacarse con la computadora a través del habla, y lograr que la computadora responda a sus órdenes”, detalló el investigador.

Pero como sucede con todo proyecto científico, éste también busca superarse a sí mismo, y actualmente el equipo trabaja en el procesamiento multimodal del habla. “Tenemos un nuevo becario en el grupo que se especializa en ese tema; por eso ahora aspiramos a incorporarle al sistema inicial que sólo captaba el movimiento de los labios, las expresiones del rostro y los gestos de las manos que también hacen a la comunicación”, señaló Gómez.

La s aplicaciones del producto

El trabajo tiene muchas y variadas utilidades, desde técnicas para la industria del cine y los videojuegos hasta la asistencia en tratamientos clínicos como, por ejemplo, la estimulación de niños con problemas de autismo y aquellos que presentan problemas auditivos o motrices.

Según describe el director del proyecto, “las personas con dificultades auditivas usan la lectura de labios para comunicarse con los otros; por eso, podría emplearse la información acústica transmitida por teléfono para animar, de manera realista, los labios de un modelo virtual, lo que posibilitaría la comprensión del mensaje mediante lectura de labios”.

“También es posible utilizar la computadora a través de comandos audiovisuales, ya sea mediante la voz, como por medio de expresiones faciales de una persona real. De esta forma, las personas discapacitadas que no puedan utilizar un teclado o un mouse, podrían controlar cualquier aplicación a través de un conjunto de comandos audiovisuales”, destacó el investigador.

Además, mediante el uso de “avatars interactivos”, se puede intervenir en el tratamiento y rehabilitación de personas con desórdenes de dicción, utilizando los avatars del paciente hablando correctamente. También, en el trabajo de niños con problemas de autismo. “Si los chicos se ven a sí mismos hablando, pueden estimularse”, resaltó.

En relación con la comercialización del producto, paso esencial para que esté disponible en el mercado, Gómez explicó que están evaluando algunos subsidios que ofrece la Agencia Nacional de Promoción de Ciencia y Tecnología para iniciar pequeñas empresas.