El proyecto, financiado por el Mineco, arrancó hace un año y cuenta con 70.000 euros de presupuesto

El Grupo de Tecnologías Multimedia trabaja en procesamento de habla y de imagen

El Grupo de Tecnologías Multimedia trabaja desde hay un año en el proyecto TraceThem, una investigación en técnicas algorítmicas de búsqueda multimedia y multilingüe para localizar personas en contenidos audiovisuales. Se trata de un proyecto financiado polo Programa Estatal de Fomento de la I+D+i de Excelencia con un presupuesto de 70.000 euros y en el que están involucrados los miembros de GTM Carmen García Mateo, José Luis Alba Castro, Antonio Cardenal, Eduardo Rodríguez Banga, Laura Docío, Carmen Magariños y Paula López, grupo que forma parte del centro de investigación atlanTTic.

Equipo GTM

Equipo GTM

El proyecto, de tres años de duración, arrancó en enero de 2016 y tiene como objetivo desarrollar y mejorar técnicas para la búsqueda de información sobre personas que aparecen en grabaciones audiovisuales, por lo que las tecnologías básicas que emplean los investigadores son el procesamiento de habla y de imagen, como explica García Mateo, directora del GTM. La necesidad de avanzar en este campo responde a la multiplicación de contenidos audiovisuales y nuevos escenarios como MOOCs, videoblogs, tutoriales, etc. que se unen a los contenidos tradicionales como televisión, noticias o películas. Ante esta cantidad de información, la automatización del proceso de búsqueda para filtrar, acceder y seleccionar los contenidos se convierte en un aspecto clave. Así, TraceThem tiene como finalidad, destaca el profesor José Luis Alba, “desarrollar una tecnología que evite el indexado manual de los contenidos y permita buscar directamente lo que interesa a través del procesado de vídeo y audio”. Estos avances son de especial utilidad para la indexación de contenidos multimedia para grandes repositorios, como por ejemplo de medios de comunicación e instituciones educativas. El objetivo final es tener un motor de indexación que permita localizar contenidos o personas en esos vídeos y audios y “el techo de este tipo de investigación sería conseguir que motores de búsqueda de internet como Google encontrasen no sólo texto, sino audio y vídeo sin necesidad de que esos contenidos fuesen indexados manualmente, como se hace ahora”.

Búsqueda de personas y voces

La catedrática Carmen García Mateo explica que la información que se pretende extraer con estas tecnologías “está siempre dentro de un contexto comunicativo, es decir, son contenidos de alguien y para alguien, por lo que la caracterización de las personas involucradas en este contexto juega un papel central”. Se enfocan de este modo a encontrar información sobre las personas y su forma de interactuar: quiénes son, qué dicen, cómo se comunican, que están haciendo… es decir, el interés está en descubrir personas y contenido. La extracción de información relacionada con las personas se lleva a cabo a través de procesamiento de audio, procesamiento de vídeo y procesamiento combinado de audio y vídeo. Para esto, los investigadores trabajan en el análisis de contenido multimedia, biometría de voz y cara, segmentación de audio y diarización de hablantes, detección del estado emocional y detección de personas que interactúan.

Las competiciones como herramienta de I+D

La finalidad de este proyecto no es desarrollar aplicaciones comercializables, sino mejorar la tecnología, y uno de los instrumentos para testar y validar los avances son las competiciones internacionales en las que participan diferentes grupos de universidades y centros tecnológicos. Estos concursos establecen marcos experimentales comunes para mejorar la tecnología pero también para potenciar la colaboración con otros grupos, ayudando a descubrir las fortalezas y debilidades de los algoritmos y sistemas desarrollados. En 2016, las ingenieras viguesas participaron en dos competiciones: Mediaeval (Holanda) y Albayzin Evaluation (Portugal). En el primero, como explican Laura Docío y Paula López, trabajamos con un “conjunto grande de vídeos en el que tuvimos que descubrir la identidad de la persona que aparece en un extracto de unos segundos de duración empleando sólo información obtenida del texto, voz y vídeo”, mientras que Albayzin 2016 se centra en la búsqueda de voz. Los resultados respaldan el trabajo del grupo, ya que en Mediaeval consiguieron un 4º puesto y en Albayzin obtuvieron el 1º puesto en la búsqueda de palabras en grabaciones de voz y el 3º en diarización, es decir, en la identificación de los turnos de los distintos locutores de un audio.

2017.02.02_TraceThem_GTM_02

El desafío: sistemas fuertes que funcionen en condiciones adversas

Los investigadores de GTM llevan trabajando en este campo durante años y este no es el primero proyecto que desarrollan en este campo. Explican que algunas innovaciones ya se comercializan y funcionan razonablemente bien en entornos controlados, pero “cuando las condiciones no son las excelentes, como por ejemplo incorporando ruido, la presencia de distintos idiomas, las referencias cruzadas, etc. no trabajan tan bien. Por lo tanto, el desafío es hacer estos sistemas fuertes la condiciones acústicas adversas”. Además, el procesamiento de estos documentos multimedia implica la dificultad añadida de que los contenidos pueden aparecer en diferentes idiomas, lo que representa un mayor desafío tecnológico, ya que se necesitan herramientas adaptadas a las diferentes lenguas.

Otras líneas de investigación dentro del proyecto

Dentro del proyecto TraceThem, los investigadores desarrollan también otras dos líneas de trabajo paralelas. Una de ellas es la de identificación de locutor, que permite transformar una voz de forma que no se sepa cuál es el emisor de origen y que tiene especial importancia para mantener la privacidad en las bases de datos de voz. “No se trata de distorsionar”, explican, “queremos que suene igual de natural que el original, pero con otra voz”. Otra línea de trabajo es la adaptación de locutor cross-lingual, que se centra en desarrollar técnicas que permitan llevar la identidad de una voz a otra, entre un par de lenguas distintas, es decir, se trata de producir voz de un mismo locutor pero en otro idioma, algo que tendría una posible aplicación para los traductores automáticos, para que la voz del emisor suene en otro idioma igual que en el original.

 

Fuente: Duvi