Multimedia Technologies

En atlanTTic traballamos con tecnoloxías relacionadas coa comprensión da comunicación humana, tales como tecnoloxías relacionadas coa fonte audiovisual (recoñecemento e síntese de fala, recoñecemento de expresións e identificación das persoas) e tecnoloxías relacionadas coa comunicación textual (análise lingüística, sintáctico e semántico nos campos de análises de linguaxe natural, xeración de linguaxe natural, chatterbots e tecnoloxías de apoio á comunicación con persoas con discapacidades cognitivas).

Ademais da análise comunicativo, esta liña tamén se ocupa de tecnoloxías de detección e clasificación de eventos baseadas en imaxe, vídeo e sinais acústicas. Mediante a captación de audio con sensores de última xeración, denominados Acoustic Vector Sensors, atlanTTic desenvolveu ferramentas que permiten localizar a súa procedencia. Esta tecnoloxía e a súa combinación con tecnoloxías de detección en vídeo, abre a posibilidade de multitude de aplicacións relacionadas coa seguridade (detección e localización de intrusos) e a monitoraxe de máquinas complexas (non só detectar un patrón de funcionamento anómalo, senón ademais determinar a súa localización e por tanto a causa do problema).

Líñas de Investigación

Líñas de Investigación

Análise da linguaxe natural

Desenvolvemento de programas capaces de abstraer comportamentos a partir de información fornecida en forma de exemplos.

Xeración automática de linguaxe natural baseada en coñecemento lingüístico e estatístico

Desenvolveuse un sistema para a xeración automática de linguaxe natural en español baseado en coñecemento lingüístico e estatístico, que integra léxicos de produción propia.

Comunicación e estimulación para persoas con discapacidades cognitivas

Desenvolveuse unha familia de apps orientadas á comunicación con persoas con discapacidades cognitiva e a súa instalación. Trátase dunha iniciativa altruísta cunha ampla base de usuarios na actualidade.

Tecnoloxías de conversación en linguaxe natural (chatterbots)

atlanTTic desenvolveu unha familia tecnoloxía propia de chatterbots que permite construír interfaces conversacionales para aplicacións avanzadas. Adaptouse asistentes dixitais a ámbitos especializados.

Tecnoloxías de conversión de voz a texto

Desenvolvéronse motores de recoñecemento para castelán e galego. Disponse de recursos lingüísticos de alta calidade en galego que poden ser empregados en desenvolvemento de tecnoloxía de fala.

Tecnoloxías de conversión de texto a voz e conversión de voces

Desenvolveuse un conversor texto-voz en galego e castelán de código aberto (https://sourceforge.net/projects/cotovia/). Propuxéronse diversos métodos de transformación/conversión do sinal de voz orientados a modificar a identidade do locutor. Entre as aplicacións destas técnicas cabe citar a incorporación aos conversores texto-voz de novos locutores e a de-identificación (anonimización) de locutores preservando o resto da información da gravación orixinal.

Tecnoloxías de detección de estado anímico

Desenvolvemento de sistemas de detección baseados en clasificación estatística que mediante procesado do fala avalían o estado de depresión dunha persoa. O obxectivo final é realizar o cribado de pacientes con nivel de depresión moi acusado.

Tecnoloxías de identificación biométrica e trazos persoais

Desenvolvemento de tecnoloxías de identificación de persoas a partir de trazos biométricos como a voz, a cara ou a firma manuscrita, así como estimación de atributos persoais como a idade e o sexo ou trazos temporais como o estado emocional. Parte destas tecnoloxías están transferidas ao sector produtivo.

Tecnoloxías de análise automática en imaxes e fluxo de vídeo

Aplicadas a sistemas de axuda á condución (ADAS: recoñecemento de sinais, detección de peóns, de vehículos, abandono de carril, etc), a contornas con fluxo de persoas, a visión na industria, etc.

Sistemas de adquisición e procesado de sinais de audio e ultrasonidos de baixo custo para monitoraxe e diagnóstico en contornas industriais.

Deseño e prototipado de sensores acústicos adaptados ás características da contorna industrial, e desenvolvemento de algoritmos de tratamento dos sinais para a detección automática da condición de operación de máquinas ou detección de eventos.

Avaliación da calidade do son

Usando tanto baterías de test subxectivos con recollida de opinión como medidas obxectivas baseadas na percepción. Permite clasificar sons en función da súa relevancia perceptual, agrado/desagrado e outras métricas asociadas ao concepto do confort acústico.

Grupos de Investigación

Grupo de Tecnologías Multimedia (GTM)
Grupo de Tecnologías de la Información (GTI)

A área de investigación emprega o seguinte equipamento para a implementación de algoritmos de procesado multimedia, machine learning e deep learning:

  • 1x servidor Dual Xeon + 2 GPUs
  • 2 x Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40Ghz , 12cores/24threads, 128GB RAM, 4 x NVidia GeForce GTX Titan X 12GB GDDR5 3072 CUDA cores
  • 2 x Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40Ghz , 12cores/24threads, 128GB RAM, 4 x NVidia GeForce GTX Titan Black 6GB GDDR5 2880 CUDA cores.
  • 2 x Intel(R) Xeon(R) CPU E5-2609 v4 @ 1.70Ghz, 16 cores/16 threads, 128GB RAM, 2 x TITAN X (Pascal) 12GB GDDR5 3584 CUDA cores.

Para integración de sistemas de detección, localización e clasificación de eventos acústicos:

  • Kit de desenvolvemento Nvidia Jetson TK1:
  • Chip Tegra K1: este chip contén unha GPU Kepeler de 192 núcleos e unha CPU Arm Cortex A15 de 4 núcleos (para meterlle Linux). Ademais ten 2Gb de RAM, 16 GB de almacenamento e toda a conectividade dun computador (USB, HDMI, Ethernet, etc…)
  • Pcb welding equipment
  • 3D printers

En canto a equipamento máis específico:

  • Unha sala sensorizada para captación de sinais audiovisuais (smart-room), composta de 3 arrays de 8 micrófonos direccionales, 6 Kinects, 5 cámaras RGB fixas + 3 con control PTZ, 1 infravermella e 2 webcams HD.
  • Unha cámara semianecoica con tecnoloxía Metadyne, frecuencia de corte 100 Hz.
  • Sala de audición de alta definición 5.1, tipo “non-environment”
  • Equipamento de acústica: sistema de adquisición multicanle de sinais acústicos e vibratorias, maniquí de gravación binaural (HATS), micrófonos, acelerómetros, sondas de intensidade p-p e p-ou, software de modelado acústico.
  • Dicionarios e léxicos profesionais en español e inglés, como EuroWordNet e GilCUB.
  • Márketing analítico.
  • Asistencia a persoas afectadas con trastornos na comunicación.
  • Colectivos con diferentes tipos de discapacidade, especialmente nenos con trastornos do espectro autista, pero tamén, por exemplo, pacientes en contornas hospitalarias ou persoas maiores.
  • Asistentes para comunicación con consumidores a través de dispositivos móbiles, soporte web en xeral e, en particular, no ámbito educativo.
  • e-learning
  • e-learning
  • Comunicación con consumidores a través de dispositivos móbiles, soporte web en xeral e, en particular, no ámbito educativo.
  • Seguridade (acceso restrinxido, Videovigilancia)
  • Contidos audiovisuais (Retail, Publicidade, Media)
  • Edificación (illamento e acondicionamento acústico)
  • Automoción (ensaios e medidas acústicas, confort acústico)
  • Sector enerxético
Título
Análise da linguaxe natural
Resumo Desenvolvemento de programas capaces de abstraer comportamentos a partir de información fornecida en forma de exemplos. Actualmente estamos a traballar en sistemas de análise automática que integran análise matemática e semántico de linguaxe natural en sistemas deep learning.
Aplicacións e vantaxes Análise de aspectos, tópicos e sentimento en textos humanos (como redes sociais), con detección automática de zonas relevantes do texto. O noso valor diferencial, fronte a outras aproximacións, é a posta en valor da análise semántico como parte de solucións híbridas.
Sectores de aplicación Márketing analítico, análise de opinión de consumidores en call centers, chats ou formularios web, enquisas de opinión ou sistemas de intelixencia colectiva para ferramentas colaborativas empresariais, entre outros campos.
Propiedade intelectual Segredo industrial.
Título
Xeración automática de linguaxe natural baseada en coñecemento lingüístico e estatístico
Resumo atlanTTic desenvolveu un sistema para a xeración automática de linguaxe natural en diversos idiomas baseado en coñecemento lingüístico e estatístico, que integra léxicos de produción propia. O sistema recibe palabras como entrada e devolve frases completas e coherentes.
Aplicacións e vantaxes Xeración automática de información divulgativa, comercial e de análise empresarial. Educación e pedagoxía en xeral, e en particular aprendizaxe reforzada para corrixir deficiencias comunicativas.
Vantaxes:

  • Baixo tempo de resposta e requisitos mínimos de almacenamento.
  • Robustez e coherencia.
  • Facilidade de integración e extensión a outros idiomas e campos de aplicación.
Sectores de aplicación Todos aqueles onde se necesite xerar texto inteligible por humanos a partir de calquera tipo de dato.
Recentemente estamos a aplicar a tecnoloxía de xeración a sistemas de comunicación aumentativa e alternativa, para asistir a persoas afectadas con trastornos na comunicación.
Propiedade intelectual Segredo industrial
Título
Comunicación e estimulación para persoas con discapacidades cognitivas
Resumo atlanTTic desenvolveu unha familia de apps orientadas á comunicación con persoas con discapacidades cognitivas. Trátase dunha iniciativa altruísta cunha ampla base de usuarios na actualidade.
Aplicacións e vantaxes Comunicadores para persoas con discapacidade e xogos de estimulación cognitiva. Todos as nosas aplicacións son altamente configurables e de acceso gratuíto, e pódense executar en dispositivos Android de baixo custo.
Sectores de aplicación Colectivos con diferentes tipos de discapacidade, especialmente nenos con trastornos do espectro autista, pero tamén, por exemplo, pacientes en contornas hospitalarias ou persoas maiores. Respecto diso destaca o proxecto Accegal, desenvolvido co apoio de investigadores do Departamento de Didáctica da Lingua, Literatura e das Ciencias Sociais da Universidade de Santiago de Compostela. Accegal oferta catorce aplicacións para dispositivos móbiles con sistema operativo Android, con máis de 70.000 descargas ata a data. Todas as aplicacións están dispoñibles en cinco idiomas e son altamente personalizables. Recibiron varios premios e foron apuntadas con frecuencia en prensa.
Propiedade intelectual Aplicacións Android gratuítas, pero non de código aberto.
Título
Tecnoloxías de conversación en linguaxe natural (chatterbots)
Resumo Adaptamos asistentes dixitais (similares a Siri, Cortana, etc.) a ámbitos especializados. Para iso utilizamos tecnoloxías de código aberto como a linguaxe AIML (Artificial Intelligent Markup Language) e intérpretes adaptados para mellorar as funcións de diálogo e comprensión.
Aplicacións e vantaxes Fundamentalmente, estas tecnoloxías utilízanse para a implementación de asistentes, baseados en smartphones Android (con soporte texto-voz de Google Voice) ou páxinas Web. Os asistentes permiten buscar contidos de interese, recomendacións nun ámbito específico, dar soporte a preguntas frecuentes ou axudar ao usuario en xeral.Tamén se empregaron en Twitter ou para tutorización en contornas de eLearning.
Entre os nosos principais casos de éxito cóntase a integración da nosa tecnoloxía en Negobot, unha trampa virtual para a captura de pedófilos nas redes.Actualmente estamos en vías de adaptar os nosos asistentes dixitais para comunicación con persoas con discapacidades cognitivas. A propia comunicación xerará bases de datos para adestramento de algoritmos de computación afectiva, aspecto que enlaza cos traballos de atlanTTic en procesado de linguaxe natural.
Sectores de aplicación Asistentes para comunicación con consumidores a través de dispositivos móbiles, soporte web en xeral e, en particular, no ámbito educativo.
Propiedade intelectual Solucións baseadas en modificación de tecnoloxías de código aberto
Título
Tecnoloxías de indexación multimedia
Resumo Integramos tecnoloxías de procesado conxunto de vídeo, audio e texto para o indexado de contidos multimedia coa información relativa ás persoas presentes no material multimedia.
Aplicacións e vantaxes A principal vantaxe desta integración é que permite analizar o contido dunha fonte audiovisual nunha contorna comunicativo (noticias, entrevistas, debates, etc) para achegar información útil en procuras avanzadas, ampliando enormemente os poucos metadatos que adoitan acompañar a estes formatos.
Sectores de aplicación Empresas de media, editores de media, creadores e reutilizadores de contidos, empresas de creación e consumo de cursos online (MOOCS)
Propiedade intelectual Solucións construídas sobre tecnoloxías de código aberto e tecnoloxías propietarias.
Publicacións.
Título
Tecnoloxías de conversión de texto a voz e conversión de voces
Resumo Desenvolvo dun conversor texto-voz en galego e castelán de código aberto e de diversos métodos de transformación/conversión do sinal de voz orientados a modificar a identidade do locutor.
Aplicacións e vantaxes Aplicacións con resposta falada ao usuario.
Conversores texto-voz con múltiples locutores.
De-identificación (anonimización) de locutores en gravacións
Sectores de aplicación Interacción home-máquina, protección da privacidade
Propiedade intelectual Cotovía: sistema de conversión texto-voz en galego e castelán. Código aberto (https://sourceforge.net/projects/cotovia/ ).
Título
Tecnoloxías de identificación biométrica e trazos persoais
Resumo atlanTTic desenvolveu tecnoloxías de identificación de persoas a partir de trazos biométricos como a voz, a cara ou a firma manuscrita, así como estimación de atributos persoais como a idade e o sexo ou trazos temporais como o estado emocional. Estanse utilizado tanto técnicas de modelado e aprendizaxe propias como de aprendizaxe profunda.
Aplicacións e vantaxes Os campos de aplicación destas tecnoloxías son moi variados: sistemas de acceso restrinxido (tanto físico como lóxico), análise demográfica, análise de resposta emocional, segmentación de locutores, etc. Una das principais vantaxes respecto doutros sistemas é a capacidade de combinación multimodal.
Sectores de aplicación Seguridade, banca, retail, publicidade.
Propiedade intelectual Software rexistrado:

    • VG330-11 – Módulo de estimación demográfica (transferido a empresa)
    • VG332-11 – Ferramentas para modelos ocultos de Markov axustados (transferido a Centro tecnolóxico)
    • VG331-11 – Verificación de firma dinámica (transferido a Centro tecnolóxico)
Título
Tecnoloxías de análise automática en imaxes e fluxo de vídeo
Resumo atlanTTic desenvolveu un workflow de procesado de imaxes e vídeo e que se aplica a sistemas moi variados: axuda á condución (ADAS: recoñecemento de sinais, detección de peóns, de vehículos, abandono de carril, etc), contornas con fluxo de persoas, visión na industria, imaxe médica, etc.
Aplicacións e vantaxes Calquera contorna no que se deba tomar unha decisión para partir do contido dunha imaxe, secuencia de imaxes ou fluxo de vídeo. Os sistemas poden tomar decisións de forma autónoma ou servir de axuda ao diagnóstico por parte dun humano.
Sectores de aplicación Os sectores son moi variados: automoción, audiovisual, retail, diagnóstico médico, control de calidade, etc.
Propiedade intelectual Soluciones construídas sobre tecnoloxías propias e de código aberto. Publicacións.
Título
Sistemas de adquisición e procesado de sinais de audio e ultrasonidos de baixo custo para monitoraxe e diagnóstico en contornas industriais.
Resumo Integración de sensores de presión sonora de baixo custo, sistemas de acondicionamento de sinais e dixitalización. Sobre os sinais así adquiridos realízanse análises temporais e frecuenciales que permiten a detección de eventos e clasificación a partir de bases de datos ad-hoc.
Aplicacións e vantaxes Estas tecnoloxías permiten a monitoraxe da condición de funcionamento de sistemas mecánicos a partir do ruído que xeran, contribuíndo á prevención ou minimización de avarías, ou a detección de comportamentos anómalos. A vantaxe da utilización de sinais sonoros é que a instrumentación é non invasiva, e a súa instalación non interfere co funcionamento do sistema que se pretende monitorar. Os sistemas de captación deséñanse a medida para adaptarse á contorna e ás peculiaridades do sistema para monitorar, e con tecnoloxías robustas e de baixo custo. Os procesos de análises dos sinais desenvólvense especificamente para os eventos ou condicións de funcionamento a detectar ou clasificar. Dependendo da aplicación a intelixencia necesaria pode instalarse in-situ, centralizarse nun equipo remoto ou combinar ambas as solucións.
Sectores de aplicación Eólico, hidroeléctrico, automoción.
Propiedade intelectual Segredo industrial.
Título
Sistema para a detección de vehículos que circulan por unha vía para partir do son.
Resumo Dentro da liña xeral de detección e clasificación de eventos, concrétase un sistema de detección de paso de vehículos e a súa clasificación automática a partir do sinal de audio (vehículos lixeiros/pesados).
Aplicacións e vantaxes A realización de mapas de ruído de infraestruturas viarias(urbanas e interurbanas), require o coñecemento do número e tipo de vehículos que circulan pola vía. En moitos casos non se dispón desta información. Este sistema permite dunha forma rápida e portátil e non invasiva, obter os datos de aforamento dunha vía.
Sectores de aplicación Ambiental, tráfico.
Propiedade intelectual Patente española: P200801046.