No descubrimos nada si decimos que la tecnología se ha vuelto parte crucial en nuestras vidas, ya que la mayoría de las personas tienen un móvil, una tablet o un ordenador. Dispositivos que nos mantienen conectados, permiten crear contenido y acceder a servicios como transacciones bancarias, el comercio electrónico y muchos más. Su implantación en el día a día ha llevado también a abrir nuevas líneas de investigación para crear sistemas con un acceso más seguro, como la utilización de técnicas de inteligencia artificial para reconocer nuestra cara o nuestra voz.
Unas técnicas basadas en grandes redes neuronales que intentan aprender como lo hace nuestro cerebro, simulando nuestras neuronas y su proceso de aprendizaje de acierto y error. “Estas técnicas funcionan ya bastante bien cuando hay muchos datos preparados previamente para que el sistema aprenda a quien debe permitir el acceso. Pero aun así́ hay muchos desafíos a los que enfrentarse en este tipo de sistemas”, explica Victoria Mingote, joven investigadora del I3A que acaba de recibir el premio a la mejor tesis doctoral en el congreso IberSpeech-2022, celebrado en Granada, que reúne a grupos de investigación en tecnologías del habla y del lenguaje.
En este mismo foro, también ha logrado el premio que concede la Red Temática de Tecnologías del Habla (RTTH), al mejor artículo publicado en la revista IEEE/ACM Transactions on Audio, Speech and Language.
¿Puede una máquina diferenciar voces de distintas personas?
Si se intentan usar las habituales grandes redes neuronales cuando se cuenta con pocos datos adecuados para el sistema va a ser imposible diferenciar entre varias personas hablando. En este ámbito es en el que ha profundizado Victoria Mingote en su tesis doctoral, “para encontrar soluciones adaptadas a estas situaciones. Lo que ha permitido el desarrollo de técnicas capaces de diferenciar bastante bien quienes son las personas que están hablando”, comenta esta joven investigadora del grupo ViVoLab.
Pero en estos años de trabajo, Victoria Mingote ha estudiado también qué sucede en el otro extremo, ¿qué pasa cuando tenemos demasiados datos? “Es bueno tener muchos datos, sí, pero solo si están adecuadamente preparados y controlados para poder usarlos”, aclara.
Reconocer la voz y la cara al mismo tiempo
Sin embargo, el desarrollo de la tecnología ha provocado la creación de gran cantidad de contenido audiovisual que se encuentra disponible en Internet. “Necesitamos que para determinadas aplicaciones estos vídeos estén etiquetados para saber qué información exacta se encuentra en ellos”. La tesis doctoral premiada en IberSpeech aborda esta situación, dar opciones que eviten hacer ese trabajo de forma manual con el desarrollo de sistemas de reconocimiento de voz y cara conjuntamente que ayuden a analizar y catalogar el contenido audiovisual de manera más eficiente y de forma automática para que pueda ser usado fácilmente.
En cuanto al premio al mejor artículo publicado en la revista IEEE/ACM Transactions on Audio, Speech and Language, este trabajo está centrado en la línea de investigación de su tesis, el desarrollo de sistemas para la verificación de personas a partir de sus rasgos físicos que son únicos e intransferibles como su cara o su voz.
Victoria Mingote estudió en la Universidad de Zaragoza el Grado en Tecnologías y Servicios de Telecomunicación y el Máster en Ingeniería de Telecomunicación. Ha realizado el doctorado en el grupo de investigación del I3A ViVoLab, cuyas líneas principales de trabajo son las tecnologías del habla, del lenguaje y el aprendizaje automático.