El Instituto de Investigación en Ingeniería de Aragón (I3A) de la Universidad de Zaragoza acogió un encuentro científico para recopilar datos de evaluación en lengua aragonesa para mejorar la competencia en esta lengua de grandes modelos del lenguaje (LLMs, como ChatGPT o Gemini).
El objetivo de este 'Datathon', que se celebró el pasado viernes 13, es aumentar la presencia digital del aragonés y facilitar su supervivencia en el ecosistema tecnológico actual. La iniciativa sigue el modelo aplicado con éxito a otras lenguas como el euskera, el catalán y el gallego.
Alrededor de una veintena de personas se han inscrito, de los que 13 estuvieron ya en esta primera cita.
El ‘Datathon’ está organizado en el marco de la tesis doctoral de Miguel López Otal, dirigida por el profesor Jorge Gracia del Río, ambos miembros del grupo de investigación Sistemas de Información Distribuidos (SID), y cuenta con el asesoramiento de Juan Pablo Martínez, director del Instituto de l'Aragonés de la Academia Aragonesa de la Lengua y también miembro del I3A.
Los datos recabados en este evento servirán para probar las habilidades de estos modelos de inteligencia artificial en esta lengua romance y buscar su mejora. Aunque el aragonés está actualmente en serio peligro de extinción según la UNESCO, cuenta con una comunidad de hablantes fuertemente comprometida y altamente activa, cuyo papel fue fundamental en esta jornada.

Los voluntarios que participaron en el ‘Datathon’ tuvieron que corregir un conjunto de más de 10.000 oraciones, traducidas automáticamente de español a aragonés con la herramienta Apertium, para que verificasen si las traducciones eran correctas. Esta herramienta, aunque muchas veces hace traducciones correctas, puede cometer fallos, por lo que los revisores en el evento tendrán que corregir posibles errores que siempre se van a encontrar. Trabajaron con traducción automática y corrección manual.
Los conjuntos de datos resultantes serán publicados abiertamente en Internet para facilitar la experimentación en esta lengua. Todo ello, forma parte de un intento activo de dar soporte al aragonés en el actual mundo de la IA, donde la escasez de textos de entrenamiento dificulta el uso competente de esta lengua por parte de los modelos de lenguaje, y anima a buscar estrategias alternativas. La recopilación de estos datos de evaluación servirá para dar un paso decisivo en esta dirección.
Más información: https://sites.google.com/view/datathon-aragones