Orail NLP Teknologiak ha desarrollado un nuevo modelo neuronal para la inteligencia artificial en euskera
La tecnología desarrollada por Orai, centro asociado a LANGUNE, será utilizado para desarrollar aplicaciones como chatbots, traductores automáticos, sistemas para la generación de contenidos...
Las investigaciones para avanzar en la inteligencia artificial se mueven a gran velocidad. El procesamiento del lenguaje natural plantea obstáculos singulares para las lenguas con pocos recursos, pues no disponen un volumen de textos o datos ni medios computacionales suficientes para avanzar al ritmo en que lo hacen las lenguas mayoritarias. En consecuencia, es preciso buscar estrategias diferentes que posibiliten la aplicación al euskera de las herramientas de inteligencia artificial que se usan en las lenguas mayoritarias, y en esa labor de búsqueda la comunidad investigadora vasca está logrando grandes avances.
Orai NLP Teknologiak, centro de inteligencia artificial de Elhuyar y asociado a LANGUNE, ha desarrollado Llama-eus-8B, un nuevo modelo de lenguaje neuronal (LLM, Large Language Model) diseñado para facilitar el desarrollo de sistemas de inteligencia artificial que requieren la comprensión y generación del euskera escrito. Se trata de un modelo fundacional, es decir, es el tipo de modelo que se utiliza como base de la inteligencia artificial generativa (o de conocidos chatbots). Llama-eus-8B es el más avanzado para el euskera dentro del ámbito de los modelos fundacionales considerados ligeros (de menos de 10 mil millones de parámetros).
Llama-eus-8B se distribuye de forma libre, lo que facilitará el desarrollo e investigación de tecnologías en euskera tanto en el ámbito académico como industrial. Este modelo se ha desarrollado dentro del proyecto de investigación BasqueLLM, financiado parcialmente por la Diputación Foral de Gipuzkoa a través del Programa de Red Guipuzcoana de Ciencia, Tecnología e Innovación.
Orai utilizará Llama-eus-8B como base para desarrollar aplicaciones para tareas como corrección gramatical de textos, generación de contenido, creación de materiales educativos, buscadores, chatbots y traducción automática; todas ellas tareas que requieren un conocimiento lingüístico profundo del euskera.
Según Xabier Saralegi, investigador principal del proyecto BasqueLLM, “actualmente estamos experimentando con estrategias alternativas de entrenamiento para poder mejorar los resultados sin requerir mayores colecciones de textos en euskera. Estrategias que mejoren la transferencia de las capacidades aprendidas en inglés al euskera.”