HiTZ Zentroa développe le plus grand modèle de langage pour l’euskera : Latxa
Cette première version élaborée par le centre partenaire de LANGUNE sera essentiel pour construire des outils destinés au grand public comme les chatbots.
Un grand modèle de langage, ou LLM en anglais, est un type de modèle d’intelligence artificielle qui utilise des techniques d'apprentissage automatique pour comprendre et créer du langage humain en se basant sur la connaissance acquise de l'ensemble des données massives. L’euskera dispose d’ores et déjà de son propre grand modèle de langage : Latxa. Il est basé sur les modèles LLaMA de Meta et rassemble des modèles de 7 à 70 milliards de paramètres. Les LLM d’aujourd’hui donnent des résultats impressionnants dans les langues qui disposent d’un grand nombre de ressources, par exemple ChatGPT ou Bard-s en anglais. Mais dans le cas de l’euskera et d'autres langues n’ayant que peu de ressources, leurs performances laissent beaucoup à désirer. Ce fait vient encore creuser le fossé technologique entre les langues disposant de beaucoup et de peu de ressources, du moins concernant les outils numériques. HiTZ, Centre basque de technologie du langage de l'UPV/EHU et partenaire de LANGUNE, a développé Latxa dans un objectif : dépasser ces limites et encourager le développement de la recherche, des innovations et des produits fonctionnant avec l’euskera basé sur des LLM. Ce travail a reçu le soutien du Gouvernement basque dans le cadre du projet IKER-GAITU.