Orai NLP Teknologiak euskarazko adimen artifizialerako hizkuntza-eredu neuronal berria garatu du
LANGUNEko bazkidea den Oraik garatutako teknologia txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak, edukiak sortzeko sistemak... sortzeko erabiliko da.
Adimen artifizialean aurrera egiteko ikerketak abiadura bizian dabiltza. Hizkuntza naturalaren prozesamenduak oztopo bereziak jartzen dizkie baliabide gutxi dituzten hizkuntzei, ez baitute hizkuntza handien neurri berean aurrera egiteko behar adina testu- edo datu-bilduma eta baliabide konputazional. Horrenbestez, bestelako estrategia batzuk erabili behar dira hizkuntza handietan erabiltzen diren adimen artifizialeko tresnak euskarara ekartzeko, eta estrategia horien bilaketan aurrerapauso handiak lortzen ari da euskal ikertzaile-komunitatea.
LANGUNEko bazkidea den Orai NLP Teknologiak, Elhuyarren adimen artifizialeko zentroak, Llama-eus-8B garatu du, hizkuntza-eredu neuronal berri bat (LLM, Large Language Model), euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko diseinatua. Llama-eus-8B eredu fundazional bat da, alegia, adimen artifizial sortzailearen (edo txatbot ezagunen) oinarri gisa erabiltzen den eredu-mota. Eredu fundazional arinen esparruan (10 mila milioi parametro baino gutxiagokoak) euskararako dagoen eredurik aurreratuena da hau.
Arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko asmoz, Llama-eus-8B modu librean eskuratzeko moduan jarri da. Eredua BasqueLLM ikerketa-proiektuaren barnean garatu da, zeina Gipuzkoako Foru Aldundiak partzialki finantzatu baitu, Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea Programaren bidez.
Oraik Llama-eus-8B oinarri gisa erabiliko du euskara ulertzeko eta sortzeko gaitasun sakona eskatzen duten zenbait tresna garatzeko, besteak beste, zuzentzaile gramatikalak, edukiak sortzeko sistemak, hezkuntza-materialak sortzeko sistemak, bilatzaileak, txatbotak eta itzultzaile automatikoak.
Xabier Saralegi BasqueLLM proiektuaren ikertzaile nagusiaren arabera, “gaur egun entrenamendu estrategia alternatiboekin esperimentatzen ari gara, euskarazko testu bilduma handiagoen beharrik gabe emaitzak hobetu ahal izateko. Ingelesez ikasitako gaitasunak euskarara ekartzea ahalbidetuko duten estrategiak bilatzen ari gara”.