Orai NLP Teknologiak euskarazko adimen artifizialerako hizkuntza-eredu neuronal berria garatu du

2024/09/13

LANGUNEko bazkidea den Oraik garatutako teknologia txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak, edukiak sortzeko sistemak... sortzeko erabiliko da.

Card image cap

Adimen artifizialean aurrera egiteko ikerketak abiadura bizian dabiltza. Hizkuntza naturalaren prozesamenduak oztopo bereziak jartzen dizkie baliabide gutxi dituzten hizkuntzei, ez baitute hizkuntza handien neurri berean aurrera egiteko behar adina testu- edo datu-bilduma eta baliabide konputazional. Horrenbestez, bestelako estrategia batzuk erabili behar dira hizkuntza handietan erabiltzen diren adimen artifizialeko tresnak euskarara ekartzeko, eta estrategia horien bilaketan aurrerapauso handiak lortzen ari da euskal ikertzaile-komunitatea.

LANGUNEko bazkidea den Orai NLP Teknologiak, Elhuyarren adimen artifizialeko zentroak, Llama-eus-8B garatu du, hizkuntza-eredu neuronal berri bat (LLM, Large Language Model), euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko diseinatua. Llama-eus-8B eredu fundazional bat da, alegia, adimen artifizial sortzailearen (edo txatbot ezagunen) oinarri gisa erabiltzen den eredu-mota. Eredu fundazional arinen esparruan (10 mila milioi parametro baino gutxiagokoak) euskararako dagoen eredurik aurreratuena da hau.

Arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko asmoz, Llama-eus-8B modu librean eskuratzeko moduan jarri da. Eredua BasqueLLM ikerketa-proiektuaren barnean garatu da, zeina Gipuzkoako Foru Aldundiak partzialki finantzatu baitu, Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea Programaren bidez.

Oraik Llama-eus-8B oinarri gisa erabiliko du euskara ulertzeko eta sortzeko gaitasun sakona eskatzen duten zenbait tresna garatzeko, besteak beste, zuzentzaile gramatikalak, edukiak sortzeko sistemak, hezkuntza-materialak sortzeko sistemak, bilatzaileak, txatbotak eta itzultzaile automatikoak.

Xabier Saralegi BasqueLLM proiektuaren ikertzaile nagusiaren arabera, “gaur egun entrenamendu estrategia alternatiboekin esperimentatzen ari gara, euskarazko testu bilduma handiagoen beharrik gabe emaitzak hobetu ahal izateko. Ingelesez ikasitako gaitasunak euskarara ekartzea ahalbidetuko duten estrategiak bilatzen ari gara”.

Informazio gehiago 

Albiste erlazionatuak

Euskarabilduaren 13.edizioa antolatuko du iametzak

2024/10/02

'Artifiziala ez den teknologia' da aurtengo edizioaren izenburua eta teknologiaren erabilera etikoagoa, iraunkorragoa eta bideragarriagoa aldarrikatuko du.

Eleaniztasunean bizitzen: Hizkuntza gutxituek indartzen gaituzte

2024/09/26

Euskal Herriko eleaniztasunaren biziraupen eta garapenerako borrokak, hizkuntzen industria garrantzitsu bat sortu du Euskal Herrian.

LANGUNE SPLNren XL Nazioarteko Biltzarrean

2024/09/25

Hizkuntza Teknologien eragin handiko erabilera kasuei buruzko ikerketaren lehen ondorioak aurkeztu ziren bertan.