@IxaTaldea (UPV/EHU), Itzulpen automatiko bikainaren bila

2013/07/01

UPV/EHUko IXA Taldea Europako proiektu berri batean hasi berri da itzulpengintza automatikoan jauzi kualitatibo bat emateko: QT Leap. Proiektuaren helburua da perfekziotik urrun dauden egungo itzulpen automatikoen emaitzen kalitatea nabarmen hobetzea. Proiektuak hiru urteko iraupena izango du

Itzultzaile automatiko guztiek mugak dituzte. Itzulpenak ez dira perfektuak, ezta gutxiagorik ere, baina laguntza-tresna aproposak dira behin baino gehiagotan. UPV/EHUko IXA Taldeak Europako proiektu berri bat lortu du muga horiek gainditzeko eta itzulpengintza automatikoan ikertzen jarraitzeko: QTLeap. IXA Taldeak elkarlanean jardungo du itzulpengintza automatikoan aitzindariak diren Europako beste hainbat erakunderekin: Alemaniako DKFI, Lisboako Unibertsitatea, Pragako Charles Unibertsitatea, Bulgariako Zientzien Akademia IICT-BAS, Berlingo Humboldt Unibertsitatea eta Groningengo Unibertsitatea.

“Gramatikalki eta morfologikoki antzekoak diren hizkuntza-bikoteen arteko itzulpen automatiko on bat lortzea errazagoa da, gaztelania-katalana edo gaztelania-galegoa kasu” azaldu du Kepa Sarasola IXA Taldeko kideak. Euskararen kasuan, berriz, zailtasuna handiagoa da, eta kalitatea zalantzagarriagoa. “Hiru dira zailtasun handienak: euskarak bestelako hizkuntzekin dituen ezberdintasun morfologiko eta gramatikal handiak batetik;  hitz batek beste hizkuntzetan dituen ordain egokien aukeraketa bestetik (adieren artean aukeratu behar da zein erabili den testuinguru jakin bakoitzean); eta itzulitako testuen corpus txikia edukitzea azkenik”. Euskarak, beste hizkuntzen aldean, oso egitura ezberdina du, eta itzulpeneko elementuen ordena asmatzea oso zaila da itzultzaile automatikoentzat. Horrez gain, euskarazko itzultzaileen erronkarik handienetarikoa da itzulitako testuen kopuru handiak lortzea, alegia, corpus handiak osatzea.

Perfekziotik hurbilago

Itzultzaile automatikoen lanketan buru-belarri dihardute UPV/EHUko IXA Taldekoek, eta arlo horretan eta ikerketa mailan urrats berri bat egin nahi dute Europako QTLeap proiektuarekin. Gaur egungo itzultzaile automatikoek dituzten muga horiek gainditzen saiatuko dira proiektu horretan.

Horretarako, batetik, zuhaitz-banku edo treebank-ak erabiliko dituzte. “Helburua da sintaktikoki ongi analizatutako esaldi mordoxka batekin, alegia zuhaitz-bankuekin, sintaxia hobeto aukeratzen laguntzea  itzultzaile automatikoei” dio Sarasolak.

Bestetik, gaur egun, esaldi batean hitz batek duen esanahia bereizteko behar den informazioa ez dago hiztegietan bakarrik, Interneten ere lor daiteke. Horrenbestez, hitzen esanahiak edo adierak behar bezala bereizteko eta zalantzarik ez sortzeko, Interneteko zenbait baliabide erabiliko dituzte. Esaterako, Wikipedia bezalako testu-bilduma handietan, hainbatetan hitz baten adiera ongi zehaztuta egoten da. Alegia, “hitz baten azpian esteka bat badago, esteka hori Wikipediako adiera batera edo bestera doa”. Horrelako esteka asko bilduz gero, haietatik konputagailuak ikas dezake adierak bereizten. Wikipedia iturri posibleetako bat besterik ez da. “Gaur egun, Interneten gero eta testu gehiago dago horrelako lotura edo estekekin; Linked Open Data izenaz ezagutzen dira aukera horiek guztiak” gehitu du. Horrek lagunduko du, adibidez, euskarazko baso hitza gaztelaniaz bosque edo vaso den argitzen.

“Halaber, izen propioak, pertsona-izenak, erakunde-izenak edota toki geografikoak modu berezian landuko ditugu. Izan ere, izen propio guztiak apropos etiketatuta izatea ezinezkoa da, baina multzo handi bat kontrolatua izateak asko hobetuko du itzulpenen kalitatea” dio Sarasolak. Horrek aukera emango du, adibidez, Pilar del Castillo izena itzulpenean bere horretan mantentzeko, eta ez gazteluko pilarea emaitza lortzeko.

Baliabide horiek bi modutara kontsultatu daitezke: off-line edo on-line. Alegia, off-line, itzultzen hasi baino lehen, informazio asko jaso eta antola daiteke, gero itzulpenetan erraz erabiltzeko. On-line kontsultan, berriz, itzultzeko unean bertan, programak Internetera jo dezake eta makinak ulertzen ez duen hitza edo izen propioa nola itzuli orduantxe bilatu.

Horrenbestez, hiru adar nagusi horiek —zuhaitz-bankuak, Interneteko baliabideak eta izen propioak— landuko ditu IXA Taldeak azarotik aurrera QTLeap proiektuan, egungo euskarazko itzultzaile automatikoen hiru arazo nagusiei —ezberdintasun morfologiko eta gramatikala, adiera-desanbiguazioa eta corpus txikia— konponbide berriak aurkitzeko.

http://ixa.si.ehu.es

Albiste erlazionatuak

LANGUNEk bere posizionamendua sendotzen du

2024/10/10

Euskal Herriko Hizkuntza Industrien Elkarteak bi erronka garrantzitsu bete ditu azken egunetan.

'Hizkuntzen irabazia' kongresuak hizkuntzek ekonomiari egiten dioten ekarpena balioan jarriko du

2024/10/08

Kongresua LANGUNE FUENekin elkarlanean antolatzen ari da

Euskarabilduaren 13.edizioa antolatuko du iametzak

2024/10/02

'Artifiziala ez den teknologia' da aurtengo edizioaren izenburua eta teknologiaren erabilera etikoagoa, iraunkorragoa eta bideragarriagoa aldarrikatuko du.