Grupo IXA (UPV/EHU), en busca de una traducción automática excelente

01/07/2013

El Grupo IXA de la UPV/EHU participa en un nuevo proyecto europeo para dar un salto cualitativo en la traducción automática: QTLeap. El objetivo del proyecto es garantizar la calidad de los resultados de las traducciones automáticas actuales, que se encuentran lejos de la perfección. El proyecto tendrá una duración de tres años

Todos los traductores automáticos tienen sus limitaciones. Las traducciones que se obtienen a través de ellas no son perfectas, ni mucho menos, pero son herramientas de gran ayuda en más de una ocasión. El Grupo IXA de la UPV/EHU pretende superar dichos límites y continuar investigando en el campo de la traducción automática a través del proyecto europeo QTLeap, en colaboración con entidades pioneras de Europa en el campo de la traducción automática: DKFI de Alemania, la Universidad de Lisboa, La Universidad Charles de Praga, La Academia de Ciencias de Bulgaria IICT-BAS, la Universidad Humboldt de Berlín y la Universidad de Groningen.

“Obtener una traducción automática correcta entre pares de lenguas próximas gramaticalmente y morfológicamente, por ejemplo, castellano-catalán o castellano-gallego, resulta más fácil” explica Kepa Sarasola, miembro del Grupo IXA. En el caso del euskera, sin embargo, resulta más complicado, y la calidad de la traducción disminuye. “Tiene tres grandes inconvenientes: por un lado, las enormes diferencias gramaticales y morfológicas que presenta el euskera respecto al resto de las lenguas de su entorno; por otro lado, la elección del equivalente adecuado en las demás lenguas, es decir, hay que elegir la acepción adecuada para cada contexto entre los diferentes significados posibles de una misma palabra; y por último, la carencia de corpus extensos de textos bilingües traducidos”. El euskera tiene una estructura muy distinta respecto al resto de las lenguas, y dar con el orden correcto es prácticamente imposible para un traductor automático. Además de eso,  uno de los mayores retos para los traductores de euskera es la obtención de grandes cantidades de textos traducidos al euskera, es decir, poder disponer de corpus extensos.

Más cerca de la perfección

El Grupo IXA de la UPV/EHU trabaja con empeño en el desarrollo de traductores automáticos, y quiere dar un paso más allá en la investigación de dichas herramientas a través del proyecto QTLeap. Intentarán superar los límites que presentan los traductores automáticos actuales.

Para ello, por un lado, utilizarán los bancos de árboles o treebank-s. “El objetivo es ayudar a los traductores automáticos en la sintaxis, gracias al empleo de bancos de árboles, es decir, una gran cantidad de frases previamente analizadas sintácticamente” cuenta Sarasola.

Por otro lado, la información necesaria para diferenciar una acepción de otra en una palabra concreta en una frase, no solo se encuentra en los diccionarios, sino que, en la actualidad, también se puede consultar en Internet. Por lo tanto, para diferenciar los significados de las palabras adecuadamente, emplearán ciertos recursos de Internet. Por ejemplo, en grandes colecciones de textos, como loes la Wikipedia, la acepción de cada palabra esta propiamente definida. Es decir, “si debajo de un concepto hay un enlace, dicho enlace está orientado a uno u otro significado de la Wikipedia”. Si se reúnen muchos de esos enlaces, el ordenador quizás aprenda de ellos a diferenciar entre un significado u otro. Wikipedia es, simplemente, una posibilidad. “Hoy en día, existen cada vez más textos en Internet con ese tipo de enlaces; todas ellas se conocen como Linked Open Data” añade. Todo ello ayudaría, por ejemplo, a discernir si la palabra baso del euskera pertenece, en un caso determinado, a bosque o a vaso en castellano.

“Así mismo, trataremos de una manera muy especial los nombres propios, los nombres de las entidades y los sitios geográficos. A pesar de que es imposible tener todos los nombres propios etiquetados, tener controlados un gran grupo de ellos puede mejorar en gran medida la calidad de las traducciones” cuenta Sarasola. Con ello tendremos la opción, por ejemplo, de mantener el nombre de Pilar del Castillo como tal, sin obtener el resultado de gazteluko pilareak en la traducción al euskera. 

Dichos recursos se pueden obtener de dos maneras: off-line y on-line. Es decir, en el modo off-line, antes de comenzar con la traducción se puede recopilar gran cantidad de información y ordenarla para su posterior utilización. En el modo on-line, en el momento de realizar la traducción, el mismo programa se dirige a Internet y encuentra la palabra o el nombre propio que no puede traducir el ordenador.

Por lo tanto, el Grupo IXA elaborará las tres líneas citadas anteriormente —los bancos de árboles, los recursos de Internet y los nombres propios— dentro del proyecto QTLeap a partir de noviembre, para dar una solución a los problemas de los traductores automáticos actuales, derivados de las grandes diferencias morfológicas y gramaticales, la falta de desambiguación de acepciones y la carencia de corpus extensos.

http://ixa.si.ehu.es

Noticias relacionadas

LANGUNE mira hacia delante

28/02/2024

El 2023 ha sido un año de consolidación para LANGUNE: ha conseguido nuevos socios, ha firmado un convenio de colaboración y ha participado en diferentes jornadas y eventos.

El Congreso Languages Lanean reunió a más de 500 personas

28/02/2024

LANGUNE fue la encargada de gestionar la secretaría técnica del Congreso Languages Lanean organizado por el Gobierno Vasco.

Elhuyar presenta en el Parlamento Europeo su trabajo sobre tecnologías lingüísticas e inteligencia artificial

27/02/2024

En su comparecencia en la sede del Parlamento Europeo de Estrasburgo, la empresa socia de LANGUNE ha puesto a disposición de otras lenguas minorizadas de Europa su experiencia y trayectoria.