Grupo IXA (UPV/EHU), en busca de una traducción automática excelente

01/07/2013

El Grupo IXA de la UPV/EHU participa en un nuevo proyecto europeo para dar un salto cualitativo en la traducción automática: QTLeap. El objetivo del proyecto es garantizar la calidad de los resultados de las traducciones automáticas actuales, que se encuentran lejos de la perfección. El proyecto tendrá una duración de tres años

Todos los traductores automáticos tienen sus limitaciones. Las traducciones que se obtienen a través de ellas no son perfectas, ni mucho menos, pero son herramientas de gran ayuda en más de una ocasión. El Grupo IXA de la UPV/EHU pretende superar dichos límites y continuar investigando en el campo de la traducción automática a través del proyecto europeo QTLeap, en colaboración con entidades pioneras de Europa en el campo de la traducción automática: DKFI de Alemania, la Universidad de Lisboa, La Universidad Charles de Praga, La Academia de Ciencias de Bulgaria IICT-BAS, la Universidad Humboldt de Berlín y la Universidad de Groningen.

“Obtener una traducción automática correcta entre pares de lenguas próximas gramaticalmente y morfológicamente, por ejemplo, castellano-catalán o castellano-gallego, resulta más fácil” explica Kepa Sarasola, miembro del Grupo IXA. En el caso del euskera, sin embargo, resulta más complicado, y la calidad de la traducción disminuye. “Tiene tres grandes inconvenientes: por un lado, las enormes diferencias gramaticales y morfológicas que presenta el euskera respecto al resto de las lenguas de su entorno; por otro lado, la elección del equivalente adecuado en las demás lenguas, es decir, hay que elegir la acepción adecuada para cada contexto entre los diferentes significados posibles de una misma palabra; y por último, la carencia de corpus extensos de textos bilingües traducidos”. El euskera tiene una estructura muy distinta respecto al resto de las lenguas, y dar con el orden correcto es prácticamente imposible para un traductor automático. Además de eso,  uno de los mayores retos para los traductores de euskera es la obtención de grandes cantidades de textos traducidos al euskera, es decir, poder disponer de corpus extensos.

Más cerca de la perfección

El Grupo IXA de la UPV/EHU trabaja con empeño en el desarrollo de traductores automáticos, y quiere dar un paso más allá en la investigación de dichas herramientas a través del proyecto QTLeap. Intentarán superar los límites que presentan los traductores automáticos actuales.

Para ello, por un lado, utilizarán los bancos de árboles o treebank-s. “El objetivo es ayudar a los traductores automáticos en la sintaxis, gracias al empleo de bancos de árboles, es decir, una gran cantidad de frases previamente analizadas sintácticamente” cuenta Sarasola.

Por otro lado, la información necesaria para diferenciar una acepción de otra en una palabra concreta en una frase, no solo se encuentra en los diccionarios, sino que, en la actualidad, también se puede consultar en Internet. Por lo tanto, para diferenciar los significados de las palabras adecuadamente, emplearán ciertos recursos de Internet. Por ejemplo, en grandes colecciones de textos, como loes la Wikipedia, la acepción de cada palabra esta propiamente definida. Es decir, “si debajo de un concepto hay un enlace, dicho enlace está orientado a uno u otro significado de la Wikipedia”. Si se reúnen muchos de esos enlaces, el ordenador quizás aprenda de ellos a diferenciar entre un significado u otro. Wikipedia es, simplemente, una posibilidad. “Hoy en día, existen cada vez más textos en Internet con ese tipo de enlaces; todas ellas se conocen como Linked Open Data” añade. Todo ello ayudaría, por ejemplo, a discernir si la palabra baso del euskera pertenece, en un caso determinado, a bosque o a vaso en castellano.

“Así mismo, trataremos de una manera muy especial los nombres propios, los nombres de las entidades y los sitios geográficos. A pesar de que es imposible tener todos los nombres propios etiquetados, tener controlados un gran grupo de ellos puede mejorar en gran medida la calidad de las traducciones” cuenta Sarasola. Con ello tendremos la opción, por ejemplo, de mantener el nombre de Pilar del Castillo como tal, sin obtener el resultado de gazteluko pilareak en la traducción al euskera. 

Dichos recursos se pueden obtener de dos maneras: off-line y on-line. Es decir, en el modo off-line, antes de comenzar con la traducción se puede recopilar gran cantidad de información y ordenarla para su posterior utilización. En el modo on-line, en el momento de realizar la traducción, el mismo programa se dirige a Internet y encuentra la palabra o el nombre propio que no puede traducir el ordenador.

Por lo tanto, el Grupo IXA elaborará las tres líneas citadas anteriormente —los bancos de árboles, los recursos de Internet y los nombres propios— dentro del proyecto QTLeap a partir de noviembre, para dar una solución a los problemas de los traductores automáticos actuales, derivados de las grandes diferencias morfológicas y gramaticales, la falta de desambiguación de acepciones y la carencia de corpus extensos.

http://ixa.si.ehu.es

Noticias relacionadas

Las jornadas de Euskarabildua se centrarán en el cuidado de los y en las aportaciones que puede hacer la soberanía tecnológica en la situación derivada de la pandemia

27/10/2020

Será el 29 de octubre desde el museo San Telmo de San Sebastián, pero se realizará de forma online al final, bajo el título “Datuen izurria. Zer ari da gertatzen gure pribatutasunarekin pandemia garaian?”. Aunque en su momento había intención de realizar la jornada de forma presencial, la situación ha llevado al cambio. Con el objetivo de ofrecer la jornada en su totalidad, se ofrecerá a las personas inscritas la posibilidad de recoger en su domicilio la carpeta que se repartirá el mismo día, así como el material complementario de la jornada.

La gestión lingüística de los eventos culturales obtiene una subvención del Ministerio de Cultura

20/10/2020

El proyecto que se está desarrollando desde Langune para mejorar la gestión lingüística de los eventos culturales ha obtenido una subvención para la modernización del Ministerio de Cultura.

Lacunza y Mondragon Lingua participarán en el programa KSI Berritzaile

24/09/2020

Lacunza y Mondragon Lingua han presentado un proyecto dentro del programa KSI Berritzaile para trabajar conjuntamente con Vicomtech. Los tres miembros de LANGUNE quieren poner en marcha un sistema que mejore los cursos online.