Grupo IXA (UPV/EHU), en busca de una traducción automática excelente

01/07/2013

El Grupo IXA de la UPV/EHU participa en un nuevo proyecto europeo para dar un salto cualitativo en la traducción automática: QTLeap. El objetivo del proyecto es garantizar la calidad de los resultados de las traducciones automáticas actuales, que se encuentran lejos de la perfección. El proyecto tendrá una duración de tres años

Todos los traductores automáticos tienen sus limitaciones. Las traducciones que se obtienen a través de ellas no son perfectas, ni mucho menos, pero son herramientas de gran ayuda en más de una ocasión. El Grupo IXA de la UPV/EHU pretende superar dichos límites y continuar investigando en el campo de la traducción automática a través del proyecto europeo QTLeap, en colaboración con entidades pioneras de Europa en el campo de la traducción automática: DKFI de Alemania, la Universidad de Lisboa, La Universidad Charles de Praga, La Academia de Ciencias de Bulgaria IICT-BAS, la Universidad Humboldt de Berlín y la Universidad de Groningen.

“Obtener una traducción automática correcta entre pares de lenguas próximas gramaticalmente y morfológicamente, por ejemplo, castellano-catalán o castellano-gallego, resulta más fácil” explica Kepa Sarasola, miembro del Grupo IXA. En el caso del euskera, sin embargo, resulta más complicado, y la calidad de la traducción disminuye. “Tiene tres grandes inconvenientes: por un lado, las enormes diferencias gramaticales y morfológicas que presenta el euskera respecto al resto de las lenguas de su entorno; por otro lado, la elección del equivalente adecuado en las demás lenguas, es decir, hay que elegir la acepción adecuada para cada contexto entre los diferentes significados posibles de una misma palabra; y por último, la carencia de corpus extensos de textos bilingües traducidos”. El euskera tiene una estructura muy distinta respecto al resto de las lenguas, y dar con el orden correcto es prácticamente imposible para un traductor automático. Además de eso,  uno de los mayores retos para los traductores de euskera es la obtención de grandes cantidades de textos traducidos al euskera, es decir, poder disponer de corpus extensos.

Más cerca de la perfección

El Grupo IXA de la UPV/EHU trabaja con empeño en el desarrollo de traductores automáticos, y quiere dar un paso más allá en la investigación de dichas herramientas a través del proyecto QTLeap. Intentarán superar los límites que presentan los traductores automáticos actuales.

Para ello, por un lado, utilizarán los bancos de árboles o treebank-s. “El objetivo es ayudar a los traductores automáticos en la sintaxis, gracias al empleo de bancos de árboles, es decir, una gran cantidad de frases previamente analizadas sintácticamente” cuenta Sarasola.

Por otro lado, la información necesaria para diferenciar una acepción de otra en una palabra concreta en una frase, no solo se encuentra en los diccionarios, sino que, en la actualidad, también se puede consultar en Internet. Por lo tanto, para diferenciar los significados de las palabras adecuadamente, emplearán ciertos recursos de Internet. Por ejemplo, en grandes colecciones de textos, como loes la Wikipedia, la acepción de cada palabra esta propiamente definida. Es decir, “si debajo de un concepto hay un enlace, dicho enlace está orientado a uno u otro significado de la Wikipedia”. Si se reúnen muchos de esos enlaces, el ordenador quizás aprenda de ellos a diferenciar entre un significado u otro. Wikipedia es, simplemente, una posibilidad. “Hoy en día, existen cada vez más textos en Internet con ese tipo de enlaces; todas ellas se conocen como Linked Open Data” añade. Todo ello ayudaría, por ejemplo, a discernir si la palabra baso del euskera pertenece, en un caso determinado, a bosque o a vaso en castellano.

“Así mismo, trataremos de una manera muy especial los nombres propios, los nombres de las entidades y los sitios geográficos. A pesar de que es imposible tener todos los nombres propios etiquetados, tener controlados un gran grupo de ellos puede mejorar en gran medida la calidad de las traducciones” cuenta Sarasola. Con ello tendremos la opción, por ejemplo, de mantener el nombre de Pilar del Castillo como tal, sin obtener el resultado de gazteluko pilareak en la traducción al euskera. 

Dichos recursos se pueden obtener de dos maneras: off-line y on-line. Es decir, en el modo off-line, antes de comenzar con la traducción se puede recopilar gran cantidad de información y ordenarla para su posterior utilización. En el modo on-line, en el momento de realizar la traducción, el mismo programa se dirige a Internet y encuentra la palabra o el nombre propio que no puede traducir el ordenador.

Por lo tanto, el Grupo IXA elaborará las tres líneas citadas anteriormente —los bancos de árboles, los recursos de Internet y los nombres propios— dentro del proyecto QTLeap a partir de noviembre, para dar una solución a los problemas de los traductores automáticos actuales, derivados de las grandes diferencias morfológicas y gramaticales, la falta de desambiguación de acepciones y la carencia de corpus extensos.

http://ixa.si.ehu.es

Noticias relacionadas

Innovación para investigar y mejorar la gestión lingüística en eventos culturales

01/09/2020

Langune ofrecerá respuestas innovadoras para investigar y mejorar la gestión lingüística en eventos culturales. Euskal Herria es muy rica en eventos culturales, siendo una sociedad plurilingüe, estos actos requieren una fuerte gestión lingüística, y gran parte de su presupuesto está destinado a este ámbito.

El 5,34% del producto interior bruto de Gipuzkoa y el 4,59% de la CAPV están vinculados al euskera

13/02/2020

Langune cuantifica el valor del euskera como sector productivo en términos económicos para conocer su peso en la economía del territorio. La Diputación de Gipuzkoa y la Asociación de Industrias de la Lengua en el País Vasco, Langune, han presentado en el espacio Etorkizuna Eraikiz Gunea los resultados de un informe que ha analizado el impacto económico del euskera en Gipuzkoa y la situación de la industria de las lenguas en la CAV.

Seminario: Aplicación de las Tecnologías del Lenguaje en el RIS3

02/12/2019

Fecha: 10 de diciembre. Lugar: Innobasque (Parque Tecnológico de Bizkaia, Laida Bidea 203). Organiza: Langune.