BIOGRAFÍA
Pablo Gamallo Otero (Vigo, 1969) ejerce como profesor contratado doctor en la Universidad de Santiago de Compostela y cuenta con una amplia trayectoria investigadora en áreas del procesamiento del lenguaje natural. Defendió la tesis de Lingüística en la Universidad Blaise Pascal, de Fracia, completó una estancia posdoctoral en el Centro de Inteligencia Artificial de la Universidad Nova de Lisboa y posteriormente llegó como investigador del programa Ramón y Cajal al Centro de Investigación sobre Tecnoloxías da Información (CiTIUS), del que es miembro. Fue promotor y socio fundador de Cilenis, empresa sobre tecnologías del lenguaje.
PROYECTO
El proyecto propone un nuevo paradigma de traducción automática diferente al actual, demasiado dependiente de la explotación de corpus bilingües paralelos, es decir, de traducciones. En contraposición, la propuesta del presente proyecto se fundamenta en la explotación de corpus no-paralelos, es decir de cualquier tipo de texto, mediante estrategias de semántica distribucional y análisis sintáctico profundo, así como de técnicas avanzadas de tratamiento de cantidades masivas de datos complejos (big data). El objetivo es desarrollar un sistema capaz de traducir expresiones con un alto grado de ambigüedad. Concretamente, se implementará un sistema de traducción inglés-español limitado a expresiones que contengan las locuciones verbales inglesas conocidas como phrasal verbs, que son predicados que tienden a tener una gran ambigüedad léxica.
RESULTADOS
Los resultados del proyecto han sido los siguientes:
1) Un sistema para la traducción automática composicional inglés-español de frases simples, llamado CompMT. El software es de código abierto y está accesible en un repositiorio de GitHub.
2) Además del código fuente, el repositorio incluye un conjunto de recursos: más de 1.000 oraciones con phrasal verbscontextualizadas y su traducción al español. Un léxico bilingüe inglés-español de más de 50.000 entradas que incluye 3.000 phrasal verbs traducidas.
3) Una aplicación web para consulta de usuarios que ejecuta el código de compMT.