Home » Investigación

Expertos unen esfuerzos para desarrollar tecnologías del lenguaje

Publicado por @Shinji_Mcfly el Martes, 21 julio 2015
Sin Comentarios


Oaxaca, México.- En el Instituto de Ingeniería (II) de la UNAM hay un conjunto de investigadores que, en apariencia, tienen poco en común, pero que trabajan en estrecha colaboración. Es el Grupo de Ingeniería Lingüística (GIL), en el que convergen especialistas de diversas disciplinas. Sus integrantes poseen una formación que combina el área de las letras y la lingüística, con las ciencias de la computación.

“La ingeniería lingüística (IL) es un campo de investigación aplicada en el que se desarrollan sistemas informáticos con los que se analiza o procesa el lenguaje humano, también conocido como lenguaje natural (el que usamos al escribir, hablar o leer; con el que emitimos y decodificamos cualquier tipo de expresión lingüística, ya sea oral, visual o escrita), para diversas aplicaciones”, explicó Gerardo Sierra Martínez, director del GIL.

“Es la conjunción de la lingüística y la computación. Esta interdisciplina es necesaria para modelar el lenguaje humano, procesarlo y hacer que una computadora lo ‘entienda’, con el fin de desarrollar sistemas que realicen actividades humanas como comprensión, clasificación, resumen y traducción, entre otras”, dijo.

Investigación aplicada

unamlinguistica22Entre las diversas aplicaciones que nos interesan está la traducción automática; encontrar una equivalencia inmediata entre palabras de idiomas diferentes es un reto que se puede lograr. “Para esto necesitamos entender bien el lenguaje natural y saber cómo pasar de la lengua uno, por ejemplo el inglés, a la dos, digamos, el español”.

Un traductor humano sabe cómo hacer su trabajo; sin embargo, transmitir ese conocimiento a una computadora por medio de algoritmos es un problema en el que no sólo se necesita el conocimiento lingüístico, sino también inteligencia artificial, estadística y otras áreas.

“Ya tenemos a disposición de empresas e instituciones académicas una serie de tecnologías del lenguaje. Hemos desarrollado un sistema llamado ‘Describe’, en el que es posible obtener definiciones, no de diccionario, sino de los usuarios. El objetivo es que identifique y extraiga cualquier definición que haya en la web y nos permita acceder a ellas, como si se realizara una búsqueda en Google”, señaló Sierra Martínez

Para extraer esos datos se emplean diversos patrones, que van desde sencillos hasta muy complejos, que indican en qué parte del texto hay una definición.

En el GIL también se ha creado otro producto interesante: un diccionario electrónico que realiza búsquedas inversas, es decir, parte del significado para darnos la palabra adecuada. Por ejemplo, si escribimos “libro donde se guardan las palabras y se proporcionan sus definiciones”, el programa nos dará como respuesta “diccionario”.

Las tecnologías del lenguaje también son utilizadas con fines forenses. “En casos en los que se desea identificar a la persona que hizo una llamada telefónica, de extorsión, por ejemplo, se emplean programas para hacer análisis de espectrogramas de voz; se procesa la voz de la grabación y se compara con la de posibles responsables”.

“En las cárceles tienen un registro de las voces de los presos; a partir de ciertos rasgos del sonido de éstas es posible detectar la edad de un individuo, su nivel sociocultural y su origen geográfico. Esta información puede ser determinante en la resolución de un caso legal”, subrayó.

Atribución de autoría

unamlinguistica2“En un conjunto de documentos escritos por diferentes autores hacemos experimentos para identificar qué características de sus textos nos permiten hacer una clasificación por autor”, añadió Julián Solórzano, tesista en el Grupo.

En el GIL cuentan con un sistema que identifica ciertas características, como qué signos de puntuación y con qué frecuencia los emplea cierto escritor. “En el caso de categorías gramaticales, nos fijamos en qué proporción usa adjetivos o verbos. El análisis se hace incluso más granular si queremos saber en qué medida utiliza verbos en pasado o en futuro”.

De igual manera, trabajan con la recurrencia de bigramas y trigramas, es decir, qué par o trío de palabras suele usar de manera conjunta un autor. Se ha encontrado que las que se manejan en mayor medida son “y” seguido por “de”, pero están también “y para” o “por supuesto”.

Lenguas de bajos recursos digitales

Se considera lenguas de bajos recursos digitales a las que, por alguna razón, no tienen mucha producción escrita, no hay muchos hablantes o no hay suficientes recursos digitales disponibles en la web. Crear tecnología para éstas representa un reto. Las lenguas mexicanas son ejemplos de ello, expuso María Ximena Gutiérrez Vasques, doctorante del GIL.

Además del español, en nuestro país se hablan 68 lenguas o agrupaciones lingüísticas. Aunque tienen reconocimiento oficial o de carácter nacional, no hay muchos textos en Internet traducidos a éstas y, por lo mismo, es difícil la elaboración de traductores automáticos o tecnologías.

Un problema es que la mayor parte se desarrolla sólo para un subconjunto pequeño de idiomas, por ejemplo el inglés y el chino. “El reto que tenemos en el GIL es hacerlas para las lenguas mexicanas, como el náhuatl, con el fin de generar modelos”, finalizó.

Comenta el articulo!

Agrega tu comentario, o trackback desde tu propio sitio. Tambien puedes suscribirte a los comentarios via RSS.

No se toleraran conductas inapropiadas. No spam.

Puedes usar estas etiquetas:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio esta habilitado para el uso de Gravatar.