INICIO  //  investigacion  //  Expertos unen esfuerzos para desarrollar tecnologías del lenguaje
/  

Expertos unen esfuerzos para desarrollar tecnologías del lenguaje

Martes 21 de julio, 2015.
03:21 pm
92 lecturas | 0 comentarios

COMPARTIR

Oaxaca, México.- En el Instituto de Ingeniería (II) de la UNAM hay un conjunto de investigadores que, en apariencia, tienen poco en común, pero que trabajan en estrecha colaboración. Es el Grupo de Ingeniería Lingüística (GIL), en el que convergen especialistas de diversas disciplinas. Sus integrantes poseen una formación que combina el área de las letras y la lingüística, con las ciencias de la computación. “La ingeniería lingüística (IL) es un campo de investigación aplicada en el que se desarrollan sistemas informáticos con los que se analiza o procesa el lenguaje humano, también conocido como lenguaje natural (el que usamos al escribir, hablar o leer; con el que emitimos y decodificamos cualquier tipo de expresión lingüística, ya sea oral, visual o escrita), para diversas aplicaciones”, explicó Gerardo Sierra Martínez, director del GIL. “Es la conjunción de la lingüística y la computación. Esta interdisciplina es necesaria para modelar el lenguaje humano, procesarlo y hacer que una computadora lo ‘entienda’, con el fin de desarrollar sistemas que realicen actividades humanas como comprensión, clasificación, resumen y traducción, entre otras”, dijo. Investigación aplicada unamlinguistica22Entre las diversas aplicaciones que nos interesan está la traducción automática; encontrar una equivalencia inmediata entre palabras de idiomas diferentes es un reto que se puede lograr. “Para esto necesitamos entender bien el lenguaje natural y saber cómo pasar de la lengua uno, por ejemplo el inglés, a la dos, digamos, el español”. Un traductor humano sabe cómo hacer su trabajo; sin embargo, transmitir ese conocimiento a una computadora por medio de algoritmos es un problema en el que no sólo se necesita el conocimiento lingüístico, sino también inteligencia artificial, estadística y otras áreas. “Ya tenemos a disposición de empresas e instituciones académicas una serie de tecnologías del lenguaje. Hemos desarrollado un sistema llamado ‘Describe’, en el que es posible obtener definiciones, no de diccionario, sino de los usuarios. El objetivo es que identifique y extraiga cualquier definición que haya en la web y nos permita acceder a ellas, como si se realizara una búsqueda en Google”, señaló Sierra Martínez Para extraer esos datos se emplean diversos patrones, que van desde sencillos hasta muy complejos, que indican en qué parte del texto hay una definición. En el GIL también se ha creado otro producto interesante: un diccionario electrónico que realiza búsquedas inversas, es decir, parte del significado para darnos la palabra adecuada. Por ejemplo, si escribimos “libro donde se guardan las palabras y se proporcionan sus definiciones”, el programa nos dará como respuesta “diccionario”. Las tecnologías del lenguaje también son utilizadas con fines forenses. “En casos en los que se desea identificar a la persona que hizo una llamada telefónica, de extorsión, por ejemplo, se emplean programas para hacer análisis de espectrogramas de voz; se procesa la voz de la grabación y se compara con la de posibles responsables”. “En las cárceles tienen un registro de las voces de los presos; a partir de ciertos rasgos del sonido de éstas es posible detectar la edad de un individuo, su nivel sociocultural y su origen geográfico. Esta información puede ser determinante en la resolución de un caso legal”, subrayó. Atribución de autoría unamlinguistica2“En un conjunto de documentos escritos por diferentes autores hacemos experimentos para identificar qué características de sus textos nos permiten hacer una clasificación por autor”, añadió Julián Solórzano, tesista en el Grupo. En el GIL cuentan con un sistema que identifica ciertas características, como qué signos de puntuación y con qué frecuencia los emplea cierto escritor. “En el caso de categorías gramaticales, nos fijamos en qué proporción usa adjetivos o verbos. El análisis se hace incluso más granular si queremos saber en qué medida utiliza verbos en pasado o en futuro”. De igual manera, trabajan con la recurrencia de bigramas y trigramas, es decir, qué par o trío de palabras suele usar de manera conjunta un autor. Se ha encontrado que las que se manejan en mayor medida son “y” seguido por “de”, pero están también “y para” o “por supuesto”. Lenguas de bajos recursos digitales Se considera lenguas de bajos recursos digitales a las que, por alguna razón, no tienen mucha producción escrita, no hay muchos hablantes o no hay suficientes recursos digitales disponibles en la web. Crear tecnología para éstas representa un reto. Las lenguas mexicanas son ejemplos de ello, expuso María Ximena Gutiérrez Vasques, doctorante del GIL. Además del español, en nuestro país se hablan 68 lenguas o agrupaciones lingüísticas. Aunque tienen reconocimiento oficial o de carácter nacional, no hay muchos textos en Internet traducidos a éstas y, por lo mismo, es difícil la elaboración de traductores automáticos o tecnologías. Un problema es que la mayor parte se desarrolla sólo para un subconjunto pequeño de idiomas, por ejemplo el inglés y el chino. “El reto que tenemos en el GIL es hacerlas para las lenguas mexicanas, como el náhuatl, con el fin de generar modelos”, finalizó.

Te podría interesar...

ÚLTIMAS NOTICIAS

Violenci feminicida
Publicidad
Banner02
Banner03
Banner04
Banner05
Banner06
Banner07
Banner08
!

Esta conversación es moderada acorde a las reglas de la comunidad “Ciudadanía Express” . Por favor lee las reglas antes de unirte a ella.
Para revisar las reglas da clic aquí

-
Todos los comentarios (0)

Publica tu comentario

Nombre

E-mail, no será publicado.

Sexo

Comentario * 200 caracteres