Ciencias Sociales Perú , Perú, Lunes, 14 de diciembre de 2020 a las 10:00

Inteligencia artificial para detectar préstamos de palabras en lenguas del mundo

El préstamo léxico, conocido también como la transferencia directa de palabras de una lengua a otra, ayuda a los investigadores a trazar la evolución de las lenguas modernas

DICYT - El préstamo léxico, conocido también como la transferencia directa de palabras de una lengua a otra, ha interesado a académicos por mucho tiempo. Este interés es ya evidente en Kratylos, el diálogo de Platón donde Sócrates discute los retos que las palabras prestadas plantean para los estudios etimológicos. En la lingüística histórica, los préstamos léxicos ayudan a los investigadores a trazar la evolución de las lenguas modernas y son muestra de contacto cultural, sean recientes o antiguos, entre distintos grupos lingüísticos. Sin embargo, las técnicas para identificar palabras prestadas no han podido formalizarse, hecho que ha obligado a los investigadores a depender de una gran variedad de información sustituta y de la comparación de muchas lenguas.

"La detección automática de préstamos léxicos es todavía una de las tareas más difíciles que enfrentamos en la lingüística histórica computacional", señala Johann-Mattis List, quien lideró la investigación.

En el presente estudio, los investigadores de la PUCP y de MPI-SHH emplearon diferentes técnicas de aprendizaje automático, un método de Inteligencia Artificial, para entrenar modelos lingüísticos. Estos modelos simulaban la manera en que los lingüistas identifican préstamos a partir de evidencias en una lengua: si los sonidos o sus combinaciones para formar palabras son atípicos respecto a otras palabras en tal lengua, hay una sospecha de préstamo reciente. Luego, en un segundo momento, los investigadores aplicaron los modelos a una versión modificada de la Base de Datos Mundial de Préstamos de Palabras (World Loanword Database), un catálogo con información de préstamos, para una muestra de 41 lenguas de distintas familias lingüísticas del mundo. Con ello, se buscó determinar el grado de exactitud de las diferentes técnicas al clasificar las palabras de una lengua dada como prestada o no.

Los resultados no fueron satisfactorios en muchos casos, lo cual sugiere que detectar préstamos es una tarea difícil para los métodos de aprendizaje automático más frecuentemente usados. Sin embargo, en situaciones específicas, los investigadores hicieron descubrimientos prometedores. Fue el caso de las listas con una alta proporción de palabras prestadas y en lenguas cuyos préstamos tienen principalmente un origen único.

"Después de estos primeros experimentos con préstamos léxicos monolingües, ya podemos echar un ojo a otros aspectos del problema, como abordarlo desde una perspectiva que involucre múltiples lenguas", señala John Miller (PUCP), coautor del estudio.

"El enfoque asistido por computadora que aplicamos, junto con los datos que hacemos públicos, hace más patente la importancia de los métodos computacionales para la comparación de lenguas y la lingüística histórica", agrega Tiago Tresoldi (MPI-SHH), también coautor del estudio.

Esta investigación se suma a los esfuerzos continuos para abordar uno de los problemas más desafiantes de la lingüística histórica y muestra que la detección de préstamos no puede basarse solo en información tomada de una lengua. De cara al futuro, los autores esperan desarrollar enfoques más integrales que incluyan datos de múltiples lenguas.