La inteligencia artificial de las lenguas perdidas

Autor: | Posteado en Noticias Sin comentarios

Durante siglos, nadie pudo descifrar los jeroglíficos egipcios. Una de las enormes civilizaciones del planeta antiguo, el reino de los papiros, permanecía ininteligible. Pero un dispositivo, además antiguo, destapó la cultura del Nilo ante nuestros ojos.

Los jeroglíficos no estaban solos en el cosmos de las lenguas perdidas. Hoy aún existen alfabetos antiguos que no entendemos y lenguas sin apenas vestigios escritos que jamás llegaremos a comprender. En un planeta hipercomunicado, existen decenas de lenguas indescifrables, lenguas de las que no entendemos lo bastante como para entenderlas. Pero un algoritmo de machine learning del MIT podría redirigir el rumbo de la historia.

La piedra de Rosetta y las lenguas perdidas

La invención de la escritura cambió el planeta antiguo. Todo parece haber comenzado en Mesopotamia hace mas de 5000 años, pese a que se han hallado vestigios de sistemas de protoescritura anteriores. La escritura cuneiforme que realizó la civilización sumeria sobre tablillas de arcilla iría contagiando, con el paso de los siglos, el resto del planeta. Después aparecieron los jeroglíficos egipcios y, pronto, además en el valle del Nilo, la escritura con tinta sobre papiro que conquistó a los griegos.

De forma paralela, la escritura surgió en otros lugares del planeta sin que, se cree, mediase contacto entre las civilizaciones. Los primeros restos de la escritura simbólica china tienen mas de 3000 años de antigüedad. Alrededor del 1000 antes de Cristo, las civilizaciones centroamericanas también contaban ya con sistemas de escritura. Pero volvamos a Egipto y Grecia.

A pesar de lo delicado de los papiros y los percances que sufrieron las primeras bibliotecas (como los famosos incendios de Alejandría), la escritura griega llegó hasta nuestros días de forma comprensible. Sin embargo, el significado de los jeroglíficos egipcios se olvidó en la historia. Todo cambió cuando en 1799 se descubrió la piedra de Rosetta, el 1° texto plurilingüe del planeta antiguo. Sobre la roca, estaba grabado el mismo texto en griego antiguo, escritura demótica (desarrollada al final del Antiguo Egipto) y escritura jeroglífica.

Aquel equipo destinado desde el pasado permitió descifrar por 1ª vez una lengua que se creía perdida. Desde entonces, han aparecido otras suscripciones plurilingües, sin embargo la piedra de Rosetta continua siendo la referencia en el repaso de lenguas indescifrables.

A lo largo de la historia, se estima que han existido mas de 31 000 lenguas diferentes. Hoy en día, unas 6000 se llegaron vivas, pese a que mas de la mitad tienen menos de diez 000 hablantes. Es decir, la totalidad de lenguas que han existido esta muerta o en peligro de extinción. Esto no significa, claro, que se vayan a perder para siempre. Muchas se pueden escribir con alfabetos y otros sistemas conocidos, lo que nos asegura, al menos en el horizonte cercano, que vamos a poder continuar leyendo todo lo que haya quedado escrito.

Inteligencia artificial para comprender lo indescifrable

Hoy por hoy existen mas de 40 lenguas que han llegado hasta nuestros días de forma escrita, sin embargo que no logramos entender. Algunas usan sistemas logosilábicos, como las lenguas mayas o la escritura cuneiforme sumeria, otras usan sistemas silábicos, antepasados de los alfabetos, y otras son, simplemente, ambiguas. En la mayor parte de los casos, disponemos de escasas evidencias. Es decir, conocemos demasiado poco de estas lenguas como para poder descifrarlas. Y no logramos permanecer a que exista una piedra de Rosetta de cada lengua.

Los examinadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT (Estados Unidos) han construido un algoritmo apto de descifrar lenguas sin tener conocimiento previo de ellas y, al mismo tiempo, de vincular sus hallazgos con los sistemas de escritura de otras lenguas perdidas.

Para crear realidad lo que parece imposible, el algoritmo de machine learning utiliza el conocimiento acumulado durante siglos. Con ellos, define normas que limitan las posibilidades. Por ejemplo, las lenguas suelen evolucionar siguiendo ciertos patrones. Uno de los mas comunes es que no suelen suprimir sonidos por completo, sino que lo mas usual es sustituir uno por otro (la pe, la te y la ce latinas derivan en be, de y ge en castellano).

El algoritmo integra esta y otras normas a partir de las cuales es apto de aprender todas las probabilidades para descifrar un input determinado. Así logra segmentar y ‘entender’ frases y investigar correlaciones probables en otros sistemas conocidos. A través de este sistema, la profesora del MIT Regina Barzilay y el alumno de doctorado Jiaming Luo consiguieron descifrar la lengua ugarítica y la lineal B, una antepasada del griego antiguo. Ambas son conocidas, con lo cual los examinadores pudieron comparar los resultados.

El algoritmo además ha comprobado su valía para verificar la relación entre lenguas conocidas. Entre otros idiomas, los examinadores estudiaron el parentesco del íbero, mencionado en el levante de la península Ibérica, y el euskera. Aunque encontraron trazos comunes, concluyeron que entrambos lenguas no estaban relacionadas.

El siguiente paso es pulir el algoritmo para que sea apto de reconocer el significado semántico de frases desconocidas. “Por ejemplo, logramos reconocer las referencias a individuos o lugares y despues investigarlas a la luz de las evidencias históricas”, muestra Barzilay. “Estos métodos […] se usan en algunas programas de proceso de texto en la actualidad y son muy precisos, sin embargo la pregunta clave es si las actividades son factibles sin documentos del lenguaje antiguo con los que entrenar el algoritmo”.

Más de 40 lenguas perdidas, de todas las épocas de la historia y de todos los rincones del mundo, esperan la venida de una nueva piedra de Rosetta que les permita notificar su sms al mundo. Llevan decenas de años aguardando. Quizá un algoritmo tenga la respuesta a todo.

Por Juan F. Samaniego

Imágenes | Wikimedia Commons/Sharon Mollerus, Clay Gregory, Pxhere

La entrada La inteligencia artificial de las lenguas perdidas se publicó 1° en El blogger de Orange.

El blogger de Orange



El mejor truco del día para Android


Todo material (imágenes, texto y vídeo) para crear este artículo, pertenece a la Fuente Original que aparece arriba.

(No hemos eliminado ningún enlace original)

También puedes revisar estas noticias relacionadas.

Agrega tu comentario