Lexibank, un nuevo repositorio global de datos lingüísticos, creado por el el IMP de Antropología Evolutiva y la Universidad de Auckland

23. Junio 2022

Académicos del Instituto Max Planck de Antropología Evolutiva en Alemania y la Universidad de Auckland en Nueva Zelanda han creado un nuevo repositorio global de datos lingüísticos. El proyecto está diseñado para facilitar nuevos conocimientos sobre la evolución de las palabras y los sonidos de los idiomas que se hablan en todo el mundo hoy en día. La base de datos lexibank contiene datos léxicos estandarizados para más de 2000 idiomas. Es la colección más extensa disponible públicamente compilada hasta ahora.

¿Es cierto que muchos idiomas en el mundo usan palabras similares a "mamá" y "papá" para "madre" y "padre"? Si un idioma usa solo una palabra para "brazo" y "mano", ¿también usa solo una palabra para "pierna" y "pie"? ¿Cómo logran los idiomas usar un número relativamente pequeño de palabras para expresar tantos conceptos? Un equipo interdisciplinario de lingüistas, científicos computacionales y psicólogos han creado una gran base de datos pública que se puede utilizar para estudiar estas y muchas más preguntas con la ayuda de métodos computacionales.



Muchos idiomas en el mundo usan la palabra "mamá" o "papá" para "madre" y "padre". Los idiomas  que usan "mama" están marcados en rojo y los que usan "papa" en azul.


 
  Aumentar imagen

Muchos idiomas en el mundo usan la palabra "mamá" o "papá" para "madre" y "padre". Los idiomas  que usan "mama" están marcados en rojo y los que usan "papa" en azul.


 
[menos]

"Cuando se fundó nuestro Departamento de Evolución Lingüística y Cultural en 2014, presenté a mis colegas un objetivo ambicioso: hay más de 7000 idiomas en el mundo. Cree bases de datos con la documentación más extensa posible de la diversidad lingüística", dice el director de Max Planck, Russell Gray. "Nuestra inspiración vino de Genbank, una gran base de datos genética donde biólogos de todo el mundo han depositado datos genómicos", continúa Gray. "Genbank fue un cambio de juego. La gran cantidad de datos de secuencia disponibles gratuitamente revolucionó las formas en que podemos analizar la diversidad biológica. Esperamos que la primera de nuestras bases de datos lingüísticas globales, Lexibank, ayude a comenzar a revolucionar nuestro conocimiento de la diversidad lingüística de una manera similar".

Nuevos estándares y nuevo software

El repositorio de Lexibank proporciona datos en forma de listas de palabras estandarizadas para más de 2000 variedades lingüísticas. "El trabajo en Lexibank coincidió con un impulso hacia formatos de datos más consistentes en las bases de datos lingüísticas. Por lo tanto, Lexibank puede servir como un ejemplo a gran escala de los beneficios de la estandarización y un catalizador para una mayor estandarización", informa Robert Forkel, quien dirigió la parte computacional de la recopilación de datos. "Decidimos crear nuestros propios estándares, llamados Formatos de Datos Interlingüísticos, que ahora se han utilizado con éxito en multitud de proyectos en los que nuestro departamento está involucrado".

Los nuevos estándares propuestos por el equipo van acompañados de nuevas herramientas de software que facilitan enormemente los flujos de trabajo de los lingüistas. "Hemos diseñado nuevos flujos de trabajo asistidos por computadora que permiten que los conjuntos de datos de lenguaje existentes sean comparables", dice Johann-Mattis List, quien dirigió la parte práctica de la curación de datos. "Con estos flujos de trabajo, hemos aumentado drásticamente la eficiencia de la estandarización y la curación de datos".

Identificación de patrones de evolución del lenguaje



Muchos idiomas que usan la misma palabra para "brazo" y "mano" (en rojo) también usan la palabra para "pierna" y "pie"  (en azul).


  Aumentar imagen

Muchos idiomas que usan la misma palabra para "brazo" y "mano" (en rojo) también usan la palabra para "pierna" y "pie"  (en azul).


[menos]

Además de recopilar y compartir los datos lingüísticos estandarizados, los autores también diseñaron nuevas técnicas computacionales para responder preguntas sobre la evolución de la diversidad lingüística. Ilustran cómo estos métodos se pueden utilizar calculando cómo los lenguajes difieren o están de acuerdo con respecto a sesenta características diferentes.

"Gracias a nuestra representación estandarizada de los datos lingüísticos, ahora es fácil verificar cuántos idiomas usan palabras como 'mamá' y 'papá' para 'madre' y 'padre'", informa List. "Resulta que este patrón se puede encontrar en muchos idiomas del mundo y en regiones muy diferentes", agrega Simon J. Greenhill, uno de los fundadores del proyecto Lexibank. "Dado que todas las lenguas con este patrón no están estrechamente relacionadas entre sí, refleja una evolución paralela independiente, tal como sugirió el gran lingüista Roman Jakobson en 1968".

Ampliación de los datos y desarrollo de nuevos métodos

La nueva recopilación de datos y las características lingüísticas calculadas automáticamente contribuirán a nuevos conocimientos sobre las preguntas abiertas sobre la diversidad lingüística y la evolución lingüística. "Nadie piensa que el análisis debe detenerse con los ejemplos que damos en nuestro artículo", dice List. "Por el contrario, esperamos que los lingüistas, psicólogos y científicos evolucionistas se sientan alentados a construir sobre nuestro ejemplo expandiendo los datos y desarrollando nuevos métodos", agrega Forkel.

Incluso en su estudio actual, los autores presentan hallazgos que justifican futuras investigaciones. "Al investigar qué idiomas usan la misma palabra para 'brazo' y 'mano', encontramos que estos idiomas generalmente también usan la misma palabra para 'pierna' y 'pie'", informa List. "Si bien esto puede parecer una coincidencia tonta, muestra que el léxico de las lenguas humanas a menudo está mucho más estructurado de lo que uno podría suponer cuando se investiga un idioma de forma aislada".

 
loading content
Go to Editor View