Ciencias
Ver día anteriorViernes 9 de septiembre de 2016Ver día siguienteEdiciones anteriores
Servicio Sindicado RSS
Dixio

Denominado Cordiam, tiene un acervo de más de 3 mil documentos de América Latina

Crean en el IPN software que muestra el uso del español antiguo

La finalidad es facilitar la búsqueda de los textos, explica Alexander Gelbukh, uno de los responsables del proyecto

Permitirá construir una gramática histórica del idioma en el continente

 
Periódico La Jornada
Viernes 9 de septiembre de 2016, p. 2

Especialistas del Centro de Investigación en Computación (CIC), del Instituto Politécnico Nacional (IPN), desarrollaron un software que muestra la forma en que eran empleadas diversas palabras del español antiguo, por medio de un acervo de más de 3 mil documentos escritos en América Latina desde los orígenes del idioma en la región hasta el siglo XX.

¿En qué siglo y en qué países de Latinoamérica era más común escribir la palabra muger al referirse a una persona del sexo femenino? ¿De qué forma se abreviaban las palabras? ¿Cuáles se utilizaban en documentos administrativos o en cartas informales? Esas y muchas otras preguntas pueden responderse por medio de este programa llamado Cordiam.

La parte informática del proyecto, que comenzó a desarrollarse desde hace poco más de cinco años, está a cargo de los investigadores Alexander Gelbukh y Grigori Sidorov, cuya tarea principal es organizar las bases de datos para proporcionar la búsqueda de las palabras que se desee analizar.

En una conferencia realizada en la 35 Feria Internacional del Libro del IPN, Gelbukh detalló que la función principal del software es facilitar la búsqueda de esos textos, señala la Agencia Informativa del Consejo Nacional de Ciencia y Tecnología.

Se trata de una colección de escritos, pero no sólo eso, son textos bien seleccionados y marcados con diferente información adicional en los que trabajan los colegas lingüistas. Nosotros, el equipo de programadores, proporcionamos la búsqueda en estos textos, verificación automática y marcaje de ciertos aspectos, detalló.

El investigador señaló que el corpus diacrónico y diatópico del español de América (Cordiam), de la Academia Mexicana de la Lengua en colaboración con la Academia Nacional de Letras de Uruguay, está formado por una base de datos de 3 millones de palabras, extraídas de archivos de 19 países americanos hispanohablantes, más el sur y oeste de Estados Unidos, Jamaica, Haití y Guyana.

Gelbukh señaló que los países contribuyen con textos de sus archivos históricos y los lingüistas transcriben, marcan los textos y los preparan para ser agregados al sistema.

Ahora tenemos 3 mil documentos y estamos preparándonos para la siguiente etapa que será de 30 mil, señaló.

Entre las características de Cordiam, está la posibilidad de ver y guardar el documento completo en el que está una concordancia, guardar automáticamente en una base de datos las búsquedas realizadas, así como una plantilla de metadatos para acotar las búsquedas y proporcionar información cuantitativa del universo de palabras sobre el cual se ha realizado una búsqueda.

En la conferencia, Gelbukh explicó que los documentos recopilados para el proyecto se dividen en cuatro tipos textuales: cronísticos, administrativos, jurídicos y particulares. Los tres primeros corresponden a la circulación pública, y el último, a la privada.

El proyecto, debido a que sólo se estudian textos del continente americano, permite construir una gramática histórica del español en el continente y una dialectología histórica de la lengua española en América, según se detalla en la página web de Cordiam.

Por su amplitud cronológica y geográfica y por contener numerosos documentos inéditos, permitirá también estudiar o repensar fenómenos sociales, históricos y culturales de Hispanoamérica manifestados por medio de la lengua española.