Proyectos de digitalización para investigación digital

El número de julio de la gaceta del Fondo de Cultura Económica publicó una serie de artículos sobre el posible planteamiento de una Biblioteca Digital Nacional de México. Muchas ideas son centrales en todos los artículos como la existencia de acervos riquísimos y la invaluable naturaleza de un proyecto de ese tamaño. Por otro lado, las preocupaciones sobre la organización, los costos, los alcances y la planeación también aparecen en consenso. Un proyecto de estas cualidades, señala acertadamente en su artículo Ernesto Priani, “no puede ser el resultado de un esfuerzo individual”. Como parte de esta inquietud, en esta ocasión deseo enfocarme en los proyectos de digitalización actualmente disponibles en nuestro país y su importancia para llevar a cabo investigaciones digitales que surjan a partir de ellos, de ahí la redundancia intencional del título.

La digitalización de los fondos reservados de las bibliotecas de distintas instituciones es ya una necesidad y, por fortuna, muchas instituciones lo ven de esta forma. Hay, al menos, tres razones que hacen de la digitalización de fondos reservados una idea destacada. Primero, salvo contadas excepciones, los textos resguardados en los fondos reservados son ya de dominio público, pero paradójicamente como parte del patrimonio de una institución, región o país, estos materiales tienen, incluso entre especialistas, una circulación mínima o nula. Sin los obstáculos de copyright, estos fondos podrían ser manejados y puestos a disposición de todo tipo de públicos. Por otra parte, la planeación, la infraestructura y los altos costos de llevar a cabo un proyecto de digitalización suponen muchos obstáculos para que éstos se lleven a cabo. Finalmente, la que en mi opinión da mayor valor a una iniciativa de digitalización, la apertura del acceso a los fondos reservados ofrecería (ofrecen – en los proyectos que ya están siendo implementados) un tesoro de material no disponible, probablemente, en ningún otro lugar y puede favorecer proyectos de investigación derivados de ellos y que de otra forma no serían posibles.

El objetivo obvio de los fondos reservados es preservar el patrimonio que resguardan. Y casi sobra decir que la dificultad de acceso derivada de esto los hace, sin duda, candidatos idóneos para ser digitalizados. Los contenidos de los fondos reservados son conocidos por pocos y, en la mayoría de los casos, su acceso está restringido a investigadores respaldados por una institución. Las ventajas de la digitalización son claras pues ofrece la posibilidad de continuar las labores de preservación con el añadido de ponerlos a disposición tanto de especialistas como de un público más amplio. Por otra parte, las colecciones digitales de los fondos reservados deben prestarse a nuevos proyectos de investigación que vayan de acuerdo con la recién adquirida digitalidad de los materiales. Para que cualquier investigación pueda derivar de las colecciones digitales de los fondos reservados los objetivos iniciales del proyecto deben tener esa dirección clara y ya sea a través de la producción de imágenes digitales de alta resolución que imiten a los originales y permitan apreciar detalles como las anotaciones al margen, las marcas de agua o las marcas de fuego; la conversión de estas imágenes a texto plano via software de OCR (reconocimiento de caracteres) que posteriormente sea susceptible a mayor procesamiento y análisis computacionales, etcétera. Dejar de lado la infraestructura y políticas de consulta tradicionales de investigación humanística como close reading, así como el mantener los acervos cerrados puede convertir los grandes volúmenes de información contenidos de estas colecciones en tierra fértil para iniciar proyectos digitales de investigación por medio de minería de datos, marcado de texto, procesamiento de lenguaje natural o estudios de n-gramas.

Para poder facilitar cualquier tipo de acceso al público en general o especializado, la digitalización de cualquier grupo de textos grande o pequeño es ya en sí mismo un proyecto de investigación colaborativo que implica largos procesos de planeación, desarrollo y conclusiones que permita que los resultados sean utilizables, idealmente, en más de una forma. Delimitar el corpus que se digitalizará, establecer los metadatos que distinguirán los objetos digitalizados y los estándares de digitalización, obtener las herramientas a utilizarse, entre muchos otros, son procesos “invisibles” para muchos de los usuarios finales de los recursos. Una decisión clave en los proyectos de digitalización es que los objetos finales disponibles a los usuarios sean imágenes, textos o ambos y de eso dependerá qué se puede hacer a partir de ellos. De gran escala y a nivel internacional La Biblioteca Mundial Digital tiene un claro énfasis en la presentación prácticamente museística de las imágenes digitales. Por otra parte, los libros digitalizados por Google no ofrecen el mismo tipo de encuentro con la imagen digital, pero a cambio de las pérdidas visuales, se prestan a búsquedas de texto completo y han dado lugar al visor de n-gramas y los interesantes estudios de culturomics. Las ventajas de poder realizar búsquedas en libros que pertenecen a fondos reservados son muchas, y como el ejemplo de Google nos indica, no atañe únicamente a investigadores especialistas.

Sin desvirtuar el gran esfuerzo que implican las primeras etapas de digitalización, el ir más allá de las imágenes digitales y las exhibiciones virtuales debe, en mi opinión, ser una prioridad para cualquier proyecto de digitalización. Mucho podemos aprender de los grandes consorcios internacionales como Europeana que actualmente recibe la colaboración de más de dos mil instituciones en toda Europa, y otro tipo de proyectos enfocados en hacer los procesos de digitalización más eficientes y rápidos y menos costosos como el consorcio de IMPACT en el que colaboran algunas de las bibliotecas europeas más importantes. Para terminar dejo una lista para nada exhaustiva de vínculos a algunas colecciones digitales de fondos antiguos con información proporcionada por las propias personas responsables de los proyectos cuando fue posible obtenerlos o bien proviente de sus sitios de internet. Donde fue posible también he añadido entre paréntesis los sitios en internet a través de los que se puede accedera ellas aunque sea parcialmente.

Archivo general de la nación (WDL). Contiene más de 4.5 millones de imágenes. Actualmente digitalizan los volúmenes completos del Fondo Documental de Tierras y el Diario del Imperio. En parte, la consulta de este sistema sólo se puede realizar en las instalaciones del AGN aunque hay otros disponibles en línea como los fondos de la Independencia, la Red de Archivos Históricos Mexicanos, Mapas, Planos e Ilustraciones, Revolución y Constitución federal de 1857.

Universidad Autónoma de Nuevo León (WDL). Los documentos de esta colección forman parte de los acervos bibliográficos que poseen la Biblioteca Universitaria Raúl Rangel Frías, Capilla Alfonsina Biblioteca Universitaria, Centro Regional de Información y Documentación en Salud de la Facultad de Medicina y Biblioteca José Juan Vallejo de la Facultad de Derecho y Criminología. Está conformada por documentos editados durante los siglos XVI al XIX, en español, italiano, francés y latín.

CONACULTA (WDL). Cuenta con una colección de textos de dominio público, disponibles para préstamo electrónico en software propietario.

Biblioteca Nacional de Antropología e Historia (WDL). En su portal están disponible publicaciones recientes de la institución. El fondo antiguo se puede acceder a través de otros portales.

Primeros Libros. Colección digital de aproximadamente cincuenta y ocho de los primeros libros impresos en México. El en proyecto colaboran instituciones nacionales e internacionales.

Biblioteca Palafoxiana (Primeros Libros). No tiene website propio, pero sus libros digitalizados  pertenecientes al proyecto de primeros libros se pueden encontrar en este portal.

Bibioteca José María Lafragua (Primeros Libros). Además de un catálogo detallado de su colección, cuenta una muestra de sus fondos resguardados así como con una variedad de exposiciones digitales entre ellas IncunablesLibros de astronomíaIndependencia y RevoluciónLibros a la marLas otras Letras: mujeres impresorars y Grabados de Rembrandt. Asimismo colabora con el Catálogo colectivo de marcas de fuego. Participa con el Consortium of European research libraries y la UDLAP.

Biblioteca Franciscana (San Pedro, Cholula) UdLA (Primeros Libros). Actualmente cuenta con 141 libros digitalizados y participa también en el Catálogo colectivo de marcas de fuego.

Biblioteca Nacional de Mexico, UNAM. (BVC) Aunque lleva a cabo varios proyectos de digitalización, los materiales no se encuentran disponibles al público desde su portal, sino a través de la Biblioteca Virtual Letras Mexicanas parte de la Biblioteca Virtual Cervantes. Por otra parte esta en proceso el la realización del Catálogo Colectivo del Patrimonio Bibliográfico Mexicano, que no incluye digitalización.

Dirección General de Bibliotecas, UNAM. Inició en el 2010 un proyecto de digitalización de la totalidad de sus fondos antiguos que suman 3800. Actualmente está bajo consideración someter la colección digital a procesamiento via OCR,

Hemeroteca Nacional Digital de México. Contiene 9 millones de páginas provenientes de más de 900 títulos de publicaciones periódicas. Algunos títulos son accesibles solamente desde la misma Hemeroteca.

Acervo Histórico de la UJAT. En 1994 inauguró el Laboratorio de Conservación Documental,  espacio de preservación de nuestro legado documental que en la actualidad cuenta con cuatro áreas: Microfilmación, Restauración, Encuadernación y Digitalización.

Universidad Autónoma de San Luis Potosí. Fondo Antiguo. Colección de fondos antiguos, resguardados por el Centro de Documentación Histórica de la UASLP. Actualmente en desarrollo.

UNISONTiene una decena de libros digitalizados en su portal.

Universidad Veraruzana. Entre un puñado de libros a puesto a disposición los tres tomos de la Historia de Xalapa de 1791 y una colección de Actas Notariales de Xalapa, Córdoba y Orizaba que abarcan los siglos XVII a XIX.

Biblioteca Virtual Letras Mexicanas. Colección de los libros de fondos reservados de las instituciones participantes se encuentran accesibles a través de Cervantes Virtual. IIB, COLMEX, IBERO, UGDL Academia Mexicana de la Lengua.

Centro de Estudios de Historia de México. Su archivo digital cuenta con un centenar de fondos de temáticas distintas y cubren desde el siglo XVI hasta inicios del siglo XX.

 

Esta entrada fue publicada en humanidades digitales y etiquetada , , , , . Guarda el enlace permanente.