“¿Un nuevo El Dorado para los historiadores?” (2023). Retos y oportunidades de las colecciones de periódicos digitalizados
29 mayo 2025
29 mayo 2025
Carlos L. Paredes Hernández
Uno de los más notorios impactos de la era digital en la investigación de las humanidades y ciencias sociales es la creciente digitalización de documentos, libros y otros materiales de origen analógico. Este fenómeno se aceleró tras la pandemia de COVID-19 que, debido al cierre de bibliotecas y archivos, impulsó numerosos proyectos de digitalización y consolidó aquellos que ya llevaban más de una década en ejecución. Este escenario ha planteado grandes desafíos y oportunidades que debemos considerar tanto en la investigación como en la planeación de proyectos en humanidades digitales. Esta problemática es abordada por el libro “Digitized newspapers – A New Eldorado for historians? Reflections on Tools, Methods and Epistemology” publicado en el 2023.
Este libro está compuesto por 18 artículos, los cuales provienen de las ponencias presentadas en el panel “Eldorado”, evento que fue promovido por el Proyecto Impresso en 2020. Dicho encuentro tuvo como iniciativa la reflexión crítica sobre las colecciones digitales de periódicos y su impacto sorbe la investigación. La diversidad de experiencias permite la publicación de artículos en inglés, francés y alemán. Cada artículo está distribuido en una de las tres secciones que abordan las oportunidades y desafíos que representa la enorme cantidad de periódicos digitalizados en el mundo.
La primera sección introduce la digitalización de periódicos antiguos y ofrece una perspectiva general sobre sus desafíos y oportunidades. Esta sección consta de ocho artículos que exploran conceptos clave y problemas transversales, como la falta de precisión del reconocimiento óptico de caracteres (OCR), la gestión de proyectos de digitalización a gran escala y los desafíos en la visualización de los datos procesados. Entre los proyectos destacados en esta sección se encuentra Living With Machines y Mapping Texts, entre otros.
La segunda sección examina la transformación de los periódicos en fuentes primarias digitalizadas que pueden ser convertidas en grandes volúmenes de datos para su análisis. Los tres artículos aquí incluidos presentan proyectos que desarrollan tipologías de las notas de los periódicos mediante la identificación de bloques de texto, analizan datos provenientes de anuncios publicitarios y reflexionan epistemológicamente sobre la centralidad del periodismo como fuente para la investigación histórica. Uno de los proyectos presentados es la experiencia del Generotheque para la predicción de géneros de textos en los periódicos analizados.
Finalmente, la tercera sección se centra en experiencias específicas de análisis histórico que sólo han sido posibles gracias a la digitalización de periódicos. Los siete artículos que componen esta sección ofrecen diferentes estudios de caso sobre la aplicación de métodos de análisis de datos a los archivos digitalizados. De esta manera, se analiza la centralidad de la prensa como fuente, los sesgos derivados ante la ausencia de periódicos no digitalizados en determinadas colecciones y la falta de contexto a la que nos empuja el acceso a estas fuentes mediante una búsqueda con palabras clave.
Las oportunidades que plantea este libro son claras y alentadoras. Desde el título, se observa un entusiasmo similar al de haber encontrado una mina de oro, o El Dorado, como aluden los editores. Este entusiasmo está fundamentado en las posibilidades que ofrecen las grandes colecciones digitalizadas de publicaciones periódicas:
- La obtención de datos a gran escala mediante búsquedas avanzadas, metadatos y algoritmos que cuantifican información a partir del OCR. Estos avances no sólo benefician a los historiadores, sino que también están intrínsecamente ligados a la configuración y mejora de los proyectos de digitalización.
- Aunque algunos podrían considerar los textos demasiado técnicos para los humanistas, son accesibles y fomentan la reflexión sobre la implementación de proyectos que interceptan la computación y las humanidades. Esto es útil para futuros proyectos innovadores y para reflexionar sobre la digitalización de archivos.
- Las numerosas referencias presentadas en el libro amplían el horizonte de la discusión al ofrecer la posibilidad de continuar explorando este maravilloso tema. A su vez, estas referencias evidencian que los debates sobre la digitalización no son recientes (como muchos podrían creer), ya que gran parte de textos claves pueden hallarse desde el 2009 en el que se cuestionan epistemológicamente los retos que esto implica.
Por otro lado, los textos ofrecen una lectura crítica ante las colecciones digitales de periódicos. Pues alertan que también debemos observar un conjunto de problemas transversales que no deben ser ignorados al momento de trabajar con estos archivos:
- La falta de precisión del OCR, atribuida a la calidad de los originales y al periodo de digitalización. Los ejemplos presentados en los textos “Hunting for Treasure”, “Mapping Texts” y “Mining Historical Advertisements in Digitised Newspapers” muestran el uso de estrategias para incrementar la precisión del OCR o la transparencia sobre el nivel de precisión que cada colección posee. Reconocer esto nos permite aprovechar de mejor manera este material sin limitarnos a ello.
- Existe un gran sesgo al asumir que lo digitalizado es lo único que existe. A pesar de que somos conscientes que no todas las colecciones se encuentran digitalizadas, muchas veces esta reflexión queda relegada. Identificar el universo de documentos no digitalizados es crucial, especialmente en proyectos que trabajan con plataformas específicas. Algunos proyectos no conciben ello al momento de elaborar una análisis cuantitativo con el conteo de palabras o ignoran la posición relativa de los resultados de búsqueda obtenidos con relación al universo digitalizado. Algunas de estas reflexiones epistemológicas son exploradas en los textos “Contextualising Queries” y “A Source Like Any Other?”
- La búsqueda por palabras clave también puede limitar la contextualización de los periódicos. Si bien los métodos de búsqueda han facilitado el acceso y manejo de información específica en grandes colecciones, también ha provocado que los periódicos digitalizados se conviertan en una fuente de datos sin contexto. Como se ven los textos “Mining Digitised Newspapers” y “Unearthing New Artefacts”, esto puede ser mitigado mediante el uso de diccionarios de época, un acompañamiento manual en el proceso de lectura OCR y con el uso de metadatos especiales. De esta forma, no solo se otorga contexto al material utilizado, sino que se aprovechan nuevas formas de investigación con la data obtenida.
Un problema, no abordado notoriamente en el libro, es cómo la infraestructura del norte global condiciona el desarrollo de estos proyectos en contraste con otras realidades. Las experiencias citadas se encuentran en Alemania, Suiza, Francia, Estados Unidos, Holanda, Finlandia, Suecia, Austria, entre otros. Muchas veces liderados por las bibliotecas o archivos nacionales de cada país, o a alianzas interinstitucionales que permiten centralizar una amplia cantidad de títulos en un solo proyecto.
Es inevitable pensar en la situación de América Latina, en la que muchos periódicos digitalizados se encuentran dispersos en diversos repositorios y proyectos, lo que dificulta la implementación de análisis cuantitativos. No obstante, esto es también una oportunidad para continuar las reflexiones en torno a estas condiciones y ofrecer nuevas estrategias desde el sur global. Además, es curioso y contradictorio que el libro haga alusión a El Dorado, el mito sudamericano de la ciudad de oro buscada por los españoles, cuando ningún texto aborda alguna experiencia latinoamericana. A pesar de los esfuerzos de digitalización de periódicos como de las bibliotecas nacionales de México, Brasil, Colombia, Perú o Chile, el panorama en América Latina no ha sido considerada en estas reflexiones.
Referencias
Bunout, Estelle; Ehrmann, Maud, and Clavert, Frédéric (2023). Digitized newspapers – A New Eldorado for historians? Reflections on Tools, Methods and Epistemology. De Gruyter Oldenbourg.
Semblanza: Estudiante del posgrado en Historia en la Universidad de California, Davis. Es bachiller en Ciencias Sociales, especialidad Historia, por la Universidad Nacional Mayor de San Marcos. Ha cursado el Diplomado en Historia de América por la Universidad Nacional Autónoma de México. Ha co-editado el libro “Hijos de inmigrantes” (2019). Ha formado parte del proyecto de digitalización del archivo de la Confederación Campesina del Perú con el apoyo del Modern Endangered Archives Program (Universidad de California, Los Ángeles). Está interesado en la reflexión epistemológica sobre la investigación en ciencias sociales en la era digital. Actualmente es co-fundador de Fuentes Históricas del Perú y becario de la Red de Humanidades Digitales.
Recientes
arte (2) commons (5) Congresos (4) conocimiento abierto (2) cultura digital (9) Derechos de autor (4) Digital Humanities (9) digitalización (10) edición (4) educación (10) educación a distancia (3) educación en línea (11) educación permanente (4) ENEO (3) entorno digital (2) Estudios literarios (4) Eventos (2) Filosofía (8) genealogía (5) Global DH (5) Heidegger (2) Historia (3) Humanidades Digitales (49) Kathleen Fitzpatrick (2) Knowledge society (2) lectura (8) lenguaje (2) literatura (3) medios digitales (3) Modificación de prácticas (15) Multidisciplinariedad (2) México (3) open knowledge (3) preservación digital (3) Procomún (3) redes sociales (4) RedHD (19) sociedad de la información (5) sociedad del conocimiento (6) Tecnología (6) tecnología educativa (14) traducción (3) Twitter (2) UNAM (3) Wikipedia (4)