Un manual para el historiador de hoy: ensayo para el tratamiento de las fuentes digitalizadas
8 marzo 2025
8 marzo 2025
Por Daniela Dulce Mostacero
En el oficio del historiador las visitas a archivos y a bibliotecas físicas es una actividad indispensable (1). Bueno, «casi» (2). En la actualidad, muchas investigaciones se han elaborado y enriquecido gracias a los esfuerzos de instituciones públicas y privadas que, en búsqueda de la preservación y difusión, han digitalizado objetos culturales. Durante el confinamiento vivido por la pandemia de COVID-19 (3), lo digital se hizo inminente, nos desafió a todos a transformar la forma en que trabajábamos; y en el ámbito académico-histórico, evidenció la urgencia y la necesidad de acceso a las fuentes fuera del marco físico del «edificio» (4).
La digitalización de los documentos no solo facilita su accesibilidad al permitir su consulta en cualquier momento o lugar; sino también, como advierte el historiador Anaclet Pons, modifica nuestro «modo de investigar» (5). Al cambiar el soporte del documento físico por uno digital permite, con el uso de nuevas herramientas, tratar su «contenido como data» (6), lo cual favorece al análisis computacional de grandes corpus textuales para identificar patrones, tendencias y discontinuidades. Asimismo, con el desarrollo de la inteligencia artificial no generativa, es posible expandir el análisis al contenido audiovisual, examinando aspectos como la estructura o características específicas visuales, un ejemplo de ello es el estudio del color (7) en las fotografías. Esto abre perspectivas para interpretar y comprender, a gran escala, otras expresiones humanas que normalmente no son objetos de estudio de la Historia.
Campos como la Historia Digital o las Humanidades Digitales se han beneficiado por el aumento de fuentes digitalizadas. El crecimiento de la disponibilidad de los materiales ha transformado la forma en que practicamos nuestro oficio. Lo digital ha interpelado nuestras metodologías tradicionales, desafiándonos a redefinirlas. Este ensayo tiene como objetivo hacer una reflexión sobre estos cambios, en especial sobre cómo han afectado en nuestro acercamiento y tratamiento de las fuentes, así como las implicancias que ahora debemos considerar para el ámbito de lo digital.
- Alfabetización digital
La digitalización de objetos culturales ha posibilitado una serie de oportunidades únicas para el estudio y la difusión de la historia. Invitándonos, además, a explorar y usar nuevos métodos y herramientas digitales que amplían nuestro análisis. Sin embargo, debemos adoptar una postura reflexiva y crítica hacia lo que se digitaliza, no debemos limitarnos a celebrar sin cuestionar los procesos. Es crucial y válido preguntarnos: ¿qué se digitaliza y por qué? ¿Qué queda fuera del registro digital? ¿quién o quiénes deciden lo que merece ser digitalizado? ¿cómo se realiza este proceso y con qué tecnologías? Estas interrogantes ayudan a comprender el nuevo medio en donde se alojan nuestras fuentes. Pero, sobre todo, nos conduce a examinar las relaciones de poder (8) y los sesgos que pueden perpetuarse y amplificarse en el entorno digital y, por ende, en los trabajos de historia.
María José Afanador, citando a Gerben Zaagsma, señala que la digitalización no es un proceso neutral (9) y que ello puede afectar los temas y las agendas de investigación (10), privilegiando ciertos eventos. Si un estudio intenta comprender a una sociedad utilizando solo los materiales digitalizados accesibles puede llegar a conclusiones generalizadoras e incluso parciales. Esto se debe a que los objetos digitalizados solo son un conjunto representativo (11) de lo que existe y estos pueden favorecer a una historia en particular.
Sumado a ello, es importante reconocer que lo que se digitaliza proviene de una colección específica resguardada por una institución determinada. Esto significa que, si la colección física está incompleta, esto se trasladará en el ámbito digital. Así mismo, si la institución solo custodia ciertas ediciones estas serán las que se encontrarán favorecidas y las que tal vez se difundan más en detrimento de otras (12). También, las instituciones responsables de custodiar los materiales pueden excluir ciertos documentos en los procesos de digitalización por no encontrarse alineados con los intereses y el discurso que la institución desea promover (13). Por ello, nuestra reflexión no solo debe dirigirse hacia lo que se incluye, sino también hacia lo que se omite.
Queda claro que la alfabetización digital va más allá del conocimiento y manejo técnico; abarca la capacidad crítica del historiador. Las y los historiadores hemos sido formados para interpretar el pasado desde un enfoque crítico y riguroso, hemos aprendido a utilizar métodos esenciales para la producción del conocimiento histórico. Sin embargo, estos métodos deben ser repensados, ya que los objetos culturales digitalizados poseen propiedades y características distintas a los materiales analógicos. Esto no significa un reemplazo total de los métodos tradicionales de nuestra disciplina, sino una actualización que responda las exigencias del nuevo medio.
- Métodos renovados
A continuación, presento algunos puntos clave relacionados con las nuevas prácticas de heurística, la crítica de fuentes y la hermenéutica en el contexto digital. Abordando aspectos como los desafíos y oportunidades que surgen con el uso de recursos digitales.
- Búsqueda
La digitalización nos ha posibilitado acceder archivos que anteriormente por desconocimiento no se consideraban. Lo digital ha roto la barrera «física» del edificio, y ha permitido que las investigaciones se nutran de objetos culturales custodiados y producidos en y por otras sociedades, países o continentes, ampliando así el universo de fuentes disponibles (14).
Muchas investigaciones comienzan en los buscadores comerciales como Google o Bing, donde los usuarios pueden utilizar operadores booleanos para refinar sus consultas; pero, el uso de estos buscadores para explorar archivos digitales presenta limitaciones, algunas páginas web restringen o prohíben la indexación de sus contenidos en estos motores de búsquedas por motivos relacionados a la protección y gestión de la información. Por ello, también se recomienda usar guías que reúnan recursos electrónicos en línea, como Latin American, Caribbean, U.S. Latinx, and Iberian Online Free E-Resources (LACLI), la cual almacena una amplia variedad de repositorios digitales que incluye archivos, bibliotecas, bases de datos académicas y otros que facilitan el acceso a fuentes primarias y secundarias.
Los catálogos en línea y los buscadores avanzados han facilitado la localización de fuentes. Esto es posible gracias a los metadatos, que permiten describir y clasificar la información del objeto cultural, detallando aspectos relevantes como el nombre del autor, lugar en donde fue producido, fecha de creación, entre otros. Además, los metadatos pueden actuar como un puente que conecta los objetos culturales digitalizados con sus colecciones físicas y con la materialidad de las fuentes analógicas, asegurando la contextualización histórica de la fuente (15). Lamentablemente, no todas las instituciones e iniciativas particulares se preocupan por mantener estándares en los metadatos, lo cual dificulta la interoperabilidad entre sistemas y poner en riesgo la preservación de los objetos digitalizados.
- Reconocimiento óptico de caracteres (OCR)
La tecnología de reconocimiento de texto en las colecciones digitalizadas ha favorecido a las investigaciones filológicas en el campo de Humanidades Digitales e Historia Digital, permitiendo analizar y explorar textos históricos. Herramientas como el OCR han impulsado nuevos métodos, entre ellos la lectura distante propuesta por Franco Moretti. Sin embargo ¿qué tan fiable es esta tecnología? Muchos, al consultar material digitalizado nos hemos encontrado con «errores» generados por el OCR, a esto se le conoce como ruido OCR. Este ruido se refiere a la información que no se puede reconocer por defectos en el proceso de OCR y la digitalización, lo que puede afectar la lectura humana como el análisis automatizado.
Los factores que contribuyen en los problemas asociados al OCR son variados y abarcan desde condiciones materiales hasta aspectos técnicos:
- Estado de conservación del material original: Documentos deteriorados, con manchas, tinta desvaída, oxidación u otros daños que pueden dificultar el reconocimiento.
- Calidad de los equipos y recursos utilizados en el proceso de digitalización que puedan comprometer la resolución y nitidez de las imágenes capturadas.
- Software de OCR empleado: aunque los programas de OCR han avanzado algunos continúan teniendo dificultades al interpretar correctamente ciertos caracteres o palabras.
Por ejemplo, en el 2010 la Universidad de Texas juntamente con la Universidad de Stanford iniciaron un proyecto colaborativo llamado Mapping Texts (16), cuyo objetivo fue analizar la calidad del reconocimiento texto de periódicos estadounidenses digitalizados del programa Chronicling America. Los resultados del proyecto revelaron altos porcentajes de poca fiabilidad, especialmente en periódicos del siglo XIX, donde las limitaciones técnicas del OCR eran más evidentes debido a las características físicas de los documentos.
Los miembros del proyecto, así como otros investigadores, han reconocido esta debilidad en la tecnología de OCR y han enfatizado la necesidad de fomentar la transparencia. Esto implica que los proyectos de digitalización indiquen de forma explícita los equipos de digitalización empleados, los programas de OCR utilizados, así como las tasas de precisión del OCR (17). Pues posibilita al investigador conocer el grado de confiabilidad de la colección digitalizada que planea utilizar para su estudio.
- Ctrl + F
El comando control + F es una herramienta que afecta el proceso de búsqueda y de lectura, ya que permite localizar rápidamente y de forma precisa palabras o frases clave en textos digitalizados. Para muchos, seguramente, es uno de los mejores beneficios de la digitalización, pues nos posibilita encontrar información relevante en un corto tiempo dentro de extensos corpus, accediendo a los fragmentos relevantes sin necesidad de realizar una lectura minuciosa del material. Sin embargo, este método no es completamente confiable, ya que dependen del OCR.
El Control + F funciona desde un enfoque literal restringiendo la búsqueda en la palabra clave, sin considerar otras alternativas semánticas, sinónimos u otros términos contextuales, por ello, la ausencia de la palabra clave no necesariamente significa que no se trate el tema. Asimismo, la o el historiador puede condicionar su búsqueda desde términos modernos sin considerar arcaísmos u otras formas de expresión relacionado con la cultura y el tiempo en que fue producida la fuente. En ocasiones, estos conocimientos son productos de «descubrimientos fortuitos» al realizar una lectura completa del documento, de igual forma, gracias a este tipo de lectura es posible encontrar ideas secundarias que complementen las propuestas de investigación.
Por último, con el uso del control + F o con la búsqueda por palabras clave podemos acceder con rapidez a la sección del texto que nos interesa, pero corremos el riesgo de leerlo de forma aislada. Un ejemplo de ello son los artículos de los periódicos digitalizados, los cuales al ser identificados por el investigador son leídos de forma independiente omitiendo el contenido periférico y las otras noticias generadas en el día, semana o mes, las cuales también podría afectar la comprensión del artículo en cuestión (18). Además, los periódicos poseían una estructura visual (19) que formaba parte de su narrativa y fue un recurso utilizado para impactar al lector, la cual también podemos pasarla desapercibida con el uso de control + F.
- Autenticidad de la fuente
El incremento de la accesibilidad de las fuentes también requiere de herramientas y conocimientos que nos ayude a garantizar la autenticidad e integridad de los materiales. Mayormente, se asume que los objetos culturales digitalizados, ya sea por instituciones académicas o culturales, así como por personas particulares son reproducciones exactas del objeto analógico. Esta confianza, casi absoluta, proviene de la creencia de que lo digital es intrínsecamente neutral y bueno. Sin embargo, se omite que en el proceso de digitalización se involucran etapas de decisiones que pueden perjudicar la integridad del ejemplar a digitalizar. Por ejemplo, puede borrarse marcas de propiedad o anotaciones marginales, así como no considerar la encuadernación de los libros, detalles que pueden ser de valor dependiendo el tema de investigación.
Lo digital es vulnerable de ser intervenido, ya sea por decisiones técnicas, como el ejemplo mencionado, o por decisiones deliberadas malintencionadas que buscan alterar el contenido de la fuente para ajustarlo a una narrativa específica. Por ello, no es extraño que, dentro de algunas políticas, e incluso en el mismo concepto, de preservación digital la protección de la autenticidad y fiabilidad se encuentren en el centro de los lineamientos principales.
Por otro lado, el desarrollo de la inteligencia artificial generativa también plantea un desafío que las y los historiadores nos enfrentaremos con mayor frecuencia. Este tipo de tecnología es capaz de generar contenido basado en instrucciones específicas, imitando estilos y recreando simulaciones de vídeos o fotografías de un periodo histórico. Esta intervención del pasado, sin advertencias claras, puede confundir y crear interpretaciones erróneas, reforzando incluso, algunos discursos (20).
- Reflexiones finales
Buscar, verificar la autenticidad y fiabilidad, leer y analizar como parte de la heurística, hermenéutica y critica de las fuentes continuarán formando parte fundamental del proceso de la investigación histórica. Sin embargo, es necesario adaptar e integrar estos procedimientos en el tratamiento de los objetos digitalizados.
Es importante que tomemos consciencia de que lo que vemos a través de nuestras pantallas no es el equivalente al documento físico consultado en un archivo o biblioteca. Su almacenamiento, preservación y difusión difieren, no solo en los medios y tecnologías utilizadas, sino también por las implicaciones que surgen desde su proceso de digitalización. Los objetos digitalizados se encuentran sujetos a decisiones económicas, culturales, políticas y técnicas que pueden alterar la percepción de la materialidad, influir en la interpretación del pasado e intervenir en la construcción de la memoria colectiva.
- Notas al pie
1 Para mayores reflexiones véase el capítulo: «¿Dónde está el archivo? Documentos que no se ven ni se tocan» en Anaclet Pons, El desorden digital: guía para historiadores y humanistas (Madrid: Siglo XXI, 2013), 163-207.
2 Este ensayo no incluye a las fuentes nativas digitales. Sin embargo, no se ignora que este tipo de fuentes ya son el núcleo de investigaciones para algunas disciplinas de las ciencias sociales. En relación con la Historia, no se duda que más pronto que tarde estas fuentes formarán parte de las preocupaciones y objeto de análisis para los que estudiamos el pasado, no solo por el rastro digital que el ser humano deja en su día a día sino también, que es posible constituir proyectos de investigación solo con los metadatos que se generan en los catálogos de búsquedas.
3 En diciembre del 2019, el mundo fue espectador de los inicios de la pandemia de coronavirus, esta enfermedad respiratoria y altamente contagiosa causada por el virus SARS-CoV-2, obligó (para el 2020) a los distintos gobiernos a imponer medidas restrictivas con el fin de evitar el colapso sanitario de sus países y el fallecimiento de sus ciudadanos. Entre las acciones aplicadas encontramos: la cuarentena, el cierre de establecimientos, confinamiento, etc. La Organización Mundial de la Salud (OMS) declaró en mayo del 2023 el fin del COVID-19 como emergencia sanitaria global.
4 Ingrid Kummels y Gisela Cánepa Koch, eds., Antropología y archivos en la era digital: usos emergentes de lo audiovisual, 2 vols. (Lima: Pontificie Universidad Católica del Perú (PUCP); Instituto de Etnomusicología, 2021). A través de los artículos publicados en ambos volúmenes, los autores manifiestan una especial preocupación por la vulnerabilidad del espacio físico que resguarda la documentación. Además, señalan otras limitaciones que son adherentes a las características de un edificio y que involucra dificultades para acceder a los materiales.
5 «Historia digital: un campo en busca de identidad», Vegueta. Anuario de la Facultad de Geografía e Historia 22, n.o 1 (2022): 20.
6 Ibid., 21.
7 Thomas Smits y Melvin Wevers, «Coloring in the World of Others: Color Use in Visual Orientalism, 1890–1920», Nature Portfolio’s. Humanities and Social Sciences Communications 11, n.o 1374 (2024): 1-8, https://doi.org/10.1057/s41599-024-03895-5.
8 María José Afanador-Llach, «Las Humanidades Digitales y los retos de acceso a la cultura en América Latina», en Archivos Abiertos: El patrimonio documental cubano y la transformación digital, ed. Tobias Kraft, Antonio Rojas Castro, y Grisel Terrón Quintero (De Gruyter, 2024), 201-14, https://doi.org/10.1515/9783111187846-009.
9 Esta misma aseveración ha sido señalada por otros humanistas digitales como la Dra. Isabel Galina.
10 «Las Humanidades Digitales y los retos de acceso a la cultura en América Latina», 206.
11 Kaspar Beelen et al., «Bias and representativeness in digitized newspaper collections: Introducing the environmental scan», Digital Scholarship in the Humanities 38, n.o 1 (2023): 1-22, https://doi.org/10.1093/llc/fqac037.
12 Anaclet Pons, «“Guardar como”. La historia y las fuentes digitales», Historia Crítica, n.o 43 (2011): 47, https://doi.org/10.7440/histcrit43.2011.04.
13 Intervención de Carlos Alberto Paredes Holguín, quien comentó una experiencia con un archivo del Estado peruano.
14 Sumado a ello, el desarrollo de la web 2.0 y las nuevas dinámicas de interacción entre usuarios y plataformas digitales han dado lugar a archivos emergentes que escapan de las prácticas archivísticas y bibliotecarias convencionales y que reúnen digitalmente importantes objetos culturales. Estos archivos suelen estar dirigidos por actores o activistas sociales y políticos, así como aficionados a la historia, quienes, a través de objetivos en comunes logran crear espacios donde comparten fuentes, y muchas de estas, no se encuentran resguardas en las instituciones estatales.
15 Matilde Eiroa, «El pasado en el presente: el conocimiento historiográfico en las fuentes digitales», Ayer. Revista de Historia Contemporánea 110, n.o 2 (2018): 89, https://doi.org/10.55509/ayer/110-2018-04.
16 Consultar: https://mappingtexts.org/index.html
17 Andrew J. Torget, «Mapping Texts: Examining the Effects of OCR Noise on Historical Newspaper Collections», en Digitised Newspapers – A New Eldorado for Historians?: Reflections on Tools, Methods and Epistemology, ed. Maud Ehrmann, Estelle Bunout, y Frédéric Clavert (Berlin, Boston: De Gruyter Oldenbourg, 2023), 52, https://doi.org/10.1515/9783110729214-001.
18 Adrian Bingham, «The Digitization of Newspaper Archives: Opportunities and Challenges for Historians», Twentieth Century British History 21, n.o 2 (2010): 225-31, https://doi.org/10.1093/tcbh/hwq007.
19 Me refiero a la existencia de elementos como las imágenes o fotografías, el tamaño y el tipo de letras que se utilizaban para diferencias las notas periodísticas, así como la ubicación de las noticias.
20 Para profundizar en el impacto de la IA en la interpretación de acontecimientos históricos, se recomienda la lectura: Mykola Makhortykh, AI and the Holocaust: rewriting history? The impact of artificial intelligence on understanding the Holocaust., ed. Heather Mann (UNESCO, 2024), https://unesdoc.unesco.org/ark:/48223/pf0000390211.
- Referencias
Afanador-Llach, María José. «Las Humanidades Digitales y los retos de acceso a la cultura en América Latina». En Archivos Abiertos: El patrimonio documental cubano y la transformación digital, editado por Tobias Kraft, Antonio Rojas Castro, y Grisel Terrón Quintero, 201-14. De Gruyter, 2024. https://doi.org/10.1515/9783111187846-009.
Beelen, Kaspar, Jon Lawrence, Daniel C S Wilson, y David Beavan. «Bias and representativeness in digitized newspaper collections: Introducing the environmental scan». Digital Scholarship in the Humanities 38, n.o 1 (2023): 1-22. https://doi.org/10.1093/llc/fqac037.
Bingham, Adrian. «The Digitization of Newspaper Archives: Opportunities and Challenges for Historians». Twentieth Century British History 21, n.o 2 (2010): 225-31. https://doi.org/10.1093/tcbh/hwq007.
Eiroa, Matilde. «El pasado en el presente: el conocimiento historiográfico en las fuentes digitales». Ayer. Revista de Historia Contemporánea 110, n.o 2 (2018): 83-109. https://doi.org/10.55509/ayer/110-2018-04.
Kummels, Ingrid, y Gisela Cánepa Koch, eds. Antropología y archivos en la era digital: usos emergentes de lo audiovisual. 2 vols. Lima: Pontificie Universidad Católica del Perú (PUCP); Instituto de Etnomusicología, 2021.
Makhortykh, Mykola. AI and the Holocaust: rewriting history? The impact of artificial intelligence on understanding the Holocaust. Editado por Heather Mann. UNESCO, 2024. https://unesdoc.unesco.org/ark:/48223/pf0000390211.
Pons, Anaclet. El desorden digital: guía para historiadores y humanistas. Madrid: Siglo XXI, 2013.
———. «“Guardar como”. La historia y las fuentes digitales». Historia Crítica, n.o 43 (2011): 38-61. https://doi.org/10.7440/histcrit43.2011.04.
———. «Historia digital: un campo en busca de identidad». Vegueta. Anuario de la Facultad de Geografía e Historia 22, n.o 1 (2022): 17-37.
Smits, Thomas, y Melvin Wevers. «Coloring in the World of Others: Color Use in Visual Orientalism, 1890–1920». Nature Portfolio’s. Humanities and Social Sciences Communications 11, n.o 1374 (2024): 1-8. https://doi.org/10.1057/s41599-024-03895-5.
Torget, Andrew J. «Mapping Texts: Examining the Effects of OCR Noise on Historical Newspaper Collections». En Digitised Newspapers – A New Eldorado for Historians?: Reflections on Tools, Methods and Epistemology, editado por Maud Ehrmann, Estelle Bunout, y Frédéric Clavert, 47-66. Berlin, Boston: De Gruyter Oldenbourg, 2023. https://doi.org/10.1515/9783110729214-001.
Semblanza: Daniela Dulce Mostacero, bachiller en Historia por la Universidad Nacional Mayor de San Marcos (Perú), con máster en Historia y Humanidades Digitales por la Universidad Pablo de Olavide (España). Miembro de la Red de Humanidades Digitales y de la Asociación Peruana de Historia y Estudios Sociales de la Ciencia, la Tecnología y la Salud. Participó en el proyecto de recuperación del patrimonio bibliográfico documental del incendio de 1943 en la Biblioteca Nacional del Perú. Tiene desempeñado como asistente de investigación para diferentes instituciones académicas e investigadores. También fue voluntaria en la identificación del archivo de María Jesús Alvarado (1878-1971). Actualmente, ocupa el cargo de coordinadora general y líder digital de Coordenadas de Mujeres, proyecto de historia pública digital que cartografía espacios con nombres de mujeres. Las investigaciones versan sobre políticas de población, salud sexual y reproductiva, crímenes pasionales y humanidades digitales.
Recientes
arte (2) commons (5) Congresos (4) conocimiento abierto (2) cultura digital (9) Derechos de autor (4) Digital Humanities (9) digitalización (9) DíaHD (2) edición (4) educación (10) educación a distancia (3) educación en línea (11) educación permanente (4) ENEO (3) entorno digital (2) Estudios literarios (4) Eventos (2) Filosofía (8) genealogía (5) Global DH (5) Heidegger (2) Humanidades Digitales (47) Kathleen Fitzpatrick (2) Knowledge society (2) lectura (8) lenguaje (2) literatura (3) medios digitales (3) Modificación de prácticas (15) Multidisciplinariedad (2) México (3) open knowledge (3) preservación digital (3) Procomún (3) redes sociales (4) RedHD (19) sociedad de la información (5) sociedad del conocimiento (6) Tecnología (6) tecnología educativa (14) traducción (3) Twitter (2) UNAM (3) Wikipedia (4)