Hace apenas unos días tuvimos una interesante discusión en el SeminarioHD, la cual se extendió un poco a las redes sociales y ahora me gustaría, no sólo documentarla, sino, quizá, expandirla: ¿Qué es un dato? Todo esto, claro está, en el contexto de las Humanidades (las Digitales, en este caso).

El término “data” (en inglés) fue acuñado hacia el siglo XVII,  Rosenberg lo asocia con el nacimiento de la modernidad y, con ello, el desarrollo de los conceptos modernos de conocimiento y argumentación (1). El término “data” tiene una retórica y una función conceptual diferente a términos como “hechos” o “evidencia”; en contraste con estos dos, la función semántica de “data” es específicamente retórica.

El dato se da (datum= dar), ya sea como argumento, ya sea como contribución, ya sea como fragmento de algo; el dato es algo que se da por hecho. Data, a diferencia de un hecho, por ejemplo, sigue siendo data aún cuando se pruebe su falsedad; es decir, el dato es independiente de cualquier consideración o  verdad ontológica. Al grado que se ha considerado que data es “the result of an investigation rather than its premise”(2). Sin embargo, con la creciente cantidad de información disponible y, sobre todo, accesible, es imposible no ver los objetos de nuestra investigación como datos (data); fragmentando, de alguna manera, la globalidad tan masiva de la que son parte. El uso de big-data en los procesos humanísticos de producción de conocimiento es cada vez más imposible de evitar; es, también, una posibilidad hacia una conjunción casi ilimitada de recursos interconectados que dentro de su fragmentación explican una globalidad puntual en cada una de sus ramas y de sus propósitos.

Retomando, nuevamente a Rosemberg “It is tempting to want to give data an essence, to define what exact kind of fact data is. But this misses the most important aspect of the term, and it obscures why the term became so useful in the mid-twentieth century. Data has no truth. Even today, when we speak of data, we make no assumptions at all about veracity”. (3) Pero tampoco dejamos de referirnos al dato como tal, independientemente de la naturaleza que tenga y del objetivo para el cual fue “extraída”.

Lo cual lleva a las necesidades propias de cada investigación y sus razones intrínsecas, mejor decir: al proceso que lleva a tomar tal o cual decisión, a la hipótesis misma que da origen a la investigación y, con ello, a la metodología que se debió desarrollar para llegar a los resultados. Este punto fue relevante dentro de la discusión sobre el dato dentro del twitter del SeminarioHD. @Herdado mencionó que “El dato, en su clase, es creado para ser útil. Es una forma de clasificación. Úsenlo y, si necesitan un tipo nuevo, créenlo…” (28 de mayo); nuevamente damos por sentado que el dato es y, en este caso específico, que el dato es una medida utilitaria para el proceso de creación de conocimiento, una medida clasificatoria y maleable a discreción de su autor; una herramienta que, además, puede ser modificada o inventada a conveniencia.

Esta línea en la discusión habla más de la ontología establecida para cada proyecto, de la clasificación que se le dará a cada uno de esos fragmentos de información, en un contexto dado, con unas características y una direccionalidad anterior a su proceso de extracción. Pero surge una nueva pregunta ¿esa ontología es universal?; cierto es que existen ontologías con tendencias universales para englobarlo todo (o casi todo), uno de los ejemplos más relevantes es el Cyc[1] que retoma el concepto filosófico de ontología para crear un modelo para describir el mundo, constituido por tipos, propiedades y relaciones. Pero en la especificidad de los proyectos humanísticos, esta clasificación universal no tiene mucho sentido. Para la mayoría de nuestras investigaciones, la información que utilizamos es muy puntual y responde a un contexto determinado; es por esto mismo que las bases de datos en las que ordenamos y almacenamos nuestra información, están diseñadas con una arquitectura propia, pues responden a una necesidad específica.

Sin embargo, al mismo tiempo que particulares, las posibilidades de que esa misma información estructurada pueda ser utilizada con un objetivo o para una investigación diferente a la “original”, no son pocas. La razón es aparentemente muy sencilla: estamos trabajando con datos; los datos, si seguimos la premisa de Rosemberg, son independientes de la intencionalidad con la que fueron extraídos, están más allá de una “verdad” y son, por el hecho de ser. Esta ambigüedad es lo que hace posible que de la misma base de datos se pueda producir un artículo filológico o uno histórico, porque lo que cambian son las hipótesis y las metodologías, no los datos.

Aunque la postura de Rosemberg sugiere una generación espontánea del dato, Gitelman y Jackson proponen que “data do not exist, they have to be generated, data need to be imagined as data to exist and function as such” (4); puede decirse que el dato es aquello “funcional” de la información disponible; es herramienta y contenido. En los estudios literarios, por ejemplo, el uso de datos en las investigaciones ha hecho que las formas de acercamiento al objeto de estudio cambien, como bien señala Jockers (5) “close reading is not only impractical as a means of evidence gathering in the digital library, but big-data render it totally innapropriate as a method of studying literary history”, se trata pues de ver la imagen completa por medio de sus partes para su estudio global. En este sentido el énfasis en el contexto que engloba los datos se vuelve parte del dato mismo, ya no es “información extra”, es parte misma del dato que representa (6).

Diferentes posturas se tienen con respecto al uso de datos en las humanidades, desde aquellas que tienden a cientifizar las humanidades para justificar la disección de metodologías; hasta aquellas, más puristas, que fragmentan la información con el único fin de estructurarla. Todas las posturas en el medio y los extremos, hasta el momento del cierre de esta contribución, han apoyado la idea de que el dato es una herramienta, la cual no ha sido homogeneizada en su significado, pero sí se ha aprovechado en su uso.

No me queda más que dejar abierta la discusión, continuar la investigación y, quizá, lograr en algún momento una aproximación incluyente al enigma del dato en las Humanidades.

 

Bibliografía

(1, 2, 3) Rosenberg, Daniel, “Data before the Fact”, en Lisa Gitelman (ed.) “Raw Data” is an Oxymoron, Cambridge: MIT Press, 2013. pp. 15-40.

(4) Gitelman, Lisa & Virgina Jackson, “Introduction”, Lisa Gitelman (ed.) “Raw Data” is an Oxymoron, Cambridge: MIT Press, 2013. pp. 1-14.

(5) Jockers, Matthew L., Macroanalysis. Digital Methods & Literary History, Urbana, Chicago & Springfield: University of Illinois Press, 2013.

(6) Hayles, Katherine N., How We Think. Digital Media and Contemporary Technogenesis, Chicago & London: The University of Chicago Press, 2012.


[1] Proyecto de inteligencia artificial que pretende crear una ontología comprensible y una base de conocimientos con el objetivo de permitir que las aplicaciones de Inteligencia Artificial funcionen con un razonamiento-humano, para lo cual crearon clasificaciones y subclasificaciones de conocimiento.