“Big Data”, consumo/producción/reproducción de conocimiento

20 agosto 2013

La digitalización de textos sigue estando en medio de un conflicto, por un lado encontramos posturas de digitalización masiva de textos con iniciativas como la de Google books (quienes desde 2004 están creando una de las bases de datos en línea, de texto completo, más grande del mundo; con la ventaja adicional de su gratuidad y relativamente fácil acceso. Un proyecto de largo alcance es también Europeana quienes desde 2008 −fecha oficial de inauguración, aunque el proyecto surge en 2005− reúne contribuciones digitalizadas y apoya proyectos locales de digitalización para preservar el patrimonio del conocimiento europeo y que no sólo se enfocan a textos, sino a preservación en general) y por otro se mantiene la preocupación sobre el objeto físico que respalda dichos textos.

El debate de la digitalización masiva de textos y su contraparte física se centra en la “novedad” del contenido digitalizado y el impacto que éste tiene en “our existing intellectual structures, and the possibilities of emerging research techniques” , se entiende pues que dado el cambio del objeto, se requiere un cambio en el acercamiento al mismo y, por ende, en la forma de estudiarlo. Teorías como el “distant reading” surgieron con el propósito de aprovechar el crecimiento masivo de contenido digital para realizar estudios cuantitativos.

En el último número de LLC, Gooding et. al. escriben sobre la digitalización masiva y el futuro del libro, más que una postura, los autores presentan un recorrido en el proceso de masificación de la digitalización de textos, la cual me parece una excelente guía para el propósito de esta contribución. En este artículo, las preguntas que se proponen responder son : “What impact are large-scale digitized collections (LSDCs) having on researchers and the information profession? Who is using LSDCs for research? How are they being used, for what, and how does this differ from existing research methods? And how can we apply this knowledge to ensuring that large-scale digitization develops to benefit the entire research community” (p. 2).

Estamos hablando de investigaciones que se orientan hacia la creación y uso de “big data”; las cuales no sólo han ido en aumento, sino que en este momento son las prioritarias. Esto ciertamente tiene sentido, la cantidad de objetos culturales disponibles en línea es inmensurable, los resultados esperados de dichas investigaciones, se orientan también a la búsqueda de respuestas tan universales como los datos con los que trabajan. La búsqueda de respuestas tan masivas como los datos que manejan ha creado la duda de la calidad de lectura que se está haciendo, no sólo a nivel de investigación, sino también de consumo general; la cantidad de información que se debe procesar para trabajar con, por ejemplo, la bibliografía completa de un autor implica necesariamente técnicas nuevas de investigación, lo cual lleva a una reformulación del término “conocimiento”.

Surge pues una nueva valoración de los procesos y los fines de esta masificación de los recursos digitales, Lanier (2011) sugiere que la atención dedicada a la lectura se ha reducido a un “escaneo” del texto, lo que hace sea descuidada y reducida a una aproximación. Sin embargo, ni Lanier ni Goodling aclaran si ese descuido se aplica sólo a “lectores comunes” o si se extiende también a investigaciones especializadas.

Por su parte, Battles (2004) asegura que la idea de la digitalización masiva crea mitologías con respecto a la idea de conocimiento, se genera una relación cuantitativa entre contenido digitalizado y conocimiento, sin que necesariamente se corresponda. En este momento es imposible leer todo lo que está disponible en línea y aunque la digitalización de textos ayuda al usuario a manejar esta cantidad de información, no da una solución al problema del tiempo.

Goodling propone que “when textual information is provided at such a large scale, it no longer needs to be read to be interrogated for some kinds of meaning. But the meaning produced by these methods differs to that of close textual analysis, relying instead on networks (Moretti 2007), trends (Michel and Shen 2010), and pattern analysis (Jockers 2012)” (pag. 7). Lo que cambia el modo de interactuar con los textos, pues con la herramienta adecuada se puede “interrogar” a una docena de textos en 10 minutos, tiempo que resulta insuficiente para leer uno sólo de ellos.

Goodling concluye que estamos pues en medio de dos movimientos teóricos: uno que da prioridad al libre crecimiento del corpus digital (Anderson 2008) y otro que se aferra al recurso impreso, por considerarlo vital para el proceso intelectual (Brikets 1994) (Goodling, p. 8).

Como consumidora de material digital/digitalizado, no puedo estar en desacuerdo con la masificación y el continuo surgimiento de proyectos de este estilo; ciertamente facilitan mi labor de investigación y, en cierta medida, contribuyo en muy menor escala a la creación de conocimiento disponible en este formato.

Sin embargo, sí encuentro peligroso el cambio de paradigma propuesto por Lanier en el que el conocimiento se mide en cantidad de datos procesados y no necesariamente en el entendimiento o lectura total de los mismos. La creciente tendencia hacia la investigación con el uso de “big data” deja fuera, inevitablemente, detalles propios sólo de una lectura cuidadosa de los textos y este consumo fragmentado de los textos, tiene como resultado la producción de un tipo de conocimiento enfocado y, en cierto sentido, hiperespecializado.

Sigue siendo responsabilidad del lector el acercamiento que tenga con los textos, sigue siendo responsabilidad del investigador la calidad y tipo de conocimiento que crea y que pone a disposición de la red. En cuanto al papel de la digitalización de textos como este megamosntruo que acabará con la lectura, creo simplemente que es un proceso de cambio de paradigma, de usos y costumbres con respecto al consumo de textos.

Bibliografía

Gooding, P. et. al., “The myth of the new: Mass digitization, distant reading, and the future of the book”, LLC, August 13, 2013.

Battles, M. Library: An Unquiet History. London: Vintage, 2004. Lanier, J. You are not a Gadget. London: Penguin, 2011.

Moretti, F. Graphs, Maps, Trees: Abstract Models for Literary History. London and New York: Verso, 2007.

Entradas anteriores

Entradas recientes

“Big Data”, consumo/producción/reproducción de conocimiento

20 agosto 2013

Comment (1)

Blog: Great reflection on Big Data, texts, reading: http… | Laurie N. Taylor

Recientes

¿La IA es el mensaje?

Entre los paradigmas de la archivística y el acceso a los archivos en la era digital

Hacia un marco analítico verdaderamente latinoamericano de análisis de políticas públicas sobre ciberseguridad