¿Qué es la estilometría y para qué sirve?
27 octubre 2012
27 octubre 2012
La estilometría analiza ciertos rasgos del estilo del autor y los utiliza para comparar dos o más textos. El punto de base de la estilometría es que el estilo es algo que nace en el subconsciente, y por esta razón, cada quien tiene su estilo propio. Por otro lado, la estilometría es una forma de analizar textos a diferentes niveles. Algunas de sus aplicaciones es determinar la autoría de una obra, la autenticidad, clasificación de textos, medición de frecuencia de palabras, identificación de lenguas.
En este post sólo describiré brevemente dos de sus usos
- Para determinar la autoría
- Para clasificar textos.
Cada texto tiene marcadores de estilo que hacen diferente o similar a cada texto a nivel de estilo. De esta forma, los marcadores lexicales de estilo sirven para determinar la autoría, entre otras cosa. Los marcadores léxicos se dividen en dos:
- Riqueza del vocabulario
- Frecuencia de las palabras de función
Las palabras de función, por ejemplo, podrían ser simples preposiciones (a, contra, bajo, etc.). La idea es que la forma y el lugar donde se emplean dichas palabras es suficiente para identificar a alguien como el autor de una obra. Como resultado, con este tipo de análisis podría determinarse el plagio de una obra.
Asimismo, la estilometría sirve para clasificar textos en diferentes categorías. Por ejemplo, tipo de caracteres de un texto, idioma, etc.
Para este tipo de análisis, se pueden usar los n-grams, que se definen como una secuencia de ítems cualesquiera que estos sean dentro de una palabra o frase. Por así decir, el inglés utiliza ciertas combinaciones (cre, tra,) mientras que el español tiene (ar, er). Esto sólo es un ejemplo de una técnica, y no tiene nada que ver con ciertas unidades lingüísticas. Sin embargo, n-grams, se utilizan en la lingüística computacional.
Finalmente, una vez obtenidos los datos, se almacenan para su uso posterior. Cabe destacar que este tipo de análisis no es automático. Entonces, el que lleva a cabo dicho análisis debe almacenar dichas secuencias para después poder hacer análisis cuantitativo, es decir, obtener su frecuencia, y posteriormente, se comparan con otros textos o corpus de textos. En este caso, existen herramientas que hacen el trabajo de cuantificación de forma automática. Asi, hay herramientas que no sólo arrojaran datos numéricos, pero también gráficos. El proceso descrito sirve para clasificar textos también y para determinar la autoría de ciertas obras.
La idea es crear marcadores de palabras, o incluso, cualquier combinación que pueda servir para el analisis.
Algunos parámetros que se deben tomar en cuenta para que el análisis estilométrico tenga mayor fiabilidad son:
- El número de textos.
- La cantidad de autores
- La extensión de la lista de palabras o n-grams
Para realizar este tipo de análisis estadístico, existen varías herramientas que pueden facilitar la obtención de los datos necesarios hasta su representación gráfica. (www.r-project.org). Una de éstas herramientas, es el análisis estilométrico en R. Dicho programa está bajo licencia GNU. Además, proporciona varias técnicas de análisis linear y no linear, así como grafico
- El ambiente en R proporciona facilidad del manejo y almacenamiento de la información.
- Una colección de herramientas integradas para el análisis de datos.
- Diversos operadores para operaciones
- Representación gráfica.
- Un lenguaje de programación simple y efectivo.
Para concluir este post, la estilometría es una herramienta que entra en el campo de la Humanidades Digitales, existen otros proyectos, como voyant tools, que aunque no es propiamente estilometría, sirve como herramienta para el analisis lexical y puede complemetar un analisis estilométrico. Voyant tools todavía en un proyecto en desarrollo.
Recientes
arte (2) commons (5) Congresos (4) conocimiento abierto (2) cultura digital (9) Derechos de autor (4) Digital Humanities (9) digitalización (8) DíaHD (2) edición (4) educación (9) educación a distancia (3) educación en línea (11) educación permanente (4) ENEO (3) entorno digital (2) Estudios literarios (4) Eventos (2) Filosofía (8) genealogía (5) Global DH (5) Heidegger (2) Humanidades Digitales (46) Kathleen Fitzpatrick (2) Knowledge society (2) lectura (8) lenguaje (2) literatura (3) medios digitales (3) Modificación de prácticas (15) Multidisciplinariedad (2) México (3) open knowledge (3) preservación digital (3) Procomún (3) redes sociales (4) RedHD (18) sociedad de la información (5) sociedad del conocimiento (6) Tecnología (6) tecnología educativa (12) traducción (3) Twitter (2) UNAM (3) Wikipedia (4)