Minería: una ayuda para explorar textos (y más)

Por  |  2 Comentarios

gb35034_lifestyle_totalguardlevel1privacy_1

Blanca A. Vargas Govea

Cada mañana reviso rápidamente el correo electrónico antes de iniciar las actividades del día, y cada mañana debo luchar con la tentación de leer la información que se despliega ante mis ojos con la apariencia de ser algo que debo saber. Es sumamente seductora la idea de leer todas las actualizaciones de blogs, los nuevos artículos, las infografías, los tweets, el muro de Facebook y ver un sinfín de textos, videos e imágenes que saturan mis ojos y cerebro durante los primeros minutos del día. En ocasiones cedo a la tentación con el pretexto de que es útil para mis planes y termino dilapidando tiempo que pude aprovechar en actividades más productivas. También acostumbro marcar los textos o sitios Web que supuestamente leeré en cuanto tenga tiempo. Rara vez llega ese momento, pero el simple hecho de saber que tengo la información disponible genera la falsa ilusión de que ese conocimiento ya es mío. Qué ingenuidad.

Buscar y analizar información son dos de las actividades a las dedicamos gran parte de nuestro tiempo. La vida sería más fácil si recibiéramos solamente la información significativa, sin embargo, la avalancha de información tiende a crecer. Los dispositivos inteligentes tienen intenciones de obtener toda la información posible para tomar decisiones por nosotros, avisarnos, darnos alertas de salud y poner a nuestra disposición una innumerable cantidad de funciones que requieren de un flujo de información constante.

Texto, video, audio e imágenes son los principales formatos de la información con la que nuestros dispositivos móviles y computadoras nos reciben día a día. De los cuatro formatos, el texto es el elemental, el que ha estado presente desde los primeros sitios Web, así que concentrémonos en él. Supongamos que hemos tomado notas durante un año sobre distintos temas, pero no las hemos agrupado por categoría o tema. Nuestro objetivo es organizar las notas, pero son tantas que no sabemos por dónde empezar. Las notas las hemos escrito en diferentes procesadores de texto y las tenemos en una sola carpeta en nuestra computadora. En medio de  tal desorden y caos, la minería de textos nos puede ayudar a identificar la categoría de cada nota. La minería de textos busca extraer información significativa de datos no estructurados mediante la identificación y exploración de patrones interesantes.[1] Como en toda labor de minería de datos, la fase más laboriosa es el pre-procesamiento. Esta fase incluye tareas de categorización, extracción de información, extracción de términos, el almacenamiento de representaciones intermedias, las técnicas para analizar dichas representaciones y la visualización de resultados. Pero lo más importante, lo que debe tenerse claro antes de dar cualquier paso, es qué quiero saber, qué textos fuente son los adecuados.

Pero no vayamos muy lejos. Un análisis exploratorio básico de un conjunto de textos puede arrojarnos información interesante con potencial para contestar preguntas más complejas. Los periódicos, libros y revistas electrónicos son por sí mismos almacenes de información que pueden analizarse periódicamente. Tomemos como ejemplo la subsección de cuentos perteneciente a la sección de literatura de Cuadrivio. Algunas preguntas que se me ocurren son las siguientes:

  • Para el número 9, ¿cuál fue la temática predominante además de la planteada en el dossier?
  • ¿Cuáles son las palabras clave que describen las novelas publicadas en el 2011?
  • De los cuentos publicados, ¿existen similitudes entre las temáticas abordadas por los diferentes autores?
  • ¿Qué palabras caracterizan a un autor?
  • ¿Cuál es la longitud máxima y mínima de las entradas publicadas en el blog?
  • ¿Existe correlación entre la longitud de las entradas y el número de visitas?

La información que se busca con esas preguntas puede darnos un panorama del comportamiento de la revista por año, por número, por sección, por autor, por estación del año o por cualquier parámetro que nos interese. A partir de los datos recolectados se pueden aplicar métodos para realizar predicciones como apoyo para la toma de decisiones. Por ejemplo, ¿cuál es el mes más favorecedor para publicar cierta temática? Pueden surgir innumerables preguntas para obtener información de los textos que vaya más allá de su contenido literario.

Pongamos un pequeño ejemplo para contestar a la pregunta de cuáles son las palabras que describen a los cinco últimos cuentos publicados en diciembre de 2013. Cabe mencionar que de los cinco cuentos solamente leí uno, por lo que carezco de conocimiento que influya en los resultados.

De la sección de literatura tomé los cuentos «Comida de ángeles», «Quiero mi dinero de regreso», «En el rondín de la noche», «Los Pérez» y «Ciudad alfiler». Los pasos fueron los siguientes:

  1. Convertir el formato html a texto para facilitar su procesamiento. Nuestra entrada consiste en cinco textos.
  2. Convertir a minúscula para que la visualización se facilite.
  3. Eliminar stop words o palabras muy comunes, como por ejemplo: «de», «la», «que», «pero». Puede verse una lista de stop words del español en una nota al final de este texto.[2]
  4. Eliminar la puntuación. Para nuestros fines, la puntuación no aporta conocimiento relevante.
  5. Obtener las palabras que aparecieron al menos tres veces.
  6. Obtener una nube de palabras para una visualización agradable.

Los pasos pueden parecer simples, pero si se realizan para todos los cuentos que han sido publicados en Cuadrivio sin utilizar herramientas que automaticen el proceso, entonces la labor se puede convertir en algo que nadie querría hacer. Sin embargo, actualmente existen herramientas de software que pueden ayudarnos a automatizar las tareas.[3]

Figura 1. Palabras principales: «vida», «dios», «mamá», «padre», «mundo», «luz».

Figura 1. Palabras principales: «vida», «dios», «mamá», «padre», «mundo», «luz».

Como resultado se obtuvieron dos conjuntos de palabras principales. Para cada conjunto se generaron las nubes de palabras que se muestran en las figuras 1 y 2 respectivamente. En el primer conjunto, las palabras predominantes son «vida», «dios», «mamá», «padre», «mundo», «luz», mientras que en el segundo las palabras principales son «párroco», «bebé», «condenada», «patrón», «miedo». A partir de dicha información se puede determinar que los temas que los cuentos tocan son la religión, la maternidad, el sometimiento y el miedo.

¿Qué pasa si en vez de que una persona haga el proceso mejor se desarrolla una aplicación automática que haga los análisis más frecuentes de forma regular? En el momento en que llegamos a este punto, nos damos cuenta de que utilizando las técnicas apropiadas podemos evitarnos esa sobrecarga de información de la que hablaba al inicio.

Figura 2. Palabras principales: «párroco», «bebé», «condenada», «patrón», «miedo».

Figura 2. Palabras principales: «párroco», «bebé», «condenada», «patrón», «miedo».

¿Y el experto?,  ¿dónde queda el experto? Sí, aquel que realmente entiende los textos,  aquel que puede evaluar su calidad y emitir su interpretación. El experto es quien da su opinión final, es quien determina si realmente lo que la aplicación extrajo es relevante. La minería de textos no es un sustituto del experto, por el contrario, es un conjunto de técnicas y métodos que constituyen un apoyo para facilitar su trabajo.

¿Cómo me puede ayudar la minería de textos para distraerme menos? Extrayendo información significativa de acuerdo a parámetros que se indiquen para estar segura de que no me perdí de algo importante. Sin embargo, si lo que quiero es generar algo en vez de ser simplemente receptora, sigo creyendo que  la mejor solución es y será cerrar el navegador y ponerme a hacer las cosas.

Referencias

[1] Ronen Feldman, James Sanger, The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 2007.

[2] A Spanish stop word list: http://snowball.tartarus.org/algorithms/spanish/stop.txt. Consultado el 20 de abril de 2014.

[3] «List of text mining software», Wikipedia: http://en.wikipedia.org/wiki/List_of_text_mining_software. Consultado el 20 de abril de 2014.

 

 

_______________

Blanca Alicia Vargas Govea. De formación académica, le gustan las aplicaciones a la vida real. En épocas medievales hizo cosas sobre aprendizaje automático para robots móviles. Consumidora ávida de información y buscadora incesante. Actualmente es profesora en el ITESM Campus Cuernavaca y consultora en temas de aprendizaje automático y análisis de datos.

Correo: blanca.vg@gmail.com

Sitio web: http://blancavg.com

Revista cultural

2 comentarios

  1. Pingback: Blanca A. Vargas Govea – Minería: una ayuda para explorar textos (y más)

  2. wilfo

    18 Julio, 2016 at 20:57

    Excelente articulo.
    Comparto un vídeo para que explica como hacer text mining en facebook.
    https://www.youtube.com/watch?v=77OKX-pZbjY
    Espero que les sea de utilidad.

Responder

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *