La batalla del Born en Hands On.

Política, arte y Twitter, una mezcla extraña a investigar en la práctica Hands On. Un campo de batalla virtual sin armas pero con 140 caracteres.

El planteamiento fue el siguiente: Una disputa política que incluye a la alcaldesa de Barcelona, Ada Colau y su aprobación de poner en el barrio del Born una estatua de Franco decapitado. Las redes sociales ardieron y fuimos los encargados de analizar la situación en Twitter.

Desde el sitio tcat.com pudimos ver los miles de tweets que mencionan a Ada Colau, tratamos de identificar el tono de la conversación y debido al gran volumen fue algo difícil de lograr, por lo que debíamos limpiar, no sin antes definir qué es lo que queríamos saber.

  • ¿Quiénes están a favor y quienes están en contra?
  • ¿Cuál es la conversación?
  • ¿En castellano o catalán?

Metimos las manos al barro (no literalmente, claro) y comenzamos a limpiar nuestra base de datos, segmentar por fechas y palabras claves (franco, born, estatua, estàtua, Hitler, franquismo y franquisme, por mencionar algunas) y definir si íbamos a trabajar con el contenido en catalán o castellano. Obtuvimos 18.515 tweets.

Utilizamos la herramienta Google Refine para depurar aún más nuestro listado de tweets ya que identificamos ciertos temas que se repetían y decidimos filtrar por esas categorías (ataques personales, dictadura, irónicos, cortina de humo, presupuesto, víctimas y otros temas) Separamos 10 ejemplos de cada uno de estos temas para comenzar a trabajar con machine learning.

En paralelo, trabajamos con Google Vision para identificar los tweets que contaban con imagen, tomamos sus URL’s y utilizamos esta herramienta para detectar el tipo de imágenes relacionadas con la conversación, qué es lo que muestran esas imágenes, si son aptas para menores o no, entre otras respuestas.

Además utilizamos Gephi, para visualizar los temas más mencionados en Twitter y los Hashtag más populares.

Cuando llegó la hora de utilizar machine learning incluimos 10 ejemplos de cada uno de los temas que elegimos para que el sistema luego funcionara de forma automática y así pudiese identificar y clasificar los tweets por sí solo…. Apretamos el botón rojo, y esperamos…

Y esperamos…

Y esperamos…

¿Los resultados?

  • El machine learning no funcionó correctamente debido a que se necesitaban más ejemplos de cada categoría para mejorar la muestra.
  • Es indispensable hacer las preguntas correctas previo al problema y buscar las soluciones sin desviarse.
  • La base de datos debe ser actualizada constantemente.

La mezcla de trabajo manual (limpieza) y automatizado es la clave para un buen resultado, los robots no dominarán el mundo… Aún.

¡Deja el primer comentario, no seas tímido!

Únete a la discusión

Puedes utilizar los siguientes HTML tags y atributos: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>