Manual de Periodismo de Datos 1.0
Cargando

Usar visualizaciones para descubrir cosas en los datos

La visualización es crítica para el análisis de datos. Aporta una primera línea de ataque, revelando estructuras intrincadas en datos que no pueden ser absorbidas de otro modo. Descubrimos efectos inimaginados y cuestionamos aquellos que han sido imaginados.

Hobart Press)
— William S. Cleveland (de Visualizing Data

Los datos por sí mismos, que consisten de bits y bytes almacenados en un archivo en el disco rígido de una computadora, son invisibles. Para poder verlos y encontrarles sentido, necesitamos visualizarlos. En esta sección voy a usar el término visualizar en un sentido más amplio, que incluye incluso representaciones textuales puras de datos. Por ejemplo, simplemente cargar un conjunto de datos en un software de planilla de cálculo puede considerarse una visualización de datos. Los datos invisibles de pronto se convierten en una “imagen” visible en nuestra pantalla. Por tanto, la pregunta no debe ser si los periodistas necesitan visualizar los datos o no, sino qué tipo de visualización puede ser la más útil en cada situación.

Dicho de otro modo: ¿cuándo tiene sentido ir más allá de la visualización en tablas? La respuesta más simple es: casi siempre. Las tablas por sí solas decididamente no bastan para darnos una visión general de un conjunto de datos. Y las tablas por sí solas no nos permiten identificar inmediatamente patrones dentro de los datos. El ejemplo más común aquí son los patrones geográficos que solo pueden observarse al visualizar datos en un mapa. Pero también hay otros tipos de patrones, que veremos luego en esta sección.

Usar visualización de datos para descubrir información clarificadora

No es realista esperar que herramientas y técnicas de visualización de datos disparen una andanada de historias listas para usar a partir de los conjuntos de datos. No hay reglas ni “protocolos” que nos garanticen que tendremos una historia. En cambio, creo que tiene más sentido buscar “percepciones”, que un buen periodista puede incorporar a historias.

Cada nueva visualización puede darnos percepciones sobre nuestros datos. Parte de esa información reveladora puede ser conocida ya (pero quizás aún no demostrada), mientras que otros aspectos pueden resultarnos completamente nuevos o incluso sorprendentes. Algunas cosas nuevas que percibimos podrían significar el comienzo de una historia, mientras que otras podrían ser simplemente el resultado de errores en los datos, que es más probable que encontremos visualizando los datos.

Para hacer más efectiva la búsqueda de nuevas percepciones en los datos, me resulta de gran ayuda el proceso representado en Figure 4 (y descripto en el resto de esta sección).

Figure 4. Información reveladora en datos; una visualización (Gregor Aisch)
Aprenda a visualizar datos

La visualización ofrece una perspectiva particular sobre el conjunto de datos. Usted puede visualizar datos de muchas maneras diferentes.

Las tablas son muy poderosas cuando se trata de un número relativamente pequeño de puntos. Muestran etiquetas y montos del modo más estructurado y organizado y revelan su potencial plenamente cuando se las combina con la capacidad de ordenar y filtrar los datos. Adicionalmente, Edward Tufte sugirió incluir pequeños gráficos dentro de columnas de tablas, por ejemplo, una barra por fila o una pequeña línea de cuadro (desde entonces conocida también como sparkline). Pero aún así, y tal como ya dijimos, las tablas claramente tienen limitaciones. Son muy buenas para mostrar cuestiones unidimensionales, como los primeros 10, pero son muy pobres cuando se trata de comparar múltiples dimensiones simultáneamente (por ejemplo, población por país a lo largo del tiempo).

Figure 5. Consejos de Tufte: sparklines (Gregor Aisch)

Los cuadros, en general, le permiten vincular dimensiones de sus datos con propiedades visuales de formas geométricas. Mucho se ha escrito sobre la efectividad de las propiedades visuales individuales, y la versión más breve de todo ello es: el color es difícil, la posición es todo. En un diagrama de dispersión, por ejemplo, se relaciona dos dimensiones con las posiciones x- e y-. Incluso se puede presentar una tercera dimensión relacionada con el color o el tamaño de los símbolos presentados. Los cuadros lineales son especialmente adecuados para mostrar evoluciones temporales, mientras que los cuadros de barras son perfectos para comparar datos de categorías. Se puede apilar elementos de cuadros. Si desea comparar un pequeño número de grupos de sus datos, presentar múltiples instancias del mismo gráfico es una forma muy poderosa de hacerlo (también conocido como múltiplos pequeños). En todos los cuadros se puede usar distintos tipos de escalas para explorar aspectos diferentes de los datos (por ejemplo, lineal o escala logarítmica).

De hecho la mayor parte de los datos que manejamos están relacionados de algún modo con gente real. El poder de los mapas es que reconectan los datos con nuestro mundo físico. Imagine un conjunto de datos de incidentes criminales ubicados geográficamente. Lo crucial es ver dónde suceden los crímenes. Además los mapas pueden revelar relaciones geográficas dentro de los datos (por ejemplo, una tendencia de norte a sur, o de zonas urbanas a rurales).

Figure 6. Mapa coroplético (Gregor Aisch)

Hablando de relaciones, el cuarto tipo más importante de visualización es el gráfico. Los gráficos sirven para mostrar las interconexiones (bordes) de sus puntos de datos (nodos). La posición de los nodos se calcula entonces por algoritmos de diagrama de gráficos más o menos complejos que nos permiten ver inmediatamente la estructura dentro de la red. El truco de la visualización por gráficos en general es encontrar el modo adecuado para modelar la red misma. No todos los conjuntos de datos incluyen ya relaciones y aunque las incluyan puede no ser el aspecto más interesante. A veces el periodista tiene que definir los bordes entre nodos. Un ejemplo perfecto de esto es el Gráfico Social del Senado de EE.UU., cuyos bordes conectan senadores que votaron lo mismo en más del 65% de los casos.

Analice e intérprete lo que ve

Una vez que haya visualizado sus datos, el siguiente paso es aprender algo del cuadro que creó. Podría preguntarse:

  • ¿Qué puedo ver en esta imagen? ¿Es lo que esperaba?

  • ¿Hay patrones interesantes?

  • ¿Qué significa esto en el contexto de los datos?

A veces puede terminar con una visualización que, pese a su belleza, puede no decirle nada de interés de sus datos. Pero casi siempre hay algo que puede aprender de cualquier visualización, por trivial que sea.

Documente sus percepciones y sus pasos

Si piensa en este proceso como un viaje a través del conjunto de datos, la documentación es su diario de viaje. Dirá a dónde viajó, que ha visto allí y cómo tomó sus decisiones para sus siguientes pasos. Incluso puede comenzar con su documentación antes de echar su primera mirada a los datos.

En la mayoría de los casos cuando comenzamos a trabajar con un conjunto de datos que no hemos visto previamente, ya estamos llenos de expectativas y supuestos sobre los datos. Por lo general hay un motivo por el que estamos interesados en el conjunto de datos que estamos mirando. Es buena idea comenzar la documentación escribiendo estos pensamientos iniciales. Esto nos ayuda a identificar nuestros prejuicios y reduce el riesgo de malas interpretaciones de los datos encontrando simplemente lo que queríamos encontrar originalmente.

Realmente creo que la documentación es el paso más importante del proceso, y es también el que somos más proclives a dejar de lado. Como verá en el ejemplo que viene a continuación, el proceso descripto involucra mucha planificación y manejo de datos. Mirar un conjunto de 15 cuadros que ha creado puede ser muy confuso, especialmente al transcurrir algún tiempo. De hecho esos cuadros solo son valiosos (para usted o cualquier persona a la que quiera comunicar lo que descubrió) si se los presenta en el contexto en el que fueron creados. Por tanto debe tomarse algún tiempo para hacer notas sobre cosas como:

  • ¿Por qué creé este cuadro?

  • ¿Qué he hecho con los datos para crearlo?

  • ¿Qué me dice este cuadro?

Transforme los datos

Naturalmente con las nuevas cosas que percibió con la última visualización, puede tener una idea de lo que quiere ver a continuación. Puede haber encontrado algún patrón interesante en el conjunto de datos que ahora quiere inspeccionar con más detalle.

Las posibles transformaciones:

Acercamiento (zoom)

Para ver cierto detalle en la visualización

Agregación

Combinar muchos puntos de datos en un solo grupo.

Filtrado

Eliminar (temporariamente) puntos de datos que no son de nuestro mayor interés

Eliminación de datos atípicos

Eliminar puntos individuales que no son representativos del 99% del conjunto de datos.

Situémonos en el caso de que usted ha visualizado un gráfico y lo que surgió no fue más que un enredo de nodos conectados por cientos de bordes (un resultado muy común cuando se visualiza lo que se llama redes densamente conectadas). Un paso de transformación común sería filtrar algunos bordes. Si, por ejemplo, los bordes representan flujos de dinero de países donantes a países receptores, podríamos eliminar todos los flujos menores a cierto monto.

Qué herramientas usar

La cuestión de las herramientas no es fácil. Toda herramienta de visualización de datos disponible es buena para algo. La visualización y el manejo de los datos debe ser fácil y barato. Si cambiar los parámetros de las visualizaciones le lleva horas, no va a experimentar demasiado. Eso no quiere decir necesariamente que no deba aprender cómo usar la herramienta. Pero una vez que aprendió, debiera ser realmente eficiente.

A menudo hay que tener mucho criterio para elegir una herramienta que cubra tanto las cuestiones del manejo de los datos como la visualización de datos. Separar las tareas en distintas herramientas significa que tiene que importar y exportar datos muy a menudo. Esta es una breve lista de algunas herramientas de visualización y manejo de datos:

  • Planillas de cálculo como LibreOffice, Excel o Google Docs

  • Plataformas de programación estadística como R (r-project.org) o Pandas (pandas-pydata.org)

  • Sistemas de Información Geográfica (GIS) como Quantum GIS, ARcGIS, o GRASS

  • Biblitoecas de Visualización como d3.js (mbostock.github.com/d3), Prefuse (prefuse.org) o Flare (flare.prefuse.org)

  • Herramientas de manejo de datos como Google Refine o Datawrangler

  • Software para crear visualizaciones como ManyEyes o Tableau Public (tableausoftware.com/products/public)

Las visualizaciones de muestra en la siguiente sección fueron creadas usando R, que es el cortaplumas suizo de la visualización de datos (científica).

Un ejemplo: encontrarle sentido a los datos sobre contribuciones electorales

Veamos la base de datos de las Finanzas de la Campaña Presidencial de Estados Unidos, que contiene alrededor de 450.000 aportes a candidatos presidenciales estadounidenses. El archivo CSV es de 60 megabytes y demasiado grande para manejar fácilmente en un programa como Excel.

En el primer paso escribiré explícitamente mis supuestos iniciales respecto del conjunto de datos sobre contribuciones para las campañas electorales:

  • Obama recibe la mayor suma en contribuciones (dado que es el presidente y tiene la mayor popularidad)

  • La cantidad de contribuciones aumenta al acercarse la fecha de las elecciones.

  • Obama recibe más contribuciones pequeñas que los candidatos republicanos

Para responder a la primera pregunta, tenemos que transformar los datos. En vez de cada contribución individual, necesitamos sumar el total de lo aportado a cada candidato. Luego de visualizar los resultados en una tabla ordenada, confirmamos nuestro supuesto de que Obama obtendría la mayor cantidad de dinero:

Candidato Monto ($)

Obama, Barack

72.453.620,39

Romney, Mitt

50.372.334,87

Perry, Rick

18.529.490,47

Paul, Ron

11.844.361,96

Cain, Herman

7.010.445,99

Gingrich, Newt

6.311.193,03

Pawlenty, Timothy

4.202.769,03

Huntsman, Jon

2.955.726,98

Bachmann, Michelle

2.607.916,06

Santorum, Rick

1.413.552,45

Johnson, Gary Earl

413.276,89

Roemer, Charles E. Buddy III

291.218,80

McCotter, Thaddeus G

37.030,00

Si bien esta tabla muestra los montos mínimo y máximo y el orden, no dice demasiado acerca de los patrones subyacentes al ranking de los candidatos. Figure 7 es otra vista de los datos, un tipo de cuadro conocido como “cuadro de puntos”, en el que podemos ver todo lo que aparece en la tabla más los patrones dentro del campo. Por ejemplo, el cuadro de puntos nos permite comparar inmediatamente la distancia entre Obama y Romney y Romney y Perry, sin tener que restar valores. (Nota: este cuadro de puntos fue creado usando R. Puede encontrar vínculos con el código fuente al final de este capítulo).

Figure 7. Visualizaciones para descubrir patrones subyacentes (Gregor Aisch)

Ahora procedamos con un cuadro más grande del conjunto de datos. Como primer paso, visualicé todos los montos aportados a lo largo del tiempo en una sola vista. Podemos ver que casi todas las contribuciones son muy, muy pequeñas comparado con 3 casos salientes. Una investigación más a fondo revela que estas contribuciones inmensas provienen del “Fondo para la Victoria de Obama 2012” (también conocido como SuperPAC) y se hicieron el 9 de junio (US$ 450.000), septiembre 29 (US$ 1.500.000) y diciembre 30 (US$ 1,900.000).

Figure 8. 3 casos salientes (Gregor Aisch)

Si bien las contribuciones de Súper PACs por si solas son sin duda la historia más importante en los datos, podría ser interesante mirar más allá. La cuestión ahora es que estas grandes contribuciones perturban nuestra visión de las contribuciones más pequeñas que provienen de individuos, por lo que vamos a quitarlas de los datos. Esta transformación se conoce comúnmente como eliminación de datos atípicos. Luego de visualizar nuevamente, podemos ver que la mayoría de las donaciones están dentro del rango de entre US$ 5.000 y US$ 10.000.

Figure 9. Eliminar datos atípicos (Gregor Aisch)

De acuerdo al límite a las contribuciones establecidos por FECA (autoridad electoral), no se permite a los individuos donar más de US$ 2500 a cada candidato. Como podemos ver en el gráfico, hay numerosas donaciones por encima de ese límite. En particular, nos llaman la atención dos grandes contribuciones en mayo. Parece que son compensadas por montos negativos (reembolsos) en junio y julio. Una investigación más a fondo de los datos revela las siguientes transacciones:

  • El 10 de mayo, Stephen James Davis, de San Francisco, empleado en Banneker Partners (abogados), ha donado US$ 25.800 a Obama.

  • El 25 de mayo, Cynthia Murphy, de Little Rock, empleada en el Murphy Group (relaciones públicas), ha donado US$ 33.300 a Obama

  • El 15 de junio el monto de US$ 30.800 fue devuelto a Cynthia Murphy, lo que redujo el monto donado a US$ 2500.

  • El 8 de julio, se devolvió el monto de US$ 25.800 a Stephen James Davis, lo que redujo el monto donado a US$ 0.

¿Qué tienen de interesantes estas cifras? Los US$ 30.800 devueltos a Cynthia Murphy equivalen al monto máximo que pueden dar individuos a comités nacionales de partidos al año. Quizás quería combinar ambas donaciones en una transacción, que fue rechazada. Los US$ 25.800 devueltos a Stephen James Davis posiblemente equivalen a los US$ 30.800 menos US$ 5000 (el límite de aportes a cualquier otro comité político).

Otra cosa interesante descubierta en el último gráfico es un patrón lineal horizontal de contribuciones para candidatos republicanos por US$ 5000 y -US$ 2500. Para verlos con más detalle, visualicé solo las donaciones a republicanos. El gráfico resultante es un gran ejemplo de patrones en datos que serían invisibles sin visualización de datos.

Figure 10. Eliminación de datos atípicos 2 (Gregor Aisch)

Lo que podemos ver es que hay muchas donaciones de US$ 5000 a candidatos republicanos. De hecho, un análisis de los datos da que hay 1243 de estas donaciones, que es solo el 0,3% del número total de donaciones, pero debido a que esas donaciones se reparten de modo parejo en el tiempo, la línea aparece. Lo interesante de la línea es que las donaciones de individuos estaban limitadas a US$ 2500. En consecuencia cada dólar que superó ese límite fue devuelto a los donantes, lo que resulta en la segunda línea de –US$ 2500. En contraste, las contribuciones a Barack Obama no muestran un patrón similar.

Figure 11. Eliminación de datos atípicos 3 (Gregor Aisch)

Por lo que podría ser interesante averiguar por qué miles de donantes republicanos no advirtieron los límites para donaciones de individuos. Para analizar más en profundidad el tema, podemos ver el número total de donaciones de US$ 5000 por candidato.

Figure 12. Donaciones por candidato (Gregor Aisch)

Por supuesto que esta es una visión distorsionada dado que no considera los montos totales de donaciones recibidas por cada candidato. El siguiente gráfico muestra el porcentaje de donaciones de US$ 5000 por candidato.

Figure 13. ¿De dónde viene la plata del senador?: donaciones por candidato (Gregor Aisch)

Qué aprender de esto

A menudo tal análisis visual de un nuevo conjunto de datos se vive como un viaje excitante a un país desconocido. Uno comienza como un extranjero contando solo con los datos y sus supuestos, pero con cada paso que da, con cada cuadro que produce, percibe cosas nuevas sobre el tópico. Basado en esas percepciones, toma decisiones respecto de sus siguientes pasos y que cuestiones ameritan una mayor investigación. Como habrá visto en este capítulo, este proceso de visualizar, analizar y transformar datos podría repetirse casi al infinito.

Consiga el código fuente

Todos los cuadros que se muestran en este capítulo fueron creados usando el maravilloso y poderoso software R. Creado principalmente como herramienta de visualización científica, es difícil encontrar alguna técnica de visualización o manejo de datos que no esté incorporada a R. Para aquellos interesados en saber cómo visualizar y manejar datos usando R, a continuación aparecen los códigos fuente para los cuadros generados en este capítulo:

Hay también una gran variedad de libros y tutoriales disponibles.

Gregor Aisch, Open Knowledge Foundation