Manual de Periodismo de Datos 1.0
Cargando

El detrás de escena del Datablog de The Guardian

Cuando lanzamos el Datablog, no teníamos idea a quién podrían interesarle los datos en crudo, las estadísticas y visualizaciones. Como dijo un jefe en mi oficina: “¿Por qué alguien querría eso?”.

El Datablog, que yo edito, debía ser un pequeño blog que ofreciera los conjuntos de datos completos que respaldan nuestras historias periodísticas. Ahora consiste en una primera página; búsquedas de datos de gobiernos y desarrollo global; visualizaciones de datos realizadas por artistas gráficos de The Guardian y de toda la red, y herramientas para explorar datos de gasto público. Todos los días usamos planillas de cálculos de Google para compartir los datos completos que respaldan nuestro trabajo; visualizamos y analizamos esos datos y luego los usamos para proveer historias para el diario y el sitio.

Como editor de noticias y periodista trabajando con gráficos, era una extensión lógica del trabajo que ya venía haciendo, acumulando nuevos conjuntos de datos y batallando con ellos para tratar de encontrar sentido a las historias de noticias del día.

La pregunta que me hicieron fue respondida. Han sido unos años increíbles para los datos públicos. Obama abrió los archivos de datos del gobierno de EE.UU. como primer acto legislativo, y su ejemplo pronto fue seguido por sitios de datos gubernamentales en todo el mundo: Australia, Nueva Zelanda y el sitio del gobierno británico, Data.gov.uk.

Hemos tenido el escándalo de los gastos de los parlamentarios, la pieza más inesperada de periodismo de datos de Gran Bretaña, con el resultado de que Westminster ahora está comprometido a difundir cantidades inmensas de datos todos los años.

Tuvimos una elección general en la que cada uno de los partidos políticos más importantes se comprometió a la transparencia de datos, abriendo nuestros propios archivos de datos al mundo. Los diarios han dedicado valioso centimetraje a la apertura de la base de datos COINS del Tesoro.

Al mismo tiempo, a media que la red produce más y más datos, los lectores de todo el mundo están más interesados que nunca en los datos en crudo detrás de las noticias. Cuando lanzamos el Datablog, creíamos que el público serían programadores buscando crear aplicaciones. De hecho es gente que quiere saber más sobre las emisiones de carbono, inmigración de Europa oriental, el desglose de las muertes en Afganistán, o incluso la cantidad de veces que los Beatles usaron la palabra “amor” en sus canciones (613).

Figure 5. Visualización del proceso de producción de The Guardian Datablog (The Guardian)

Gradualmente el trabajo del Datablog ha reflejado y enriquecido las historias a las que nos enfrentamos. Recurrimos a la opinión del público sobre 458.000 documentos relacionados con los gastos de los parlamentarios y analizamos los datos detallados de lo que sostuvieron los parlamentarios. Ayudamos a nuestros usuarios a explorar bases de datos de gastos detalladas del Tesoro y publicamos los datos detrás de las noticias.

Pero el evento que cambió el juego para el periodismo de datos se dio en la primavera de 2010, comenzando por una hoja de cálculo: 92.201 filas de datos, cada una conteniendo un desglose detallado de un evento militar en Afganistán. Estos fueron los registros de guerra de WikiLeaks. Es decir, la primera parte. Seguirían dos episodios más: Irak y los cables. El término oficial para las primeras dos partes fue SIGACTS: La Base de Datos de Acciones Significativas de las fuerzas armadas de Estados Unidos.

Las organizaciones de noticias dependen mucho de la ubicación y la proximidad con la mesa de noticias. Si uno está cerca, es fácil sugerir historias y ser parte del proceso: inversamente, no estar cerca es literalmente ser ignorado. Antes de WikiLeaks estábamos en un piso diferente, junto con el equipo de Gráficos. Desde WikiLeaks estamos en el mismo piso, junto a la mesa de noticias. Significa que es más fácil para nosotros sugerir ideas a la mesa de noticias, y para los periodistas al otro lado de la redacción pensar en nosotros para que los ayudemos con historias.

No hace mucho los periodistas eran quienes controlaban el acceso a los datos oficiales. Escribíamos historias sobre las cifras y se las transmitíamos a un público agradecido que no estaba interesado en las estadísticas en bruto. La idea de incorporar información en crudo a nuestros diarios era anatema.

Ahora la dinámica ha cambiado hasta el punto de resultar irreconocible. Nuestro rol se está convirtiendo en el de intérpretes; ayudar a la gente a comprender los datos e incluso publicarlos porque son interesantes por sí mismos.

Pero las cifras sin análisis son sólo números, que es donde encajamos nosotros. Cuando el primer ministro de Gran Bretaña sostuvo que los desmanes de agosto de 2011 no tuvieron nada que ver con la pobreza, pudimos cruzar el lugar de residencia de los que hicieron los desmanes con los indicadores de pobreza para mostrar la verdad.

Detrás de todas nuestras historias de periodismo de datos hay un proceso. Está cambiando permanentemente, a medida que vamos usando nuevas herramientas y técnicas. Alguna gente dice que la respuesta es convertirse en una especie de súper hacker, escribir programas y sumergirse en SQL. Uno puede tener esa postura. Pero gran parte del trabajo que hacemos es con Excel.

Primero ubicamos los datos o los recibimos de una variedad de fuentes, de historias de noticias nuevas, datos oficiales, investigaciones de periodistas y así en más. Entonces comenzamos a ver qué podemos hacer con los datos; ¿necesitamos combinarlos con otro conjunto de datos? ¿Cómo podemos mostrar cambios a lo largo del tiempo? Esas planillas de cálculo a menudo tienen que ser muy depuradas, porque todas esas columnas extrañas y celdas fusionadas de modos raros no ayudan a comprender la información. Y eso suponiendo que no es un PDF, el peor formato de datos conocido por la humanidad.

A menudo los datos oficiales vienen con códigos oficiales agregados; cada escuela, hospital, sector, y municipalidad tiene un código de identificación.

Los países también los tienen (el código del Reino Unido por ejemplo es GB). Son útiles porque uno podría querer cruzar conjuntos de datos, y es sorprendente la cantidad de formas de escribir las cosas y arreglos de palabras que pueden trabar eso. Está Birmania y Myanmar, por ejemplo, o Fayette County en Estados Unidos (hay 11 de ellas en estados que van de Georgia a Virginia Occidental). Los códigos nos permiten comparar las cosas comparables.

Al final del proceso está el producto: ¿será una historia o un gráfico o una visualización y qué herramientas usaremos? Nuestras principales herramientas son las gratuitas con las que podemos producir algo rápidamente. Los gráficos más sofisticados son producidos por nuestro equipo de desarrollo.

Esto significa que comúnmente usamos los Google Charts para pequeños gráficos y tortas lineales, o Google Fusion Tables para crear mapas de modo rápido y fácil.

Puede parecer algo nuevo pero no lo es.

En la primera edición del Manchester Guardian (el sábado 5 de mayo de 1821), las noticias estaban en la página trasera, como en todos los diarios de aquellos tiempos. El primer ítem en la primera plana era un aviso de un perro labrador perdido.

Entre las historias y las citas de poemas, un tercio de la contratapa está ocupado con datos. Una tabla completa de los costos de escuelas en la zona nunca antes “presentados al público”, escribe “NH”.

NH quería que se publicaran sus datos porque de otro modo eclesiásticos sin formación informarían sobre los mismos. Su motivación era que “la información que contiene es valiosa; porque si no se sabe en qué medida se extiende la educación… las opiniones que puedan formarse sobre la condición y el progreso futuro de la sociedad serán necesariamente incorrectas”. Dicho de otro modo, si la gente no sabe lo que pasa, ¿cómo puede mejorar la sociedad?

No se me ocurre mejor justificación de lo que estamos tratando de hacer ahora. Lo que hace un tiempo era una historia para la última página, ahora puede estar en primera plana.

Simon Rogers, the Guardian