Manual de Periodismo de Datos 1.0
Cargando

Datos en las noticias: WikiLeaks

Comenzó con uno de los integrantes del equipo de periodismo investigativo preguntando: “¿Ustedes son buenos con las planillas de cálculo verdad?” Y esta era una enorme planilla de cálculo: 92.201 filas de datos, cada una conteniendo un análisis de un evento militar en Afganistán. Estos fueron los registros de la guerra de WikiLeaks. En realidad, la primera parte. Siguieron 2 episodios más: Irak y los cables. El término oficial fue SIGACTS: la base de datos de Acciones Significativas de las Fuerzas Armadas de Estados Unidos.

Los registros de guerra de Afganistán –compartidos con The New York Times y Der Spiegel- fueron periodismo de datos en acción. Lo que queríamos hacer era permitir a nuestro equipo de periodistas especializados obtener grandes historias humanas a partir de la información y queríamos analizarlos para tener el cuadro general, mostrar cómo iba la guerra realmente.

Desde el comienzo fue central para lo que íbamos a hacer saber que no publicaríamos toda la base de datos. WikiLeaks ya iba a hacer eso y queríamos estar seguros de no revelar los nombres de los informantes, o poner en peligro innecesariamente tropas de la OTAN. Al mismo tiempo, teníamos que hacer más fácil el uso de los datos para nuestro equipo de periodistas investigadores encabezados por David Leigh y Nick Davies (que habían negociado la difusión de los datos con Julian Assange). También queríamos simplificar el acceso a información clave en el mundo real, haciéndola tan clara y abierta como pudiéramos.

Los datos llegaron a nosotros como un inmenso archivo Excel, más de 92.201 filas de datos, algunas conteniendo nada o mal formateadas. No le servía a los periodistas que trataban de buscar historias y era demasiado grande como para hacer informes significativos.

Nuestro equipo creó una base de datos interna simple usando SQL. Los periodistas podían a partir de allí buscar por medio de palabras clave o eventos. De pronto el conjunto de datos se volvió accesible y generar historias se hizo más fácil.

Los datos estaban bien estructurados: cada evento tenía los siguientes datos claves: hora, día, descripción, cifras de bajas y, crucialmente, latitud y longitud detalladas.

También comenzamos a filtrar los datos para ayudarnos a contar una de las historias claves de la guerra: el aumento de los ataques con DEI (dispositivos explosivos improvisados), bombas caseras al costado del camino que son impredecibles y difíciles de combatir. Este conjunto de datos seguía siendo enorme pero más fácil de manejar. Hubo alrededor de 7500 explosiones o emboscadas con DEI (una emboscada es donde el ataque se combina, por ejemplo, con fuego de armas pequeñas o de misiles con granadas) entre 2004 y 2009. Hubo otros 8000 DEI descubiertos y desactivados. Queríamos ver cómo cambiaban con el tiempo y hacer comparaciones. Estos datos nos permitieron ver que el sur, donde estaban las tropas británicas y canadienses, era la zona más golpeada, lo que confirmaba lo que sabían nuestros corresponsales que habían cubierto la guerra.

La difusión de los registros de la guerra de Irak en octubre de 2010 descargó otros 391.000 registros de la guerra de Irak en la escena pública.

Esto estaba en una categoría diferente de la filtración sobre Afganistán; se puede decir que [line-through]*esto*convirtió a esta en la guerra más documentada de la historia. Ahora contábamos con cada detalle menor para analizarlo y desglosarlo. Pero se destaca un factor: el volumen de las muertes, la mayoría de las cuales eran de civiles.

Tal como en el caso de Afganistán, The Guardian decidió no volver a publicar la base de datos completa, en gran medida porque no podíamos estar seguros de que el conjunto no contuviera detalles confidenciales de informantes y demás.

Figure 14. Los registros de guerra de The WikiLeaks (The Guardian)

Pero sí permitimos a nuestros usuarios descargar una planilla de cálculo que contenía los registros de cada incidente en el que alguien murió, casi 60.000 en total. Eliminamos el sumario por lo que solo estaban los datos básicos: el encabezado militar, la cantidad de muertes y la ubicación geográfica.

También tomamos todos estos incidentes en los que murió alguien y los pusimos en un mapa usando Google Fusion Tables. No era perfecto, pero sí un comienzo para tratar de mapear los patrones de destrucción que habían devastado Irak.

Los cables se difundieron en diciembre de 2010. Esto entraba en otra liga, un inmenso conjunto de datos de documentos oficiales: 251.287 despachos, de más de 250 embajadas y consulados estadounidenses. Es un cuadro único de lenguaje diplomático de EE.UU., incluyendo más de 50.000 documentos que cubren la actual administración Obama. ¿Qué incluían los datos?

Los cables mismos vinieron vía el inmenso Secret Internet Protocol Router Network (Red de Ruteo del Protocolo Secreto de Internet), conocido por la sigla SIPRNet. Es el sistema de Internet mundial militar de Estados Unidos, que se mantiene separado de la Internet civil común y es dirigida por el departamento de Defensa en Washington. Desde los ataques de septiembre de 2001 había habido una iniciativa en Estados Unidos de vincular archivos de información gubernamental, con la esperanza de que datos claves de inteligencia ya no quedaran atrapados en compartimentos estancos o presentados fuera de contexto. Un número creciente de embajadas de EE.UU. han sido conectados a SIPRNet en la última década, de modo que pueda compartirse la información militar y diplomática. Para 2001, había 125 embajadas en SIPRNet; para 2005 la cifra había crecido a 180 y a esta altura la gran mayoría de las misiones de EE.UU. en el mundo entero están vinculadas con el sistema, que es el motivo por el que grueso de estos cables son de 2008 y 2009. Como escribió David Leigh:

Un despacho de embajada marcado como SIPDIS es descargado automáticamente al sitio clasificado de la embajada. Allí no solo puede verlo cualquiera en el departamento de Estado, sino cualquiera de las fuerzas armadas de EE.UU. que tenga acceso de seguridad de nivel “Secreto”, una clave, y una computadora conectada a SIPRNet.

  1. lo que asombrosamente abarca a 3.000.000 de personas. Hay varias capas de datos aquí; llegando hasta la clasificación de SECRET NOFORN, que significa que no podrán mostrarse jamás a quienes no sean ciudadanos estadounidenses. En cambio se supone que son para que los lean funcionarios en Washington hasta el nivel de la secretaria de Estado, Hillary Clinton. Los cables normalmente son redactados por el embajador local o subordinados. No se puede acceder a los documentos de “Secreto Máximo” y por encima de documento de inteligencia extranjera desde SIPRNet.

A diferencia de las anteriores entregas, esta era predominantemente de texto, no cuantificada ni con datos idénticos. Esto es lo que incluía:

Una fuente

La embajada o el ente que envió los datos

Una lista de receptores

Normalmente los cables eran enviados a una cantidad de embajadas y entes.

Un campo de tema

Una síntesis del cable.

Etiquetas

Cada cable estaba etiquetado con una cantidad de abreviaturas claves.

Cuerpo del texto

El cable mismo. Optamos por no publicar estos completos por razones obvias.

Un detalle interesante de esta historia es cómo los cables casi crearon filtraciones a demanda. Durante semanas ocuparon el centro de las noticias al ser publicada; ahora, cada vez que aparece una historia acerca de algún régimen corrupto o un escándalo internacional, el acceso a los cables nos da nuevas historias.

El análisis de los cables es una tarea enorme que quizás nunca se termine por completo.

Esta es una versión editdada de un capítulo publicado en Facts are Sacred: The Power of Data de Simon Rogers, the Guardian (published on Kindle)