Manual de Periodismo de Datos 1.0
Cargando

Una investigación de 9 meses sobre Fondos Estructurales Europeos

En 2010, el Financial Times y el Bureau of Investigative Journalism (BIJ) se unieron para investigar los Fondos Estructurales Europeos. La intención era revisar quiénes son los beneficiarios de esos fondos y verificar si el dinero se usó para bien. Con € 347.000 millones a lo largo de 7 años, los Fondos Estructurales son el segundo programa de subsidios de la Unión Europea. El programa existe desde hace décadas, pero fuera de informes generales, había poca transparencia respecto de quiénes eran los beneficiarios. Como parte de un cambio de reglas en la actual ronda de otorgamiento de fondos, las autoridades están obligadas a hacer pública una lista de beneficiarios, incluyendo la descripción de los proyectos y el monto de fondos de la UE y nacionales recibidos.

Figure 2. Investigación de Fondos Estructurales de la UE (Financial Times y el Bureau of Investigative Journalism)

El equipo del proyecto estaba compuesto por 12 periodistas y un programador tiempo completo colaborando por 9 meses. La recolección de los datos por sí sola llevó varios meses.

El proyecto se publicó en 5 días de cobertura en el Financial Times y el BIJ, un documental radial de la BBC y varios documentales de TV.

Antes de abordar un proyecto con este nivel de esfuerzo hay que estar seguro de que lo descubierto es original y que se terminará teniendo buenas historias que nadie más tiene.

El proceso se dividió en una serie de pasos diferentes.

1. Identificar quién registra los datos y cómo

El Directorio General de las Regiones de la Comisión Europea tiene un portal de los sitios de autoridades regionales que publican los datos. Creíamos que la Comisión tendría una base de datos general de proyectos a la que podríamos acceder directamente o que podríamos obtener a través de un pedido de acceso a la información. No existe tal base de datos con el nivel de definición requerido. Rápidamente advertimos que muchos de los vínculos provistos por la comisión eran erróneas y que la mayoría de las autoridades publicaban los datos en formato PDF, en vez de formatos que faciliten el análisis tales como CSV o XML.

Un equipo de 12 personas trabajó para identificar los datos más actualizadas y ordenar los vínculos reuniéndolos en una planilla de cálculo que usamos para colaboración. Dado que los campos de datos no eran uniformes (por ejemplo, los encabezados estaban en distintos idiomas, algunos conjuntos de datos usaban diferentes divisas, y algunos incluían descomposición en fondos de UE y nacionales) tuvimos que ser lo más precisos posible en la traducción y [line-through]*la*descripción de los campos de datos disponibles en cada conjunto.

2. Descargar y preparar los datos

El siguiente paso consistió en descargar todas las planillas de cálculo, PDF y, en algunos casos, recopilar datos originales en la red.

Cada conjunto de datos tuvo que ser estandarizado. Nuestra mayor tarea fue extraer datos de cientos de páginas en formato .PDF. Gran parte de esto se hizo utilizando UnPDF y ABBYY FineReader, que permiten extraer datos a formatos tales como CSV o Excel.

También significó verificar y volver a verificar que las herramientas de extracción de PDF hubiesen captado los datos correctamente. Esto se hizo filtrando, ordenando y sumando totales (para asegurarnos que se correspondieran con lo publicado en los PDF).

3. Crear una base de datos

El programador del equipo creó una base de datos SQL. Cada uno de los archivos preparados fue utilizado entonces como unidad para la construcción de la base de datos SQL general. Con un proceso diario se cargaba todos los archivos individuales de datos en una gran base de datos SQL, en la que se podían realizar búsquedas en cualquier momento a través de su interfaz con palabras claves.

4. Doble verificación y análisis

El equipo analizó los datos de 2 maneras principales:

Vía la interfaz de la base de datos

Esto significó tipear palabras claves de interés (por ejemplo, “tabaco”, “hotel”, “compañía A” en el motor de búsquedas. Con la ayuda de Google Translate, que fue incorporado a la funcionalidad de búsquedas de nuestra base de datos, esas palabras claves se traducían a 21 idiomas, obteniendo los resultados apropiados. Estos se podían descargar y los periodistas podían continuar su investigación en proyectos individuales de su interés.

Por macro-análisis usando toda la base de datos

Ocasionalmente descargábamos un conjunto de datos completo, que entonces podía ser analizado (por ejemplo, usando palabras clave o agregando datos por país, región, tipo de gasto, número de proyectos por beneficiarios, etc.)

Nuestras historias se conformaron con ambos métodos, pero también a través de investigación de campo y de escritorio.

Hacer la doble verificación de la integridad de los datos (agregando y verificando en comparación con lo que las autoridades dijeron que fue asignado) llevó una gran cantidad de tiempo. Uno de los principales problemas fue que las autoridades mayormente solo divulgaban la cantidad de “fondos de la UE y nacionales”. Bajo las reglas de la UE, cada programa puede cubrir un porcentaje del costo total usando fondos de la UE. El nivel de financiación por la UE es determinado, al nivel del programa, por la llamada tasa de co-financiación. Cada programa (por ejemplo, competitividad regional) está compuesto de numerosos proyectos. Al nivel de los proyectos, técnicamente, uno podría recibir ciento por ciento de financiación de la UE y otro nada, mientras el monto total de la financiación por la UE al nivel de los programas no superara la tasa de co-financiación aprobada.

Esto significó que tuvimos que verificar con cada compañía beneficiaria el monto de financiación de la UE que citamos en nuestras historias.

Cynthia O’Murchu, Financial Times