Manual de Periodismo de Datos 1.0
Cargando

Los periodistas de datos debaten sobre sus herramientas preferidas

Sssssss. Es el sonido de sus datos descomprimiéndose al abrirse su envoltorio al vacío. ¿Y ahora qué? ¿Qué busca? ¿Y qué herramientas usa? Pedimos a periodistas de datos que nos contaran un poco de cómo trabajan con datos. Esto es lo que nos dijeron:

En el Datablog de The Guardian nos gusta interactuar con nuestros lectores y permitirles replicar nuestro periodismo de datos rápidamente significa que pueden desarrollar el trabajo que hacemos y a veces ver cosas que se nos pasaron. Por lo que cuanto más intuitivas son las herramientas de datos mejor. Tratamos de elegir herramientas que cualquiera pueda manejar sin tener que aprender un lenguaje de programación o que requieran fuerte capacitación a un costo elevado.

Por este motivo actualmente usamos mucho productos de Google. Todos los conjuntos de datos que ordenamos y difundimos aparecen como Google Fusion Tables, lo que significa que gente que tenga una cuenta de Google puede descargar los datos, importarlos a su propia cuenta y hacer sus propios cuadros, ordenar los datos y crear tablas comparativas, o pueden importar los datos a la herramienta que prefieran.

Para mapear los datos usamosa Google Fusion Tables. Cuando creamos mapas de calor en Fusion, compartimos nuestros archivos KML de modo que los lectores puedan descargar y crear sus propios mapas de calor –quizás agregando más capas de datos al mapa original del Datablog. El otro aspecto positivo de estas herramientas de Google es que funcionan con las muchas plataformas que usan nuestros lectores para acceder al blog, incluyendo PC, celulares y tabletas.

Además de las de Google Spreadsheets y Google Fusion Tables, usamos otras dos herramientas en nuestro trabajo cotidiano. La primera es Tableau, para visualizar conjuntos de datos multidimensionales; y la segunda es ManyEyes, para un análisis rápido de datos. Ninguna de estas herramientas es perfecta, por lo que seguimos buscando mejores herramientas de visualización que nuestros lectores puedan disfrutar.

The Guardian
— Lisa Evans

¿Llegaré a ser programador alguna vez? ¡Es muy improbable! Por cierto que no creo que todos los periodistas tengan que saber programar. Pero sí creo que es muy valioso que todos tengan una conciencia general de qué cosas son posibles y cómo hablar con programadores.

Si está recién comenzando, camine, no corra. Tiene que persuadir a sus colegas y editores que trabajar con datos le puede permitir conseguir historias que de otro modo no tendría y que valen la pena. Cuando adviertan el valor de este enfoque, puede comenzar a hacer historias y proyectos más complejos.

Mi consejo es aprender Excel y hacer algunas historias simples primero. Comience por cosas pequeñas y vaya recorriendo el camino hasta el análisis y mapeo de bases de datos. Se puede hacer tanto en Excel; es una herramienta extremadamente poderosa y la mayoría de la gente no usa siquiera una mínima parte de su funcionalidad. Si puede haga un curso de Excel para periodistas, tales como los que ofrece el Centre for Investigative Journalism.

Con respecto a interpretar datos: no lo tome a la ligera. Tiene que ser detallista. Preste atención a los detalles y cuestione sus resultados. Tome notas de cómo procesa los datos y guarde una copia de los datos originales. Es fácil cometer un error. Siempre hago mi análisis 2 o 3 veces prácticamente desde cero. Incluso mejor sería conseguir que su editor u otra persona analice los datos por su cuenta y compare los resultados.

Financial Times
— Cynthia O'Murchu

La capacidad de escribir, instalar y ejecutar software complejo tan rápido como un periodista puede escribir una historia es algo bastante nuevo. Antes llevaba mucho más tiempo. Las cosas cambiaron gracias al desarrollo de bases de desarrollo rápido de código abierto: Django y Ruby on Rails; ambos se conocieron a mediados de la década del 2000.

Django, que está construido sobre el lenguaje de programación Python, fue desarrollado por Adrian Holovaty y un equipo que trabajaba en una redacción, el Lawrence Journal-World en Lawrence, Kansas. Ruby on Rails fue desarrollado en Chicago por David Heinemeier Hansson y 37Signals, una compañía de aplicaciones para la red.

Si bien estas plataformas tienen enfoques diferentes del “patrón MVC”, ambas son excelentes y hacen posible crear aplicaciones para la red rápidamente, incluso muy complejas. Eliminan parte del trabajo rudimentario en la creación de una aplicación. Cosas como crear y buscar ítems de la base de datos, y hacer corresponder URL con códigos específicos en una aplicación, están incorporados a esas plataformas, por lo que los diseñadores no necesitan escribir programas o hacer cosas básicas como esas.

El desarrollo de servicios de provisión de espacio en servidores rápidos de la red como los Amazon Web Services eliminaron parte de lo que hacía del lanzamiento de una aplicación un proceso lento.

Aparte de eso, usamos herramientas bastante estándar para el trabajo con datos: Google Refine y Microsoft Excel para limpiar los datos; SPSS y R para hacer estadísticas; ArcGIS y QGIS para hacer GIS; Git para el manejo de códigos fuente; TextMate, Vim y Sublime Text para escribir código; y una mezcla de MySql, PostgreSQL y SQL Server para bases de datos. Creamos nuestra propia plataforma de JavaScript llamada “Glass” que nos ayuda a crear aplicaciones para usuarios pesadas en JavaScript muy rápidamente.

ProPublica
— Scott Klein

A veces la mejor herramienta es la más simple, es fácil subestimar el poder de una planilla de cálculo. Pero usar una planilla de cálculo en los tiempos en que todo funcionaba con DOS me permitió entender una fórmula compleja del acuerdo de asociación de los dueños de los Texas Rangers, cuando George W. Bush era uno de los propietarios claves. Una planilla de cálculo me permite descubrir datos importantes o errores en cálculos. Puedo escribir líneas de código en algún lenguaje de programación (script) para limpieza, normalización y más. Es un elemento básico del set de herramientas del periodista de datos.

Dicho eso, mis herramientas favoritas son aún más poderosas: SPSS para análisis estadístico y mapear programas que me permiten ver patrones geográficos.

The Seattle Times
— Cheryl Phillips

Soy fanático de Python. Es un lenguaje de programación de código abierto maravilloso que es fácil de leer y escribir (por ejemplo, no hay que escribir un punto y coma después de cada línea). Lo que es más importante, Python tiene una base tremenda de usuarios y por tanto tiene plugins (llamados paquetes) para todo lo que uno necesite.

Considero que Django es algo que los periodistas de datos rara vez necesitan. Es una plataforma basada en Python para aplicaciones en la red, es decir una herramienta para crear aplicaciones grandes en la red con bases de datos. Decididamente es demasiado pesado para infografías interactivas pequeñas.

También uso QGis, que es una herramienta de código abierto con una gran variedad de funciones GIS, que son necesarias para periodistas de datos que de vez en cuanto tienen que manejar datos geográficos. Si necesita convertir datos geo-espaciales de un formato a otro, entonces QGis es lo que necesita. Puede manejar casi cualquier formato de geo-datos que exista (Shapefiles, KML, GeoJSON, etc.). Si necesita recortar unas cuantas regiones, QGis también puede hacerlo. Además hay una inmensa comunidad en torno de QGis, por lo que hay toneladas de recursos como tutoriales en la red.

R fue creada principalmente como herramienta de visualización científica. Es difícil encontrar un método de visualización o técnica de manejo de datos que no esté incorporado a R. R es un universo en sí mismo, la meca del análisis visual de datos. Una contra es que hay que aprender otro lenguaje de programación, ya que R tiene su propio lenguaje. Pero una vez que superó los primeros pasos en la curva de aprendizaje, no hay herramienta más poderosa que R. Los periodistas de datos capacitados pueden usar R para analizar conjuntos de datos inmensos que extienden los limites de Excel (por ejemplo, si tiene una tabla con un millón de filas).

Lo realmente lindo de R es que se puede tener un “protocolo” exacto de lo que está haciendo con los datos durante todo el proceso, desde la lectura de un archivo CSV a generar cuadros. Si los datos cambian puede regenerar el cuadro usando un clic. Si alguien tiene curiosidad respecto de la integridad de su cuadro, puede mostrarle la fuente exacta, lo que permite a cualquiera recrear el mismo cuadro por su cuenta (o quizás encontrar los errores que usted cometió).

NumPy + MatPlotLIb es una manera de hacer lo mismo en Python. Es una opción si ya está capacitado en Python. De hecho, NumPy y MatPlotLIb son dos ejemplos de paquetes de Python. Pueden ser usados para análisis y visualización de datos y los dos se limitan a visualizaciones estáticas. No pueden usarse para crear cuadros interactivos con consejos sobre el manejo de herramientas y cosas más avanzadas.

Yo no uso MapBox, pero supe que es una gran herramienta si se quiere presentar mapas más sofisticados basados en OpenStreetMap. Permite por ejemplo adecuar los estilos del mapa (colores, etiquetas, etc.). También hay un acompañante de MapBox, llamado Leaflet. Es básicamente una biblioteca de JavaScript de más alto nivel para mapear que le permite pasar de un proveedor de mapas a otro fácilmente (OSM, MapBox, Google Maps, Bing, etc.).

RaphaelJS es una biblioteca de visualización más bien de bajo nivel que le permite trabajar con elementos primitivos (como círculos, líneas, texto) y animarlos, agregar interacciones, etc. No contiene nada parecido a un cuadro de barras listo para usar, por lo que usted mismo tiene que dibujar un conjunto de rectángulos.

Sin embargo, lo bueno de Raphael es que todo lo que crea funciona también en Internet Explorer. Eso no sucede con muchas otras bibliotecas de visualización (asombrosas) como D3. Lamentablemente, tantos usuarios siguen usando IE y ninguna redacción puede darse le lujo de ignorar al 30% de sus usuarios.

Además de RaphaelJS, también está la opción de crear una alternativa en Flash para IE. Es básicamente lo que está haciendo el New York Times. Eso significa que tiene que desarrollar cada aplicación dos veces.

Aún no estoy convencido de cuál es el “mejor” proceso para crear visualizaciones para IE y navegadores modernos. A menudo resulta que las aplicaciones creadas con RapahelJS funcionan muy lentas en IE, alrededor de 10 veces más lentas que con Flash usando navegadores modernos. Por lo que las alternativas en Flash pueden ser mejor opción si quiere ofrecer visualizaciones animadas de alta calidad para todos los usuarios.

Open Knowledge Foundation
— Gregor Aisch

Mi herramienta preferida es Excel, que puede manejar la mayoría de los problemas CAR (periodismo asistido por computadoras) y tiene las ventajas de ser fácil de aprender y estar disponible para la mayoría de los periodistas. Cuando necesito fusionar tablas, comúnmente uso Access, pero luego exporto la tabla fusionada de nuevo a Excel para más trabajo. Uso el ArcMap de ESRI para análisis geográficos; es poderoso y es utilizado por las agencias que recopilan datos geo-codificados. TextWrangler es muy bueno para examinar datos de texto con diseños y delimitadores complicados, y puede hacer búsqueda y reemplazo sofisticada con expresiones regulares. Cuando se necesita técnicas estadística, como regresión lineal, uso SPSS; tiene un menú para señalar y cliquear fácil de usar. Para trabajos realmente pesados, como las tareas con conjuntos de datos que tienen millones de registros que necesitan un importante filtrado y transformaciones de variables programadas, uso software SAS.

Walter Cronkite School of Journalism
— Steve Doig

Entre nuestras herramientas preferidas se incluyen Python y Django para hackear, scrapear y jugar con datos; y PostGIS, QGIS y las herramientas de MapBow para crear mapas locos en la red. R y MumPy + MatPlotLib actualmente disputan la supremacía como nuestro equipo de trabajo para análisis de datos exploratorio, aunque últimamente nuestra herramienta de datos preferida es de nuestra propia cosecha: CSVKit. Hacemos casi todo en la nube.

Chicago Tribune
— Brian Boyer

En La Nación usamos:

  • Excel para limpiar, organizar y analizar datos,

  • Google Spreadsheets para edición y conexión con servicios tales como Google Fusion Tables y la Junar Open Data Platform,

  • Junar para compartir nuestros datos e incrustarlos en nuestros artículos y actualizaciones del blog,

  • Tableau Public para nuestras visualizaciones de datos interactivas,

  • Qlikview, una herramienta de inteligencia para empresas muy rápida para analizar y filtrar conjuntos de datos grandes,

  • NitroPDF para convertir PDF a archivos de texto y Excel,

  • Google Fusion Tables para visualizaciones de mapas.

La Nacion (Argentina)
— Angélica Peralta Ramos

Como comunidad de base sin preferencias técnicas, en Transparency Hackers usamos muchas herramientas y lenguajes de programación diferentes. Cada miembro tiene su propio conjunto de preferencias y esta gran variedad es al mismo tiempo nuestro punto fuerte y nuestra debilidad. Algunos estamos construyendo una “Versión de Linux para Hackers de Transparencia”, que podamos iniciar en cualquier parte para hackear datos. Este recurso tiene algunas herramientas y bibliotecas interesantes para manejar datos como Refine, RStudio y OpenOffice Calc (por lo general una herramienta poco usada por la gente que conoce del tema, pero realmente útil para cosas rápidas/pequeñas). También hemos estado usando ScraperWiki mucho para hacer prototipos rápidamente y guardar resultados de datos online.

Hay muchas herramientas que nos gustan para visualizaciones de datos y gráficos. Python y NumPy son bastante poderosas. Alguna gente de la comunidad ha estado jugando con R, pero en definitiva las bibliotecas para ploteado de gráficos, como D3, Flot, y RaphaelJS es lo que se termina usando en la mayoría de nuestros proyectos. Finalmente, hemos estado experimentando mucho con mapeado, y Tilemill ha sido una herramienta muy interesante para este trabajo.

Transparência Hacker
— Pedro Markun