Manual de Periodismo de Datos 1.0
Cargando

Pasos básicos para trabajar con datos

Hay al menos 3 conceptos clave que tiene que entender cuando comience un proyecto de datos:

  • Los pedidos de datos deben comenzar con una lista de preguntas que quiere contestar

  • Los datos a menudo vienen sucios y hay que limpiarlos

  • Los datos pueden tener aspectos sin documentar

Figure 2. Datos desordenados

Sepa para qué preguntas quiere respuestas

En muchos sentidos, trabajar con datos es como entrevistar una fuente en vivo. Usted le hace preguntas a los datos y logra que revelen las respuestas. Pero así como una fuente solo puede dar respuestas respecto de las cuales tiene información, un conjunto de datos solo puede responder preguntas para las que tiene los registros adecuados y las variables correspondientes. Esto significa que usted debe considerar cuidadosamente qué preguntas quiere responder antes de obtener datos. Básicamente se trabaja hacia atrás. Primero, la lista de afirmaciones basadas en datos que quieres presentar en su historia. Luego decida qué variables y evidencias tendrá que obtener y analizar para hacer esas afirmaciones.

Considere un ejemplo que tiene que ver con los informes de crímenes locales. Digamos que quiere escribir una historia que analice los patrones del crimen en su ciudad, y las cosas que quiere decir tienen que ver con la hora del día y los días de la semana en los que es más común que se den ciertos tipos de crímenes, así como en qué zonas de la ciudad se concentran varias categorías de crímenes.

Tendría que advertir que su pedido de datos tiene que incluir la fecha y el momento en que cada crimen fue informado, el tipo de crimen (asesinato, robo, asalto, etc.), así como la dirección de donde se dio el crimen. De modo que fecha, hora, categoría de crimen y dirección son las variables mínimas que necesita para responder a esas preguntas.

Pero sea consciente de que hay una cantidad de preguntas potencialmente interesantes que este conjunto de datos de 4 variables no puede responder, como la raza y el género de las víctimas, o el valor total de la propiedad robada, o qué agentes son más productivos en cuanto a lograr arrestos. Además quizás solo pueda conseguir los registros de cierto período, como los últimos 3 años, lo que quiere decir que no podría saber si los patrones del crimen han cambiado respecto de un período más prolongado. Esas preguntas pueden quedar por fuera del plan de su historia, y eso no es problema. Pero usted no querrá meterse en su análisis de los datos y de pronto advertir que necesita saber qué porcentaje de los crímenes en distintas zonas de la ciudad son resueltos con arrestos.

Una lección aquí es que a menudo es buena idea pedir todas las variables y registros en la base de datos, en vez del subconjunto que respondería a las preguntas para la historia inmediata. (de hecho, obtener todos los datos puede ser más barato que obtener un subconjunto, si tiene que pagar a la agencia por la programación necesaria para producir el subconjunto.) Siempre puede armar el subconjunto de datos por su cuenta y tener acceso al conjunto de datos completo le permitirá responder nuevas preguntas que pueden surgir durante su trabajo e incluso producir nuevas ideas para la continuación de la historia. Puede ser que las leyes de confidencialidad u otras políticas signifiquen que algunas variables, tales como las identidades de las víctimas o los nombres de informantes confidenciales, no puedan difundirse. Pero incluso una base de datos parcial es mejor que nada, siempre que usted entienda qué preguntas puede o no contestar la base de datos.

Limpiar datos no normalizados

Uno de los mayores problemas en el trabajo con bases de datos es que a menudo usará datos para análisis que han sido recogidos por motivos burocráticos. El problema es que el nivel exigido de precisión es bastante diferente.

Por ejemplo, una función clave de un sistema de bases de datos para la justicia penal es asegurarse que el acusado Jones sea traído de la cárcel al juzgado para estar frente la juez Smith en el momento de su audiencia. Para ese propósito no importa mucho si la fecha de nacimiento de Jones es incorrecta, o que esté mal escrito el nombre de la calle en la que vive o siquiera si la inicial de su segundo nombre sea equivocada. En general el sistema aún puede usar este registro imperfecto para llevar a Jones al juzgado de Smith a la hora indicada.

Pero tales errores pueden complicar los esfuerzos del periodista por descubrir patrones en la base de datos. Por ese motivo, la primera gran tarea que debe encarar cuando obtiene un nuevo conjunto de datos es examinar hasta donde tiene problemas y solucionarlos. Una manera rápida de buscar datos no normalizados es crear tablas de frecuencias de las variables por categoría, las que uno esperaría que tengan un número relativamente pequeño de valores diferentes. (Cuando use Excel, por ejemplo, usted puede usar Filtros o Tablas Dinámicas para cada variable categórica.)

Tomemos por caso “género”, un ejemplo simple. Usted puede descubrir que el campo de Género incluye cualquier mezcla de valores como estos: Masculino, Femenino, M, F, 1, 0, MASCULINO, FEMENINO, etc., incluyendo errores de escritura como “Femeno”. Para hacer un análisis de género adecuado debe estandarizar – quizás se decida por M y F- y luego cambiar todas las variaciones para que coincidan con los estándares. Otra base de datos común con este tipo de problemas es la de los registros financieros de campañas electorales de Estados Unidos, donde en el campo de Ocupación puede dar las distintas variantes de abogado en inglés (Lawyer, Attorney, Atty, Counsel, Trial lawyer y muchas otras) además de los errores de escritura; nuevamente el truco es estandarizar los títulos de ocupación en una lista de posibilidades más corta.

La limpieza de los datos se vuelve aún más problemática cuando se trabaja con nombres. ¿“Joseph T. Smith”, “Joseph Smith”, “J.T. Smith”, “Jos. Smith” y “Joe Smith” son todos la misma persona? Quizás haya que mirar otras variables como dirección o fecha de nacimiento, o hacer una investigación aún más profunda en otros registros, para decidir. Pero herramientas como Google Refine pueden hacer que la limpieza y estandarización sean más rápidas y menos tediosas.

Datos sucios

Gracias a las leyes de registro público por lo general fuertes en Estados Unidos, obtener datos aquí no es un problema tan grande como en muchos otros países. Pero una vez que los tenemos, aún quedan los problemas de trabajar con datos que han sido recogidos por motivos burocráticos y no con propósitos analíticos. Los datos a menudo vienen “sucios”, con valores que no están estandarizados. Varias veces he recibido datos que no se corresponden con el supuesto diagrama del archivo y el diccionario de datos que los acompañan. Algunas entidades insistirán en darle los datos en formatos poco útiles como .PDF, que tienen que ser convertidos. Problemas como estos hacen que uno lo aprecie cuando ocasionalmente recibe un conjunto de datos sin complicaciones.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Los datos pueden tener aspectos no documentados

La Piedra de Roseta de cualquier base de datos es el llamado diccionario de datos. Comúnmente, este archivo (puede ser texto PDF o incluso una hoja de cálculo) le dirá cómo está formateado el archivo de los datos (texto delimitado, texto de ancho fijo, Excel, dBase, etc.), el orden de las variables, los nombres de cada variable y el tipo de datos de cada variable (hilo de texto, entero, decimal, etc.). Usted usará esta información para que lo ayude a importar adecuadamente el archivo de datos al software de análisis que piensa usar (Excel, Access, SPSS, Fusion Tables, distintas variantes de SQL, etc.)

El otro elemento clave de un diccionario de datos es una explicación de los códigos que puedan usar variables particulares. Por ejemplo, género puede estar codificado de tal modo que “1=Masculino” y “0=Femenino”. Los crímenes pueden estar codificados de acuerdo a los números estatutarios de su jurisdicción para cada tipo de crimen. Los registros de tratamientos hospitalarios pueden usar cualquiera de los cientos de códigos de 5 dígitos existentes para el diagnóstico de las enfermedades por las que está tratando a un paciente. Sin el diccionario de datos, estos conjuntos de datos serían difíciles o incluso imposibles de analizar adecuadamente.

Pero incluso contando con un diccionario de datos puede haber problemas. Un ejemplo de tales problemas es lo que le sucedió a periodistas del Miami Herald en Florida hace algunos años, cuando estaban haciendo el análisis de los variados castigos que distintos jueces estaban imponiendo a gente arrestada por manejar ebria e intoxicada. Los periodistas obtuvieron los registros de condenas del sistema judicial y analizaron las cifras con las 3 variables distintas de castigos en el diccionario de datos: cantidad de tiempo en prisión, cantidad de tiempo detenido y cantidad de multa. Las cifras variaban bastante entre los jueces, dando a los periodistas evidencias para una historia acerca de que algunos jueces eran duros y otros más permisivos.

Pero para todos los jueces, en alrededor del 1-2 por ciento de los casos no había tiempo de prisión, ni de detención, ni multa. Por lo que el cuadro que mostraba los patrones de condenas de cada juez incluía una cantidad pequeña de casos como “Sin castigo”, casi como una nota al margen. Cuando la historia y el cuadro se publicaron, los jueces aullaron de indignación, diciendo que el Herald los acusaba de violar una ley estatal que exige que cualquiera condenado por manejar borracho sufra castigo.

Por lo que los periodistas volvieron a la oficina del empleado de la corte que les había dado el archivo de datos y le preguntaron qué era lo que había causado el error. Se les dijo que los casos en cuestión involucraban a acusados indigentes que eran arrestados por primera vez. Normalmente se les hubiera impuesto una multa pero no tenían dinero. Por lo que los jueces los condenaban a servicios comunitarios, tales como limpiar la basura en los caminos. Resultó que la ley que requería el castigo había sido aprobada después de que fuera creada la estructura de la base de datos. Por lo que los empleados de la corte sabían que en los datos los ceros en las 3 variables de prisión-detención-multa significaban servicio comunitario. Sin embargo, esto no aparecía en el diccionario de datos y por tanto el Herald tuvo que publicar la correspondiente rectificación.

La lección en este caso es que siempre hay que preguntar al ente que le da los datos si hay elementos no documentados de los mismos, lo que podría significar códigos nuevos que no están incluidos en el diccionario de datos, cambios en el ordenamiento del archivo, o cualquier otra cosa. Además examine siempre los resultados de su análisis y pregúntese: “¿Esto tiene sentido?” Los periodistas del Herald estaban armando el cuadro apurados por el plazo de entrega y estaban tan concentrados en los niveles de castigo promedio de cada juez, que no prestaron atención a los pocos casos que parecían no tener castigo. Debieron haberse preguntado si tenía sentido que todos los jueces aparentemente estuvieran violando la ley estatal, aunque más no fuera en mínima medida.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Datos mezclados, ocultos y faltantes

Recuerdo una situación graciosa en la que tratamos de acceder a los datos de Hungría sobre subsidios agropecuarios de la UE: estaban todos allí, pero en un documento PDF excesivamente pesado y mezclado con datos sobre subsidios agropecuarios nacionales. Nuestros programadores tuvieron que trabajar horas antes de que los datos pudieran ser utilizados.

También tuvimos una experiencia bastante interesante con datos sobre subsidios de pesca de la UE, que los entes nacionales encargados de los pagos de los 27 estados miembros están obligados a dar a conocer. Esto está tomado de un informe que escribimos sobre el tema: “En el Reino Unido, por ejemplo, el formato de los datos varía de páginas de búsqueda HTML muy fáciles de usar hasta resúmenes en PDF o incluso listas de receptores en formatos variados disimulados al final de declaraciones de prensa. Todo esto de un solo estado miembro. Mientras tanto, en Alemania y Bulgaria se publican listas vacías. Tienen los encabezados apropiados, pero sin datos”.

Brigitte Alfter, Journalismfund.eu