Manual de Periodismo de Datos 1.0
Cargando

Cómo el Datablog usó "crowdsourcing" para cubrir la venta de entradas para las Olimpíadas

Creo que el proyecto de croudsourcing que tuvo la mayor respuesta fue un trabajo sobre la subasta de entradas para las Olimpíadas. Miles de personas en el RU trataron de obtener entradas para la Olimpíada de 2012 y hubo mucha indignación porque la gente no las recibió. La gente había hecho pedidos por cientos de libras y se les dijo que no recibirían nada. Pero nadie sabía si eran solo unas pocas personas las que se quejaban ruidosamente mientras la mayoría estaba contenta. Por lo que intentamos encontrar una manera de saberlo.

Decidimos que lo mejor que podíamos hacer realmente, dado que no había buenos datos sobre el tema, era preguntar a la gente. Y pensamos que tendríamos que tratarlo como un tema no demasiado serio, porque no teníamos una muestra representativa.

Creamos un formulario en Google e hicimos preguntas muy específicas. En realidad era un cuestionario largo: preguntaba cuánto era el valor de las entradas que habían pedido, cuánto habían debitado de sus tarjetas de crédito, qué eventos querían ver, este tipo de cosas.

Figure 13. ¿Cuántas entradas Olímpicas consiguió?: los resultados de los lectores (The Guardian)

Lo pusimos como una pequeña imagen a la cabeza del sitio y se difundió rápidamente. Creo que esta es una de las cosas claves; no se puede solo pensar “¿Qué es lo que quiero saber para mi historia?”. Hay que pensar: “¿Qué me quiere contar la gente ahora?” Y el "crowdsourcing" es exitoso cuando uno descubre de qué quiere hablar la gente. El volumen de respuestas para este proyecto, que es uno de nuestros primeros intentos de "crowdsourcing", fue inmenso. Tuvimos 1.000 respuestas en menos de una hora y 7.000 para el final del día.

Por lo que obviamente, tomamos un poco más seriamente la presentación de los resultados en este momento. Inicialmente no sabíamos cómo nos iba a ir. Por lo que agregamos algunas consideraciones: los lectores del Guardian pueden tener mayores ingresos que otra gente, la gente que recibió menos de lo esperado podía estar más dispuesta a hablar con nosotros, y así siguiendo.

No sabíamos cuánto valor tendrían los resultados. Terminamos con unos 7.000 registros en los cuales basar nuestro trabajo, y descubrimos que alrededor de la mitad de la gente que pidió entradas no recibió nada. Presentamos todo esto y debido a que tanta gente había participado el día anterior, hubo mucho interés en los resultados.

Pocas semanas más tarde salió el informe oficial y nuestras cifras resultaron llamativamente precisas. Eran casi exactas. Creo que en parte fue por una cuestión de suerte, pero también porque logramos que respondiera tanta gente.

Si uno le pregunta a sus lectores sobre algo así y contestan en los comentarios de la nota, estará limitado en lo que puede hacer con los resultados. De modo que tiene que empezar por pensar: “¿Cuál es la mejor herramienta para lo que quiero saber?” ¿Es un hilo de comentarios? ¿O tengo que crear una aplicación? Y si es crear una aplicación, hay que pensar: “¿Vale la pena la espera? ¿Y se justifican los recursos requeridos para hacer esto?”

En este caso pensamos en los Formularios Google. Si alguien llena el formulario el resultado aparece como una fila en una hoja de cálculo. Esto significa que aunque aún si se estuviera actualizando, aún si siguieran entrando resultados, se podría abrir la hoja de cálculo y ver todos los resultados.

Pude haber tratado de hacer el trabajo en Google, pero lo descargué a Microsoft Excel y luego ordené la información de menor a mayor; también encontré las entradas en las que la gente para decir lo que gastó, había escrito los números como palabras (en vez de colocar los dígitos), y arreglé eso. Decidí excluir lo menos posible. De modo que en vez de solo aceptar las respuestas válidas, traté de arreglar lo que tenía. Algunos habían usado divisas extranjeras, así que las convertí a libras, todo lo cual fue un poco trabajoso.

Pero hice todo el análisis en pocas horas y eliminé las entradas obviamente tontas. Mucha gente decidió decir que no había gastado nada en entradas. Eso es un poco gracioso, pero está bien. Eran menos de cien en más de 7.000 entradas.

También hubo unas pocas docenas de personas que ingresaron cifras demasiado elevadas para tratar de distorsionar los resultados. Cosas como 10.000.000 de libras. Por lo que eso me dejó con un conjunto de datos que podía usar con los principios normales que usamos todos los días. Hice lo que se llama una “tabla dinámica” (pivot table). Hice algunos porcentajes. Ese tipo de cosas.

No teníamos idea del impacto que tendría el proyecto, de modo que trabajé yo solo con el editor del blog de deportes. Juntamos cabezas y pensamos que este podía ser un proyecto divertido. Lo hicimos, de comienzo a fin, en 24 horas. Tuvimos la idea, a la hora del almuerzo armamos algo, lo pusimos a la cabeza del sitio, vimos que resultaba bastante popular, lo dejamos a la cabeza del sitio el resto del día y presentamos los resultados online a la mañana siguiente.

Decidimos usar Google Docs porque da completo control sobre los resultados. No necesitaba usar las herramientas analíticas de otra gente. Lo puedo trasladar fácilmente a un software de base de datos o a hojas de cálculo. Cuando uno usa el software de consultas de especialistas, a menudo se ve restringido a usar las herramientas de ellos. Si hubiésemos estado pidiendo información muy delicada, quizás hubiésemos dudado de usar Google y pensado en hacer algo “interno”. Pero por lo general es muy fácil incorporar Google Forms a una página de The Guardian y para el usuario es prácticamente invisible el hecho de que estamos usando ese formulario. Por lo que es muy conveniente.

En términos de consejos para periodistas de datos que quieren usar el "crowdsourcing", hay que definir cosas muy específicas para consultar a la gente. En lo posible, haga preguntas tipo “multiple choice” (elegir entre opciones fijas). Trate de conseguir datos demográficos básicos de a quién se dirige, de modo de ver si su muestra puede ser distorsionada. Si está pidiendo cantidades y cosas por el estilo, trate de especificar que requiere la información en dígitos, que tienen que usar una moneda específica, y así. Muchos no lo harán, pero cuanto más los guíe en todo, tanto mejor. Y siempre, siempre, agregue una ventana para comentarios porque mucha gente llenará los otros campos pero lo que realmente quiere es darle su opinión sobre el tema. Especialmente si se trata de algo que tiene que ver con los consumidores o un escándalo.

Marianne Bouchart, Data Journalism Blog, interviewing James Ball, the Guardian