Manual de Periodismo de Datos 1.0
Cargando

Herramientas web

Primero, unos cuantos servicios diferentes que puede usar para descubrir algo más sobre todo un sitio, en vez de una página particular:

Whois

Si va a whois.domaintools.com/ o simplemente tipea whois seguido de un URL www.ejemplo.com en Terminal.app en una Mac puede obtener la información básica de registro de cualquier sitio. En los últimos años algunos dueños han preferido el registro privado, lo que oculta sus detalles, pero en muchos casos verá un nombre, dirección, correo electrónico y número de teléfono de la persona que registró el sitio. También puede ingresar direcciones IP numéricas aquí y obtener datos sobre la organización o el individuo que es dueño del servidor. Esto es especialmente útil cuando trata de encontrar más información sobre un usuario abusivo o malicioso de un servicio, ya que la mayoría de los sitios registran una dirección IP de todo el que accede a ellos.

Blekko

El motor de búsquedas (Blekko ofrece una cantidad inusual de información sobre las estadísticas internas que reúne sobre sitios mientras recorre la red. Si tipea un nombre de dominio seguido de “/seo”, verá una página de información sobre ese URL. La primera pestaña en Figure 7 le muestra qué otros sitios se vinculan con el dominio por orden de popularidad. Esto puede ser extremadamente útil cuando está tratando de comprender qué tipo de cobertura recibe un sitio y por qué tiene un alto ranking en los resultados de búsquedas de Google, ya que estos se basan en esos vínculos entrantes. Figure 8 le dice qué otros sitios funcionan en la misma máquina. Es común que estafadores y la gente que envía spam se trate de legitimar construyendo múltiples sitios que se ensalzan y vinculan mutuamente. Parecen dominios independientes e incluso pueden tener detalles de registro diferentes, pero a menudo están en el mismo servidor porque eso es mucho más barato. Estas estadísticas le dan una visión de la estructura oculta del sitio que investiga.

Figure 6. El buscador Blekko Blekko.com)
Figure 7. Comprender la popularidad en la red, ¿quién se vincula con quién? La otra pestaña útil es “Estadísticas de Navegación"), especialmente la sección “Co-huesped con”.(Blekko.com)
Figure 8. Descubrir spammers y estafadores de la red (Blekko.com)
Compete.com

Al estudiar una muestra representativa de consumidores estadounidenses, Compete.com acumula estadísticas de uso detalladas para la mayoría de los sitios y pone a disposición gratuitamente algunos detalles básicos. Elija la pestaña de Site Profile (Perfil de Sitio) e ingrese un dominio (Figure 9). Entonces verá un gráfico del tráfico del sitio en el último año, junto con cifras de cuánta gente lo visitó y con qué frecuencia (como en Figure 10). Dado que se basan en muestras los números son solo aproximados, pero yo los encontré razonablemente precisos cuando pude compararlos con la analítica interna. En particular, parecen ser una buena fuente para comparar dos sitios, dado que aunque las cifras absolutas pueden ser equivocadas para ambos, de todos modos es una buena representación de su diferencia relativa en cuanto a popularidad. Pero solo estudian a los consumidores estadounidenses, por lo que los datos serán pobres para los sitios predominantemente internacionales.

Figure 9. El servicio de perfil de Compete (Compete.com)
Figure 10. ¿Qué está de moda? ¿De qué hay demanda?: Lugares calientes de la red (Compete.com)
El buscador de sitios (Site Search) de Google

Un recurso que puede ser extremadamente útil cuando trata de explorar todo el contenido de un dominio particular es ingresar en el buscador los términos “sitio”: palabra clave. Si agrega “site:ejemplo.com” a su frase de búsqueda, Google solo presentará resultados del sitio que ha especificado. Incluso puede afinar aún más la búsqueda incluyendo el prefijo de las páginas que le interesan, por ejemplo, “site: ejemplo.com/páginas/”, y solo verá los resultados que responden a ese patrón. Esto puede ser extremadamente útil cuando trata de encontrar información que los dueños de dominios ofrecen públicamente pero que no desean difundir, de modo que elegir las palabras claves correctas puede permitir descubrir material muy revelador.

Páginas, imágenes y videos en la red

A veces lo que interesa es la actividad que rodea una historia específica, en vez de un sitio entero. Las herramientas que se presentan a continuación le dan distintos ángulos de cómo lee, responde, copia y comparte contenido la gente en la red.

Bit.ly

Siempre recurro a bitly.com cuando quiero saber cómo comparte la gente un vínculo particular. Para usarlo, ingrese el URL que le interesa. Luego haga clic en el vínculo Info Page+. Eso lo lleva a la página de estadísticas completas (aunque puede tener que escoger el vínculo “aggregate bit.ly” primero si ha ingresado en el servicio). Esto le dará una idea de la popularidad de la página, incluyendo actividad en Facebook y Twitter y debajo de eso verá conversaciones públicas respecto del vínculo provistas por backtype.com. Esta combinación de datos de tráfico y conversaciones me resulta muy útil cuando trato de comprender por qué un sitio o página es popular y quiénes son sus fans. Por ejemplo me aportó fuertes evidencias de que la opinión dominante respecto de la relación de Sarah Palin con los delegados de base era equivocada.

Twitter

Al ser el servicio de micro-blogging más usado, es útil parar ver en qué medida la gente comparte y habla acerca de piezas de contenido individuales. Es engañosamente simple descubrir conversaciones públicas sobre un vínculo. Uno simplemente pega el URL en el que está interesado en la ventana de búsqueda y luego posiblemente hace clic en “más tweets” para ver todos los resultados.

Cache de Google

Cuando una página se vuelve polémica los editores la pueden bajar o alterarla sin reconocerlo. Si cree que se está encontrando con este problema, el primer lugar a ir es el cache de Google de la página tal como era cuando hizo su último recorrido. La frecuencia de los recorridos está aumentando constantemente, por lo que tendrá más suerte si intenta esto dentro de las pocas horas posteriores a que se produjeron los supuestos cambios. Ingrese el URL correspondiente en la ventana de búsqueda de Google y luego haga clic en la flecha triple, a la derecha del resultado para esa página. Debiera aparecer una vista gráfica y si tiene suerte habrá un pequeño vínculo de “Cache” arriba. Haga clic allí para ver la toma de Google de la página. Si hay problemas para que cargue, puede cambiar a la página más primitiva, solo de texto, haciendo clic en otro link arriba de la página en cache completa. Usted tendrá que guardar la imagen de la pantalla o copiar y pegar el contenido significativo que encuentre, dado que puede quedar invalidado en cualquier momento por nuevos cambios.

La Wayback Machine (Máquina de Hace Tiempo) del Archivo de Internet

Si necesita saber cómo ha cambiado una página particular en un período de tiempo más largo, como meses o años, el Archivo de Internet tiene un servicio llamado The Wayback Machine que periódicamente hace tomas de las páginas más populares de la red. Vaya al sitio, ingresa el vínculo que quiere buscar y si hay copias, le mostrará un calendario para el momento que quiere examinar. Entonces presentará una versión de la página aproximadamente como era en aquel momento. A menudo le faltará diseño o imágenes, pero por lo general basta para entender cuál era el foco del contenido de la página en ese momento.

Ver el Código Fuente

Es algo un poco improbable, pero los diseñadores a menudo dejan comentarios u otros indicios en el código HTML de cualquier página. Estará en distintos menúes según el navegador que use, pero siempre hay una opción de “view source” (ver código fuente), que le permitirá recorrer el HTML en crudo. No necesita entender lo que significan las partes solo legibles para la máquina, solo esté atento a los tramos de texto que a menudo están desparramados en medio del código. Aunque solo sean referencias de copyright o menciones de los nombres del autor, estos a menudo pueden dar pistas importantes acerca de la creación y el objetivo de la página.

TinEye

A veces uno realmente quiere conocer el origen de una imagen, pero sin un texto claro que lo indique no hay ninguna manera evidente de hacerlo con motores de búsqueda tradicionales como Google. TinEye ofrece un proceso especializado de “búsqueda inversa de imagen”, donde uno le da la imagen que tiene y encuentra otras imágenes en la red que se ven muy similares. Debido a que usa reconocimiento de imagen para hacer la búsqueda, funciona incluso cuando una copia ha sido recortada, distorsionada o comprimida. Esto puede ser extremadamente efectivo cuando usted sospecha que una imagen que se presenta como original o nueva no lo es, dado que puede reconducirlo a la verdadera fuente original.

YouTube

Si hace clic en el ícono de estadísticas en el ángulo inferior derecho de cualquier video, puede conseguir información valiosa sobre su público a lo largo del tiempo. Si bien no es completa, es útil para entender aproximadamente quienes son los espectadores, de donde vienen y cuándo.

Correo electrónico

Si está investigando correos electrónicos, a menudo querrá conocer más detalles sobre la identidad y ubicación del que los envió. No hay una buena herramienta disponible para ayudar con esto, pero puede ser muy útil conocer lo básico acerca de los encabezados ocultos incluidos en todo mensaje de correo electrónico. Estos funcionan como indicadores para el correo y pueden revelar mucho acerca del remitente. En particular, a menudo incluyen la dirección IP de la máquina desde la que fue enviado el correo, parecido a la identidad del que hace una llamada telefónica. Puede entonces usar "whois" con ese número IP para saber qué organización posee esa máquina. Si resulta ser alguien como Comcast o AT&T que proveen conexiones a consumidores, entonces puede visitar MaxMind para obtener su ubicación aproximada.

Para ver estos encabezados en Gmail abra el mensaje y [line-through]*abra*el menú junto a la respuesta arriba a la derecha y elija “Mostrar original”.

Entonces verá una nueva página que revela el contenido oculto. Al comienzo habrá un par de docenas de líneas que son palabras seguidas por una coma. La dirección IP que busca puede estar allí, pero el nombre dependerá de cómo fue enviado el correo. Si se envió desde Hotmail, se llamará X-Originating-IP:, pero si fue enviado desde Outlook o Yahoo estará en la primera línea que comienza con Received:.

Si investigo la dirección con Whois me dice que está asignado a Virgin Media, un ISP del RU, por lo que uso el servicio de ubicación geográfica de MaxMind para descubrir que viene de mi ciudad, Cambridge. Esto significa que puedo estar razonablemente confiado de que se trata efectivamente de un correo de mis padres y no de impostores.

Tendencias

Si está investigando un tema amplio en vez de un sitio o ítem particular, estas son algunas herramientas que pueden ayudar:

Wikipedia Article Traffic (Tráfico de Artículos de Wikipedia)

Si le interesa conocer cómo ha variado el interés del público sobre un tema o persona a lo largo del tiempo, puede encontrar cifras de vistas día por día para cualquiera página de Wikipedia en stats.grok.se. Es un sitio un poco tosco, pero le permitirá descubrir la información que necesita revolviendo un poco. Ingrese el nombre que le interesa para tener una visión mensual del tráfico en esa página. Eso le presentará un gráfico que muestra cuántas veces fue vista la página cada día del mes que usted especifique. Desgraciadamente solo se puede ver un mes por vez, por lo que tendrá que seleccionar otro mes y volver a buscar, para ver cambios en períodos más prolongados.

Google Insights

Puede tener una clara visión de los hábitos de búsquedas del público usando Insights de Google (Figure 11). Ingrese un par de frases de búsquedas comunes, como “Justin Bieber vs Lady Gaga”, y verá un gráfico de sus números relativos de búsquedas con el paso del tiempo. Hay muchas opciones para refinar su vista de los datos, desde zonas geográficas más reducidas hasta más detalle a medida que pasa el tiempo. Lo único que falta son valores absolutos: solo verá porcentajes relativos, lo que puede ser difícil de interpretar.

Figure 11. Google Insights (Google)

Pete Warden, analista de datos y diseñador independiente