Un mundo de datos (abiertos)

“Cuando no se utilizan, los datos son solo basura digital”

La frase es de Nuria Oliver, directora científica en Telefónica I+D y una de las referencias en computación en España. Pero podría ser de cualquiera que trabaje con datos.

Y es que los números, por si solos, no son nada. Ocupan gigas y teras en algún servidor olvidado. Sin embargo, equipos como el de Nuria Oliver consiguen darles valor. Su grupo de investigación es puntero en el llamado big data for social good. O como los datos masivos se pueden usar en beneficio de la sociedad.

En 2009, este equipo utilizó los registros de llamadas de teléfonos móviles en México para crear un mapa de movimientos de las personas. Era en plena crisis de la gripe A. Entre sus logros recientes también está prever los efectos de inundaciones o terremotos sobre la población.

sismograma

Hace poco tuve la oportunidad de acudir a un evento del grupo Hack&Hackers de Barcelona sobre visualización de datos. Allí se enseñaba cómo poner los datos bonitos. Cómo transformar filas y columnas de números en un gráfico interactivo que nos diese la información de forma rápida. Una vez más, los resultados eran magníficos.
Y una vez más, al igual que al leer sobre los proyectos sociales de Telefónica, la pregunta que surgía era otra. Cómo acceder a los datos. Cómo sacarlos de ese servidor olvidado, quizá escondido de forma intencionada.
De momento, como individuos al margen de una gran empresa, y salvo que tengamos habilidades informáticas fuera de la ley, lo que nos queda es el movimiento Open Data.

El volumen de datos que se genera hoy en día es tal que a duras penas se puede cuantificar. Solo en Internet se hacen 4 millones de búsquedas y se ven más de millón y medio de vídeos. Por minuto. Las ciudades y nuestras casas – y también algunas personas – están llenas de sensores que generan información constante.

Pero, paradojas del ser humano, la mayoría de las veces no se hace nada con todos estos números. El open data busca hacer accesibles todos los datos, sobre todo los de carácter público y gubernamental, para beneficiar a la sociedad.

Según la Unión Europea, que desde 2012 lleva a cabo políticas de datos abiertos – aunque en realidad se ha puesto las pilas este año –, la información del open data se puede usar en tres grandes áreas:

    • Mejorar el rendimiento y la eficiencia de los sistemas públicos. Y reducir los gastos

    • Beneficiar el desarrollo económico al mejorar el acceso a la información y el conocimiento

    • Mejorar el bienestar social acentuando la colaboración y la participación en la sociedad

Grandes palabras. Pero llevarlas a la práctica es otra cosa. No todos los gobiernos u organizaciones están deseando hacer públicos sus datos. Ni la sociedad cuenta siempre con las herramientas necesarias para acceder a ellos. Aún así, sería injusto no destacar lo mucho que se ha avanzado en los últimos cuatro o cinco años.

open-data

Desde noviembre de 2015, el European Data Portal intenta convertirse en un lugar común para todos los datos públicos dentro de la Unión Europea. De acceso libre, aquí hay bases de datos de todo tipo.
Desde un mapa con los parques para perros en la ciudad de Viena, hasta el registro de la calidad del aire de Euskadi, pasando por cuántas familias europeas pueden permitirse una televisión o una lavadora. Las fuentes de datos son casi infinitas.
Bueno, no.
Actualmente, este portal europeo da acceso a unas 8.000 bases de datos. Y el número sigue subiendo.

A nivel periodístico, en el que me gusta pensar también como una especie de social good, se hacen cosas muy interesantes gracias al open data. Como por ejemplo este mapa del poder femenino en España elaborado en el Taller de Producción de Periodismo de Datos del MediaLab Prado. Merece la pena echarle un ojo.

Las ciudades conectadas, o las smart cities, que queda más cool, también se van sumando al movimiento open data. Por no salir del país, echemos un ojo a los casos de Santander y Barcelona.

Todos los datos de infraestructuras, servicios o población de la ciudad condal están disponibles en el portal OpenDataBCN. Gracias a estos datos, el equipo de Bestiario, otros cracks del big data, ha elaborado un amplio mapa de los movimientos diarios de los habitantes de Barcelona entre su casa y su trabajo.
Entre otras cosas, y gracias a su propia herramienta de visualización, Quadrigram, toda la información de la red de bicicletas públicas de la ciudad se ha convertido en mapas e información útil.

El caso de la capital cántabra es también pionero. El ayuntamiento publica muchos de los datos que genera la ciudad en Santander Datos Abiertos y los deja en manos de cualquier persona para que genere conocimiento. Sus propios habitantes han creado ya 12 aplicaciones móviles que facilitan la vida en la ciudad. Turismo, cultura, transporte urbano, todo en la palma de la mano gracias al open data y a la colaboración ciudadana.

Pero no son las únicas iniciativas. Málaga, Valencia, Oviedo o Pamplona también tienen sus proyectos. A nivel regional, Aragón ha creado la Aragopedia con todos los datos de sus municipios. Y la Xunta de Galicia busca crear algo similar con Abertos, una plataforma donde, de momento, los datos más consultados son los calendarios laborales de 2015 y 2016.

A pesar de que muchas iniciativas buscan sacar a relucir el poder del open data, también hay quien no es favorable a su uso.
Entre los argumentos en contra a la utilización de los datos públicos se encuentran las preocupaciones por la privacidad de las personas, el excesivo poder que podría llegar a tener el conocimiento público sobre el privado o la pérdida de incentivos a la investigación si todo el mundo tiene acceso a los datos.

Como en todo, el debate está servido.

word-wide-web

Sir Timothy John Berners-Lee. Es curioso cómo algunos nombres se empeñan en protagonizar la historia. En 1989, Berners-Lee establecía la primera comunicación entre un ordenador y un servidor a través del protocolo HTTP. Si observas tu navegador, verás que esas letras siguen ahí, justo antes del WWW. En 1989 (por mucho que digan algunos de nuestros políticos), Berners-Lee creaba la World Wide Web.

Hoy, este “sir” por orden de la reina de Inglaterra, dirige el Open Data Institute desde Londres, una organización nacida en 2012 que busca liderar y ser el modelo a seguir dentro del movimiento open data. Un movimiento que ellos mismos comparan con el nacimiento de las 3W.

En 10 años, esta organización dibuja un mundo en el que todas las empresas publiquen datos como hoy publican webs. Donde la gente tenga acceso a toda la información en tiempo real. Y sepa usarla en su propio beneficio.

¿Fantasía?

En 2018 se generarán 8.6 zettabytes. 8.6 Billones de gigabytes. 8,600,000,000,000,000,000 de kilobytes. Una unidad que los más jóvenes puede que desconozcan, pero que para los que conocimos los disquetes aún tiene sentido.
Para aquellos que recordamos un mundo sin Internet que hoy parece impensable.

392 ventas por segundo

La temporada de regalos toca a su fin. Ya solo queda desempaquetar los últimos. O quizá comprar algún detalle de última hora. ¿Eres de los que corre en el último momento a la tienda del barrio? ¿O de los que prefiere sentarse en frente del ordenador y pedir compulsivamente? Si eres de los segundos, probablemente hayas oído hablar de Amazon. Bueno, en realidad, quién no ha oído hablar de Amazon.

El secreto, o uno de los secretos, de la que se ha convertido en la plataforma de comercio electrónico más grande del mundo (con permiso de Alibaba), es, probablemente, su buscador. ¿Te has fiado alguna vez de sus resultados? ¿Te has dejado aconsejar por la pantalla? A que sí.

Si tienes 10 minutos y la paciencia necesaria para llegar al final, verás cómo Amazon ha transformado una web en un ser casi inteligente. Casi todo con big data.

logo de amazon.com

Cada año escuchamos la misma historia durante las navidades (y el Black Friday): “Amazon ha batido récord de ventas”.

Sólo a través de sus cuentas premium, Amazon envió en Diciembre más de 200 millones de artículos alrededor del globo. A 185 países. Para ser más exactos, sólo 9 países del mundo se quedaron sin artículos del gigante de las ventas. Entre otras cosas, Amazon vendió tantas linternas que serían suficientes para iluminar 8 campos de fútbol. O tantos juegos de Jenga como para alcanzar la punta del Empire State 70 veces. Y muchos otros fun facts (hechos divertidos) que se pueden leer en su web.

Online desde 1995, Amazon llegó a España en 2012. El primer almacén ocupaba 28,000 metros cuadrados, unos 6 campos de fútbol (sí, es un símil muy recurrido). Poco después, se dobló el tamaño. Y ahora planea añadir una superficie equivalente a 9 campos de… ¡fútbol! a su centro logístico de San Fernando de Henares, en Madrid.

En este almacén, Amazon tiene más de 48 millones de productos a la venta. Y desde aquí, durante el último Black Friday, se cerraron nada menos que 392 ventas por segundo, más de medio millón de artículos despachados en un día.

Pero aunque estos nos puedan parecer números muy grandes, no es este el big data del que Amazon se aprovecha. La compañía de e-commerce registra todos los movimientos de sus clientes, movimientos donde la gente se deja pasta (que son los que más importan) y los convierte en información útil para mejorar su servicio. Eso, a grandes rasgos.juego de jengaQué significa para Amazon el big data

  • Un sistema. Para monitorizar, seguir y asegurar los más de 1,500 millones de artículos que tiene a la venta en sus 200 centros alrededor del globo.

Cada artículo tiene una identificación única en el mundo y, aunque Amazon intenta mantener los stocks de cada país, los artículos se intercambian entre territorios rápidamente si es necesario. Es decir, si la demanda de balones se dispara en Francia, el sistema ordena de inmediato que parte del stock de España se envíe a Amazon.fr.

  • Un servicio. Sí, Amazon empezó vendiendo libros, pero hoy es mucho más que eso. Su plataforma Amazon Web Service ofrece cantidad de servicios informáticos en la nube, o lo que es lo mismo, herramientas con las que trabajar sin necesidad de instalar nada en tu ordenador.

Entre estos servicios hay plataformas de recolección y almacenamiento de datos o computación. La herramienta Amazon Elastic Mapreduce está basada en Hadoop (un entorno de software libre que todavía no alcanzo a comprender pero que usan empresas líderes como Yahoo, Dropbox o Netflix).

  • Publicidad. Aunque el negocio de Amazon ha estado siempre en las ventas y no en la publicidad, Jeff Bezos (el jefazo) parece haberse dado cuenta del potencial publicitario de su empresa.

Desde finales de 2012, según informa MIT Technology Review, Amazon selecciona, ordena y empaqueta los datos de todos sus clientes. Todo empezó como un experimento con tecnología de terceros, pero hoy Amazon cuenta con su propia plataforma que genera estadísticas y datos basándose en el comportamiento de sus clientes. Y claro, le vende los resultados a terceras compañías.

Al igual que tras una búsqueda en Google recibes varios anuncios segmentados (es decir, anuncios que, por tu comportamiento, te podrían interesar más que a otros), una compra en Amazon tiene consecuencias similares. En los próximos años se espera que esta herramienta sea más específica -y que acierte con lo que de verdad quieres pero no sabías que necesitabas-.

carro de la compra

 

  • Recomendaciones

Aunque lo deje casi para el final, este es quizá el punto que más puntos (redundando) le haya dado a Amazon. El sistema que consigue que, tras buscar un artículo, de los 2,500 que tienen relación con tu búsqueda se seleccionen 16 de entre los cuales, con casi toda probabilidad, acabarás eligiendo uno. Y en un último impulso consumista, se atreva a recomendarte otros artículos que, habitualmente, se compran de forma conjunta.

Para todo ello, Amazon cruza en tiempo real datos (big datos) procesados de varias fuentes (entre ellas tu historial como cliente) con los datos que se generan en el mismo momento de la búsqueda (como los clicks que se han hecho o las palabras escritas). Vamos con un ejemplo.

Busco “funda portátil” en Amazon.es, y en menos de un segundo me aparece el resultado. 292,757 resultados para ser más exactos. Y 16 han sido seleccionados para aparecer en la primera página y tener muchas posibilidades de que acabe por comprarlos. ¿Han sido seleccionados al azar? Ni mucho menos.

“Amazon elabora un ranking en función de la probabilidad de que le guste a la persona que está comprando y que además está haciendo una búsqueda en términos concretos”, explica el profesor de minería de datos Daniel Egger, de la Duke University de Estados Unidos. “Y luego te muestra los primeros resultados de ese ranking tras un rápido análisis de datos”.

Según explica Egger, uno de los muchos gurús del big data, el sistema de Amazon, sus “robots”, estudian lo que el cliente escribe y sitúan la búsqueda en un área temática. A través de un índice de vocabulario en el que incluye un amplio tesauro con multitud de sinónimos, los robots establecen qué subcategorías son más relevantes para el cliente y su búsqueda y, dentro de las mismas, qué artículos se venden mejor.

“El sistema intenta darle a la gente lo que busca pero no sabe cómo pedir, en lugar de darle justo lo que cree que quiere pero le defraudará”, puntualiza Egger durante un curso online sobre métricas de negocio en el que utiliza Amazon como caso práctico.

Volvamos al ejemplo de la funda para el portátil (de mi madre). Pongamos que me decido a comprar el tercer resultado de la búsqueda.

Click. ¡Anda! Comprados juntos habitualmente… Un ratón inalámbrico, ¡qué interesante! Me lo pido.

Al margen de mis reflexiones consumistas, este apartado -comprados juntos habitualmente- es otro buen ejemplo de big data. Amazon lleva años elaborando una gran base de datos con todas las compras de más de un artículo y, simplemente, me ofrece uno de los artículos que habitualmente se compra junto a la funda de portátil elegida. La palabra habitualmente no es casualidad. El sistema no tiene por qué mostrar el que más se vende, sino el que tiene más posibilidades de ser vendido una vez que ya has decidido comprar el primer articulo.

Ya al final de la página de compra, aparece una tercera e interesante opción. Artículos que se compran tras ver tu producto. Por si no las tenía todas conmigo, se me muestra una lista con artículos que otra gente ha comprado después de ver (y no comprar) la funda que yo he elegido. Este ranking se elabora con todos los clicks en páginas de artículos que se hacen por sesión antes de cada compra. Es decir, todo el camino que el cliente recorre antes de hacer su compra.

Ahora en serio. Amazon tiene 244 millones de usuarios activos. Y guarda todo eso, y mucho más, de cada uno de ellos. Esto sí que son (very) big data. O más big aún, los más de 25,000 millones de dólares que ingresa por trimestre. Eso sí que son números de los grandes.

dollar de warhol

¿Y qué prepara Amazon para el futuro?

Si lo supiese de verdad, no estaría aquí. Pero gente que sabe mucho apunta que la inteligencia artificial (basada en los datos de los clientes) y el aprendizaje automático (o machine learning) son algunos de los caminos a seguir.

“El software de aprendizaje automático puede predecir qué es lo que un cliente va a hacer en los próximos cinco segundos o en las próximas semanas. Es reconocimiento de patrones de comportamiento a gran escala”, explica Ralf Herbric, director de machine learning para Amazon Europa, en un artículo publicado en el Wall Street Journal.

El principal objetivo de todo esto es predecir qué se va a comprar, no solo para usar los datos a favor de la propia Amazon, sino para venderlos a otras compañías que puedan estar interesadas en las predicciones.

Algo importante se tiene que estar cociendo cuando Amazon tiene ya una veintena de centros de investigación en el mundo trabajando en la inteligencia artificial.

Pero eso ya queda para otro post, que hoy es día de Reyes y toca disfrutar de los regalos -aquellos que tengan la suerte de tenerlos-.

Ya sean comprados por Internet o en la tienda del barrio.