Un mundo de datos (abiertos)

“Cuando no se utilizan, los datos son solo basura digital”

La frase es de Nuria Oliver, directora científica en Telefónica I+D y una de las referencias en computación en España. Pero podría ser de cualquiera que trabaje con datos.

Y es que los números, por si solos, no son nada. Ocupan gigas y teras en algún servidor olvidado. Sin embargo, equipos como el de Nuria Oliver consiguen darles valor. Su grupo de investigación es puntero en el llamado big data for social good. O como los datos masivos se pueden usar en beneficio de la sociedad.

En 2009, este equipo utilizó los registros de llamadas de teléfonos móviles en México para crear un mapa de movimientos de las personas. Era en plena crisis de la gripe A. Entre sus logros recientes también está prever los efectos de inundaciones o terremotos sobre la población.

sismograma

Hace poco tuve la oportunidad de acudir a un evento del grupo Hack&Hackers de Barcelona sobre visualización de datos. Allí se enseñaba cómo poner los datos bonitos. Cómo transformar filas y columnas de números en un gráfico interactivo que nos diese la información de forma rápida. Una vez más, los resultados eran magníficos.
Y una vez más, al igual que al leer sobre los proyectos sociales de Telefónica, la pregunta que surgía era otra. Cómo acceder a los datos. Cómo sacarlos de ese servidor olvidado, quizá escondido de forma intencionada.
De momento, como individuos al margen de una gran empresa, y salvo que tengamos habilidades informáticas fuera de la ley, lo que nos queda es el movimiento Open Data.

El volumen de datos que se genera hoy en día es tal que a duras penas se puede cuantificar. Solo en Internet se hacen 4 millones de búsquedas y se ven más de millón y medio de vídeos. Por minuto. Las ciudades y nuestras casas – y también algunas personas – están llenas de sensores que generan información constante.

Pero, paradojas del ser humano, la mayoría de las veces no se hace nada con todos estos números. El open data busca hacer accesibles todos los datos, sobre todo los de carácter público y gubernamental, para beneficiar a la sociedad.

Según la Unión Europea, que desde 2012 lleva a cabo políticas de datos abiertos – aunque en realidad se ha puesto las pilas este año –, la información del open data se puede usar en tres grandes áreas:

    • Mejorar el rendimiento y la eficiencia de los sistemas públicos. Y reducir los gastos

    • Beneficiar el desarrollo económico al mejorar el acceso a la información y el conocimiento

    • Mejorar el bienestar social acentuando la colaboración y la participación en la sociedad

Grandes palabras. Pero llevarlas a la práctica es otra cosa. No todos los gobiernos u organizaciones están deseando hacer públicos sus datos. Ni la sociedad cuenta siempre con las herramientas necesarias para acceder a ellos. Aún así, sería injusto no destacar lo mucho que se ha avanzado en los últimos cuatro o cinco años.

open-data

Desde noviembre de 2015, el European Data Portal intenta convertirse en un lugar común para todos los datos públicos dentro de la Unión Europea. De acceso libre, aquí hay bases de datos de todo tipo.
Desde un mapa con los parques para perros en la ciudad de Viena, hasta el registro de la calidad del aire de Euskadi, pasando por cuántas familias europeas pueden permitirse una televisión o una lavadora. Las fuentes de datos son casi infinitas.
Bueno, no.
Actualmente, este portal europeo da acceso a unas 8.000 bases de datos. Y el número sigue subiendo.

A nivel periodístico, en el que me gusta pensar también como una especie de social good, se hacen cosas muy interesantes gracias al open data. Como por ejemplo este mapa del poder femenino en España elaborado en el Taller de Producción de Periodismo de Datos del MediaLab Prado. Merece la pena echarle un ojo.

Las ciudades conectadas, o las smart cities, que queda más cool, también se van sumando al movimiento open data. Por no salir del país, echemos un ojo a los casos de Santander y Barcelona.

Todos los datos de infraestructuras, servicios o población de la ciudad condal están disponibles en el portal OpenDataBCN. Gracias a estos datos, el equipo de Bestiario, otros cracks del big data, ha elaborado un amplio mapa de los movimientos diarios de los habitantes de Barcelona entre su casa y su trabajo.
Entre otras cosas, y gracias a su propia herramienta de visualización, Quadrigram, toda la información de la red de bicicletas públicas de la ciudad se ha convertido en mapas e información útil.

El caso de la capital cántabra es también pionero. El ayuntamiento publica muchos de los datos que genera la ciudad en Santander Datos Abiertos y los deja en manos de cualquier persona para que genere conocimiento. Sus propios habitantes han creado ya 12 aplicaciones móviles que facilitan la vida en la ciudad. Turismo, cultura, transporte urbano, todo en la palma de la mano gracias al open data y a la colaboración ciudadana.

Pero no son las únicas iniciativas. Málaga, Valencia, Oviedo o Pamplona también tienen sus proyectos. A nivel regional, Aragón ha creado la Aragopedia con todos los datos de sus municipios. Y la Xunta de Galicia busca crear algo similar con Abertos, una plataforma donde, de momento, los datos más consultados son los calendarios laborales de 2015 y 2016.

A pesar de que muchas iniciativas buscan sacar a relucir el poder del open data, también hay quien no es favorable a su uso.
Entre los argumentos en contra a la utilización de los datos públicos se encuentran las preocupaciones por la privacidad de las personas, el excesivo poder que podría llegar a tener el conocimiento público sobre el privado o la pérdida de incentivos a la investigación si todo el mundo tiene acceso a los datos.

Como en todo, el debate está servido.

word-wide-web

Sir Timothy John Berners-Lee. Es curioso cómo algunos nombres se empeñan en protagonizar la historia. En 1989, Berners-Lee establecía la primera comunicación entre un ordenador y un servidor a través del protocolo HTTP. Si observas tu navegador, verás que esas letras siguen ahí, justo antes del WWW. En 1989 (por mucho que digan algunos de nuestros políticos), Berners-Lee creaba la World Wide Web.

Hoy, este “sir” por orden de la reina de Inglaterra, dirige el Open Data Institute desde Londres, una organización nacida en 2012 que busca liderar y ser el modelo a seguir dentro del movimiento open data. Un movimiento que ellos mismos comparan con el nacimiento de las 3W.

En 10 años, esta organización dibuja un mundo en el que todas las empresas publiquen datos como hoy publican webs. Donde la gente tenga acceso a toda la información en tiempo real. Y sepa usarla en su propio beneficio.

¿Fantasía?

En 2018 se generarán 8.6 zettabytes. 8.6 Billones de gigabytes. 8,600,000,000,000,000,000 de kilobytes. Una unidad que los más jóvenes puede que desconozcan, pero que para los que conocimos los disquetes aún tiene sentido.
Para aquellos que recordamos un mundo sin Internet que hoy parece impensable.

392 ventas por segundo

La temporada de regalos toca a su fin. Ya solo queda desempaquetar los últimos. O quizá comprar algún detalle de última hora. ¿Eres de los que corre en el último momento a la tienda del barrio? ¿O de los que prefiere sentarse en frente del ordenador y pedir compulsivamente? Si eres de los segundos, probablemente hayas oído hablar de Amazon. Bueno, en realidad, quién no ha oído hablar de Amazon.

El secreto, o uno de los secretos, de la que se ha convertido en la plataforma de comercio electrónico más grande del mundo (con permiso de Alibaba), es, probablemente, su buscador. ¿Te has fiado alguna vez de sus resultados? ¿Te has dejado aconsejar por la pantalla? A que sí.

Si tienes 10 minutos y la paciencia necesaria para llegar al final, verás cómo Amazon ha transformado una web en un ser casi inteligente. Casi todo con big data.

logo de amazon.com

Cada año escuchamos la misma historia durante las navidades (y el Black Friday): “Amazon ha batido récord de ventas”.

Sólo a través de sus cuentas premium, Amazon envió en Diciembre más de 200 millones de artículos alrededor del globo. A 185 países. Para ser más exactos, sólo 9 países del mundo se quedaron sin artículos del gigante de las ventas. Entre otras cosas, Amazon vendió tantas linternas que serían suficientes para iluminar 8 campos de fútbol. O tantos juegos de Jenga como para alcanzar la punta del Empire State 70 veces. Y muchos otros fun facts (hechos divertidos) que se pueden leer en su web.

Online desde 1995, Amazon llegó a España en 2012. El primer almacén ocupaba 28,000 metros cuadrados, unos 6 campos de fútbol (sí, es un símil muy recurrido). Poco después, se dobló el tamaño. Y ahora planea añadir una superficie equivalente a 9 campos de… ¡fútbol! a su centro logístico de San Fernando de Henares, en Madrid.

En este almacén, Amazon tiene más de 48 millones de productos a la venta. Y desde aquí, durante el último Black Friday, se cerraron nada menos que 392 ventas por segundo, más de medio millón de artículos despachados en un día.

Pero aunque estos nos puedan parecer números muy grandes, no es este el big data del que Amazon se aprovecha. La compañía de e-commerce registra todos los movimientos de sus clientes, movimientos donde la gente se deja pasta (que son los que más importan) y los convierte en información útil para mejorar su servicio. Eso, a grandes rasgos.juego de jengaQué significa para Amazon el big data

  • Un sistema. Para monitorizar, seguir y asegurar los más de 1,500 millones de artículos que tiene a la venta en sus 200 centros alrededor del globo.

Cada artículo tiene una identificación única en el mundo y, aunque Amazon intenta mantener los stocks de cada país, los artículos se intercambian entre territorios rápidamente si es necesario. Es decir, si la demanda de balones se dispara en Francia, el sistema ordena de inmediato que parte del stock de España se envíe a Amazon.fr.

  • Un servicio. Sí, Amazon empezó vendiendo libros, pero hoy es mucho más que eso. Su plataforma Amazon Web Service ofrece cantidad de servicios informáticos en la nube, o lo que es lo mismo, herramientas con las que trabajar sin necesidad de instalar nada en tu ordenador.

Entre estos servicios hay plataformas de recolección y almacenamiento de datos o computación. La herramienta Amazon Elastic Mapreduce está basada en Hadoop (un entorno de software libre que todavía no alcanzo a comprender pero que usan empresas líderes como Yahoo, Dropbox o Netflix).

  • Publicidad. Aunque el negocio de Amazon ha estado siempre en las ventas y no en la publicidad, Jeff Bezos (el jefazo) parece haberse dado cuenta del potencial publicitario de su empresa.

Desde finales de 2012, según informa MIT Technology Review, Amazon selecciona, ordena y empaqueta los datos de todos sus clientes. Todo empezó como un experimento con tecnología de terceros, pero hoy Amazon cuenta con su propia plataforma que genera estadísticas y datos basándose en el comportamiento de sus clientes. Y claro, le vende los resultados a terceras compañías.

Al igual que tras una búsqueda en Google recibes varios anuncios segmentados (es decir, anuncios que, por tu comportamiento, te podrían interesar más que a otros), una compra en Amazon tiene consecuencias similares. En los próximos años se espera que esta herramienta sea más específica -y que acierte con lo que de verdad quieres pero no sabías que necesitabas-.

carro de la compra

 

  • Recomendaciones

Aunque lo deje casi para el final, este es quizá el punto que más puntos (redundando) le haya dado a Amazon. El sistema que consigue que, tras buscar un artículo, de los 2,500 que tienen relación con tu búsqueda se seleccionen 16 de entre los cuales, con casi toda probabilidad, acabarás eligiendo uno. Y en un último impulso consumista, se atreva a recomendarte otros artículos que, habitualmente, se compran de forma conjunta.

Para todo ello, Amazon cruza en tiempo real datos (big datos) procesados de varias fuentes (entre ellas tu historial como cliente) con los datos que se generan en el mismo momento de la búsqueda (como los clicks que se han hecho o las palabras escritas). Vamos con un ejemplo.

Busco “funda portátil” en Amazon.es, y en menos de un segundo me aparece el resultado. 292,757 resultados para ser más exactos. Y 16 han sido seleccionados para aparecer en la primera página y tener muchas posibilidades de que acabe por comprarlos. ¿Han sido seleccionados al azar? Ni mucho menos.

“Amazon elabora un ranking en función de la probabilidad de que le guste a la persona que está comprando y que además está haciendo una búsqueda en términos concretos”, explica el profesor de minería de datos Daniel Egger, de la Duke University de Estados Unidos. “Y luego te muestra los primeros resultados de ese ranking tras un rápido análisis de datos”.

Según explica Egger, uno de los muchos gurús del big data, el sistema de Amazon, sus “robots”, estudian lo que el cliente escribe y sitúan la búsqueda en un área temática. A través de un índice de vocabulario en el que incluye un amplio tesauro con multitud de sinónimos, los robots establecen qué subcategorías son más relevantes para el cliente y su búsqueda y, dentro de las mismas, qué artículos se venden mejor.

“El sistema intenta darle a la gente lo que busca pero no sabe cómo pedir, en lugar de darle justo lo que cree que quiere pero le defraudará”, puntualiza Egger durante un curso online sobre métricas de negocio en el que utiliza Amazon como caso práctico.

Volvamos al ejemplo de la funda para el portátil (de mi madre). Pongamos que me decido a comprar el tercer resultado de la búsqueda.

Click. ¡Anda! Comprados juntos habitualmente… Un ratón inalámbrico, ¡qué interesante! Me lo pido.

Al margen de mis reflexiones consumistas, este apartado -comprados juntos habitualmente- es otro buen ejemplo de big data. Amazon lleva años elaborando una gran base de datos con todas las compras de más de un artículo y, simplemente, me ofrece uno de los artículos que habitualmente se compra junto a la funda de portátil elegida. La palabra habitualmente no es casualidad. El sistema no tiene por qué mostrar el que más se vende, sino el que tiene más posibilidades de ser vendido una vez que ya has decidido comprar el primer articulo.

Ya al final de la página de compra, aparece una tercera e interesante opción. Artículos que se compran tras ver tu producto. Por si no las tenía todas conmigo, se me muestra una lista con artículos que otra gente ha comprado después de ver (y no comprar) la funda que yo he elegido. Este ranking se elabora con todos los clicks en páginas de artículos que se hacen por sesión antes de cada compra. Es decir, todo el camino que el cliente recorre antes de hacer su compra.

Ahora en serio. Amazon tiene 244 millones de usuarios activos. Y guarda todo eso, y mucho más, de cada uno de ellos. Esto sí que son (very) big data. O más big aún, los más de 25,000 millones de dólares que ingresa por trimestre. Eso sí que son números de los grandes.

dollar de warhol

¿Y qué prepara Amazon para el futuro?

Si lo supiese de verdad, no estaría aquí. Pero gente que sabe mucho apunta que la inteligencia artificial (basada en los datos de los clientes) y el aprendizaje automático (o machine learning) son algunos de los caminos a seguir.

“El software de aprendizaje automático puede predecir qué es lo que un cliente va a hacer en los próximos cinco segundos o en las próximas semanas. Es reconocimiento de patrones de comportamiento a gran escala”, explica Ralf Herbric, director de machine learning para Amazon Europa, en un artículo publicado en el Wall Street Journal.

El principal objetivo de todo esto es predecir qué se va a comprar, no solo para usar los datos a favor de la propia Amazon, sino para venderlos a otras compañías que puedan estar interesadas en las predicciones.

Algo importante se tiene que estar cociendo cuando Amazon tiene ya una veintena de centros de investigación en el mundo trabajando en la inteligencia artificial.

Pero eso ya queda para otro post, que hoy es día de Reyes y toca disfrutar de los regalos -aquellos que tengan la suerte de tenerlos-.

Ya sean comprados por Internet o en la tienda del barrio.

La estadística del voto

Las elecciones en España se siguen (casi) como un partido de fútbol. El minuto a minuto, las mejores anécdotas y las declaraciones de los hombres, y mujeres, del partido, se repiten cita tras cita. Y hay algo que no falla en los días posteriores a la votación: las quejas sobre nuestro sistema electoral.

Yo también me he quejado, lo admito. Así que he decidido ponerme a aprender un poquito más sobre el tema, y descubrir si detrás de los números, había una historia (ya os adelanto que sí).

Casilla de voto

El sistema por el cual se reparten votos en nuestro país se basa en una ley orgánica de 1985, ampliamente inspirada en el sistema elaborado para las primeras elecciones tras la muerte de Franco, celebradas en 1977. Desde el momento de su aprobación, ha existido un constante debate sobre sus posibles efectos a largo plazo sobre el sistema democrático. Y en esas seguimos.

En España existe el derecho a voto para todos los mayores de 18 años (sufragio universal), y estos eligen la composición de dos cámaras: un Congreso con 350 diputados y un Senado con un número variable de miembros (266 en la actualidad). Las diferencias surgen en el reparto. Aquí es donde empiezan los números.

Lo que dice la ley

Vamos de lleno con los 350 diputados, repartidos en 52 circunscripciones (que son todas las provincias más Ceuta y Melilla). Se reparten de la siguiente manera: un mínimo de dos diputados por provincia (independientemente de su población) y uno para cada ciudad autónoma, sumando 102. El resto (248) se otorgan en función de toda la población en edad de votar -y no en función del censo electoral. Esto está fijado por la ley electoral esa de 1985.

El reparto de votos para cada escaño se decide según una regla estadística llamada Ley D’Hondt, la misma que muchas veces ha sido señalada como causa de las asimetrías de nuestro sistema (aunque, ya veremos…). A pesar de ser una regla que de por sí premia a las mayorías, la ley electoral española introduce a mayores una barrera en el 3% de los votos. Los que se quedan por debajo del límite en cada provincia se quedan sin participar en el reparto de escaños.

Este porcentaje se calcula sobre el total de votos de la circunscripción, incluyendo los votos en blanco pero no los nulos ni las abstenciones. Es decir, el único efecto (en términos de números) que pueden tener los votos blancos es que, al sumarse al total de votos, más partidos se pueden quedar por debajo del 3%. Votos blancos, nulos y abstenciones no cuentan, sin embargo, para el reparto de asientos en el parlamento.

Además, a esto le sumamos que las listas de cada partido son cerradas (no se puede votar a distintos candidatos) y bloqueadas (no se puede alterar el orden de los candidatos en la lista). De hecho, aunque las circunscripciones provinciales están pensadas para favorecer que haya representantes de todas las zonas, muchos diputados no tienen apenas relación (y ninguna responsabilidad) con la provincia por la son elegidos.

politico recien elegido

Antes de continuar con el Congreso, cabe destacar que el Senado sigue un sistema muy diferente, ya que los senadores (cuatro por provincia, tres por Mallorca, Gran Canaria y Tenerife, uno por cada isla menor y dos por cada ciudad autónoma) se eligen por sistema mayoritario. Esto es, las listas más votadas se los llevan todos. Además, cada comunidad autónoma elige un mínimo de un senador y otro más por cada millón de habitantes de su territorio.

La Ley D’Hondt

Volvamos a nuestro parlamento, que es al final, donde reside el mayor poder legislativo.

Y a Victor D’Hondt, un belga, profesor de derecho civil en la universidad (también belga) de Gante. Vivió hasta 1901 y en 1878 ideó el sistema de reparto de votos que lleva su nombre y que hoy se usa en multitud de países alrededor del mundo, como Argentina o Brasil en América Latina, Bulgaria, Austria o Finlandia en Europa, y hasta en el lejano Japón.

La regla D’Hondt reparte los escaños de la siguiente manera. Los votos conseguidos por cada partido se dividen entre 1, 2, 3, 4… hasta el número de asientos que se reparten por circunscripción (o provincia. Y los escaños se van otorgando de mayor a menor en función del cociente.

Pongamos que hay cinco partidos que pelean por cinco escaños (el rojo señala quién se lleva el escaño según D’Hondt):

tabla de ejemplo

Como se puede ver, el sistema premia a los partidos mayoritarios con dos escaños cada uno y desprecia a los minoritarios. Es más, si se repartiese un escaño más, este volvería a ir al partido A, y solo el séptimo escaño iría a parar el partido D.

Siendo simplistas, en este ejemplo con números tan bajos, el reparto quedaría igual con un sistema puramente proporcional. Pero la cosa cambia un poco con números más grandes.

Las desigualdades del sistema electoral

Sin embargo, la gran asimetría del reparto de votos en España no está tan motivada por la propia ley D’Hondt, aunque haya sido descrita como “la menos proporcional de las reglas proporcionales existentes”, como por la cantidad de circunscripciones.

Pongamos que el ejemplo anterior es una provincia que reparte cinco escaños. Los 30 votos del partido D y los 10 del E se quedan sin escaño. Pongamos que esto les sucede a ambos partidos en 40 provincias, en las que sacan los mismos votos. Tendríamos que el partido D, con 1200 votos, y el partido E con 400, se quedan sin representación parlamentaria. Y al partido A, en la provincia del ejemplo, solo le hicieron falta 100 votos para conseguir dos escaños. Pongamos que el partido A se llama PP o PSOE, y el D y el E, Izquierda Unida y UPYD, y los vicios del sistema electoral español empezarán a tomar forma.

Por eso que, en realidad, cuando se muestran los típicos gráficos de cuántos votos le hacen falta a cada uno para conseguir un escaño (por cierto, muy bueno el especial de gráficos de eldiario.es), la imagen que se busca dar no se ajusta completamente a la realidad. Los votos por escaño y por circunscripción son los mismos para cada partido, el problema llega de todos los sufragios que se desperdician por no alcanzar el mínimo necesario. De hecho, en la mayor parte de las circunscripciones, los partidos con menos del 10-15% de los votos se quedan sin representación.

Por último, teniendo en cuenta que hay un mínimo de dos diputados por provincia, se premia a las provincias pequeñas en las que hacen falta menos votos para lograr un escaño que, por ejemplo, en Madrid o Barcelona.

En la siguiente tabla se representa la población y el número de escaños de cada circunscripción; la relación entre habitantes y diputados en cada circunscripción; y el coeficiente de representación (CR), resultante de dividir el porcentaje de población entre el porcentaje de escaños en cada circunscripción.

tabla de votos

Lo que se observa a simple vista es que las provincias más rurales y menos pobladas están sobrerrepresentadas -y Soria es el caso más extremo- y las grandes ciudades infrarrepresentadas. Llama la atención que, en las provincias donde muchos aseguran que los partidos nacionalistas obtienen su excesivo poder, la representación es bastante exacta. “El sistema electoral no aumenta el poder de los nacionalistas, porque les asigna un porcentaje de escaños casi proporcional a sus votos”, afirma en su análisis el catedrático de la Universidad de Sevilla, Jesús Mario Bilbao Arrese. Así que, en realidad, los partidos nacionalistas parecen ser los únicos que se llevan lo que se tienen que llevar.

Ley D’Hondt psicológica

Cuando se celebraron las primeras elecciones tras la muerte del dictador Franco, el Congreso estaba bastante más fragmentado de lo que ha estado en los últimos años (las elecciones del 20D nos han dejado otra realidad). Había 12 partidos con representación parlamentaria y, aunque los dos partidos mayoritarios (la UCD y el PSOE) concentraban muchos votos, el Partido Comunista (hoy integrado en Izquierda Unida) contaba con 20 diputados y Alianza Popular (germen del Partido Popular) con 16. Pero con el tiempo, el bipartidismo se hizo fuerte.

“A esto ha contribuido el libre ejercicio del derecho de sufragio por parte de los electores y, en una menor aunque no desdeñable medida, la progresiva adecuación del comportamiento de los votantes a la dinámica generada por el propio sistema (lo que se conoce como “efecto psicológico”)”, explica un informe del Consejo de Estado sobre el sistema electoral español.

Tiene lógica. “Una vez conocido el elevado coste de la obtención de un escaño en las primeras elecciones, numerosas formaciones políticas sin expectativas de obtener diputados por sí mismas renunciaron a participar en sucesivos comicios o unieron sus fuerzas a otras, al tiempo que los electores orientaban su voto hacia aquellas candidaturas con mayores posibilidades de victoria”.

dudas

 

¿Qué se puede hacer?

Cada vez son más voces las que piden cambios en la ley electoral, cada una con su receta. Hay cambios que incluso requerirían modificar la Constitución -y eso ya sabemos que (casi) nunca se hace-. Aquí van algunas de las ideas propuestas a lo largo del tiempo.

  • Las reformas más fáciles:
    • Aumentar el número de parlamentarios a 400 (lo permite la Carta Magna)
    • Reducir a uno el número de parlamentarios mínimos por provincia (para disminuir la sobrerrepresentación de las provincias pequeñas)
    • Aplicar una ley estadística más proporcional como las reglas de Hare (se ha utilizado en Alemania o Grecia), Droop (Irlanda y Australia) y Sainte-Laguë (Noruega, Dinamarca y Ecuador)
    • Eliminar la barrera del 3%
  • Las más ambiciosas (cambiando la Constitución):
    • Eliminar las circunscripciones provinciales y hacerlas de mayor tamaño, por ejemplo, según comunidades autónomas
    • Establecer una única circunscripción estatal
    • Para preservar el peso de los diferentes territorios, también se ha propuesto que una parte de los parlamentarios se elija por circunscripción única a nivel estatal y otra parte en función de circunscripciones más pequeñas
  • Otras ideas:
    • Buscando incrementar la democracia del sistema, también se ha propuesto que los votos en blanco computen como escaños vacíos, abrir y desbloquear las listas de cada partido, o revisar los mandatos anualmente con una moción de confianza

 

Espero que esto no haya sido demasiado largo. Ni demasiado tostón.

Yo ya no sé qué opinar. Estaba mejor antes de leer todas estas cosas. Aunque me sigo sintiendo un poco estafado. ¿Qué pensáis? ¿Es todo culpa de los números? ¿Estamos bien como estamos o hay que cambiar el sistema? ¿Conocéis los casos de otros países? Comenten, comenten. Y disfruten de lo que queda de 2015.

La cocina de las elecciones

Encuestas, encuestas, encuestas. Hay que predecir los resultados electorales. No podemos esperar ni una semana más, hay que saber YA quién va a ganar.

Las encuestas de intención de voto han alimentado el debate y la actualidad política en este 2015 como nunca. Salimos casi a encuesta por día (no es broma). Menos mal que desde ayer -14 de diciembre- ya no se pueden publicar más hasta las elecciones. ¡Viva la incertidumbre!

Candidato ganador

Alrededor de los resultados de las encuestas electorales hay siempre controversia. Se habla de cómo se cocinan los datos, de si la estadística es interesada, de si buscan influir en el voto, de cuánto se equivocan. De todo ello, más o menos, queremos hablar aquí. Eso sí, intentando no entrar en tediosos detalles que le quiten la gracia al asunto.

Mirando al pasado, muchas encuestas aciertan o se aproximan al resultado. Pero otras son famosas por sus fracasos. En las últimas elecciones europeas, El País pronosticaba un 2.4% de votos para Podemos y El Mundo un 3.1%. Resultado real: 7.98%. El “columpio” más reciente se produjo en Reino Unido. Al conservador David Cameron ninguna encuesta, ni siquiera las más benévolas, le concedía más de 295 diputados. Las urnas le otorgaron 331, mayoría absoluta.

¿Por qué pasan estas cosas? ¿Podemos fiarnos de las encuestas electorales?

A priori, yo diría que sí. Al menos nuestros medios así lo hacen. Desde que arrancó la campaña electoral (el día 4 de diciembre), se han publicado cerca de una treintena de encuestas. No hay día que no amanezca con un nuevo “Ciudadanos se dispara” o “Pedro Sánchez se estanca”. Los últimos meses han sido un no parar. El Mundo, en un trabajo muy interesante por cierto, contabiliza los resultados de nada menos que 125 encuestas publicadas en lo que va de año.

Encuestas que se ven, más o menos, así.

Encuestas electorales

Metroscopia, Demoscopia, Sigmados… Unas 20 empresas (y sus intereses) hacen hueco para sus pronósticos en las páginas de nuestros periódicos. Otras tantas luchan por hacérselo. Es tanta la presión que hasta en el CIS, el Centro de Investigaciones Sociológicas, trabajan contra el reloj para publicar los “datos oficiales”.

Ante semejante vorágine encuestadora, y variedad de resultados, a uno se le ocurre una gran pregunta. ¡Cómo puede cambiar tanto la opinión de la gente de un día para otro! ¡Qué país!

La verdad es que hay muchos factores que influyen en el resultado de una encuesta tal cómo nos llega. Así que vamos a meternos un poco en harina.

La mayor parte de las encuestas electorales de hoy en día siguen, grosso modo, el modelo que se inventó un tal George Gallup en 1930. Periodista, matemático, estadístico y, sobre todo, pionero, este señor estadounidense creó la encuesta Gallup, o Gallup poll, un método bastante efectivo para sondear la opinión pública. Mediante un muestreo aleatorio, dentro de unos grupos de muestra bien definidos, se logra mantener la parcialidad de los resultados al mínimo posible.

Y ya nada fue lo mismo.

Así que, en principio, los resultados son imparciales. Teniendo en cuenta que todos nos digan la verdad, claro. Pero contra eso no hay mucho que hacer.

Entonces, para empezar, definimos los objetivos de la encuesta (qué queremos saber) y nuestro universo (a quién le vamos a preguntar). Aquí llega el primer gran escollo, porque a más encuestados, más trabajo y mayor precio a pagar. Por hablar en líneas generales, una muestra inferior a 500 personas no nos daría datos muy fiables, según The Gallup Poll. Las del CIS, por ejemplo, usan un universo de unas 2,500 personas. Este factor se traduce, entre otros valores, en el llamado nivel de confianza, es decir, a qué nivel estamos seguros de que la muestra que se ha elegido haya influido en los resultados obtenidos. Si este está por debajo del 90-95%, desconfía del resultado.

Del número de entrevistados también depende, directamente, el margen de error, es decir, cuánto podría llegar a variar el resultado si la misma encuesta se repitiese con distintas personas. En las encuestas de intención de voto, se suele situar en un 3%, lo cual no quiere decir que el error sobre el resultado final no pueda ser mucho mayor (recordemos los casos de David Camero o Podemos, u otros muchos que recoge este buen artículo de Yorokobu). Por último, está el factor tiempo. No es lo mismo que la encuesta se haga en pleno rescate financiero (sí, amigos, el rescate existió) que tras una victoria de la selección española de fútbol.

Para quien quiera cotillear un poco más, así luce una ficha técnica de un barómetro del CIS. Y un documento algo más serio con definiciones de conceptos y algunas fórmulas elaborado por la Universidad de Murcia.

Hasta aquí, lo que todo el mundo sabe, o podría llegar a saber con un poco de googling. A mayores está lo que pasa dentro de las cocinas, porque sí, las cocinas existen, no son ninguna leyenda ni invento conspiranoico. Hasta la más seria de las empresas de sondeos lo reconoce. Las fórmulas y las recetas son siempre secretas, pero, sin excepción, los datos en crudo se parecen poco a los que salen del horno. Y es que, si no hubiese un cocinero de por medio, me parece a mí que habría poco producto que vender.

cocina de encuestas

¿Cuánta gente no sabe a quién votar hasta el último momento? ¿Cuánta gente no va ni siquiera a votar? Hoy, a cinco días del 20D, un 40% de los españoles no sabe qué votar ni si irá a votar. Casi la mitad de la población. Ahí entra el trabajo de los magos de la cocina.

Por usar un ejemplo público, que son a los que mejor se puede acceder, así eran algunos de los datos en crudo del barómetro del CIS para las elecciones europeas de 2014:

PP 14.1% – PSOE 14.1% – IU 5.2% – Podemos 0.8%
No votaría 23.8% – No sabe todavía 20.6%

Y el resultado en las urnas:

PP 26.1% – PSOE 23% – IU 10% – Podemos 8%

(con una abstención del 54.1%)

Básicamente, el trabajo del Chef de los Datos es que lo primero (lo crudo) se parezca lo más posible a lo segundo (la realidad). Con preguntas adicionales, más allá del típico “a quién votaría usted de celebrarse hoy las elecciones”, el encuestador intenta conocer los gustos y preferencias del votante para predecir, sí, PREDECIR, a quién acabará votando. Y claro, con un porcentaje de indecisos por las nubes, el margen de errar en esta predicción también se dispara. Lo explican muy bien en el blog Principia Marsupia del diario Público.

Narciso Michavila, presidente de una empresa de análisis llamada Gad 3, reconocía en una entrevista reciente con El País que el término cocina no le molesta en absoluto, “porque se trata exactamente de eso, de guisar los datos con tu receta particular”. A lo que Belén Barreiro, ex-directora del CIS, añadía que aunque existen “modelos de estimación de voto”, hay mucho de “intuición, olfato, y un punto de apuesta”.

Así que sí, las cocinas existen (como el rescate a los bancos) y son la esencia de la estadística electoral. Sin un cocinero de datos no habría estadística que vender ni números abrumadores con los que llenar las portadas. Y, con mucha probabilidad, es gracias a estos cocineros y sus recetas, por lo que los resultados cambian tanto de un día para otro.

urna de votos

En estas últimas semanas, cerca de 20 empresas, con 20 chefs y cientos de pinches, han trabajado sobre la bocina para aproximar mejor el resultado final. ¿Besugo al horno o bacalao al pil-pil? Menos mal que en las urnas no hay cocinas, que sepamos..

Un dato y salvaré el mundo

De la catástrofe de Crimea, una persona regresó famosa, admirada por su país. No fue un general, ni un soldado, sino una mujer.

Más o menos con esas palabras arranca una de las varias películas que se hicieron sobre esta mujer. La Dama de la Lámpara. La Gran Administradora de Hospitales. Una mujer de buena familia que tuvo la suerte de recibir una educación cuando ninguna otra mujer la recibía. Una educación con la que tuvo la oportunidad de cambiar el mundo. Una oportunidad que no desaprovechó. Esta pretende ser la historia de Florence Nightingale y de cómo usó las matemáticas y los números para poner fin a una catástrofe humanitaria.

florence

Todo hay que decirlo. Me encontré con su figura por casualidad. Durante una charla de Marcelo Soria-Rodríguez (analista de datos de BBVA) en la Big Data Week de Barcelona. Pero esa es otra historia. Al lío.

En octubre de 1853 estallaba la guerra de Crimea -península del Mar Negro de vuelta a la actualidad por el conflicto de Ucrania- entre la Rusia zarista y una alianza entre franceses e ingleses. Occidente defendía la plaza seguro de su superioridad ante la tiranía del Zar. Pero antes del primer verano, más de 4.000 soldados británicos habían muerto en los hospitales de campaña.

Florence Nightingale creía por aquel entonces que Dios le había hablado. Y le había dicho que dedicase su vida a salvar el mundo. No vamos a entrar en si esto era verdad o era una forma de escapar de la opresión de una familia victoriana de clase alta. El caso es que su padre, un escéptico convencido, le había enseñado latín, griego, literatura y matemáticas, algo muy inusual en su época. Y ella decidió seguir estudiando. Dedicó su vida a la enfermería y pasó de casarse y atender salones de té hasta el fin de sus días.

Cuando Nightingale desembarca en Turquía, en la retaguardia del ejército aliado, pronto se da cuenta de que la situación es un desastre. “Las barracas llenas de heridos, plagadas de pulgas, piojos y ratas, bajo el mismo edificio existían fosas sépticas cargadas de suciedad, y las emanaciones llegaban por los conductos de las numerosas letrinas cerca de la barraca”, escribe Eliseo Martínez, matemático y profesor de la Universidad de Antofagasta, en Chile.

Científica convencida, creía que la observación del ambiente, los síntomas del enfermo y las negligencias que se producían a su alrededor eran fundamentales para poder curar. Y se puso manos a la obra.

Diagrama de Nightingale

De sus manos surgió esto: un diagrama de áreas polares, una versión del típico gráfico de pastel. Uno de los primeros de la historia. Nightingale lo inventó -o lo perfeccionó, depende del historiador que se consulte-. Aquí se reflejan todas las bajas ocurridas en un periodo de tiempo, representado en el círculo, y en cada segmento las causas que más impacto han tenido en las muertes. Un simple vistazo permite comparar muchos datos. Pura estadística, puros datos. Big data rudimentario y hand-made.

Resultó que la mayor parte de las muertes en el ejército británico eran evitables. No tenían que ver con heridas de guerra, sino con lo que ella llamaba enfermedades mitigables o prevenibles. En su diagrama, la realidad se reflejaba de forma clara, y esto ayudó a cambiar las mentes de muchos.

De hecho, algunos estudiosos afirman que el éxito de Nightingale no se debe tanto a sus capacidades matemáticas. Si no a su capacidad de plasmar los datos en gráficos y convencer a quien la escuchase de que llevaba razón.

Nightingale demostró todo lo que la ciencia podía lograr si registraba, ordenaba, codificaba, analizaba y sintetizaba bien grandes conjuntos de datos de los que después extraía conclusiones. Demostró también que una sola mujer podía convencer a todo un parlamento británico de que se estaban haciendo las cosas mal. Por convencer, convenció incluso a la mismísima reina Victoria. Y demostró que, mientras tanto, por las noches, todavía podía visitar a los soldados heridos, lámpara en mano.

Una vez terminada la guerra, su trabajo estadístico se utilizó en la reforma del sistema sanitario de Reino Unido y sus métodos se aplicaron para el control de epidemias.

Fue la primera mujer miembro de The Statistical Society y fue elegida miembro de honor de la American Statistical Association. La reina la cubrió de medallas y honores. Y su labor inspiró el Juramento Nightingale que muchos enfermeros recitarían durante años antes de empezar a ejercer. Sobre ella se escribieron canciones, obras de teatro y se rodaron películas. Y aún así, algunos escuchamos su nombre por primera vez hace una semana.

peninsula-crimea

Esta ha sido una historia de ciencia. Una historia de feminismo -aunque Nightingale no quiso participar del incipiente movimiento para lograr el derecho de la mujer a votar-. Una historia de números, países lejanos, rebeldías y aventuras. Vamos, lo que se llama una buena historia.

¿Tienes una idea? Incúbala

Qué estresante puede ser el mundo del emprendedor. Todo empieza con buenas ideas, mucho café, brainstorming… Y luego llega la desesperación. ¿Por dónde empezar? El infinito mundo del marketing, conocer bien el mercado y la competencia o los temas legales pueden hacer que una gran idea acabe pronto en la basura.

Pero hay otro camino. No estás solo en el mundo. Tu idea necesita tiempo. Incúbala, y te sorprenderás con los resultados.

incubio

En el marco de la Big Data Week de Barcelona se (re)presenta en sociedad Incubio. Nacida en el meollo de la innovación tecnológica, en Silicon Valley, en 2011, su nombre lo dice todo. Incubio es una incubadora de startups que acoge cualquier proyecto relacionado con la tecnología y el big data en su más tierna edad. Y lo lleva al éxito. Todo lo que piden es una buena idea.

¿Cómo funciona Incubio?

Incubio tiene su propio método nacido del movimiento The Lean Startup. Su filosofía: los emprendedores pueden estar en cualquier lugar y su idea “solo” necesita un empujón, mezcla de innovación y conocimiento, y que le enseñen a controlar el caos que inevitablemente se genera a su alrededor. “El método Lean consiste en poder errar rápido y barato. Es aplicar un proceso concreto al desarrollo de un producto”, explican en su web. Al final, todo se reduce a recoger y procesar los datos correctos. Y, con ellos en la mano, tomar decisiones.

basicmethod

El método empieza con la presentación de la idea. Si gusta en Incubio, llegan los diferentes procesos de validación: cuestiones legales, mercado y competencia… Se trabaja a contrarreloj para lanzarlo todo lo antes posible, no vaya a ser que otra startup se adelante. Después toca crear la marca, el diseño, el plan de negocio y el de marketing, definir el público y todo lo que vaya saliendo del equipo de la incubadora. Porque el grupo de profesionales de Incubio trabajará codo con codo con el emprendedor hasta que su idea pueda alzar el vuelo por sí sola. Y si algo falla, se vuelve a empezar. De media, en 18 meses, la idea se habrá convertido en algo real.

A nivel de costes, no hay precios fijos. Todo depende del proyecto y su embergadura, y en cada caso se estudian diferentes fórmulas: desde establecer una cuota a participar del beneficio de la empresa resultante.

Casos de éxito

Como en toda historia de innovación, muchas ideas se habrán quedado por el camino, pero otras se han transformado en grandes proyectos.

  • ZeedSecurity Nacida de la primera hornada de startups de Incubio, ZeedSecurity es una compañía auditora de seguridad digital. Qué hacen: ayudan a que otras compañías conozcan el estado de las infrastructuras digitales mediante técnicas de big data e inteligencia artificial.
  • Signaturit Una solución para firmar documentos de forma digital y desde cualquier dispositivo. Nacida en 2013, Signaturit cuenta con el grupo Prisa o Nubelo entre sus principales clientes.
  • Quizlyse De la misma generación que Signaturit, Quizlyse es quizá con la que más hemos coincidido, aunque pocos reconozcan su nombre. Quizlyse genera contenido interactivo -juegos de preguntas- en base a los productos de sus usuarios (fomentando así el engagement). Entre sus colaboradores, nombres como Marca, El País o la corporación Atresmedia.

Así que parece que las ideas brillantes -si son de big data– también tienen su oportunidad en España. Como dice uno de los principios del método Lean: work smarter, not harder.

La pista de los datos

Quédate con este dato: un dato no es siempre un número. Un dato es información, y la información, oro, poder y, sobre todo, saber.
Los datos los hay macro y los hay micro. Los hay meta, que son los datos que hablan de otros datos. Se organizan en tablas y en bases y hay analistas -y también periodistas-, que no dejan de seguirles la pista.

bigdata
En un mundo de informaciones interesadas y palabras retorcidas, los datos, los números, nos abren la puerta de su casa. No es que en ellos se esconda la verdad ni la objetividad, pero al menos nos esperan tranquilos, sin decirnos lo que tenemos que ver, lo que tenemos que entender.

¡Ojo al dato! Cada minuto se hacen 276,480 búsquedas en Google, se escriben 342,000 twits y Facebook recibe más de 3 millones de likes. En 2013, se calculaba ya que en Internet existían 1,000 exabytes de datos. O lo que es lo mismo, 1,000 millones de teras, o ¡1,000 BILLONES de megas! Casi nada. Sobre todo teniendo en cuenta que todos los libros escritos en la historia del hombre caben en un solo exabyte.

Así que los datos de este planeta conectado son cada vez más grandes, más big. Y puede que en los grandes datos esté la respuesta a muchas de nuestras incógnitas. Aunque probablemente sólo descubramos nuevas preguntas.

A los de letras, los datos nos gustan poco. Y nos gustan menos cuando son números. Pero, ¿qué es el periodismo sin los datos? Sin al menos uno. Nada. Por eso quiero aprender a llevarme bien con ellos. E intentar que el big data se convierta en palabras. Palabras que abran ojos 0_0 Y signos de interrogación… ¿?