El otro día terminé de leer una gran serie libros. Tratan sobre cómo diferentes familias de nobles intentan conseguir más y más poder en un mundo fantástico en el que hay, entre otras cosas, dragones y seres que controlan a los muertos.
No voy a deciros el nombre concreto de los libros, pero si os diré que se ha realizado una serie de televisión muy exitosa basada en ellos.
Tampoco os diré el nombre del autor, pero puedo deciros que nació en Bayonne (New Jersey), tiene dos hijos y tiene ascendencia italiana e irlandesa. Además, os diré que esta entradito en carnes.
Pero no os digo su nombre porque respeto su privacidad. A pesar de todo, sé que podéis adivinar el título de la saga de libros y el nombre de su autor solo con los datos que he mencionado…
La patraña de la anonimización
Esta curiosa manera de presentación me ha servido para demostraros hasta qué punto la anonimización de datos o “Anonymized Data” es una patraña (refiriéndome a que sean realmente anónimos; porque útiles son y mucho).
Esta clase de datos, por ejemplo, son comúnmente utilizados por los dispositivos electrónicos para (en teoría) mantener nuestro anonimato a la vez que informan a las grandes empresas sobre su funcionamiento y fallas. Esto es tan solo una invención para mantener la legislación y el pensamiento crítico de las personas con respecto a la privacidad a raya.
Como todos sabéis esta es la era del Big Data. Esta tecnología solo existe bajo la premisa de la existencia de estos datos que acabamos de mencionar. Con todo ello se les promete a las empresas que ahora pueden saber cuál es su público objetivo con una precisión nunca vista: no saben tu nombre, pero lo saben todo sobre ti.
¿Es esto verdaderamente anónimo?
Por si esto fuera poco, hace un tiempo ya se publicaron estudios en la revista Science en los que se conseguía una “re-identificación” de los datos. Con este estudio, Yves-Alexandre de Montjoye, científico de la MIT, utilizó ingeniería inversa para identificar individuos en base a las transacciones bancarias realizadas. Este estudio, estaba a su vez basado en otro realizado por la MIT y la Université Catholique de Louvain en Bélgica.
Os contare brevemente cómo funciona esto:
En estos últimos estudios fueron analizados datos de 1.5 millones de usuarios de telefonía móvil de una región de Europa generados durante 15 meses, concluyendo que tan solo tomando 4 puntos de referencia, con una resolución temporal y espacial bastante baja, es suficiente para identificar de manera única al 95% de los usuarios.
Lo que aplicaron en el estudio fueron herramientas estadísticas y matemáticas a un grupo amplio. Describiendo así simples relaciones matemáticas que relacionaban la resolución de los datos espacio temporales con la probabilidad de identificar a un individuo concreto:
En otras palabras, para extraer información completa sobre la localización de una persona solo hacen falta 4 puntos de referencia. Cosa que conseguimos con los datos “anónimos” que envía un teléfono móvil, localizándolo así en la zona de un transmisor móvil. Los móviles utilizan un número generado aleatoriamente para ser identificados por la red, no utilizan información que ligue directamente el terminar con su dueño. Sin embargo, unos cuantos tweets son suficientes para localizarte, y además si envías información personal en ellos aumenta considerablemente la re-identificación.
Ya sabíamos, aunque no con certeza, que nos estaban observando. Ahora puedes estar 100% seguro de ello. ¿Creepy?