0,00 MXN

No hay productos en el carrito.

English English Español Español
0,00 MXN

No hay productos en el carrito.

Cómo hacer privacidad diferencial en tu ecommerce igual que Apple, Google y Microsoft

En 2013 se hizo pública una lista de información que pertenecía a la New York City Taxi and Limousine Commission. Dichos datos arrojaban horas exactas en que los pasajeros fueron recogidos, dejados en su lugar de destino, cuánto pagaron, cuánto dieron de propina y hasta los hashes –funciones criptográfica que toman como valor la información que se quiere cifrar, aplicando una función matemática que transforma ese valor en una cadena de texto diferente– de las placas de algunos taxis. Esta situación se prestó a suspicacia. ¿Cómo traducir esto en valor en lugar de que la brecha implicara un riesgo para los usuarios frente al cruce de datos que condujo, finalmente, a la identificación de los usuarios?
El hash también se usa frecuentemente para no transmitir o guardar datos en plain-text. Por ejemplo: en una base de datos de usuarios, las contraseñas de cada uno de ellos estarán cifrados, de modo que si alguien tiene acceso a la base de datos no logre saber cuáles son las contraseñas de cada miembro, solamente podrá ver el hash de dicha contraseña. Aunque, también, es posible saber la contraseña original a partir del hash, sin embargo no es nada sencillo poder descifrar un hash: depende de diferentes variables, como el tipo de cifrado utilizado y el tamaño y complejidad de la contraseña.
Lo que sucedió en New York City Taxi and Limousine Commission fue que el hacker logró “romper” el cifrado de datos y así, calcular las ganancias promedio de cada taxi durante el año. Y si yo viajé a Nueva York en 2013, es posible que se sepa cuál fue todo mi itinerario, con santo y seña de quién, cómo, cuándo y con quién. Para evitar que estas precisiones –que ayudan mucho durante la personalización– personificaran los datos y señalaran a individuos concretos públicamente (el caso de Ashley Madison el más reciente), se creó la privacidad diferencial.

privacidad diferencial Apple Microsoft Google
La privacidad diferencial es un mecanismo de defensa que puede funcionar para empresas que publican datos y estadísticas sin personificar a los involucrados.

La privacidad diferencial es una base de datos que, consciente o inconscientemente, una empresa proporciona, con la divergencia de que toda esta información no compromete la identidad del individuo en cuestión. Es decir, la información sigue vigente pero tan sólo quedan números y no personas con nombre, apellido, dirección, cuentas bancarias.
Esta herramienta se debe a Cynthia Dwork, Frank McSherry, Kobbi Nissim y Adam Smith de Microsoft Research. Fue creada en 2006. En especial, Dwork ha dedicado bastantes años de su carrera a la protección de datos personales de la población y éste es uno de sus logros más cercanos a ello.
La privacidad diferencial sirve para analizar tendencias o comportamientos a gran escala. Un ejemplo claro de esta técnica fue utilizado por Microsoft en algunas encuestas. Supón que la encuesta consiste solamente en una pregunta: “¿alguna vez has cometido un delito?” La manera de agregar “ruido” de Microsoft es bastante sencilla. Antes de responder la pregunta se pide que el usuario lance una moneda al aire. Si la moneda cae águila, el usuario responderá a la pregunta honestamente; sin embargo, si cae sello, el usuario volverá a tirar la moneda y contestar “sí”, si la moneda cae como águila, o “no”, si cae como sello.
De esta manera Microsoft no sabe cuáles usuarios respondieron honestamente la pregunta y cuántos respondieron en base al resultado de la moneda; sin embargo, a través de métodos de probabilidad y estadística, es posible calcular el factor de ruido de la muestra y analizar el comportamiento de los usuarios como un grupo sin comprometer la información individual de cada persona.

 

Elementos indispensables para aplicar privacidad diferencial en tu comercio electrónico

Imagínate que tienes una base de datos de tus clientes en tu ecommerce de sex shop online. Los individuos aquí involucrados no quieren que se conozca su identidad y, seguramente, tendrás a más de un hacker intentando publicar sus datos —por morbo, extorsión o ganas de molestar.
Esta base de datos la tienes dividida por cuánto consume cada estado, cada municipio, cada colonia, cada IP. Tienes ingresados los datos de cada cliente. Información indispensable para tu inteligencia de negocios, dentro de la cual has contemplado la posibilidad de compartir con tus proveedores estadísticas, tendencias, cifras y resultados de ventas que mejoren su enfoque en la fabricación de productos que sí se venden bien en ciertas regiones; algo que les facilitará, incluso, la elección de distribución en locales de todo el país. Un beneficio a cambio de mejores precios y más productos exitosos en tu plataforma.
Sin embargo, ya compartirles esta información significa hacerla pública, permitir que otros accedan a ella y decidan cómo emplear los datos a favor o en contra de tus clientes.
Para aplicar el modelo de privacidad diferencial y evitar riesgos en tu negocio al evidenciar la identidad de tus clientes, primero, elimina los datos específicos de cada consumidor (nombre, dirección, teléfono, correo electrónico, es decir todo lo que te identifique como individuo) e incluye a cambio cifras generales que no puedan vincularse a tu base de datos, que será completamente privada y no estará enlazada externamente a tus resultados.
Por ejemplo, si tienes a Polo Barriguete, con dirección calle Melancolía #7, teléfono 01 800 666 777 888, Es una intermediación entre la información pública y la privada. El número ingresa a un conjunto que corresponde, por ejemplo, a la Ciudad de México, colonia Del Valle, CP 03100.
Una recomendación para generar la intermediación entre el número público y los identificadores de tu base de datos privada: emplea Sal –cadena de texto que se comunica a una función criptográfica (MD5, SHA-1) que evita generar el mismo hash entre dos o más usuarios–. Esto te permitirá traducir los identificadores privados en alguna nomenclatura, cifra o término para los datos públicos evitando la posibilidad de que la relación entre el número (484575) y los datos de tu base (Polo Barriguete, calle…) sea descifrada. Esto es más seguro que usar sólo una capa de cifrado MD5 o SHA-1.

Sal SHA-1 MD5 seguridad privacidad diferencial ebusinesshoy
SHA-1 puede complementarse con Sal para evitar que se descubra el cifrado.

Sin embargo, aunque este cifrado sea excelso, existe el mismo problema al que se enfrentó New York City Taxi and Limousine Commission: un cruce de datos inteligente podría arrojar la identidad de 484575. Para evitarlo, viene el corazón de la privacidad diferencial: introducir ruido, datos basura, pero de manera controlada.
privacidad diferencial Apple Google Microsoft
La inyección de ruido controlado facilita ocultar los datos reales de cada cliente, evitando la suspicacia de quien accede a los datos.

Imaginemos que 484575 se muda a la colonia Narvarte y genera transacciones en su nuevo domicilio. Si alguien cruza datos de mudanzas, cambios de domicilio en el banco, paqueterías, órdenes de reinstalación de cable e Internet, etcétera, con los datos de tus ventas, podría conjeturar la identidad del cliente —e incluso atinarle.
Aquí entra en acción la privacidad diferencial. Para que no existan elementos suficientes para inferir identidades, introduces, por ejemplo, pedidos falsos a la colonia Del Valle que equilibren el desplazamiento de mercancía generado por la mudanza del cliente 484575. Lo mismo en la colonia Narvarte. A esto se le llama inyección de ruido controlado.
Para que este ruido no afecte la precisión de tus datos, la información que inyectas (los pedidos falsos) deben de tener una secuencia lógica que, con base en probabilidad y estadística, puedas revertir —o bien, te permita internamente calcular cuántos datos son falsos y cuántos veraces.
Las funciones matematicas que se utilizan para inyectar ruido en la muestra podrian abarcar varios posts por si solas, pero por el momento nos basta con saber que se utilizan distintos mecanismos matematicos como el mecanismo de Laplace o el mecanismo exponencial.

¿Por qué la privacidad diferencial está en boca de todos?

Apple se encargó esta semana de traer a colación el concepto de privacidad diferencial al sentirse orgulloso de incluirla en su iOS 10. Craig Federighi, ejecutivo de la empresa, menciona que “…creemos que los usuarios deberían tener grandes prestaciones y sobretodo, una gran privacidad. La privacidad diferencial es un tema de investigación estadística y análisis de datos pero al mismo tiempo mantiene los datos del usuario en privado. Apple ha estado trabajando en esta área para que dicha privacidad pueda ser desplegada a escala”.

Apple differential privacy privacidad diferencial ebusinesshoy
Apple trajo a colación este tema, por demás apremiante ante la situación que vivió con el FBI en fechas pasadas.

Apple añade que por el momento sólo estará disponible dicha tecnología para sugerencias de QuickType y emojis, Spotlight y Notas. Todavía está en vías de expandirse a muchas más funciones.

Lo bueno y lo malo de la privacidad diferencial

Sí, es bueno que nuestra información esté un poco más protegida gracias a estas bases matemáticas, pero ¿por qué tenemos que estar sujetos a ser víctimas de un espionaje de cualquier índole?
La privacidad diferencial es una herramienta de protección que vino a salvar a muchos pero que se debe de seguir trabajando. Es imposible conocer información específica y así, nuestra privacidad está en mejores manos. Al final del día la información sigue rodando entre estadísticas y números. De cualquier forma, somos conscientes de a quién y en qué momento le estamos brindando nuestra información.

Comentarios

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos relacionados

3,179FansLike
90FollowersFollow
223FollowersFollow

Últimos artículos