Big data y privacidad

Big data connections

Durante las últimas décadas, el mundo ha cambiado tremendamente en muchos aspectos, especialmente cuando hablamos de tecnologías de la información. El número de personas con las que podemos comunicarnos diariamente ha crecido enormemente, al igual que la cantidad de información a la que tenemos acceso. Sin embargo, lo mismo es cierto sobre la cantidad de información que las grandes empresas recolectan sobre nosotros. Términos como «big data» (o macrodatos) se usan cada vez con más frecuencia. ¿Pero qué significa, exactamente? ¿Qué es el big data? ¿Es peligroso? ¿Cómo afecta a nuestra privacidad? Estas son algunas de las preguntas que cubriremos en este artículo.

¿Qué es el big data?

List with magnifying glassEl término «big data» describe las enormes cantidades de datos (personales) que, continuamente, están siendo recolectados por distintos actores. Un ejemplo podría ser toda la información que reúne Google sobre las búsquedas de sus usuarios. El fenómeno del big data es algo relativamente reciente que empezó por qué las (grandes) empresas y organizaciones, como Facebook, Google y muchos gobiernos, empezaron a reunir incluso más datos de sus usuarios, clientes y ciudadanos que antes. Las nuevas tecnologías, un mundo digitalizado e Internet han ayudado inmensamente a esto.

Las colecciones de big data son, a menudo, tan vastas, que es imposible analizarlas usando los análisis de datos tradicionales. Sin embargo, si uno analiza el big data de la forma correcta, pueden encontrarse patrones y llegar a conclusiones interesantes. Por ejemplo, el big data se suele usar en búsquedas de mercados a gran escala: ¿qué productos son más probables que se compren? ¿Qué tipo de anuncio es más efectivo cuando quieres conectar y persuadir a los clientes?

Para que un conjunto de datos sea considerado big data, debe, normalmente, reunir los siguientes tres criterios, conocidos como las «tres v» :

  • Volumen: El big data es cualquier cosa menos una pequeña muestra. Involucra vastas colecciones de datos, resultantes de largas y continuas observaciones.
  • Velocidad: Esto debe hacerse con las impresionantes velocidades en que el big data es recolectado. Además, el big data suele ser accesible en tiempo real (mientras se está reuniendo).
  • Variedad: Los grandes conjuntos de datos suelen contener muchos tipos de informaciones distintas. Los datos dentro de grandes conjuntos de datos pueden, incluso, combinarse para rellenar cualquier agujero y hacer que el conjunto de datos sea aún más completo.

Aparte de las tres v, el big data tiene algunas otras características. Por ejemplo, el big data es fantástico para el aprendizaje automático, o «machine learning». Esto quiere decir que puede usarse con efectividad para enseñar a ordenadores y a máquinas ciertas tareas. Además, como ya hemos comentado brevemente antes, el big data puede usarse para detectar patrones. Esto ocurre mayormente, de una forma muy efectiva, por medio de ordenadores trabajando con los datos. Finalmente, el big data es el reflejo de las huellas dactilares digitales de los usuarios. Esto significa que es un derivado de las actividades en línea de la gente y que puede usarse para construir perfiles personales individuales.

Distintos tipos de big data

Hay varias formas de clasificar el big data. La primera forma, que es la usada con más frecuencia, diferencia el big data en función del tipo de dato que está recolectando. Las tres posibles categorías usadas por este tipo de clasificación son: big data estructurados, big data desestructurados y big data semiestructurados.

  1. Estructurados: Cuando el big data es estructurado, puede guardarse y presentarse de una forma organizada y lógica, haciendo que los datos sean más accesibles y fáciles de comprender. Un ejemplo podría ser una lista de direcciones de clientes creada por una empresa. En esta lista, uno podría probablemente encontrar nombres, direcciones e incluso otros detalles de los clientes, como números de teléfono, todo estructurado cláramente en, por ejemplo, una gráfica o tabla.
  2. Desestructurados: El big data desestructurado no está organizado de ninguna forma. Le falta una presentación lógica que podría darle sentido para el humano medio. El big data desestructurado no tiene la estructura de, por ejemplo, una tabla que denote una cierta coherencia entre los distintos elementos del conjunto de datos. De ahí que sea bastante difícil moverse por este tipo de datos y entenderlos. Muchos conjuntos de datos inicialmente empiezan como big data desestructurado.
  3. Semiestructurados: El big data semiestructurado, como tal vez hayas deducido, tiene características del big data estructurado y del desestructurado. La naturaleza y representación de este tipo de datos no son completamente arbitrarios. Pero aun sin estructura ni organización suficiente como para ser usados para un análisis significativo. Un ejemplo podría ser una página web que contiene etiquetas de metadatos específicos (información adicional que no es directamente visible en el texto), por ejemplo por qué contiene ciertas palabras clave. Estas etiquetas muestran efectivamente pedazos específicos de información, como el autor de la página en el momento en que fue publicada en línea. El texto por sí mismo es esencialmente desestructurado, pero las palabras clave y otros metadatos que contiene ayudan a hacer que sea, en cierto modo, una base apta para su análisis.

Clasificación basada en la fuente del big data

Otra forma habitual de distinguir entre distintos tipos de big data es mirando la fuente de datos. ¿Quién o qué ha generado la información? Al igual que en la anterior división, este método de clasificación también consiste en tres categorías distintas.

  1. Personas: Esta categoría concierne al big data generado por personas. Ejemplos de ello podrían ser libros, imágenes, vídeos, así como información y datos (personales) en webs y redes sociales, como Facebook, Twitter, Instagram, etc.
  2. Proceso de registro: Esta categoría incluye el tipo más tradicional de big data, que se reúne y analiza por (grandes) empresas para mejorar ciertos procesos en un negocio.
  3. Máquinas: Este tipo de big data se consigue del cada ver mayor número de sensores que hay en máquinas. Un ejemplo podría ser el sensor de temperatura que suelen llevar los procesadores de los ordenadores. Los datos generados por máquinas suelen ser muy complejos, pero por lo menos este tipo de big data está, generalmente, bien estructurado y completo.

¿Para qué puede usarse el big data?

Facebook logoTodo lo que hemos contado hasta ahora puede sonar algo abstracto. Déjanos hacer las cosas un poco más concretas y hablar sobre algunas aplicaciones reales del big data. Después de todo, hay muchas, muchas, muchas formas en las que las empresas y organizaciones usan el big data. Una de las primeras cosas que vienen a la cabeza es la enorme cantidad de datos que las empresas reúnen sobre nosotros. Facebook recolecta datos de todos sus usuarios y los analiza para decidir qué mostrar en tu timeline. Por supuesto, esto se hace para satisfacer tus deseos e intereses personales. Facebook espera que esto te haga quedarte en su web más tiempo. A su vez, Amazon reúne información sobre sus clientes y los productos que compra. De esta forma, Amazon puede recomendar productos que cree que te interesarán e incrementar de esta forma sus ganancias.

Sin embargo, el big data también se usa de formas completamente diferentes de las estrategias comerciales que acabamos de ver. Por ejemplo, las empresas de transporte público pueden reunir datos sobre cómo de congestionadas están ciertas rutas. Más tarde, pueden analizar estos datos para decidir, por ejemplo, qué rutas requieren autobuses o trenes adicionales. Otro caso bien conocido del uso efectivo del big data tiene que ver con el gigante de la mensajería internacional UPS. UPS usa un software especial que fue desarrollado después del análisis de big data. Este software ayuda a los conductores de UPS a evitar los giros a la izquierda, los cuales son más caros, ineficientes y más peligrosos que los giros a la derecha. Se supone que este sistema ya ha ahorrado a UPS millones de litros de combustible, gracias al big data.

Otro ejemplo interesante de recolección de big data son los tests de ADN y las webs como MyHeritage DNA. Esta web anuncia que puede ayudarte a «descubrir tus orígenes étnicos y encontrar a nuevos familiares» con un simple test de ADN. No hace falta decir que, este proceso, implica un montón de datos recolectados y cruzados, convirtiéndolo en otro de los mayores jugadores en la recolección y uso de big data. Los tests «tradicionales», físicos, también implican una enorme cantidad de big data, ya que las empresas que realizan estos tests obtienen acceso a extremadamente enormes conjuntos de datos sobre mucha, mucha gente. Por supuesto, es importante estar informado de los posibles riesgos que conllevan estos procesos de recolección de big data. Estos riesgos los remarcaremos en la siguiente parte del artículo.

¿Es peligroso el big data?

Como hemos visto antes, el big data puede ser increíblemente útil en muchos casos. Nos proporciona toneladas de información que podemos usar para optimizar procesos y hacer que las empresas sean más eficientes y productivas. Sin embargo, esto no significa que reunir y usar big data esté completamente libre de riesgos. Hay cinco riesgos importantes que acompañan al big data:

Hackers y ladrones

Con todo lo que hacemos en línea, hay un riego inherente de que nuestros datos e información personales sobre actividades en Internet puedan ser robadas. Cada usuario de Internet tiene que tener en cuenta esto. La cantidad de filtrados de datos y robos han aumentado drásticamente durante los últimos años. Suelen aparecer historias en las noticias sobre delincuentes vendiendo conjuntos de datos que contienen contraseñas y otra información en lugares como la dark web. A menudo, estos conjuntos de datos son robados de webs, empresas y organizaciones oficiales. Cuanto mayor sea el conjunto de datos, más interesante se convierte para los ladrones el intentar obtenerlos. Si llegan a tener en sus manos estos conjuntos de datos, podrían causar un montón de problemas. No hace falta decir que esto también podría poner tu privacidad en un enorme peligro.

Privacidad

La práctica de recolectar datos personales se está volviendo más y más extendida. Sin embargo, las actuales regulaciones sobre privacidad no pueden seguir el ritmo de los rápidos avances  tecnológicos que hacen que esta práctica sea posible. Esto deja espacio a las áreas grises y a incertidumbres que no pueden resolverse mirando la ley. Las importantes preocupaciones sobre la privacidad que van en aumento incluyen: ¿Qué tipo de datos está permitido recolectar? ¿De quién? ¿Quién debería tener acceso a estos datos?

Al recolectar grandes cantidades de datos, la probabilidad de que información personal sensible sea incluida en estos conjuntos de datos es alta. Esto es problemático, incluso cuando sacamos de la ecuación a hacker y ladrones. Después de todo, cualquiera puede abusar de datos privados sensibles con intenciones dañinas. Esto incluye a empresas y organizaciones malintencionadas.

Análisis de datos pobres

Muchas empresas y organizaciones recolectan big data, ya que lo usan para análisis interesantes. Les pueden dar importantes nuevos conocimientos sobre lo que sea que estén investigando (como, por ejemplo, hábitos de consumo). A su vez, estos conocimientos y conclusiones pueden traducirse en cambios dentro de la empresa que generen márgenes más altos y más ganancias. Sin embargo, al igual que con otro conjunto de datos normal, un análisis incorrecto de big data puede tener serias consecuencias. Después de todo, todo análisis inapropiado puede, fácilmente, llevar a conclusiones erróneas. Esto, a su vez, puede traducirse en que se tomen medidas ineficaces o incluso contraproducentes.

Recolección de datos «erróneos»

El big data se está volviendo muy popular, y las organizaciones están más y más dispuestas a recolectar todo tipo de datos. Esto significa que gigantescas cantidades de datos son recolectadas sin ninguna razón clara para analizarlas. En otras palabras, crean una enorme base de datos de información cruda que se ha recolectado solo por si acaso. Las empresas probablemente piensen que es suficientemente fácil juntar todos esos datos, por lo que ellas también podrían hacerlo. No hace falta decir que, esto no es bueno para la privacidad de nadie. Puede, incluso, llevar a reunir y analizar datos irrelevantes o «erróneos». Si las conclusiones que se sacan de este análisis son usadas en la gestión de la empresa, puede llevar a las mismas medidas ineficaces mencionadas en el anterior párrafo.

Recolectar y guardar big data con malas intenciones

La recolección de big data es usada más y más a menudo por empresas, organizaciones y gobiernos, así pueden hacer un perfil individual preciso de la gente. Los usuarios o ciudadanos raramente son notificados sobre cuáles de sus datos personales se están registrando, y mucho menos quién y cómo. Como ya imaginarás, esto tiene serias implicaciones para su privacidad en línea. Todo lo que hacen en línea, puede ser guardado y revisado más adelante. Además, los recolectores de big data podrían, fácilmente, influenciar y manipular la toma de decisiones de las personas analizando y usando los datos reunidos.

Big data y privacidad

Smartphone with picture of earComo ya habrás probablemente entendido, el big data viene acompañado de muchas desventajas y riesgos. Aun así, muchas empresas y organizaciones continúan recolectando datos a gran escala, la mayoría debido a cómo pueden ayudarlos a crecer y avanzar. Recolectar big data es más fácil que nunca. Esto tiene enormes consecuencias para nuestra privacidad. Ya hemos hablado brevemente de los posibles peligros para la privacidad de la recolección de malos datos por terceros malintencionados. Ya que tu privacidad está tan cercanamente atada a la recolección masiva de datos personales, queremos usar esta sección para hablar de las distintas preocupaciones sobre la privacidad que acompañan al big data.

Recolección de datos a gran escala

Muchas empresas, incluyendo Google, Facebook y Twitter, son fuertemente dependientes de los anuncios para sostenerse a sí mismas y obtener ganancias. Para hacer estos anuncios lo más efectivos posibles, estas empresas crean perfiles detallados de sus usuarios, teniendo especialmente en cuenta lo que les gusta y sus intereses. Este es un tipo de big data. Asimismo, los gobiernos y los servicios secretos dependen también del big data. Usan esta vasta cantidad de información para rastrear e investigar a personas que consideran sospechosas. Por supuesto, esto también significa que hay un montón de big data sobre el que los ciberdelincuentes les gustaría echar el guante y, tal vez, incluso manipularlos y abusar de ellos. Esto puede crear todo tipo de problemas relacionados con la privacidad y la identidad. Uno de los primeros que vienen a la cabeza es, el robo de identidad.

Aun así, las posibilidades que trae consigo la recolección en bases de datos son mucho más amplias que esto. Hoy en día, la tecnología se ha vuelto tan avanzada e «inteligente» que puede combinar conjuntos de datos. Esto puede hacerse de una forma ingeniosa y hábil, lo que hace que las grandes corporaciones y organizaciones probablemente ¡conozcan más sobre ti que tú mismo! Quien eres, donde vives, cuáles son tus aficiones, quienes son tus amigos: ninguna de estas informaciones serán nunca más privadas. No es una idea muy reconfortante, puedes pensar. Por suerte, hay algunas formas de protegerte de esta violación a gran escala de la privacidad que el big data puede causar.

Leyes sobre la privacidad

Cookies on screenLas leyes y regulaciones sobre la privacidad pueden protegernos contra la violación de la privacidad, pero solo hasta cierto punto. Para hacer las cosas más complicadas, las leyes de privacidad suelen diferir mucho entre países y regiones. Por ejemplo, en Europa una ley relativamente estricta llamada Reglamento General de Protección de Datos (RGPD) está activa. Esta ley se aplica en todos los estados miembros de la UE, aunque algunos detalles pueden diferir según el país. Muchas empresas internacionales ha decidido obedecer en todos sus negocios el RGPD. Así es como Google, por ejemplo, ahora permita a los usuarios solicitar el borrado de información personal. Sin embargo, las leyes de privacidad en los Estados Unidos difieren de estado a estado, y no protegen a los consumidores tan bien como en la UE. Desafortunadamente, esto es incluso verdad para la ley de privacidad más dura de los EE. UU., la California Consumer Privacy Act.

En resumen, no existe algo como una fuerte ley de privacidad «global» que se aplique a todos los recolectores de big data y que proteja a todos los usuarios. Esto quiere decir que nuestra privacidad no solo está afectada por los recolectores de big data usando formas ilegales, sino incluso de formas perfectamente legales, por muy paradójico que suene. Por suerte, las violaciones a gran escala de la privacidad reveladas por informantes como Edward Snowden y Chelsea Manning han aumentado de forma muy importante la consciencia sobre los riesgos del big data. Por supuesto, esto es solo un primer paso para mejorar las actuales leyes de privacidad.

Muchos usuarios de Internet no están dispuestos a esperar una mejora de las leyes de privacidad, y con derecho. Es más, quieren realizar acciones ellos mismos haciendo lo que sea que puedan hacer para proteger su privacidad. ¿Quieres evitar convertirte en parte de los incontables conjuntos de big data, también? Aquí encontrarás algunos consejos y trucos que te ayudarán.

Cómo mantener tus datos a salvo de conjuntos de big data

Los grandes conjuntos de datos afectan, seriamente, tu privacidad y seguridad. Estos conjuntos de datos pueden contener todo tipo de información personal, de la que pueden abusar las grandes empresas o incluso ciberdelincuentes. Por eso deberías siempre asegurarte de dejar el menor rastro en línea que sea posible. Los siguientes consejos pueden ayudarte a lograrlo:

  • Intenta minimizar el uso de tu información personal al crear contraseñas o en general en la web. Por ejemplo, evita usar tu nombre, dirección, número de teléfono, fecha de nacimiento, etc.
  • Recuerda siempre lo siguiente: todo lo que publiques en Internet, estará allí para siempre. Esto puede no ser siempre completamente cierto, pero este nivel de precaución te ayudará a salvaguardar tu privacidad. Automáticamente, gestionarás tus datos privados con más cuidado una vez seas consciente de este hecho.
  • Asegúrate de que tu conexión a Internet es segura y anonimizada, por ejemplo usando el navegador Tor o una VPN.
  • Usa uno o varios bloqueadores de anuncios en tu navegador.
  • Usa uno o más complementos de navegador que bloqueen rastreadores y cookies.
  • Elimina regularmente tu caché y borra el historial de navegación y las cookies.
  • Cierra la sesión de páginas web cuando no estés usándolas activamente.

Tomando estos pasos en un buen principio en cuanto a salvaguardar tu privacidad y seguridad en línea. Ten en cuenta, sin embargo, que el big data se recolecta de muchas formas distintas, no solo en línea. Para acabar, donde sea que estés y lo que estés haciendo, siempre deberías estar atento e intentar proteger tus datos (personales) de los recolectores de big data.

International security coordinator
Marko has a Bachelor's degree in Computer and Information Sciences. He coordinates and manages VPNOverview.com's team of international VPN researchers and writers.