Mégadonnées et respect de la vie privée

Big data connections

Au cours des dernières décennies, le monde a énormément évolué à bien des égards, en particulier dans le domaine de l’informatique. Le nombre de personnes avec lesquelles nous pouvons communiquer au quotidien n’a cessé de croître, comme la quantité d’informations qui nous sont accessibles. Il en va cependant de même pour la quantité d’informations que les grandes sociétés collectent à propos de nous. Des expressions comme « big data », « données massives » ou « mégadonnées » sont de plus en plus fréquentes avec le temps. Mais que signifient-elles exactement ? Que sont les mégadonnées ? Sont-elles dangereuses ? Affectent-elles notre vie privée et si oui comment ? Voici quelques-unes des questions auxquelles nous répondrons dans cet article.

Que sont les mégadonnées ?

List with magnifying glassL’expression « mégadonnées » (ou « big data ») décrit l’énorme quantité de données (personnelles) qui sont continuellement collectées par différents acteurs. L’intégralité des informations que Google recueille à propos des recherches de ses utilisateurs en est un bon exemple. Ce phénomène est le fruit d’une évolution plutôt récente qui a débuté quand des sociétés et organisations, comme Facebook, Google et plusieurs gouvernements, ont commencé à collecter toujours plus de données sur leurs utilisateurs, leurs clients et leurs citoyens. Les nouvelles technologies, un monde en pleine numérisation et internet ont largement participé à ce phénomène.

La collecte de mégadonnées est souvent si importante qu’il est impossible de les analyser à l’aide d’outils traditionnels. Toutefois, si elles sont analysées de la bonne façon, les mégadonnées peuvent permettre d’identifier des tendances et de tirer des conclusions. Par exemple, elles sont souvent utilisées pour effectuer de vastes études de marché : quels produits sont les plus susceptibles d’être achetés ? Quel type de publicité est plus efficace pour toucher et convaincre des consommateurs ?

Pour qu’un jeu de données soit considéré comme des mégadonnées, il doit généralement répondre aux trois critères suivants, souvent dénommés les 3 V :

  • Volume : les mégadonnées n’ont rien d’un petit échantillon. Elles impliquent de vastes collectes de données, issues d’observation longue et continue.
  • Vitesse : cela concerne les vitesses spectaculaires auxquelles les mégadonnées sont collectées. En outre, elles sont souvent accessibles en temps réel (en même temps qu’elles sont collectées).
  • Variété : de vastes jeux de données contiennent souvent différents types d’informations. Les données appartenant à de vastes jeux de données peuvent même être combinées afin de compléter encore davantage un jeu de données.

Outre ces 3 V, les mégadonnées ont quelques autres caractéristiques. Elles sont par exemple très utiles pour l’apprentissage automatique. Cela signifie qu’elles peuvent être utilisées afin d’apprendre certaines tâches à des ordinateurs et machines. En outre, comme nous l’avons déjà évoqué rapidement, les mégadonnées peuvent être utilisées pour détecter des tendances. Une méthode particulièrement efficace pour se faire est d’utiliser des ordinateurs pour les analyser. Enfin, les mégadonnées sont en quelque sorte les empreintes digitales numériques des utilisateurs. Il s’agit d’un sous-produit des activités numériques et en ligne des utilisateurs, et elles peuvent donc être utilisées pour concevoir des profils personnels.

Les différents types de mégadonnées

Il existe plusieurs manières de classer les mégadonnées. La première, qui est aussi la plus fréquente, est de les différencier en fonction du type de données collectées. Les trois catégories utilisées pour ce type de classification sont : mégadonnées structurées, mégadonnées non structurées et mégadonnées semi-structurées.

  1. Mégadonnées structurées : lorsque des mégadonnées sont structurées, elles peuvent être enregistrées et présentées de manière logique et organisée, les rendant plus accessibles et plus faciles à appréhender. Par exemple, un fichier client créé par une entreprise. Dans ce fichier, vous trouverez sans doute les noms des clients, leurs adresses, ainsi que d’autres informations, comme leurs numéros de téléphone, le tout clairement organisé dans un tableau, par exemple.
  2. Mégadonnées non structurées : les mégadonnées non structurées ne sont absolument pas organisées. Elles ne sont donc pas présentées de manière logique, compréhensible par un être humain ordinaire. Comme un tableau au sein duquel les différents éléments d’un jeu de données sont classés selon une certaine logique. Il est donc assez laborieux de parcourir et d’appréhender ce type de données. De nombreux jeux de données commencent sous la forme de métadonnées non structurées.
  3. Mégadonnées semi-structurées : les mégadonnées semi-structurées, comme vous l’aurez sans doute deviné, possèdent des caractéristiques propres aux deux catégories précédentes. La nature et la représentation de ce type de données ne sont pas totalement arbitraires. Elles ne sont toutefois pas suffisamment structurées et organisées pour permettre une analyse pertinente. Une page web contenant des balises de métadonnées (des informations supplémentaires qui ne sont pas directement visibles dans le texte) en est un exemple, car elle contient certains mots-clés. Ces balises affichent des bribes d’informations spécifiques, comme l’auteur d’une page ou le moment de sa publication. Le texte n’est pas structuré, mais les mots-clés et les autres métadonnées qu’il contient en font une base un peu plus adaptée pour mener une analyse.

Classification basée sur la source des mégadonnées

Une autre façon courant de différencier les types de mégadonnées est de se pencher sur la source de ces données. Comment ont été générées les informations ? À l’instar de la précédente classification, cette méthode comprend 3 catégories.

  1. Individus : cela concerne les mégadonnées générées par des personnes. Par exemple, des livres, des images, des vidéos, ainsi que des informations et des données (personnelles) publiées sur des sites internet et des réseaux sociaux, comme Facebook, Twitter, Instagram, etc.
  2. Processus d’inscription : cela comprend les mégadonnées plus traditionnelles, collectées et analysées par de (grandes) sociétés afin d’améliorer certains de leurs processus.
  3. Machines : ce type de mégadonnées est obtenu à partir du nombre sans cesse croissant de capteurs placés dans des machines. Par exemple, le capteur de chaleur qui est souvent intégré aux processeurs informatiques. Les données générées par des machines peuvent être très complexes, mais ce type de mégadonnées est généralement bien structuré et exhaustif.

À quoi peuvent servir les mégadonnées ?

Facebook logoTout ce que nous avons évoqué jusqu’ici vous semble peut-être toujours un peu abstrait. Rentrons un peu plus dans le vif du sujet et penchons-nous sur les applications pratiques des mégadonnées. Après tout, les sociétés et les organisations disposent d’innombrables moyens de les utiliser. La première chose qui nous vient à l’esprit ce sont les quantités gigantesques de données que les sociétés collectent sur nous. Facebook collecte des données sur tous ses utilisateurs et les analyse afin de déterminer ce qu’il doit afficher dans votre timeline. Bien entendu, le but est de correspondre aux mieux à vos envies et centres d’intérêt. La plateforme espère que cela vous poussera à rester plus longtemps. Amazon collecte également des informations sur ses clients et les produits qu’ils achètent. Ainsi, le site peut vous recommander des produits susceptibles de vous intéresser et faire augmenter ainsi ses revenus.

Les mégadonnées sont aussi utilisées à des fins totalement différentes que celles susmentionnées. Par exemple, les sociétés de transport peuvent collecter des données sur l’état du trafic routier. Ces données peuvent ensuite être utilisées, par exemple, pour déterminer les itinéraires nécessitant davantage de bus ou de trains. Un autre cas bien connu d’utilisation des mégadonnées concerne un géant de la livraison internationale : UPS. UPS utilise un logiciel spécial développé grâce aux analyses des mégadonnées. Celui-ci permet aux conducteurs d’UPS d’éviter de tourner à gauche, ce qui est plus onéreux, couteux en gourmand en carburant et dangereux que de tourner à droite. Selon le transporteur, ce système lui aurait déjà permis d’économiser des millions de litres de carburant, tout cela grâce aux mégadonnées.

Autre exemple intéressant de collecte de mégadonnées : les tests ADN et les sites internet comme MyHeritage. Ce dernier affirme pouvoir vous permettre de « découvrir vos origines ethniques et trouver de nouveaux cousins » à l’aide d’un simple test ADN. Il va sans dire que ce processus implique la collecte et le croisement d’une immense quantité de données, ce qui en fait un autre acteur majeur du secteur. Les tests ADN physiques « traditionnels » impliquent également de grandes quantités de données, car les entreprises qui les effectuent recueilleront de vastes jeux de données concernant de très nombreuses personnes. Bien entendu, il est important d’être conscient des risques qu’impliquent ces collectes de mégadonnées à grande échelle. Ces risques seront évoqués plus en détail dans la suite de cet article.

Les mégadonnées sont-elles dangereuses ?

Comme indiqué précédemment, les mégadonnées peuvent s’avérer incroyablement utiles dans de nombreux cas. Elles nous fournissent un grand nombre d’informations que nous pouvons utiliser afin de rationaliser des processus et rendre les sociétés plus performantes et rentables. Cela ne signifie toutefois pas que la collecte et l’utilisation de ces mégadonnées ne présentent aucun risque. Il existe cinq risques majeurs liés aux mégadonnées. Nous allons vous les présenter ci-après.

Piratage et vol

Avec tout ce que nous faisons en ligne, il existe un risque substantiel que nos données personnelles et des informations sur nos activités soient interceptées. Tous les internautes devraient garder cela à l’esprit. Le nombre de fuites et de vols de données a drastiquement augmenté au cours des dernières années. Les informations font souvent état de criminels revendant des jeux de données contenant des mots de passe et d’autres informations, notamment sur le dark web. Ces jeux de données sont généralement issus d’un vol ayant visé des sites internet officiels, des sociétés et des organisations. Plus ces jeux de données sont conséquents, plus il est intéressant aux yeux des voleurs de s’en emparer. S’ils y parviennent, ils peuvent causer de nombreux problèmes. Il va sans dire que cela peut également compromettre votre confidentialité.

Respect de la vie privée

La collecte de données personnelles est de plus en plus répandue. La réglementation en matière de confidentialité n’arrive toutefois pas à suivre les développements technologiques rapides qui rendent cette pratique possible. Il reste donc des zones d’ombre et des doutes qui ne peuvent être résolus en se tournant vers la loi. Les préoccupations liées à la protection de la vie privée concernant : le type de données dont la collecte est autorisée. Les personnes concernées par cette collecte. Les personnes devant avoir accès à ces données.

Lors de la collecte de vastes quantités de données, les chances que des données personnelles confidentielles soient incluses dans ces jeux de données sont élevées. C’est problématique, même lorsque des pirates et des voleurs ne s’en mêlent pas. Après tout, les données personnelles à caractère sensible peuvent être utilisées à mauvais escient par des personnes malintentionnées. Cela inclut les sociétés et les organisations.

Mauvaise analyse des données

De nombreuses sociétés et organisations collectent des mégadonnées, car elles les utilisent pour mener des analyses intéressantes. Cela leur permet d’obtenir de nouveaux éléments importants sur leur sujet de recherche (comme les habitudes de consommation). Ces éléments et conclusions pourraient se traduire en changements au sein de la société entraînant des marges brutes plus élevées et davantage de profits. Toutefois, comme avec tout autre jeu de données normal, une analyse incorrecte des mégadonnées peut avoir de graves conséquences. Après tout, une mauvaise analyse peut facilement aboutir à des conclusions erronées. Et donc se traduire par la prise de mesures inefficaces, voire contreproductives.

Collecte de « mauvaises » données

Les mégadonnées gagnent en popularité et les organisations sont de plus en plus enclines à collecter toutes sortes de données. Cela signifie que d’immenses quantités de données sont collectées sans qu’il y ait de raison claire de les analyser. En d’autres termes, cela génère une énorme base de données d’informations brutes collectées juste au cas où. Les sociétés sont promptes à penser qu’il est facile de collecter toutes les données et qu’il n’y a donc aucune raison de ne pas le faire. Il va sans dire que cela n’est pas une bonne chose pour la vie privée des internautes. Cela peut même entraîner la collecte et l’analyse de données superflues ou de « mauvaises » données. Si les conclusions tirées de ces analyses sont utilisées à des fins de gestion, cela peut mener aux mêmes mesures inefficaces mentionnées au paragraphe précédent.

Collecte et conservation de mégadonnées à des fins malveillantes

La collecte de mégadonnées est de plus en plus souvent utilisée par des sociétés, des organisations et des gouvernements afin de créer des profils précis sur des individus. Les utilisateurs ou les citoyens sont rarement prévenus que leurs données personnelles sont enregistrées, encore moins de la raison et de la méthode utilisée. Il va sans dire que les implications en matière de confidentialité en ligne sont importantes. Tout ce que vous faites en ligne peut être enregistré et consulté plus tard. En outre, ces entités sont susceptibles de pouvoir aisément influencer et manipuler les processus décisionnels des individus en analysant et en utilisant les données collectées.

Mégadonnées et respect de la vie privée

Smartphone with picture of earComme vous l’aurez sûrement compris, les mégadonnées présentent de nombreux risques et inconvénients. De nombreuses sociétés et organisations en collectent toutefois à grande échelle, principalement parce que cela peut leur permettre de se développer et d’avancer. La collecte de mégadonnées n’a jamais été aussi facile. Elle a d’énormes conséquences sur notre vie privée. Nous avons déjà brièvement évoqué les risques encourus en matière de confidentialité si des personnes malintentionnées collectent les mauvaises données. Comme notre vie privée est étroitement liée à la collecte de masse de données personnelles, nous souhaitons utiliser cette partie pour évoquer les différentes préoccupations soulevées par les mégadonnées en la matière.

Collecte de données à grande échelle

De nombreuses sociétés, dont Google, Facebook et Twitter, dépendent énormément des publicités pour subvenir à leurs besoins et réaliser des profits. Pour rendre ces publicités aussi efficaces que possible, ces sociétés conçoivent des profils détaillés sur leurs utilisateurs, en particulier en ce qui concerne leurs goûts et leurs centres d’intérêt. Il s’agit d’une forme de mégadonnées. De même, les gouvernements et les services secrets dépendent également de ces mégadonnées. Ils utilisent cette grande quantité d’informations pour suivre et enquêter sur les individus qu’ils considèrent comme suspects. Bien entendu, cela signifie aussi que de nombreuses mégadonnées sont à portée des cybercriminels et qu’ils peuvent les manipuler et en abuser. Cela peut générer toutes sortes de problèmes en matière de respect de la vie privée et de protection de l’identité. Notamment, l’usurpation d’identité.

Les possibilités que présentent les bases de données sont toutefois bien plus vastes. Aujourd’hui, la technologie est devenue si avancée et « intelligente » qu’elle peut combiner les jeux de données. Cela peut se faire d’une manière si habile et astucieuse, que de grandes sociétés et organisations sont susceptibles d’en savoir plus à votre propos que vous-même ! Qui vous êtes, où vous vivez, quels sont vos hobbies, qui sont vos amis : aucune de ces informations ne sera plus confidentielle. Cela n’a rien de rassurant, non ? Heureusement, il existe des façons de vous protéger des violations de la vie privée à grande échelle que les mégadonnées peuvent entraîner.

Législation sur la protection de la vie privée

Cookies on screenLes lois et la réglementation sur la protection de la vie privée peuvent nous protéger contre de telles violations, mais seulement dans une certaine mesure. Pour ne rien arranger, ces législations diffèrent souvent grandement entre les pays et les régions du monde. Par exemple, en Europe, une législation particulièrement stricte, le règlement général sur la protection des données (RGPD), est en vigueur. Le RGPD s’applique à tous les États membres de l’UE, bien que les détails puissent différer d’un pays à un autre. De nombreuses sociétés internationales ont décidé de s’y conformer dans toutes leurs opérations. C’est pourquoi Google, par exemple, permet maintenant à ses utilisateurs de demander la suppression de leurs données personnelles. Aux États-Unis, la législation sur la protection de la vie privée diffère d’un État à l’autre et ne protège pas autant les consommateurs que l’UE. Malheureusement, c’est même le cas pour la législation la plus stricte des États-Unis en la matière, le California Consumer Privacy Act.

En résumé, il n’existe aucune législation « mondiale » sur la protection de la vie privée applicable à tous les collecteurs de mégadonnées et protégeant tous les utilisateurs. Cela signifie que, aussi paradoxal que cela puisse paraître, notre vie privée n’est pas seulement bafouée par les collecteurs de mégadonnées de façons illégales, mais aussi de manière totalement légale. Heureusement, les violations à grande échelle de la vie privée dévoilées par des lanceurs d’alerte comme Edward Snowden et Chelsea Manning ont grandement contribué à sensibiliser le grand public aux risques associés aux mégadonnées. Bien entendu, il ne s’agit que d’un premier pas dans l’amélioration de la législation sur la vie privée.

De nombreux internautes ne souhaitent pas attendre une telle amélioration, à juste titre. Ils préfèrent passer à l’acte en prenant toutes les mesures possibles pour protéger leur confidentialité. Vous souhaitez vous aussi éviter d’apparaître dans d’innombrables jeux de données ? Il existe plusieurs astuces pour ce faire.

Comment empêcher que vos données soient enregistrées dans d’immenses jeux de données ?

Les vastes jeux de données affectent sérieusement votre confidentialité et votre sécurité. Ces jeux de données peuvent contenir toutes sortes d’informations (personnelles), qui peuvent être utilisées à mauvais escient par de grandes sociétés ou des cybercriminels. C’est pourquoi vous devriez toujours veiller à laisser aussi peu de traces que possibles en ligne. Les conseils suivants vous aideront à y parvenir :

  • Essayez de minimiser au maximum l’utilisation de vos informations personnelles lors de la création de mots de passe ou en règle générale sur la toile. Par exemple : évitez d’utiliser votre nom, votre adresse, votre numéro de téléphone, votre date de naissance, etc.
  • Souvenez-vous toujours de la chose suivante : tout ce qui est publié sur internet y restera pour toujours. Cela n’est pas toujours vrai, mais ce niveau de prudence vous aide à protéger votre vie privée. Vous traiterez automatiquement vos données privées avec plus d’attention en gardant ce fait à l’esprit.
  • Veillez à utiliser une connexion internet sécurisée et anonyme, par exemple en utilisant le navigateur Tor ou un VPN par exemple.
  • Utilisez un ou plusieurs bloqueurs de publicités sur votre navigateur.
  • Utilisez une ou plusieurs extensions de navigateur qui bloquent les trackers et les cookies.
  • Supprimez régulièrement votre cache, votre historique de navigation et les cookies.
  • Déconnectez-vous des sites internet lorsque vous ne les utilisez pas activement.

Ces mesures sont un bon point de départ pour protéger votre vie privée et votre sécurité en ligne. Gardez toutefois à l’esprit que les mégadonnées sont collectées de bien des façons, pas seulement en ligne. En bref, où que vous vous trouviez et quoi que vous fassiez, vous devriez toujours faire preuve de vigilance et tenter de protéger vos données (personnelles) des collecteurs de mégadonnées.

Analyste cybersécurité
David, analyste en cybersécurité, est l'un des fondateurs de VPNoverview.com. Il s'intéresse au phénomène de l' « identité numérique », avec une attention particulière pour le droit à la vie privée et la protection des données personnelles.
Soumettre un commentaire
Soumettre un commentaire