Big data och integritet

Big data connections

Under de senaste decennierna har världen förändrats enormt i många avseenden, särskilt när det gäller IT. Antalet människor som vi dagligen kan kommunicera med har ökat enormt, precis som den mängd information vi har tillgång till. Detsamma gäller dock för mängden information som stora företag samlar in om oss. Termer som ”big data” (massdata) används allt oftare efterhand tiden går. Men vad betyder det här egentligen? Vad är big data? Är det farligt? Hur påverkar den vår integritet, om alls? Dessa är några av de frågor vi kommer att täcka i den här artikeln.

Vad är big data?

Lista med förstoringsglass Termen ”big data” beskriver de enorma mängder (personlig) data som kontinuerligt samlas in av olika aktörer. Ett exempel skulle vara all information som Google samlar in om dess användares sökfrågor. Fenomenet med big data är en relativt ny utveckling som började med (stora) företag och organisationer såsom Facebook, Google och de flesta regeringar mer än tidigare började samla in allt mer data om sina användare, kunder och medborgare. Ny teknik, en digitaliserad värld och internet har hjälpt denna utveckling enormt.

Samlingar av big data är ofta så stora att det är omöjligt att analysera dem med traditionell dataanalys. Men om man analyserar big data på rätt sätt kan intressanta mönster och slutsatser fås fram. Till exempel används big data ofta för storskalig marknadsundersökning: vilka produkter är mest sannolika att köpas? Vilken typ av reklam är mest effektiv när du vill nå och övertyga kunder?

För att en datauppsättning ska betraktas som big data ska den normalt uppfylla följande tre kriterier, även kallade 3 V:

  • Volym (Eng. Volume): Big data är allt annat än ett litet urval. Det handlar om stora datasamlingar som är resultatet av långa, kontinuerliga observationer.
  • Hastighet (Eng. Velocity): Detta har att göra med de imponerande hastigheter med vilka big data samlas in. Dessutom är big data ofta tillgängliga i realtid (medan den samlas in).
  • Variation (Eng. Variety): Big-data-uppsättningar innehåller ofta många olika sorters information. Data inom big data-uppsättningar kan till och med kombineras för att fylla i eventuella luckor och göra datauppsättningen ännu mer komplett.

Utöver dessa 3 V har big data några ytterligare kännetecken. Big data är till exempel bra för maskininlärning. Detta innebär att den effektivt kan användas för att lära datorer och maskiner vissa uppgifter. Och som vi redan har berört kort, kan big data användas för att upptäcka mönster. Detta sker oftast på ett mycket effektivt sätt, genom datorer som arbetar med data. Slutligen är big data en återspegling av användarnas digitala fingeravtryck. Detta innebär att det är en förprodukt av människors digitala aktiviteter och onlineaktiviteter och kan användas för att bygga individuella personliga profiler.

Olika typer av big data

Det finns olika sätt att klassificera big data. Det första sättet, som oftast används, skiljer på big data utifrån typen av data som samlas in. De tre möjliga kategorierna som används för denna typ av klassificering är: strukturerad big data, ostrukturerad big data och halvstrukturerad big data.

  1. Strukturad: När big data är strukturerad kan den sparas och presenteras på ett organiserat och logiskt sätt, vilket gör data mer tillgänglig och lättare att förstå. Ett exempel är en lista över kundadresser som skapats av ett företag. I den här listan skulle man sannolikt hitta kundernas namn, adresser och kanske andra detaljer som telefonnummer – allt tydligt strukturerat i till exempel diagram eller tabell.
  2. Ostrukturerad: Omstrukturerad big data är inte alls organiserad. Den saknar en logisk presentation som skulle vara meningsfull för vanligt folk. Ostrukturerad big data har inte strukturen i form av exempelvis en tabell som anger en viss samstämmighet mellan de olika elementen i datauppsättningen. Därför är denna typ av data ganska svår att navigera i och förstå. Många datauppsättningar börjar till en början som ostrukturerad big data.
  3. Semistrukturerad: Semistrukturerad big data har, som du kanske gissat, egenskaper hos både strukturerad och ostrukturerad big data. Arten och representationen av den här typen av data är inte helt godtyckliga. Ändå är den inte strukturerat och organiserad nog att användas för en meningsfull analys heller. Ett exempel är en webbsida som innehåller specifika metadatataggar (extra information som inte är direkt synlig i texten) för att den till exempel innehåller vissa nyckelord. Dessa taggar visar effektivt specifika bitar av information, till exempel författaren till en sida eller det ögonblick den placerades online. Själva texten är i huvudsak ostrukturerad, men nyckelorden och andra metadata som den innehåller hjälper till att göra den till en något sånär lämplig bas för analys.

Klassifiering baserad på källan till big data

Ett annat vanligt sätt att skilja mellan olika typer av big data är att titta på datakällan. Vem eller vad har genererat informationen? Liksom den tidigare uppdelningen består denna klassificeringsmetod också av 3 olika kategorier.

  1. Människor: Denna kategori handlar om big data som genereras av människor. Exempel är böcker, bilder, videor samt information och (personlig) data på webbplatser och sociala medier, såsom Facebook, Twitter, Instagram och så vidare.
  2. Processregistrering: Denna kategori innehåller den mer traditionella typen av big data, som samlas in och analyseras av (stora) företag för att förbättra vissa processer i en verksamhet.
  3. Maskiner: Denna typ av big data är resultatet av det ständigt växande antalet sensorer som placeras i maskiner. Ett exempel skulle kunna vara värmesensorn som normalt är inbyggd i datorprocessorer. Data som genereras av maskiner kan ofta vara mycket komplexa, men åtminstone denna typ av big data är i allmänhet välstrukturerad och komplett.

Vad kan big data användas till?

Facebook logotypAllt som diskuterats hittills kan fortfarande låta något abstrakt. Låt oss göra saker lite mer konkreta och diskutera några verkliga användningsområdena för big data. Det finns trots allt väldigt många sätt på vilka företag och organisationer använder big data. Något av de första sakerna som man tänker på är de enorma mängder data som företag samlar om oss. Facebook samlar in data om alla sina användare och analyserar detta för att avgöra vad som ska visas dig på din tidslinje. Naturligtvis görs detta för att tillgodose dina personliga önskemål och intressen. Facebook hoppas att detta kommer att få dig att stanna på deras webbplats under längre tidsperioder. Amazon samlar i sin tur information om dess kunder och de produkter de köper. På så sätt kan Amazon rekommendera produkter som man tror att kunderna kommer att vara intresserade av och öka Amazons intäkter på detta sätt.

Men big data används också på sätt som skiljer sig helt från de kommersiella strategier som beskrivs ovan. Kollektivtrafikföretag kan till exempel samla in data om hur trafikerade vissa rutter är. Efteråt kunde de analysera dessa uppgifter för att till exempel bestämma vilka rutter som kräver ytterligare bussar eller tåg. Ett annat välkänt fall av effektiv användning av big data gäller den internationella leveransjätten UPS. UPS använder särskild programvara som utvecklats efter big data-analys. Denna programvara hjälper UPS-förare att undvika vänstersvängar, som är dyrare, mer slösaktiga och farligare än högersvängar. Förmodligen har detta system redan sparat UPS miljontals liter bränsle, tack vare big data.

Ett annat intressant exempel på insamling av big data är DNA-tester och webbplatser som MyHeritage DNA. Denna webbplats hävdar att det kan hjälpa dig att ”avslöja ditt etniska ursprung och hitta nya släktingar” med ett enkelt DNA-test. Naturligtvis innebär denna process mycket datainsamling och korsreferering, vilket gör den till en annan viktig aktör inom insamling och användning av big data. ”Traditionella”, fysiska DNA-tester involverar också en enorm mängd big data, eftersom företag som utför dessa tester kommer att få extremt stora datauppsättningar om väldigt många personer. Naturligtvis är det viktigt att vara medveten om de möjliga riskerna som följer med dessa big data-insamlingsprocesser. Dessa risker kommer att belysas i nästa del av den här artikeln.

Är big data farligt?

Som visas ovan kan big data vara oerhört användbar i många fall. Det ger oss massor av information som vi kan använda för att effektivisera processer och göra företag mer effektiva och lönsamma. Detta betyder dock inte att insamling och användning av big data är helt riskfri. Det finns fem viktiga risker som följer med big data. Vi kommer att diskutera alla fem här.

Hackare och tjuvar

Med allt vi gör online finns det en inneboende risk att våra personuppgifter och information om våra internetaktiviteter kan bli stulna. Var internetanvändare måste vara medveten om detta. Antalet dataläckor och stölder har ökat drastiskt under de senaste åren. Det finns ofta berättelser i nyheterna om brottslingar som säljer datauppsättningar som innehåller lösenord och annan information om platser som dark web. Ofta stjäls dessa datauppsättningar från officiella webbplatser, företag och organisationer. Ju större dessa datauppsättningar är, desto mer intressant blir det för tjuvar att försöka komma över dem. Om de får tag på dessa datauppsättningar kan de orsaka många problem. Naturligtvis kan detta också äventyra din integritet avsevärt.

Integritet

Praxisen att samla in personuppgifter blir allt vanligare. De nuvarande integritetsreglerna kan dock inte hålla jämna steg med den snabba tekniska utvecklingen som gör denna praxis möjlig. Detta lämnar utrymme för gråzoner och osäkerheter som inte kan lösas genom att titta i regelverket. Viktiga integritetsproblem som uppstår inkluderar: Vilken typ av data får samlas in? Om vem? Vem ska ha tillgång till denna data?

När du samlar in stora mängder data är chansen stor att känslig, personlig information ingår i dessa datauppsättningar. Detta är problematiskt, även när hackare och tjuvar inte är inblandade. Integritetskänsliga uppgifter kan trots allt missbrukas av alla med onda avsikter. Detta inkluderar (skadliga) företag och organisationer.

Dålig dataanalys

Många företag och organisationer samlar in big data, eftersom de kan använda den för intressanta analyser. Detta kan ge dem viktiga nya insikter i det som de forskar om (till exempel konsumentvanor). Dessa insikter och slutsatser kan i sin tur leda till förändringar inom företaget som resulterar i högre marginaler och mer vinst. Men precis som med alla andra normala datamängder kan en felaktig analys av big data få allvarliga konsekvenser. En felaktig analys kan trots allt lätt leda till felaktiga slutsatser. Dessa kan i sin tur leda till att ineffektiva eller till och med kontraproduktiva åtgärder vidtas.

Insamling av ”fel” data

Big data blir allt populärare och organisationer är mer och mer villiga att samla in alla typer av data. Detta innebär att gigantiska mängder data samlas in utan att det finns en tydlig anledning att analysera dem. Med andra ord skapar det en enorm databas med rådinformation som har samlats in för säkerhets skull. Företag tror sannolikt att om det är lätt att samla in all den datan, så de kan lika gärna göra det. Naturligtvis är detta inte bra för någons integritet. Det kan till och med leda till att irrelevanta eller ”felaktiga” uppgifter samlas in och analyseras. Om slutsatserna från denna analys används i förvaltningen kan det leda till samma ineffektiva åtgärder som nämndes i föregående punkt.

Samla och spara big data med onda avsikter

Insamlingen av big data används allt oftare av företag, organisationer och regeringar så att de kan skapa korrekta individuella profiler på människor. Användare eller medborgare får nästan aldrig besked om vilka av deras personuppgifter som registreras, för att inte tala om varför och hur. Naturligtvis har detta allvarliga konsekvenser för deras integritet online. Allt de gör online, kan sparas och granskas senare. Dessutom kan big datainsamlare enkelt påverka och manipulera människors beslutsfattande genom att analysera och använda insamlade data.

Big data och integritet

Smartphone med bild av öraSom du säkert förstått vid det här laget följer stora nackdelar och risker med big data. Ändå samlar många företag och organisationer fortfarande in data i stor skala, främst på grund av hur det kan hjälpa dem att växa och utvecklas. Att samla in big data är enklare än någonsin tidigare. Detta får enorma konsekvenser för vår integritet. Vi har redan kort diskuterat de möjliga integritetsriskerna med skadliga aktörar som samlar in dåliga data. Eftersom vår integritet är så nära knuten till massinsamlingen av personuppgifter vill vi använda det här avsnittet för att diskutera de olika integritetsproblemen som följer med big data.

Storskalig datainsamling

Massor av företag, inklusive Google, Facebook och Twitter, är starkt beroende av annonser för att försörja sig och gå med vinst. För att göra dessa annonser så effektiva som möjligt skapar dessa företag detaljerade profiler över sina användare, särskilt med hänsyn till deras preferenser och intressen. Detta är en form av big data. På samma sätt är regeringar och underrättelsetjänster också beroende av big data. De använder denna stora mängd information för att spåra och undersöka personer som de anser vara misstänkta. Naturligtvis betyder detta också att det finns mycket big data för cyberbrottslingar att få tag på och kanske till och med manipulera och missbruka. Detta kan skapa alla typer av integritets- och identitetsrelaterade problem. Ett tänkbart sådan är identitetsstöld.

Ändå är de möjligheter som följer med samlingen i databaser mycket bredare än så. Idag har tekniken blivit så avancerad och ”smart” att den kan kombinera datauppsättningar. Detta kan göras på ett så smart och listigt sätt, att stora företag och organisationer sannolikt vet mer om dig än du gör! Vem du är, var du bor, vilka dina hobbyer är, vilka dina vänner är: ingen av denna information är privat längre. Ingen en särskilt tröstande tanke, kan man tycka. Lyckligtvis finns det några sätt att skydda dig mot den storskaliga integritetsöverträdelse som big data kan orsaka.

Integritetslagar

Kakor på skärmSekretesslagar och förordningar kan skydda oss mot integritetsintrång, men bara till viss del. För att göra saker och ting mer komplicerade skiljer sig sekretesslagarna ofta mycket mellan olika länder och regioner. I Europa gäller till exempel en relativt strikt konsumentintegritetslag som kallas den allmänna dataskyddsförordningen (GDPR). Denna lag gäller för alla EU-medlemsstater, även om detaljerna kan skilja sig åt per land. Många internationella företag har beslutat att liera hela sin verksamhet med GDPR. Det är därför Google till exempel nu tillåter användare att begära radering av personlig information. Men integritetslagarna i USA skiljer sig från stat till stat och skyddar inte konsumenter lika väl som i EU. Tyvärr gäller detta till och med för den tuffaste integritetslagen i USA, California Consumer Privacy Act.

Kort sagt finns det ingen stark ”global” integritetslag som gäller för alla big data-samlare och skyddar alla användare. Detta innebär att vår integritet inte bara skadas av olaglig insamling av big data, utan även på helt lagliga sätt, hur paradoxalt det än kan låta. Lyckligtvis har storskaliga integritetsintrång som avslöjats av visselblåsare som Edward Snowden och Chelsea Manning ökat medvetenheten om riskerna med big data. Naturligtvis är detta bara ett första steg för att förbättra nuvarande integritetslagstiftning.

Många internetanvändare är inte villiga att vänta på en förbättring av integritetslagarna – och det med rätta. Snarare vill de vidta åtgärder själva genom att göra vad de kan för att skydda sin integritet. Vill du också undvika att bli en del av otaliga big data-uppsättningar? Det finns flera tips och tricks som hjälper dig på vägen.

Så hindrar du dina uppgifter från att sparas i big data-uppsättningar

Stora datamängder påverkar allvarligt din integritet och säkerhet. Dessa datamängder kan innehålla alla sorters (personlig) information, som kan missbrukas av stora företag eller till och med cyberbrottslingar. Det är därför du alltid bör se till att lämna så lite spår på nätet som möjligt. Följande tips kan hjälpa dig att uppnå detta:

  • Försök att minimera användningen av dina personuppgifter när du skapar lösenord eller i allmänhet på webben. Till exempel: undvik att använda ditt namn, din adress, ditt telefonnummer, födelsedatum och så vidare.
  • Kom alltid ihåg följande: Allt du publicerar på internet, kommer att finnas där för alltid. Detta kanske inte alltid är helt sant, men denna försiktighetsnivå hjälper till att skydda din integritet. Du hanterar automatiskt din privata data med mer omsorg när du är medveten om detta faktum.
  • Se till att din internetanslutning är säker och anonymiserad, till exempel genom att använda Tor-webbläsare eller en VPN till exempel.
  • Använd en eller flera annonsblockerare i din webbläsare.
  • Använd en eller flera tillägg som blockerar spårare och cookies.
  • Rensa din cache och ta bort din surfhistorik och cookies.
  • Logga ut från webbplatser när du inte aktivt använder dem.

Att vidta dessa åtgärder är en bra början när det gäller att skydda din integritet och säkerhet på nätet. Tänk dock på att big data samlas in på många olika sätt – inte bara online. Du bör kort sagt alltid vara vaksam och försöka skydda dina (personliga) data från big data-samlare var du än är och vad du än gör.

International security coordinator
Marko has a Bachelor's degree in Computer and Information Sciences. He coordinates and manages VPNOverview.com's team of international VPN researchers and writers.