Stora datamängder: hot eller möjlighet?
Analys av miljontals bilder på internet varje dag och ett automatiskt krig mellan kriminella hackare och den goda sidan. Utvecklingen inom big data och artificiell intelligens rusar. Och kanske är du själv med och lämnar ut känslig information om dina närståendes hälsa.
– Big data betyder att man vet mycket om ”mig” och det kan vara mycket känsliga uppgifter. Inte bara det man kan se direkt utan också vilka slutsatser man kan dra, säger Simone Fischer-Hübner, professor i datavetenskap vid Karlstads universitet och sedan 2010 medlem i Myndigheten för samhällsskydd och beredskaps, MSB:s, Cybersäkerhetsråd.
I korthet handlar big data om insamling av datamängder i så stor omfattning och komplexitet att det krävs någon typ av ny förmåga, exempelvis maskininlärning eller annan typ av artificiell intelligens (AI), som gör att uppgifterna kan bearbetas.
De datauppgifter det handlar om kan bland annat komma från mobilappar, sociala medier, surfning på internet, kortbetalningar och andra elektroniska tjänster och databaser. Uppgifterna kan också komma från platstjänster som gps, uppkopplade bilar, andra smarta prylar, dokument och tidningsartiklar.
Skannar ryska hackerforum
Ett företag som arbetar med big data är Recorded Future. Bolaget bildades 2009 av bland annat Staffan Truvé, teknisk fysiker och doktor inom datavetenskap vid Chalmers. Nu är han forskningschef på bolaget och arbetar med att försöka se vad som kommer inom området stora datamängder och big data – ett begrepp som han vänder sig lite emot – de kommande åren.
Men först, vad anser han, som har varit i branschen sedan 1990-talet, att begreppet big data borde ersättas med? Ja, han gillar begreppet analytics – ”det är ju det det handlar om, att analysera data och få nya insikter”.
– Utmaningarna handlar om att korrelera och kombinera data som kommer från olika håll till en helhet. Det är ofta då nya insikter kommer fram, säger Staffan Truvé, när han beskriver vad arbetet med stora datamängder handlar om.
Som ett ”enkelt exempel” nämner Staffan Truvé ett arbete Recorded Future gjorde med Volvo Group för några år sedan. Då kombinerades telematikdata, alltså uppgifter om hur och var lastbilarna hade rört sig runt om i Sverige, med data från svenska myndigheter som visade alla inrapporterade vägolyckor.
– Genom att korrelera de här datakällorna gick det att räkna ut hur lång tid lastbilar stått stilla på vägen beroende på olyckor. Datakällorna var för sig gav inte den informationen men när de här ganska stora datakällorna kombinerades kom helt nya insikter.
Men det är alltså lite av det som har varit. Frågan är då var framkanten inom teknikområdet stora datamängder ligger?
– Det är svårt att säga var teknikkanten ligger. Det är så beroende på vilken data och vilken bransch det gäller, säger Staffan Truvé.
Men för att få viss förståelse för var dagens tillämpningar ligger är Recorded Future ett exempel att studera. Bolaget arbetar med att bygga det Staffan Truvé kallar för en ”hot- eller riskorienterad tvilling av världen”. Och i det sammanhanget läser bolagets system runt 50 miljoner ”dokument” i form av publicerade texter på internet varje dag. Det kan handla om nyhetsartiklar, tekniska rapporter, inlägg på ryska kriminella hackerforum och inlägg på sociala medier. Till det får bolaget in hundratals miljoner tekniska datapunkter som exempelvis nyregistrerade domäner och annan trafikdata från nätet.
– Sedan kör vi in det i vårt AI-system som kan förstå naturligt språk och tar den här ostrukturerade texten och strukturerar den så att den kan hitta olika typer av händelser. Systemet kan hitta att en text pratar om en cyberattack där en viss hackergrupp har anfallit ett visst företag, säger han.
Parallellt med det samlar bolaget alltså in information om exempelvis nyregistrerade internetdomäner.
– Det gör vi bland annat för att hitta när kriminella registrerar domäner för att försöka angripa företag.
Ett exempel skulle kunna vara att någon registrerar ”swedbalk.se” istället för ”swedbank.se”.
– Vi plockar alla nya domäner och sedan jämför vi dem med alla kända goda domäner för att se om det är någon som förbereder något fuffens, säger Truvé.
Bolaget tittar också på situationer då en attack redan har genomförts. Exempelvis vid så kallade ransomware-attacker som innebär att kriminella hackare tar sig in i ett företags eller en privatpersons dator och tar kontroll över den för att sedan kräva en lösensumma av ägaren för släppa intrånget. I de fallen kan Recorded Future studera programvarukoden som använts vid attacken och hitta data även där.
– Vi kan se vilka ip-adresser på nätet koden ropar hem till för att få reda på vad den ska göra. Och på det sättet kan vi identifiera elak infrastruktur och när samma sak hittas från flera ställen så går det att säga att det verkar vara en viss hackergrupp som använder den verktygslådan.
– Det handlar om att hitta det vi kallar entiteter, exempelvis personer, ip-adresser, domäner eller företag, och sedan hitta relationer mellan dessa. Och det är gigantiska mängder och en av de viktigaste utmaningarna är att få våra mänskliga användare att navigera i den här stora informationsmängden och kunna peka på vad som är väsentligt för just dem, säger Staffan Truvé.
”Goda” sidan behöver slå ut hackaren
Och när det gäller den framtida utvecklingen bedömer han att mycket kommer att handla om att automatisera den ovan beskrivna processen. Men också att skapa förmåga för att kunna analysera bilder ur ett hot- och riskperspektiv.
– Än så länge har vi ägnat oss åt att skörda all text som publiceras på internet. Men nu håller internet på att bli mer och mer bildfokuserat genom exempelvis Instagram och TikTok och det är även så att de onda krafterna kommunicerar mer med bilder. Hackers vet att sådana som vi kan läsa text på nätet så då kan de skicka meddelanden i bilder istället. Då är det naturliga att vi håller på och bygger upp förmåga när det gäller bilder också.
Men enligt Staffan Truvé är ändå en av de stora sakerna, i ett fem- till tioårsperspektiv, ökad automatisering inom cyberförsvar. I dag varnas användare för eventuella hot och risker beträffande, till exempel, nära förestående cyberattacker i en förhållandevis manuell process. Här önskar han en utveckling mot att bolagets verktyg ska kunna hjälpa till att ta beslut och även genomföra uppdatering av ett bolags it-skydd.
– I dag fungerar det så att en människa får ett mejl som säger att det här borde du uppdatera och sedan fattar en människa beslut om att uppdatera en webbserver. Men eftersom de onda också blir bättre på att agera snabbare och automatisera, så kommer man inte ha tid att ha människor som gör det. Man behöver ha algoritmer som fattar beslut om uppdatering och det ställer ökade krav på att de här AI-systemen inte är för dumma, säger han.
Staffan Truvé ser också redan nu en än mer hotfull värld framför sig som på sätt och vis kan förändra en del inom it-säkerhetsområdet. Bakgrunden är insikten om att den onda sidan automatiserar sina metoder.
– Jag tror i förlängningen att även den goda sidan måste automatisera angrepp på sin motpart. Säg att ditt skyddssystem på ditt datornätverk upptäcker att någon försöker angripa, då kanske det måste gå till motanfall innan du hinner bli fullständigt utslagen.
Runt detta finns förstås juridiska frågor som kan kräva viss fördjupning.
Mer generellt då, hur kommer teknik inom stora datamängder att kunna användas inom försvars- och säkerhetsverksamhet framöver?
– Det handlar mycket om underrättelseverksamhet. Det är hela vår idé att allt som händer i världen idag återspeglar sig på internet på något sätt. Genom att man skördar internet så kan man automatisera mycket av underrättelseverksamheten, säger Staffan Truvé.
Civilt ser han en stor användning inom en rad olika områden. Och mycket handlar om att optimera affärsverksamheter.
– Bara man börjar samla in data så kan man ju använda den till att bygga modeller som förstår hur saker fungerar.
Vilka är då, på global nivå, ledande när det gäller stora datamängder? Handlar det om stater som USA, Kina, Ryssland eller är det EU eller andra organisationer som Google, Amazon och Facebook?
– I någon mening får man nog ändå säga att företagen ligger före staterna. Exempelvis Google, Amazon och Facebook är ju gigantiska. Sedan är det ju så att Kina som nation har satsat mest på detta och i Kina går det inte att dra någon gränslinje mellan stat och företag. Det klassiska exemplet man brukar lyfta fram i Kina är det de satsar på inom ansiktsigenkänning och det är ju verkligen ett samarbete mellan staten och kapitalet, säger Staffan Truvé.
Genetisk data – ”särskilt känsligt”
Även Simone Fischer-Hübner nämner just Kina som en stor aktör när det gäller ansiktsigenkänning.
– Insamling av foto, till exempel genom videoövervakning, och biometrisk ansiktsigenkänning använder exempelvis Kina. Det går inte att göra här i Europa på samma sätt på grund av GDPR. Men också i USA kan man samla in och behandla mer än vad som är tillåtet i Europa, säger hon.
Och som Simone Fischer-Hübner nämnde inledningsvis så handlar frågan inte bara om vilka uppgifter som samlas in i direkt – utan också om vilka slutsatser det går att dra från dem. Ett exempel som hon nämner är hur det utifrån människors val att trycka på gilla-knappen på Facebook-inlägg görs försök att dra slutsatser om politisk åskådning.
– Det kan påverka demokratin och därmed samhället, och inte bara den enskildes integritet. Det är jättekänsligt, säger hon.
En annan fråga handlar om de aktörer som samlar in genetiska data, det vill säga information om en individs arvsanlag via exempelvis blod- eller vävnadsprov, i olika syften. Det kan handla om släktforskning där en användare kanske frivilligt lämnar ifrån sig data. Andra kanske släpper ifrån sig sin genetiska data för att få hälsotips eller för att få reda på om det finns förhöjd risk att drabbas av någon sjukdom.
– Men det kan vara särskilt känsligt. Det handlar då inte bara uppgifter om mig själv utan också om mina släktingar och därmed andras personuppgifter som jag lämnar ut samtidigt.
Du menar alltså att om någon går med på att lämna ut sina genetiska data, då lämnar den också ut det om släktingar?
– Precis, om det till exempel finns en genetisk hög risk för mig att få bröstcancer kommer min syster också att ha en hög risk – detta är känsliga uppgifter som min syster kanske inte vill att andra ska få veta.
Men även Simone Fischer-Hübner lyfter fram fördelar med big data. Bland annat för att upptäcka dataintrång och falska nyheter. Vidare kan tekniken användas vid medicinsk forskning och diagnostik. Enligt henne har också telekombolag mycket data som är relaterat till hur människor rör sig som kan användas av staten eller privata företag i exempelvis stadsplanerings- eller hållbarhetssyfte.
– Det kan vara för mycket relevanta ändamål som kan hjälpa samhället men sedan måste man göra det på ett personligt integritetsskyddande sätt.
EU-kommissionen finansierar nu forskning om metoder för hur big data ska kunna användas på ett personligt integritetsskyddande sätt.
– Det finns redan metoder och produkter, till exempel metoder för dataanalys av krypterade, och därmed skyddade data, eller för användning av syntetiska data istället för verkliga data. Forskning bedrivs för att göra det mer effektivt. Men det finns fortfarande behov av mer forskning, säger Simone Fischer-Hübner.
Reportaget publiceras i samarbete med SOFF: Säkerhets- och försvarsföretagen.
Text:
Olle NygårdsIllustration:
Anna Fridh