Nettdata utfordrer forskningen

Stadig mer av ditt og andres liv foregår på nettet. For forskere er det viktig å forstå dette livet. Men hvordan skal de klare det?

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

(Foto: (Illustrasjon: www.colourbox.no))

Du mener noe på Facebook. Du kjøper noe i en nettbutikk. Du deltar i en gruppe, på en blogg eller i et nettforum. Alt dette registreres.

Slik samles hele tiden informasjon om deg. Den kan bli sammenstilt, analysert – og brukt.

Ta en kikk på annonsene som dukker opp til høyre på Facebook-siden din. Det er ikke tilfeldig hva som kommer der. Disse annonsene er tilpasset akkurat deg. Og neste gang du er på Facebook, vil de være enda litt bedre tilpasset.

Begrepet Big data

På fagspråket kalles dette «Big data», som ikke er noe presist begrep. Betegnelsen refererer både til dataene i seg selv og aktiviteten knyttet til å samle inn, lagre, analysere og presentere dem.

Både IT-folk, markedsførere og forskere forsøker å få noe fornuftig ut av et voksende fjell med digitale ettall og nuller.

Bernard Enjolras. (Foto: Carsten Müller)

Flere enn bare salgsavdelingene i Google og Amazon følger nemlig med på ditt sosiale og profesjonelle liv. Det handler ikke bare om hva du kikker på av nytt kamerautstyr, og hva du kjøper av bøker.

Også forskere ønsker å følge med på hva du gjør. Noen forskere får lov. Men ikke de tradisjonelle forskerne.

– Samfunnsforskere bør virkelig være bekymret. Den akademiske samfunnsforskningen vil snart være helt utdatert i forhold til hva kommersielle aktører får fram om folks liv, advarer Bernard Enjolras.

Sosiologen jobber ved Institutt for samfunnsforskning (ISF) og leder et forskningsprosjekt som har forsøkt å ta i bruk Big data. Det har vist seg vanskelig.

– Vi står nå overfor et skille i forskningen, hvor akademia kan bli den store taperen.

– Giganter som Google, Twitter, Facebook og Amazon har alle egne forskningssentre. De kan utføre analyser som andre forskere ikke kan gjøre, fordi de har eksklusiv tilgang på data om ditt og mitt liv. Gigantene har ingen plikt til å gjøre dataene sine tilgjengelige for andre.

Petter Bae Brandtzæg. (Foto: Gry Karin Stimo)

– Vi kan ikke en gang evaluere om dette er god eller dårlig forskning. Selskapene med de store faktadatabasene om deg og meg publiserer hva de vil og bruker forskningen sin akkurat slik de vil, sier Enjolras.

En samfunnsrisiko

Enjolras ser flere betenkelige sider ved utviklingen.

– Jeg mener dette er en samfunnsrisiko. Når enormt mye informasjon på denne måten samles om ulike enkeltindivider, kan dette i mye større grad enn hva som har vært mulig med tradisjonelle surveydata tidligere, brukes til å avdekke atferdsmønstrene hos store menneskegrupper.

– Denne mer eller mindre hemmelige forskningen fanger ikke bare opp hva vi mener. Den fanger også opp hva vi gjør. Vi har bare så vidt sett begynnelsen, mener Enjolras.

Et ferskt eksempel er Barak Obamas siste valgkamp. Demokratene tok målrettet i bruk Big data under 2012-valget i USA. Slik kunne de rette ulike kampanjer inn mot spesifikke grupper, lokalsamfunn, ja til og med mot enkeltindivider.

Kari Steen-Johnsen. (Foto: Kyrre Lien)

– Selskaper som Google, Facebook og Amazon har enorme muligheter til å aggregere data og se disse i sammenheng. Google vet for eksempel svært mye om hva vi søker etter på nettet, de vet hva vi kommuniserer om på e-post, og de vet hvilke nettverk vi er en del av.

– Få mennesker er klar over hva de takker ja til når de bruker disse produktene, sier forskningslederen.

Minority Report

– Forskningsavdelingene hos disse selskapene driver først og fremst med sammenstilling av ulike data for kommersielt bruk. Resultatet bruker de til å målrette reklame, forteller Petter Bae Brandtzæg, forsker ved Human-Computer Interaction (HCI) group ved Sintef.

Han mener vi nærmer oss et samfunn hvor butikkvinduet du passerer, skriker til deg: «Petter, vi har en skjorte her som passer deg perfekt!»

Dette fordi data om hvor du befinner deg i stadig større grad kan kobles mot dine personlige preferansedata, noe for eksempel Facebook alt har kommet langt med.

«Minority Report»-samfunn er begrepet Brandtzæg bruker om fenomenet, med henvisning til Steven Spielberg-filmen fra 2002 om et fremtidssamfunn der overvåkere kan vite noe om deg, før du vet det selv.

Når Brandtzæg og andre forskere er på internasjonale forskerkonferanser, møter de nå også forskere fra Facebook og andre sosiale medier som driver med samfunnsvitenskapelige analyser.

Et eksempel: Facebook analyserte alle statusoppdateringer skrevet på engelsk de siste fem årene. De lette etter trender om hvordan vi bruker og skriver oppdateringer. Slik fant de blant annet at vi skriver kortere og kortere oppdateringer for hvert år.

– Interessant nok for en medieforsker. Men mer interessant er det at ingen samfunnsforsker eller kulturforsker i akademia noen gang har vært i nærheten av et så stort datasett som disse Facebook-forskerne sitter på, mener Brandtzæg.

– De stiller derfor med store informasjonsfortrinn om brukerne. Selv om det er  vanskelig å lage representative data, kan de gjøre spennende og grundige analyser og sam-menligninger på tvers av land, alder og kjønn, samt data brutt ned på personlige preferanser som hobbyer, moter og politikk.

Og om slik tilgang skulle være en medieforskers våte drøm, er det kanskje like greit at de ikke får tilgang på dataene. Dette fordi man fortsatt sliter med hvordan en skal kunne klare å behandle så store datamengder på en fornuftig og meningsfull måte, teknisk og metodisk.

Og de forskningsetiske problemstillinger står i kø …

Sosiale medier i politikken

Ved Institutt for samfunnsforskning har likevel noen prøvd seg. Kari Steen-Johnsen forsøker å begripe hva sosiale medier gjør med offentligheten.

– Vi ser på samfunnsengasjement, hvordan politiske partier bruker sosiale medier, hvordan journalistene endrer sine strategier og lytter til de sosiale mediene, sier Steen-Johnsen.

Forskerne i prosjektet studerer hva sosiale medier betyr for sosial deltakelse og for den offentlige debatten. Kort sagt: Hvilken rolle spiller sosiale medier i dagens politiske virkelighet?

De benytter seg i denne studien av mange forskjellige typer data. Også Internett-data. De følger politiske nettsteder i Norge, politiske partier, og profilerte bloggere. De bruker dataverktøy for å kartlegge hvordan de ulike nettstedene er knyttet til hverandre.

I henhold til retningslinjene fra Norsk Samfunnsvitenskapelig Datatjeneste (NSD) skal disse dataene, selv om de blir betraktet som offentlige, behandles på samme måte som andre data, fordi de faller inn under personopplysningsloven.

Forskeren kan ikke publisere verken data eller resultater hentet fra bloggposter, uten å informere bloggerne det gjelder, uansett om postene anonymiseres.

Tvitring om terror

Forskerne ønsket også å bruke Twitter-meldinger rett etter 22. juli som et eksempel på hvordan slike meldinger spredte seg i et nettverk. Men det skulle ikke bli så enkelt.

Twitter eier sine egne data og ISF fikk beskjed fra selskapet at de ikke leverte ut data til forskningsformål. Likevel fikk NRK Beta tilgang på 250 000 tweets fra terrordøgnene. 5 000 av dem ligger åpent på nrk.no/terrortwitter

– Det var jo klar beskjed om at Twitter prioriterer media framfor offentlig forskning, sukker Steen-Johnsen.

Forskerne kunne selv ha «høstet» tweets fra nettet. Men det krever stor datakapasitet, noe som igjen er avhengig av økonomiske ressurser.

Behandlingen av dataene krever også metodeutvikling- og refleksjon. Hva er for eksempel et representativt utvalg på Twitter? Og hva med forskningsetikken? Må man be alle som har ytret seg om samtykke?

Bernard Enjolras peker på at det foreløpig er svært uklart hvilken status denne typen data har i samfunnsforskningen:

– Ta for eksempel en tweet. Når den legges ut på Twitter, oppfattes den som offentlig tilgjengelig for alle. Men høster vi inn denne tweeten til forskningsformål, må vi da søke om tillatelse til det?

– Må alle de 50 000 som har ytret seg i debatten som vi er interessert i, offentlig samtykke i at deres ytringer brukes i forskning? Det samme gjelder for blogger og i nettavisenes debatter.

– Dette er offentlig tilgjengelig, men er det forskningsetisk forsvarlig å bruke ytringene til forskningsformål? For oss er dette helt uklart. Og det er ikke mye hjelp å få i det forskningsetiske regelverket.

– Hvis vi skal følge retningslinjer for forskning generelt, blir det etter mitt skjønn et misforhold mellom regelverket, og hva det er mulig å gjøre både teknisk og kommersielt med disse dataen. Slik taper forskningen, mens de kommersielle aktørene kan gjøre hva de vil og går ut som vinnere.

Endrer samfunnsforskningen

Petter Bae Brandtzæg, er kanskje aller mest opptatt av et problem som skapes av de enormt store datamengdene: Problemet med å lage meningsfulle analyser.

– Ta terror-tweetene etter 22. juli. NRK sto overfor et kjempeproblem i forhold til analyse da de ønsket å se på disse tweetene, det dukker nemlig opp masse semantiske problemer når du tar tak i så store tekstmengder. Skal du gå gjennom alle dataene manuelt, blir det enormt arbeidskrevende. Likevel er det noe du bør gjøre.

– Mange forskere som ønsker å bruke data som dette, sitter foreløpig på gjerdet og venter på bedre analyseverktøy.

Steen-Johnsen tror Big data vil endre samfunnsforskningen:

– Forskningen vi gjør i framtiden vil i større grad bli basert på datakompetanse. Vi vil bruke algoritmer som gjør det mulig å analysere de store mengdene med data.

– Å forstå data kommer til å bli viktigere for samfunnsforskere. Allerede nå er vi blitt mer avhengige av å knytte til oss forskere som er gode på dette.

Powered by Labrador CMS