Denne artikkelen er produsert og finansiert av OsloMet – storbyuniversitetet - les mer.
Forskere må ha tillatelse for å oppbevare personopplysninger for personer de forsker på. Dette er ofte er tidkrevende og komplisert. I studentoppgaver er det ofte ikke nok tid til dette før oppgaven skal leveres.(Illustrasjonsfoto: Martin Adams / Unsplash)
Ny metode gjør det enklere å anonymisere forskning
Et enkelt ID-nummer kan erstatte tungvint oppbevaring av personopplysninger for folk som tar del i forskingsprosjekter. Metoden tar samtidig vare på personvernet.
I mange forskningsprosjekter må de samme deltakerne følges opp over tid. Da må personopplysninger ofte oppbevares, noe det stilles strenge krav til for å hindre at data kommer på avveie.
Å søke om tillatelse er ofte tidkrevende og komplisert. I studentoppgaver er det ofte ikke nok tid før oppgaven skal leveres.
Professor Frode Eika Sandnes ved OsloMet har nå funnet fram til en metode som gjør det enklere og raskere å følge opp de samme personene i flere eksperimenter på ulike tidspunkt, uten at det er nødvendig å søke om tillatelse.
Kort ID som ikke kan gjenkjennes
Med den nye metoden er det ikke behov for personopplysninger, bare en kort ID.
Den korte ID-en kobler deltakerne på tvers av flere økter. Det sikrer anonymitet, og løsningen er robust for feil.
Først konverteres deltakerens navn til en språklig lyd som skiller seg fra navnet, en såkalt fonetisk representasjon.
Deretter blir den gjort om til en såkalt hash. Det vil si en kode som skiller seg fra den språklige lyden og som beskytter den fra å bli gjenkjent.
En avkortet kodebit av «hashen» brukes så som kobling til de samme personene mellom ulike økter.
– Dette krever ikke godkjenning, fordi du ikke lagrer personlig informasjon, forteller Sandnes. Han er ofte involvert i slike forskningsprosjekter på sitt fagfelt menneske-maskin-interaksjon innen informatikk.
Koblingsnøkler krever tillatelse
– Det skiller seg fra det som oftest gjøres i slike prosjekter, nemlig å lage koblingsnøkler, forteller han.
Da tar du vare på navnet på personen som skal være med sammen med et ID-nummer, som holdes separat fra dataene. Så «merker» du hvert datasett med dette ID-nummeret.
Hvis du må finne ut hvem det er, går du til koblingsnøkkelen.
– For å kunne gjøre dette må du søke Norsk senter for forskningsdata (NSD) om tillatelse til å oppbevare personopplysninger. Det er en prosess som tar tid og kan oppleves som komplisert, sier Sandnes.
Han forteller at studenter og forskere ikke alltid har så god tid. Derfor vil de ofte heller la være å følge opp forskningen med flere eksperimenter.
– Ellers kan det være problematisk hvis koblingsnøkkelen kommer på avveie. Da kan hvem som helst gå tilbake og se hva slags data hver enkelt har oppgitt.
Selvgenererte og maskingenererte koder
Annonse
Sandnes legger til at det dessuten finnes noen alternative metoder som ikke gjør det nødvendig å oppbevare personopplysninger. Men også disse kan være tidkrevende og upraktiske.
En selvgenerert kode kan for eksempel være praktisk for forskerne. Da må hver deltaker hver gang de skal være med i et eksperiment svare på noen spørsmål og så genererer de sin egen kode basert på disse.
Det kan for eksempel være fornavnet på moren din eller hvor gammel søsteren din er og så lager du en unik kode.
– Men det tar mye tid, og folk har ofte ikke så mye tid til å være med i et eksperiment. Du vil gjerne eliminere unødig aktivitet og gå rett på sak. Dessuten blir det ofte høy feilprosent fordi kodene blir like, sier Sandnes.
– I store prosjekter med tusenvis av data som skal kobles, kan man bruke maskingenererte koder, såkalte Bloom filters, men de er gjerne lange og uforståelige, kanskje fire–fem linjer på et ark. Det er upraktisk og kan gjøre deltakere skeptiske. Flere studier har også stilt spørsmål ved hvor sikre slike maskingenererte koder er, forklarer han.
Åpent tilgjengelig metode
Sandnes sin metode kan kode små eksperimenter med 20 deltakere med to sifre, og eksperimenter med rundt 200 deltakere med fire sifre.
Sandnes håper metoden kan hjelpe studenter og forskere å samle inn mer omfattende data ved å følge deltakerne over flere økter med eksperimenter, samtidig som personvernet blir tatt vare på.
Referanse:
Frode Eika Sandnes: HIDE: Short IDs for Robust and Anonymous Linking of Users Across Multiple Sessions in Small HCI Experiments. 2021 CHI Conference on Human Factors in Computing Systems, 2021. (Sammendrag) Doi/10.1145/3411763.3451794