Denne artikkelen er produsert og finansiert av Universitetet i Oslo - les mer.

Nils Gruschka forsker på digital sikkerhet ved Universitetet i Oslo.
Nils Gruschka forsker på digital sikkerhet ved Universitetet i Oslo.

Kunstig intelligens gjør viktige medisinske analyser – men hvor sikkert er det?

– På den ene siden ønsker vi å ivareta personvernet, men på den andre er dataene svært viktige for å kurere sykdom og få bedre diagnoser, sier forskeren Nils Gruschka.

Dette er saken

  • Kunstig intelligens kan brukes til å forbedre diagnostisering og medisin på mange områder. 
  • Modellen krever store mengder personlige data. 
  • I henhold til GDPR-reglene har alle rett til å trekke samtykket til bruk av data. Da må dataene tas helt ut av modellen. 
  • Forskere jobber med å finne metoder for å ivareta denne retten, og samtidig bedre personvernet slik at originaldata ikke skal kunne rekonstrueres.

Nils Gruschka er førsteamanuensis i digital sikkerhet og forsker på hvordan personvern kan ivaretas når maskinlæring skal analysere data.

Maskinlæring og kunstig intelligens blir brukt i analyser av store mengder medisinske data. Dette er relevant i nesten all medisinsk forskning. 

Med kunstig intelligens kan forskere finne sammenhenger som det tidligere tok lang tid å finne. Men det er vanskelig å gjøre dette samtidig som personvernet ivaretas.

Problemet er at medisinske data er personlige. Da gjelder en rekke lover og regler som gjør det mer komplisert å bruke maskinlæring.

I dag er det mulig å identifisere personer i store datasett

En av utfordringene med dagens maskinlæringsmodeller er at de kan lures. Det er mulig å finne eller rekonstruere originale data ved å stille spesifikke spørsmål. Eller ved å lete etter spesifikke ting.

– I en medisinsk database kan du stille spørsmål som hvor mange av personene som hadde kreft røykte. Jo mer presist du stiller spørsmålet, dess høyere er sannsynligheten for at du kan identifisere en enkelt person, forklarer Gruschka.

Det var aldri ment at man skulle kunne bruke maskinlæringsmodeller til å identifisere:

– Men de siste årene har vi skjønt at hvis du spør på rett måte kan det skje. Det var aldri intensjonen. Intensjonen var at den skal finne høyere kunnskap, forklarer Gruschka.

Mindre data inn i modellen, reduserer risiko 

Han og andre forskere prøver å finne metoder som forhindrer at det er mulig å hente ut originale data. Dette kan man også bruke maskinlæring til å finne ut av:

– Du kan bruke maskinlæring til å finne ut hvilke data som er viktige, og til å sile ut hvilke data som er uinteressante eller for personsensitive, forklarer han.

Ved å minimere mengden data som kommer inn i modellen, eller vaske dataene for det som er viktig informasjon, er det mulig å minimere risikoen for at persondata kommer på avveie. 

Det er likevel ikke dette som er hovedmålet. Målet er at selve maskinlæringsmodellen skal være frakoblet originaldataene på en slik måte at de ikke kan komme ut av modellen.

Legger til støy for å gjøre det vanskeligere å finne enkeltpersoner

– I stedet for å legge inn data med fødselsdato, er det mulig å legge inn fødselsår, eller til og med tiår. Jo mer uspesifikt du gjør det, dess bedre beskytter du privat informasjon. Samtidig risikerer du at dataene blir ubrukelige hvis de blir for uspesifikke, sier Grushcka.

Han fortsetter:

– Hvis du gjør dataene mindre spesifikke vet du ikke hva du går glipp av: Det kunne for eksempel tenkes at det er høyere sannsynlighet for å få hjernekreft hvis man er født om vinteren. Det vil man ikke finne ut hvis dataene er vasket ned til årstall, sier Gruschka.

Derfor mener han at en mulighet er å holde maskinlæringsmodellen innenfor én organisasjon. Da kan modellen finne ut hvilken informasjon som er interessant. En ny modell kan bygges med tanke på interessante data, men uten personidentifiserende data. 

Dersom den første modellen viser at det er høyere sannsynlighet for at personer født om vinteren får hjernekreft, uavhengig av fødselssted, vil den neste modellen kunne inneholde fødselsmåned, men ikke sted, for eksempel.

En egen type læring

En siste mulighet er en ny måte å trene maskinlæringsmodellen på som er desentralisert. Data er lagret på ulike enheter. 

Hva er GDPR?

GDPR står for General Data Protection Regulation (generell personvernforordning). Loven ble iverksatt av EU for å verne om personopplysninger. Loven regulerer hvordan selskaper og organisasjoner kan samle, behandle og oppbevare personopplysninger. Det innebærer også retten til innsyn i data som er samlet, og i noen tilfeller også retten til å få data slettet.

Kilde: Store norske leksikon

Modellen trenes på disse ulike enhetene fremfor at dataene må samles ett sted. Dette gir bedre personvern og sikkerhet for dataene.

Det er noen fordeler med denne læringsmodellen, men den oppfyller likevel ikke GDPR-kravet om at du når som helst skal kunne trekke tilbake dine egne data.

Maskinlæring med GDPR-trøbbel

– Hvis data fra en pasient er en del av modellen, må vedkommende ha gitt tillatelse til å bidra til undersøkelsen. I henhold til GDPR-reglene kan personen på et hvilket som helst tidspunkt trekke tilbake samtykket. Da må dataene fjernes fra studien, forklarer Gruschka.

I den analoge verden betyr det at forskeren tar mappen ut av arkivskapet og makulerer den. I en maskinlæringsmodell er dette vanskeligere: Selv om du fjerner dataene har maskinen lært, basert på den informasjonen. Den læringen kan ikke tas ut.

– Den eneste måten å gå tilbake er å ta bort data og så lære alt på nytt. Det er nøyaktig det vi ikke ønsker, for det krever mye tid og penger, sier Gruschka.

Det er ingen regler for kunstig intelligens og maskinlæring i dag

Foreløpig er det ingen regler for å regulere bruk av maskinlæring og kunstig intelligens.

– Det som for tiden er nærmest å regulere bruk av kunstig intelligens er GDPR-reglene, sier Gruschka. 

Han forteller at EU vil komme med en AI-Act, men ingen vet nøyaktig når den kommer.

Dermed er bruk av maskinlæring og kunstig intelligens nesten fritt vilt, og det finnes mange gråsoner.

– Hvis du spør to advokater vil de gi to forskjellige svar på om dette er i gråsonen, eller ikke. AI-Act skal bidra til å klargjøre når det er lov å bruke kunstig intelligens, forteller Gruschka.

Hva er biometriske data?

Biometriske data er egenskaper som ansiktsform, stemme eller fingeravtrykk.

«Samtalen tas opp for opplæring»

Han forteller at en utbredt bruk av kunstig intelligens er stemme- og følelsesgjenkjenning. Gruschka mener dette er en juridisk gråsone.

– På telefonsentraler brukes stemmegjenkjenning og kunstig intelligens til å kjenne igjen følelser hos kunden som ringer. Hvis den som ringer er sint, kan den som svarer være snillere, forklarer han.

Selskapene argumenterer for at dette kan sørge for bedre kundeservice, men Gruschka er skeptisk:

– Dette er også en form for overvåkning av staben.

God kundeservice eller følelsesmessig profittmaksimering

Årsaken til at Gruschka mener at følelsesanalyser er en gråsone, er todelt. Den ene årsaken er knyttet til lagring:

Når du hører at «denne samtalen tas opp for opplæring», så tenker du ikke på at dette er en sanntidsanalyse av følelsene dine.

Nils Gruschka

– Dette er sanntidsanalyser. Dataene lagres ikke, men det er likevel en form for dataprosessering.

Den andre årsaken er hvorvidt følelser kan kalles sensitive data:

– Følelser er ikke dekket av GDPR. Biometriske data, slik som stemmen din, eller øynene, skal ikke prosesseres, men følelser? Er det biometriske data? Spør Gruschka.

Han mener at det kan være problematiske sider ved at kunstig intelligens får analysere følelsene våre.

– Se for deg også at du ringer banken og ber om et lån, og de hører at du er redd eller nervøs for å ikke få lånet. Da vet de at du vil ta til takke med det du får. Kanskje tilbyr en prosent høyere rente. Da vil ikke denne typen data være til for bedre kundebehandling, men for at banken skal få høyere profitt, sier Gruschka og legger til: Det er ikke ulovlig å ha høyere profitt.

Gruschka mener at det trengs regler som beskytter mot feilbruk av kunstig intelligens. Det handler ikke bare om at modellen ikke skal rekonstruere personlige data, men også at bruken av modellen må begrenses med tanke på muligheter for overvåkning og annen misbruk.

Powered by Labrador CMS