Denne artikkelen er produsert og finansiert av Universitetet i Oslo - les mer.

Noen sensorer er strengere mot studentene enn andre. Kan KI gi mer rettferdige karakterer?

Forskere tester nå KI som sensor. Kan det gi raskere, billigere og mer konsistent sensur?

Gunnar Rye Bergersen tester ut å skrive begrunnelser på eksamensoppgaver ved hjelp av generativ KI.
Publisert

På Institutt for informatikk (IFI) ved Universitetet i Oslo tester forsker Gunnar Rye Bergersen ut å skrive begrunnelser på eksamensoppgaver ved hjelp av generativ KI.

Siden våren 2025 har studenter ved IFI fått tilbud om en KI-generert poenggiving og begrunnelse på eksamensoppgaver i emnet Systemer, krav og konsekvenser. 

KI-begrunnelsen kommer i tillegg til den skrevet av en menneskelig sensor. I overkant av 500 studenter tar eksamen i emnet hvert semester. Rundt 20 prosent har takket ja til tilbudet.

– Vi ville teste om KI kunne gi like gode eller bedre, tilbakemeldinger som menneskelige sensorer, forteller Bergersen.

Studentene er stort sett tilfredse med tilbakemeldingene

Resultatene av utprøvingen har vært positive, men løsningen er langt ifra perfekt. 

Studentene Bergersen har snakket med, er stort sett tilfredse med begrunnelsene. Systemet avslører også svakheter ved tradisjonell sensur som lenge har vært kjent. 

Store emner bruker ofte mange sensorer, og det er forskjeller på hvor streng en sensor er. 

Det har vært vanskelig å løse denne utfordringen i emner med så mange studenter at flere enn to sensorer er nødvendig. 

KI klarer det på sekunder i stedet for en halvtime

Bergersen bruker UiO GPT til å generere begrunnelsene. Det er UiOs egen personverntrygge KI-chat som bygger på OpenAI sine språkmodeller. 

Språkmodellen blir matet med oppgaveteksten og studentens besvarelse. Modellen får også de detaljerte kriteriene for vurdering fra sensorveiledningen og eksempler på besvarelser. 

Den vurderer deretter besvarelsen, setter poeng og skriver en begrunnelse.

– Dette er veldig likt det en god sensor gjør manuelt, men KI kan gjøre det på sekunder i stedet for en halvtime, forklarer Bergersen.

Resultatet avhenger av hvilken sensor du får

Det Bergersen synes er mest oppsiktsvekkende ved prosjektet, handler ikke om KI, men om mennesker. 

Analyser av hvordan ulike sensorer vurderer de samme oppgavene viser et tydelig mønster: Noen sensorer gir systematisk høyere eller lavere poengsum enn andre.

Har studenten uflaks, blir oppgaven rettet av den eksamenskommisjonen som tilfeldigvis består av de to strengeste sensorene.

Gunnar Rye Bergersen

En sensur utført av KI, følger vurderingskriteriene konsekvent og ligger i sjiktet med de strengeste sensorene. 

Bergersen innrømmer at dette har å gjøre med at han selv er en streng sensor.

– Jeg og UiO GPT er ganske enige siden det er jeg som lager vurderingskriteriene som både jeg og KI benytter i sensur. Jeg kan i tillegg justere kriteriene hvis jeg ser at KI ikke klarer å benytte dem. Det er derimot vanskeligere for meg å se om andre sensorer tolker eller anvender kriteriene slik intensjonen min var, forklarer Bergersen.

Kan gi store innsparinger

KI-sensor er ikke overraskende mye billigere enn en menneskelig sensor. Bergersen har regnet seg fram til at en menneskelig sensor koster cirka 30–50 kroner per begrunnelse, mot cirka 30 øre for en KI-generert begrunnelse. 

Samtidig går det mye ressurser til utviklingen av systemet.

– Utviklingen krever mye arbeid, men selve gjennomføringen er ekstremt billig. Med standardiserte verktøy vil kostnadene ved utvikling falle dramatisk, sier Bergersen.

Sensorveiledningen krever imidlertid kun mindre justeringer for at KI kan bruke den. Muligheten for å korte ned sensurfristen er også lovende. 

I dag tar sensuren rundt to uker. Ved bruk av KI kan den reduseres til dager eller timer.

– Vi ønsker å kunne gi tilbakemelding mens eksamen fortsatt er friskt i minnet hos studenten, sier Bergersen.

Vil KI erstatte den menneskelige sensoren?

Bergersen mener allikevel det er lite sannsynlig at en KI-sensor vil ta helt over for den menneskelige sensoren i overskuelig framtid.

– Regelverket krever to sensorer på eksamen. Vi ser ikke for oss å fjerne menneskelig sensor helt. Det vi ser for oss, er at et menneske pluss KI skal gi like god eller bedre sensur enn menneske pluss menneske.

Prosjektet skiller mellom «low stakes» og «high stakes»-situasjoner. På obligatoriske oppgaver og prøveeksamener kan KI brukes friere, mens det på selve eksamen vil være en mer forsiktig bruk.

Utvalget for KI i høyere utdanning er positive til KI-sensur

Utvalget om kunstig intelligens i høyere utdanning ledes av Anders Malthe-Sørenssen ved Fysisk institutt på UiO. De er positive til KI-sensur. De spår at om 20 år er bruk av KI i sensur standard.

Samtidig oppfordrer utvalget til mer kontrollerte eksamensformer som gjør det vanskeligere for studentene å bruke KI i besvarelsen. 

Utvalget anbefaler at lærestedene gjør som Bergersen ved begrunnelser og tester ut helautomatiserte begrunnelser.

Innen høyere utdanning har bruk av KI ført til en debatt om hjemmeeksamen må skrotes til fordel for kontrollerte eksamensformer.

– Hvis KI både leverer studentbesvarelsene, og vi bruker KI til å rette dem, så snakker KI bare med seg selv fra a til å. Da er det åpenbart at det ikke er noe læringsutbytte. Systemet fungerer best på skoleeksamen uten hjelpemidler. Da vet vi at studenten skriver besvarelsen selv, sier Bergersen.

KI-sensor gir tydelige tilbakemeldinger

Tilbakemeldingene fra studentene er at KI-begrunnelsene er like gode som de som er skrevet av mennesker. 

Noen foretrekker KI-begrunnelsene selv om de kan være mer direkte og mindre diplomatiske enn de menneskelige. 

For noen studenter vil en tydelig tilbakemelding som «dette er ikke forståelig» være enkel å forholde seg til.

Men KI kan hallusinere og gjøre feil. Hvordan skiller disse feilene seg fra menneskelige feil?

– Vi gjør forskjellige typer feil. Mennesker kan bomme på en oppgave, men huske konteksten fra resten av besvarelsen. KI har hele besvarelsen tilgjengelig hele tiden, men kan gjøre andre typer feil, forklarer Bergersen.

Han påpeker at en menneskelig kvalitetssikring derfor er en viktig del av sensurprosessen.

Ønsker å utvikle standardiserte løsninger

Planen er å kunne utvikle standardiserte løsninger og bruke det i andre emner. 

Bergersen tror det er flere som jobber med hjemmelagede løsninger rundt om. Han håper på muligheter for å dele erfaringer og utvikle standardiserte systemer.

Bergersen samarbeider med forsker Stefan Schauber ved medisinstudiet på Universitetet i Oslo. 

Der tester de også ut bruk av KI på selve eksamensoppgavene ved å la KI generere nye flervalgsspørsmål innenfor spesifikke temaer i et eget prosjekt.

Med tanke på at studentene har vært så positive til systemet, ønsker flere å ta det i bruk som øvingsverktøy.

– Hvis vi bruker det på prøveeksamen eller gamle eksamener, kan studenter få en umiddelbar tilbakemelding fra KI på hva de må forbedre. Det er lite som gjør en student bedre forberedt til eksamen enn å løse eksamensoppgaver fra de siste fem årene og få en detaljert tilbakemelding på svarene sine, sier Bergersen.

Vil gi fordeler for universitetet som helhet

Han mener at det vil være flere fordeler for underviserne med å bruke KI. 

I samspill med statistisk analyse kan KI avdekke eksamensoppgaver som ikke fungerer godt og identifisere hvor studentene strever slik at undervisningsopplegget kan forbedres.

Bergersen mener universitetet som helhet vil kunne dra nytte av kunstig intelligens i eksamensarbeidet ved å utnytte eksamensdata bedre, sørge for en mer rettferdig karaktersetting og senke kostnadene ved sensur.

Powered by Labrador CMS