Denne artikkelen er produsert og finansiert av Politihøgskolen - les mer.

Hvordan blir sensorene enige når de skal sette karakter?

Sensorene hadde ulike oppfatninger av hva som er rettferdig, viser studie.

Hvilken karakter du får kan få mye å si for fremtiden.
Publisert

Hva foregår bak lukkede dører når sensorer møtes for å bli enige om karakterer på bacheloroppgaver? 

Det forsket Christine Sætre på i arbeidet med sin doktorgrad.

Hun observerte 2 felles sensormøter og 13 samsensurmøter mellom en intern og en ekstern sensor, hvor oppgaver diskuteres og karaktersettes. 

Sætre har også intervjuet sensorene etterpå. Det hun fant ut kaster lys over prosesser som vanligvis er skjulte.

Christine Sætre er interessert i hvordan karakterene blir til.

– I forskningen min er jeg ikke interessert i selve karakterene, men heller hvordan sensorene kommer frem til dem, sier Sætre.

Vi vet lite om hva som skjer bak lukkede dører

Sætre har lenge vært interessert i arbeidet som foregår rundt sensur. Hun skrev masteroppgave om vurdering av prestasjoner på muntlig eksamen. 

Hun forteller at systemet med samsensur bygger på en antagelse om at felles diskusjon sørger for mer pålitelige og rettferdige karakterer. 

Men gjør det egentlig det?

Tidligere forskning viser at sensorer vurderer eksamensbesvarelser forskjellig. 

Dette er blant annet fordi kriteriene tolkes forskjellig, og fordi sensorene legger vekt på ulike sider ved besvarelsen. 

I tillegg brukes det skjønn i vurderingene. Selv om samsensur skal gjøre slike forskjeller mindre, vet vi lite om hvordan sensorene faktisk blir enige.

– En karakter sier ingenting om hvilke vurderinger som ble gjort, hvilke begrunnelser sensorene brukte, eller hvordan uenighet ble håndtert. Når bare karakteren synes, men prosessen bak er skjult, vet vi egentlig ikke hvor rettferdige vurderingene er, sier Sætre. 

Karakterer brukes til å vurdere søkere til jobb og ved opptak til videre utdanning. De har derfor mye å si for enkeltstudenter og samfunnet.

Uenighet, forhandlinger og uforutsigbarhet

Gjennom observasjonene ble det tydelig for Sætre hvor sammensatt karaktersetting er.

Hele situasjonen rundt er med på å forme beslutningen. Dette gjelder ikke bare sensorene og deres tolkninger, men også for eksempel kriterier, sensorveiledning og studenttekster, forklarer hun. 

– Mye avgjøres i samspillet som finner sted i situasjonen, der noe får vekt og annet tones ned, sier hun.

Sensorene brukte ulike typer begrunnelser når de skulle bli enige om en karakter. Ofte tok de utgangspunkt i vurderingskriteriene, men de trakk også inn egne personlige meninger som gikk utover kriteriene. 

De sammenlignet også oppgaver med hverandre eller trakk inn andre hensyn, som inntrykk av studentenes innsats.

Selv samme kriterium kunne bli tolket helt forskjellig. I en oppgave mente en sensor at drøftingen var veldig god, mens en annen mente at den i stor grad manglet.

Samme oppgave ble vurdert til både C og E

Sætre så også hvordan sammenligning mellom oppgaver påvirket den endelige karakteren. 

I en diskusjon hadde sensorene hver for seg vurdert samme oppgave til C og E. I diskusjonen uttrykte sensoren som hadde satt E at det var vanskelig å løfte oppgaven til C fordi andre oppgaver som hadde fått C var bedre. 

Medsensor sa seg enig og påpekte at oppgaven var klart svakere enn de to som nettopp hadde fått B.

– Slike sammenligninger er forståelige, men de gjør karakterene sårbare for hvilke oppgaver som tilfeldigvis ligger i bunken.

Sætre understreker at variasjonene ikke betyr at sensorene gjør en dårlig jobb. Det er heller et uttrykk for hvor sammensatt dette er.

Hun forteller at sensorene, kriteriene, oppgavene og andre elementer virker sammen på ulike måter. Det finnes ikke én riktig vurdering, mener forskeren. 

Derfor er det så viktig å forstå hvordan prosessene bak karakterene faktisk foregår.

Ulike forståelser av rettferdighet

Et viktig funn er at sensorene hadde ulike oppfatninger av hva som er rettferdig.

For noen sensorer var det viktig å følge kriteriene strengt og konsekvent. Andre mente det var rettferdig å ta hensyn til hva som kunne forventes i lys av undervisning og veiledning, eller det generelle nivået i oppgavene. 

For eksempel sa en sensor: 

«Jeg tror ikke vi skal la metodekapittelet være det som skal vekte mest for jeg vet jo godt hva slags undervisning de har fått». En annen mente at «Det er i bunn og grunn viktigst at det er metoden de klarer å demonstrere at de har forstått».

Selv om målet for alle var rettferdighet, førte de ulike forståelsene til at oppgaver i praksis ble vurdert etter ulike standarder. 

Når ulike perspektiver møttes i samme kommisjon, måtte sensorene forhandle seg frem til hva som skulle vektlegges og hva som skulle tones ned for å oppnå enighet.

Hva kan gjøre karaktersettingen mer rettferdig?

Sætres forskning peker på at de innledende sensormøtene er viktige. I disse møtene diskuterer sensorene flere eksempeloppgaver. 

Her kunne sensorenes karaktervurderinger variere med inntil tre karakterer for samme oppgave (for eksempel B til E).

Det understreker viktigheten av å utforske forskjellene tidlig, mener forskeren. Mange av avklaringene som senere havnet hos sensorene to og to, kunne man ifølge henne se allerede her.

– Det holder ikke bare å få frem de ulike vurderingene. Sensorene må bruke tid på å snakke om dem og bruke uenighetene som et utgangspunkt for å utvikle felles forståelse av hva som er god kvalitet i denne profesjonelle sammenhengen, sier Sætre. 

Målet er ikke en streng fasit, den finnes ikke, men å bli enige om fleksibiliteten som ligger i kriteriene og hvor grensene går, utdyper hun. 

På den måten kan sensorene ivareta integriteten i kriteriene, samtidig som det er rom for skjønn.

Ulike syn på rettferdighet bør også diskuteres tidlig, mener forskeren. Skal undervisning og veiledning påvirke vurderingen? Kan et kriterium tones ned hvis mange oppgaver er svake her? 

Hvis slike spørsmål ikke tas i fellesskap, må de avgjøres i små grupper i samsensur – med ulike utfall og risiko for urettferdighet, mener Sætre.

Sætre understreker at rettferdighet ikke betyr at alle oppgaver skal diskuteres like mye. Ulike oppgaver krever ulik dybde.

– Det sentrale er hva diskusjonene handler om, og hvilke begrunnelser som får gjennomslag, sier Christine Sætre.

Referanser:

Christine Sætre: Behind the grades: co-constructing fairness to reach agreement in evaluative judgement. Assessment & Evaluation in Higher Education, 2024. Doi.org/10.1080/02602938.2024.2373789

Christine Nordsletten: Vurdering av muntlige eksamensprestasjoner i høyere utdanning: En studie av interbedømmer reliabilitet ved eksamen i Etterforskning på Politihøgskolen. Masteroppgave ved OsloMet - storbyuniversitetet, 2020.

Powered by Labrador CMS