Kommersielle språkmodeller er i ferd med å innta dagliglivene våre. Vi googler etter kakeoppskrifter og treningsprogrammer, vi diskuterer tekniske problemer med chatboter og vi lar ChatGPT hjelpe barna våre med leksene.
Språkmodeller som ChatGPT eller Gemini eies av store, internasjonale selskaper og er gjerne basert på amerikansk språk og kultur. I tillegg er de lukkede.
Vi som brukere vet ikke hvilket tekstmateriale som er brukt for å trene dem opp.
Men det finnes en motvekt til de kommersielle språkmodellene. Forskere i Norge og i utlandet jobber med å utvikle språkmodeller som er åpne. Det vil si at alle kan få innsyn i hvilket materiale de er trent opp på, og hvordan modellen er laget.
Slik kan hvem som helst plukke opp en modell og trene den videre, eller gjøre hva de vil med den.
Professor Erik Velldal ved Universitetet i Oslo er en av forskerne som trener norske språkmodeller.(Foto: Gina Aakre / Titan.uio.no)
Norsk er et lite språk
Nå har norske forskere utviklet et rammeverk, et system som gjør det mulig å teste frie språkmodeller i norsk språk og kultur. Man kan rett og slett la språkmodellen gå opp til eksamen i norsk.
– Vi har jobbet lenge med å trene norske språkmodeller, forteller professor Erik Velldal ved Universitetet i Oslo.
Han er medlem av språkteknologigruppen (LTG) ved Institutt for Informatikk. Sammen med Nasjonalbiblioteket og forskere ved NTNU står de bak Mimir-prosjektet som ble avsluttet i 2024.
Forskerne undersøkte effekten av å inkludere opphavsrettsbeskyttet materiale, som aviser og bøker, i treningsgrunnlaget for språkmodellene.
Alle datasettene i NorEval er laget fra bunnen av, av mennesker. De er altså ikke basert på generert eller oversatt tekst. Det gjør dem mer pålitelige, sier forsker Vladislav Mikhailov.(Foto: Gina Aakre / Titan.uio.no)
– Norsk er et lite språk, hvor det generelt finnes lite ressurser tilgjengelig for språkmodellene sammenlignet med for eksempel engelsk. Det er derfor nødvendig med datasett som er tilrettelagt av mennesker, både for trening og evaluering. Dette har vi manglet for norsk språk, sier Velldal.
Test for både nynorsk og bokmål
I Mimir-prosjektet la forskerne til rette store datasett basert på Nasjonalbibliotekets digitaliserte tekstsamlinger.
Forskerne i Oslo har videreført arbeidet og laget systemet NorEval som kan teste kvaliteten på norske språkmodeller.
– NorEval er den bredeste plattformen for evaluering av norske språkmodeller så langt. Her dekker vi både språkforståelse og generering, og både bokmål og nynorsk, sier forsker Vladislav Mikhailov ved Språkteknologigruppa.
NorEval klarer mange oppgaver, som oppsummering og omskriving av tekster, samt å svare på spørsmål, spesielt om kunnskap som er relevant i en norsk sammenheng.
Leder for Språkteknologigruppa ved UiO, Lilja Øvrelid håper nå på opprettelse av et nasjonalt senter for språkmodeller.(Foto: UiO)
– Alle datasettene i NorEval er laget fra bunnen av, av mennesker. De er altså ikke basert på generert eller oversatt tekst. Det gjør dem mer pålitelige, sier Mikhailov.
Åpne og gratis
Annonse
– Det ligner litt på å lage eksamensoppgaver for studenter, sier forsker og leder for språkteknologigruppen, Lilja Øvrelid.
– Da lager man oppgaver som ikke bare handler om at studenten skal gjengi tekst han eller hun har lest. Vi vil også se at de kan generalisere.
De norske språkmodellene som forskerne jobber med, er ikke bare åpne i den forstand at man kan se hvordan de er laget og hva de er trent på. De er også gratis.
Nå håper forskerne på finansiering av et nasjonalt KI-senter for språkmodeller for videreutvikling av konkurransedyktige, norske produkter.
– Det er ikke slik at en språkmodell er det samme som en ferdig chatbot. Det må gjøres en del tilleggsarbeid. Men modellene er gjort tilgjengelig for forskning og utvikling, de kan lastes ned og kjøres lokalt. Neste steg blir å legge til rette for at de utvikles til ferdige produkter, for eksempel som en chatbot. Da trenger vi et slikt KI-senter, slik at de kan stå på egne ben. Men her gjenstår det mye forskning sier Øvrelid.
Nødvendig kunnskap
De tror NorEval vil bli en viktig ressurs i denne utviklingen.
– Vi må ha kunnskap om hvor gode ulike modeller er i en norsk kontekst. Vi må kunne kvantifisere og sammenligne dem. Dette blir også viktig i sammenheng med at myndighetene skal inn og regulere, sier Velldal.
Rammeverket er også viktig for at det offentlige skal kunne ta i bruk språkmodellene.
– Dersom offentlig sektor skal kunne gjøre en risikovurdering, må de ha tilgang på kunnskap om hvor godt modellene fungerer, sier Velldal.
I 2023 ba Kultur- og likestillingsdepartementet Nasjonalbiblioteket starte Mimir-prosjektet.
Forskerne ville se om språkmodeller lærer mer når de også får lese opphavsrettsbeskyttede tekster, som aviser og fagbøker.
Annonse
Resultatet: Språkmodellene ble litt bedre når de fikk bryne seg på slike tekster.
Mangler testing av skjønnlitterære grep
Samtidig viste det seg at det å inkludere skjønnlitteratur faktisk gjorde modellene dårligere.
Velldal mener det bare viser at man trenger bedre tester, som kan spille på styrken ved skjønnlitteratur.
– I dag har vi gode tester som baserer seg på å teste fakta. Kanskje ville modellene skåret annerledes om vi hadde hatt tester på hvor kreativt man kan bruke språket, for eksempel gjennom bruk av bilder og metaforer. Der mangler vi fortsatt gode metoder, sier Velldal.
Mimir-prosjektet har også lagt grunnlag for en kompensasjonsordning for rettighetshaverne når det gjelder bruk av innhold dekket av opphavsrett i språkmodellene.
Nasjonalbiblioteket har fått mandat av regjeringen til å forhandle med rettighetshaverne, og flere avtaler er inngått.
– Det vi gjør her i Norge nå er egentlig ganske unikt. I et metaperspektiv kan man si at det handler om de norske kjerneverdiene. Vi har en høy grad av tillit i det norske samfunnet, og det at vi kan ha kollektive avtaler mellom brukerne og interessehaverne handler om å ta vare på den tilliten, sier Øvrelid.
Referanse:
Vladislav Mikhailov, Erik Velldal, Lilja Øvrelid mfl.: NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark. Arxiv, 2025. (Sammendrag) Doi.org/10.48550/arXiv.2504.07749