Denne artikkelen er produsert og finansiert av Universitetet i Oslo - les mer.

Forskerne Vladislav Mikhailov, Andrei Kutuzov, David Samuel og Erik Velldal er alle fra forskningsgruppen for språkteknologi på Institutt for informatikk ved Universitetet i Oslo.

Norsk svar på ChatGPT er på vei 

Flere nye norske språkmodeller er allerede lansert. Disse er ennå ikke enkle å bruke for folk flest.

– Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer, sier professor Erik Velldal.

Før jul skjedde det noe helt avgjørende for å få fortgang i det norske motsvaret til ChatGPT. Det blir utviklet av forskningsgruppen for språkteknologi ved Universitetet i Oslo (UiO), Language Technology Group (LTG).

De fikk tildelt regnetid på Europas kraftigste datamaskin, LUMI i Finland. Den er så ettertraktet at forskere må søke om tid for å bruke den. Dermed kunne de trene store språkmodeller på norske data. I løpet av et par uker ble nok data behandlet til at forskerne kunne lansere tre norske språkmodeller.

Trening krever regnekapasitet

– Trening av store språkmodeller krever veldig mye regnekapasitet fra det vi kaller GPU-er, mikroprosessorer. Dersom man dobler antallet GPU-er involvert, så vil det grovt sagt gå dobbelt så fort å gjennomføre treningen. Fordelen med LUMI er at det er svært mange GPU-er til rådighet, over 10.000.

Det sier spesialrådgiver Hans A. Eide i Sigma2. Dette er et non-profit-selskap med ansvar for den nasjonale e-infrastrukturen for forskning.

– Nasjonalbiblioteket og Universitetet i Oslo har tilgjengeliggjort flere norske språkmodeller tidligere, men dette er de største vi har laget så langt. De er trent på over 30 milliarder ord, forklarer Velldal.

Alle modellene har rundt syv milliarder parametre. Det er noe som forskerne vurderer som optimalt i forhold til mengden norske treningsdata som er tilgjengelig. 

– En språkmodell blir dårlig om den trenes på for lite materiale i forhold til størrelsen. Det handler om å finne rett balanse, sier Velldal.

Å trene på de samme dataene i flere runder har vist seg effektivt dersom man har nok prosessorkraft. Modellene fra UiO har blitt matet i LUMI med de samme treningsdataene seks ganger, forklarer Velldal.

Professor Erik Velldal mener det er viktig å utvikle norske modeller.

– Norge må ha teknologisk selvråderett

Språkteknologigruppen mener det er viktig å ha norske motsvar til OpenAIs ChatGPT og Googles LaMDA. 

Norsk utgjør bare en promille av språkmengden ChatGPT er trent på. Det er heller ikke fullt ut kunngjort hvilke data modellen er trent på. Det er problematisk på flere måter, mener Velldal.

Han forklarer at Microsoft og OpenAI lar norske brukere få tilgang til modellen i et nettgrensesnitt. Modellen bak er lukket. 

– I mange sammenhenger kan det også være problematisk å sende fra seg data til en kommersiell tredjepart. Dersom man for eksempel jobber med sensitive helsedata, er det viktig å kunne kontrollere hvor og hvordan dataene behandles. Da er det essensielt å ha tilgang på åpne og frie modeller som utviklere kan kjøre på sine egen maskiner, sier han.

Flere store norske statlige aktører har likevel kastet seg på og kjøpt tilgang til OpenAIs ChatGPT.

– Det er viktig å sørge for at åpne, norskutviklete modeller blir tilgjengelige som et alternativ. Kanskje spesielt for offentlig sektor, påpeker Velldal.

Osloskolen er blant de siste som har kunngjort at de vil bruke den amerikanske tjenesten. Det på tross av at det er flere uavklarte spørsmål rundt rettigheter og opphavsbeskyttet materiale i modellene. 

Forskere jobber også sammen med Nasjonalbiblioteket for å sammenligne språkmodeller som er utviklet på fritt tilgjengelig materiale og opphavsbeskyttet materiale. 

På sikt vil dette kanskje kunne gi retningslinjer for en fremtidig kompensasjonsordning for bruk av opphavsrettslig materiale i språkmodeller.

Språkmodellene fremhever stereoptyper

Det er flere viktige grunner til at vi trenger norske språkmodeller, ifølge Andrey Kutuzov ved UiO. ChatGPT er i veldig liten grad tilpasset kunnskaps- og verdigrunnlaget i Norge, påpeker han.

– Tekgigantenes språkmodeller er i all vesentlighet trent på engelsk og amerikansk språk. De gjenspeiler dermed også et amerikansk verdisett og kultur. Et eksempel kan være at de amerikanske språkmodellene samsvarer i større grad med kjønnsmessig fordeling av yrker som er mer stereotypisk enn tilfellet er i Norge, sier Kutuzov.

I tillegg ser man ofte at engelske uttrykksmåter smitter over i den norske ordlyden.

– En norsk språkmodell vil i mye større grad reflektere samfunnet slik vi kjenner det i Norge, sier Kutuzov.

Må trenes på å løse oppgaver

De norske språkmodellene er lansert og er allerede lastet ned av flere tusen brukere. 

Modellene er i første omgang myntet på forskere og utviklere. 

Kutuzov forklarer at de norske versjonene ikke er lansert i nettgrensesnitt som er enkelt å bruke for mannen i gata. Han innrømmer at de fremdeles er langt unna å kunne tilby de mulighetene som de kommersielle språkmodellene gir. Modellene er i større grad trent for å være generelle basismodeller.

– En språkmodell trenes i flere steg. Disse norske modellene har fått grunntreningen. Det betyr at de klarer å forutsi hvilket ord som er det neste i en tekst.

For at de norske modellene skal komme opp på samme nivå som ChatGPT eller lignende modeller, må de ha mer såkalt instruksjonstrening. Dermed vil de i større grad bli i stand til å løse ulike oppgaver. Dette arbeidet er allerede i gang ved UiO. Nye og oppdaterte versjoner av språkmodellene vil lanseres fortløpende.

Selv om kappløpet med de amerikanske modellene fremstår som tøft, påpeker forskerne at norske språkmodeller må utvikles videre.

– Det er et viktig prinsipp at vi lager modeller som er fri for restriksjoner. Vi må ha slike modeller som er basert på åpent tilgjengelige ressurser og som er transparente for forskningsmiljø og næringsliv. Store språkmodeller vil i økende grad fungere som grunnleggende infrastruktur for å løse ulike oppgaver innen forskning, næringsliv, forvaltning, og samfunnet ellers, sier Velldal.

Tre nye norske språkmodeller

Tre nye norske språkmodeller er lansert, basert på de GPT-liknende arkitekturene BLOOM og Mistral, alle med «open source»-lisens

De er utviklet av forskningsmiljø ved Universitetet i Oslo i samarbeid med Sigma2 og Nasjonalbiblioteket. Sammen med andre aktører i det nasjonale AI-nettverket NORA planlegger partnerne en nasjonal infrastruktur for utvikling og bruk av store norske språkmodeller.

To av modellene er trent fra bunnen av på norsk.

Den tredje tar utgangspunkt i en modell forhåndstrent for engelsk av det franske selskapet Mistral AI, som så har blitt trent videre for norsk.

Modellene er tilgjengelige her.

Powered by Labrador CMS