DENNE ARTIKKELEN ER PRODUSERT OG FINANSIERT AV nasjonalbiblioteket - LES MER.

Nasjonalbibliotekar Aslak Sira Myhre og digitalt sikringsmagasin, som mellom anna rommar radioarkivet.

Nasjonalbiblioteket deler kunstig intelligens som skjøner norske dialekter og gjer tale om til tekst

– Dette sikrar at kunstige intelligensar, språkmodellar og reiskap for alt frå helse til utdanning fungerer på norsk i framtida, seier nasjonalbibliotekar Aslak Sira Myhre.

På Nasjonalbiblioteket har dei dei siste åra jobba med å lage eit såkalla språkkorpus som gjer at kunstige intelligensar, talemaskinar og omsetjingsprogram kan skjøne norsk. 

Eit språkkorpus er ei avgrensa mengde med tekst og/eller tale. Det kan til dømes vere alle aviser gitt ut i Noreg frå eit årstal til eit anna eller alle Dagsnytt 18-sendingane i eit visst tidsrom. 

Nasjonalbiblioteket sit på eit enormt språkkorpus, med alt dei har digitalisert av det som er publisert i Noreg gjennom tidene i aviser, bøker, radio og så vidare.

Fritt tilgjengeleg

No har dei brukt desse ressursane til å trene opp eit program for automatisk konvertering av norsk tale til tekst. 

Maskinlæringsprogrammet NB Whisper har ei betre forståing av norsk tale og norske dialekter enn liknande program som har vore utvikla fram til no. 

– Dette er eit viktig arbeid for å sikre at kunstige intelligensar, språkmodellar og reiskap for alt frå helse til utdanning fungerer på norsk i framtida, seier nasjonalbibliotekar Aslak Sira Myhre.

Programmet, som er ein ny modell av Whisper, er no fritt tilgjengeleg i ein betaversjon.

– Vi deler alt vi gjer. Dermed vert dei ressursane vi lagar, ei plattform for utvikling av norsk språk i maskinane si verd. Språkmodellen er langt frå feilfri, men han er betre rusta til å forstå norsk tale og dialekter enn andre program som er tilgjengelege, seier nasjonalbibliotekaren.

Kan forbetre program for transkripsjon

Han seier dei ønskjer at så mange som mogleg vil ta han i bruk, gje tilbakemeldingar og med det bidra til å gjere han enda betre.

Aslak Sira Myhre vonar at universitet, offentleg sektor og private aktørar vil ta i bruk NB Whisper. Norske mediebedrifter kan nytte modellen til å forbetre transkripsjonsprogram dei sjølve har utvikla.

Nasjonalbiblioteket ønskjer å bruke programmet for å gjere samlinga enda meir tilgjengeleg for publikum. 

– Vi har eit håp om å bruke denne modellen på våre eigne arkiv. Om vi til dømes kan transkribere radioarkivet, vil det bli søkbart. Dermed blir det opent på ein heilt annan måte for folk, seier Sira Myhre.

Nasjonalbibliotekets arbeid med språkteknologi 

Nasjonalbiblioteket bidreg til å utvikle språkteknologi som det ville vore svært kostnadskrevjande for dei store teknologiselskapa å gjere sjølve. 

Arbeidet med ressursar på norsk er eit viktig språkpolitisk verktøy. Det sikrar at digitale tenester og programvarer finst på norsk – som har eit stort mangfald av dialekter og i verdssamanheng er eit veldig lite språk.

Nasjonalbiblioteket har òg trent ein modell for å støtta nordsamisk språk. Så langt har dei for lite data til at modellen yter like godt som på bokmål og nynorsk.

 

Om NB Whisper

  • NB Whisper er ein KI-modell som kan konvertere tale til tekst. Teksten som blir produsert, er normalisert norsk bokmål eller nynorsk. Denne teksten kan så brukast for mange ulike føremål.
  • NB Whisper er trent på innhald i Nasjonalbiblioteket si digitale samling og på språkressursar frå Språkbanken ved Nasjonalbiblioteket.
  • NB Whisper er bygd på Whisper frå OpenAI.
  • Modellen er trent med ressursar frå Googles TPU Research Cloud.
  • NB Whisper blir no tilgjengeleg for uttesting i ei lita utgåve. Dermed kan ein bruke programmet på vanlege datamaskinar. Seinare vil det kome større utgåver som skal fungere enda betre.

Du finn meir informasjon om NB Whisper og arbeidet i Nasjonalbiblioteket sin KI-lab (NB AI-lab) på nettsida ai.nb.no.

Powered by Labrador CMS