Visste du at det er forskere ved UiO som står bak de grønne strekene i Word? (Illustrasjonsfoto: UiO)

Slik utviklet norske forskere retteprogrammet i Word

Mange har fått grønne streker når de skriver i Word, men få kjenner historien bak det norske grammatikkverktøyet. 

Hver gang Microsoft Word gjør oss oppmerksomme på en sannsynlig grammatisk feil i det vi har skrevet, er det en frukt av mange års grunnforskning ved UiOs tekstlaboratorium, ledet av Janne Bondi Johannessen.

De grønne strekene i Word er historien om forskning de fleste har merket resultatene av, men nok ikke kjent historien bak.

Mellom oppdragsforskning og grunnforskning

Det var et finsk firma som var mellomledd mellom Microsoft og Tekstlaboratoriets professor Janne Bondi Johannessen og senioringeniør ved laboratoriet Kristin Hagen. Det var et oppdrag de fikk utenfra, men oppdragsforskning var det likevel slett ikke, understreker de to. Forskningen var nemlig allerede gjort.

– Det eneste vi trengte å gjøre, var å operasjonalisere den på en måte som kunne brukes i akkurat denne sammenhengen, sier de. Det tok noen måneder. Forskningen derimot har gått over mange år, sier Johannessen.

Historien om en grammatisk tagger

Janne Bondi Johannessen er professor ved Universitetet i Oslo. (Foto: UiO)

Det hele begynte med at Johannessen og andre for hele 20 år siden startet det såkalte taggerprosjektet. En tagger er et avansert digitalt analyseverktøy.

Målet med prosjektet var ubeskjedent: Å utvikle et automatisk verktøy som både kunne identifisere ord, klassifisere dem og analysere dem i forhold til hverandre, i setninger. Resultatet er nå, etter flere oppdateringer, kjent som Oslo-Bergen-taggeren (OBT).

Det er ikke et lite stykke språkteknologisk innovasjon det er snakk om. Taggeren er den beste i sitt slag og har en treffsikkerhet på 96,5 prosent helt uten menneskelig hjelp.

Norsk ordbank

Et biprodukt av taggerprosjektet er Norsk ordbank. Ordbanken er en såkalt fullformsordbok, et leksikon med alle tilgjengelige bøyningsformer av alle norske ord.

I dag er det en videreutviklet utgave av Ordbanken som ligger til grunn for blant annet bøyingsinformasjonen i Bokmåls- og Nynorskordboka på nett, og det elektroniske scrabblespillet Wordfeud. Det er samlingsenhetene på ILN som har arbeidet mest med Ordbanken.

Den siste mila

Det er altså den grammatiske taggeren som utgjør grunnlaget for de grønne strekene i Word. Men et viktig stykke arbeid sto likevel igjen da de takket ja til bestillingen fra Microsoft.

Den grammatiske taggeren forutsetter i utgangspunktet korrekt språk, mens en grammatikkontroll må forstå feilaktig språkbruk, og så foreslå rettinger. Da måtte forskerne lage tillegg til de reglene som lå til grunn for taggerens analyser, samt formulere de forklaringene den enkelte Word-bruker får når en feil er funnet.

– Selv om taggeren fra før gjorde det meste riktig, var dette et sannhetens øyeblikk, understreker Hagen.

– Det er veldig vanskelig å lage en slik grammatikkontroll, men desto morsommere når man får det til. Når du får en regel til å virke, er det det deiligste i verden, ler hun.

Og de fikk det til. På en brøkdels sekund sjekker det ferdige verktøyet både samsvarsbøyning, verbformer, ordstilling, plassering av adverb, rett kasus og enda mye mere til. Men langt fra alle feil blir oppdaget, understreker hun.

Betydning for samfunnet

De grønne strekene i Microsoft Word er blant de tydeligste sporene som Tekstlaboratoriet har etterlatt seg utenfor akademia. Samfunnsrelevans og praktisk betydning for folk utenfor akademiske kretser har hele tiden vært hovedmålet til språkforskerne. Det kommer tydelig til uttrykk gjennom et høyt antall vitenskapelige publikasjoner gjennom en årrekke og en tagger med åpen lisens. 

Tekstlaboratoriets mange norske korpus er tagget med OBT-taggeren, og har i skrivende stund om lag 3000 registrerte forskere og studenter som brukere rundt om i verden. Et korpus er en søkbar digitalisert samling av skriftlig eller muntlig tekst med informasjon om ordklasser.

Og laboratoriet er kanskje bare så vidt i gang, tenker Johannessen og Hagen. De har videreutviklet taggeren for norsk talemål, og den er en nå en av bærebjelkene for de nyeste storsatsingene ved Tekstlaboratoriet, nemlig ulike talespråkskorpus for oslodialekt, samt norske, nordiske og samiske dialekter før og nå.

Powered by Labrador CMS