Oppdag våre andre nettsteder:

Du leter kanskje etter...

Oppdag våre andre nettsteder:

Annonse

Denne artikkelen er produsert og finansiert av UiT Norges arktiske universitet - les mer.

Har det noe å si hvilken chatbot du velger? – Enorme forskjeller

Hvor flinke er store språkmodeller på logiske problemer? Forskere har utviklet en ny metode for å bedre forstå når og hvorfor tankegangen til modellene svikter.

En ny metode kan gi et unikt innblikk i hvor flinke store språkmodeller som chatboter er på å løse logiske oppgaver, og hva som påvirker deres resonneringsevner.

(Foto: Mostphotos)

Petter Bjørklund Petter Bjørklund Kommunikasjonsrådgiver

UiT Norges arktiske universitet UiT Norges arktiske universitet

Publisert 05.03.2026 - 00:01

Treningstips, middagsforslag og hjelp med skole eller arbeid.

Daniel Kaiser tror metoden hans, CogniLoad, kan bidra til å oppdage og forstå begrensningene store språkmodeller har når de løser logiske oppgaver.

Store språkmodeller som ChatGPT, DeepSeek og Gemini er utviklet for å hjelpe oss med en rekke ulike oppgaver og gjøremål.

Men hvor gode er de på logiske problemer? Og hva påvirker deres evne til å resonnere?

Dette utforsker Daniel Kaiser i en ny studie.

Han forsker på store språkmodeller i doktorgradsprosjektet sitt hos UiT sin maskinlæringsgruppe og Integreat – Norsk senter for kunnskapsdrevet maskinlæring.

Han har utviklet en ny metode til å undersøke hvor gode store språkmodeller er til problemløsning.

Avdekker skjulte feil i modellene

Selv om store språkmodeller har blitt en nyttig teknologi med mange fordeler, er de kjente for å gjøre feil. Noen ganger på katastrofalt vis.

I 2025 fant ChatGPT opp 11 av 18 kilder som Tromsø kommune brukte i en rapport om skolestruktur. Det er et typisk eksempel på hallusinasjon, altså at KI-modellen finner opp ting som ikke stemmer.

– Vi bør aldri stole blindt på hva store språkmodeller sier, selv om det virker sant eller overbevisende. Det er viktig å alltid dobbeltsjekke og kontrollere svarene deres, advarer Kaiser oss.

Han tror metoden, som han kaller CogniLoad, kan bidra til å oppdage og forstå hvilke begrensninger store språkmodeller har når de løser logiske problemer.

– Den er lagd for å hjelpe oss å forstå hvorfor enkelte modeller gjør det godt eller kommer til kort på ulike oppgaver, sier Kaiser.

Ikke alle store språkmodeller er like flinke på samme oppgave

Hvordan store språkmodeller utvikles, for eksempel størrelsen på modellene eller hvilke data de trenes på, avgjør hvor gode de blir på å løse en bestemt oppgave.

Derfor er ikke alle modeller like flinke på den samme oppgaven.

– Det er enorme forskjeller i hva store språkmodeller er i stand til. Avanserte modeller som ChatGPT sin GPT-5-modell er vanligvis flinkere på mer komplekse problemer. Mindre modeller som Metas LLaMA-modeller er bedre egnet for enklere oppgaver, forklarer Kaiser.

Likevel er det ikke alltid innlysende hva modellene er best eller verst på. Den komplekse strukturen bak modellene gjør det også vanskelig å forstå hvor mulige feil kommer fra.

Verdifull kunnskap for flere

Annonse

Derfor er det viktig å undersøke hva store språkmodeller kan og ikke kan gjøre, uavhengig av hvor avanserte de er, mener forskeren.

Selv de mest avanserte modellene kan gjøre feil, uansett hvor selvsikre de fremstår.

– En test som CogniLoad kan bidra til å finne ut når og hvorfor tankegangen til store språkmodeller bryter sammen. Det gjør det mulig å undersøke hvilke typer logiske feil modellene gjør, sier Kaiser.

Denne kunnskapen er verdifull på mange måter.

Metoden til Kaiser, CogniLoad, går ut på å gi store språkmodeller en logisk gåte som de skal løse.

– Denne informasjonen kan brukes til å bedre forstå hva store språkmodeller strever mest med. Utviklere kan bruke den til å justere og forbedre modellene sine, sier han.

Gir chatbotene gåter

CogniLoad går ut på å gi en stor språkmodell en logisk gåte. Den starter med å beskrive en situasjon med flere mennesker og ulike fakta om dem. Det kan for eksempel være hva de har på seg eller hvilken musikk de sist lyttet til.

Deretter får modellen en rekke påstander som endrer hvordan situasjonen ser ut. Til slutt skal den svare på et spørsmål om én person, for eksempel hvilken farge de har på sokkene sine.

– Modellen må hele tiden holde oversikt over endringene fra start til slutt for å løse gåten på riktig måte, forklarer Kaiser.

Kaiser kan justere gåten for å gjøre den vanskeligere, for eksempel ved å øke lengden eller kompleksiteten, eller å legge til mer irrelevant innhold.

Justerbarheten er ment for å avsløre hvilke aspekter med gåten som påvirker modellens evne til å løse den.

Metoden er basert på kognitiv belastningsteori, som sier at hvor hardt hjernen vår må jobbe påvirker vår evne til å løse ulike oppgaver.

Annonse

– Når vi har for mye å holde oversikt over på én gang, blir det vanskeligere å tenke nøye og unngå feil. Ettersom store språkmodeller er laget for å etterligne menneskelig intelligens, så ønsket vi å se hvordan ulike former for kognitiv belastning påvirker modellenes evne til å resonnere, sier Kaiser.

Testet på ChatGPT, DeepSeek og Gemini

Kaiser testet metoden på 22 forskjellige store språkmodeller – både på åpne og kommersielle modeller som ChatGPT, DeepSeek og Gemini.

– Poenget var å undersøke hvilke belastningsformer modellene håndterer best, og hvilke som får de til å slite, forklarer Kaiser.

Funn fra studien viser at metoden kan gi unik innsikt i hvordan disse modellene behandler og løser logiske problemer – uavhengig av størrelsen på modellene.

– De viser at metoden kan brukes på alle disse modellene for å forstå hva som påvirker resonneringsevnene deres, sier han.

Likheter med menneskelig intelligens

Resultatene peker på noen interessante likheter mellom hvordan mennesker og store språkmodeller behandler informasjon.

– Vi fant ut at faktorer som lengde, kompleksitet og støy faktisk påvirker de store språkmodellenes evne til å løse logiske problemer. Akkurat som når mennesker utsettes for ulike former for kognitiv belastning, sier Kaiser.

Selv de mest avanserte modellene slet når oppgaven ble lengre eller vanskeligere.

– Det er en påminnelse om at selv når de beste modellene høres selvsikre og flytende ut, kan de fortsatt miste oversikten over viktige detaljer og ende opp med å gjøre feil, sier han.

Modellstørrelse spiller viktig rolle

Annonse

Modellene møtte på flest problemer når gåten ble lang. Men størrelsen på modellene spiller også en viktig rolle.

– Jo lengre gåten ble, desto vanskeligere ble det for flere av modellene å gi riktig svar. Vi ser at mindre modeller strevde mye tidligere, mens de mer avanserte klarte å holde tritt lengre, sier Kaiser.

– Men til slutt begynte selv de beste modellene å gjøre flere feil når oppgaven ble ganske lang, legger han til.

Han ser et lignende mønster når gåten ble mer kompleks.

– Treffsikkerheten til modellene faller også når påståndene ble mer detaljrike og vanskeligere å følge, sier Kaiser.

Poenget med CogniLoad er ikke å måle hva de store språkmodellene kan fra før, understreker han – men å forstå hvor godt modellene tar til seg og behandler ny informasjon.

– Det er ikke en kunnskapstest hvor vi spør store språkmodeller om fakta de skal huske på. Her ser vi på hvor godt modellene løser problemer de aldri har sett før, sier han.

Er generell kunstig intelligens nærmere enn vi tror?

KI-systemer utvikler seg i et raskt tempo. Noen frykter at de etter hvert vil ligne eller overgå menneskelig intelligens, og oppnå såkalt generell kunstig intelligens.

Selv om metoden til Kaiser ikke gir et klart svar om fremtiden, tyder likevel forskningen hans på at dette tiltenkte scenarioet ligger et godt stykke forbi horisonten.

– Selv gåter som virker enkle kan bli vanskelige for dagens modeller når de blir lengre og vanskeligere å følge med på. Gåten burde egentlig være ganske enkel for en stor språkmodell å løse, så det er ganske fascinerende å se hvordan de mest avanserte modellene slet når vi økte vanskelighetsgraden, sier Kaiser.

Derfor har både mindre og mer avanserte modeller fortsatt et forbedringspotensial.

– Det viser på en måte hvor langt unna dagens modeller er fra å oppnå denne typen superintelligens, sier forskeren.

Annonse

Referanse:

Daniel Kaiser mfl.: CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density. The Fourteenth International Conference on Learning Representations (ICLR 2026), 2026. Doi.org/10.48550/arXiv.2509.18458

Om Integreat – Norsk senter for kunnskapsdrevet maskinlæring

Et norsk senter for fremragende forskning (SFF). Senterets mål er å gjøre maskinlæring mer bærekraftig, presist, pålitelig og etisk.
Ved å dra nytte av ekspertisen til ledende forskere, unge talenter og anerkjente internasjonale eksperter, vil Integreat være med på å definere det nyskapende området kunnskapsdrevet maskinlæring i Norge.
Senteret er et partnerskap mellom Universitetet i Oslo, UiT Norges arktiske universitet og Norsk regnesentral.

Les mer om Integreat på www.integreat.no.

Artikkelen er produsert og finansiert av UiT Norges arktiske universitet

UiT er én av over 80 eiere av forskning.no. Deres kommunikasjonsansatte leverer innhold til forskning.no. Vi merker dette innholdet for å tydelig skille formidling fra uavhengig redaksjonelt stoff.
Her kan du lese mer om ordningen.