Denne artikkelen er produsert og finansiert av UiT Norges arktiske universitet - les mer.
Har det noe å si hvilken chatbot du velger? – Enorme forskjeller
Hvor flinke er store språkmodeller på logiske problemer? Forskere har utviklet en ny metode for å bedre forstå når og hvorfor tankegangen til modellene svikter.
En ny metode kan gi et unikt innblikk i hvor flinke store språkmodeller som chatboter er på å løse logiske oppgaver, og hva som påvirker deres resonneringsevner.(Foto: Mostphotos)
UiT Norges arktiske universitetUiTNorges arktiske universitet
Publisert
Treningstips, middagsforslag og hjelp
med skole eller arbeid.
Daniel Kaiser tror metoden hans, CogniLoad, kan bidra til å oppdage og forstå begrensningene store språkmodeller har når de løser logiske oppgaver.(Foto: Privat)
Store språkmodeller som ChatGPT, DeepSeek og
Gemini er utviklet for å hjelpe oss med en rekke ulike oppgaver og gjøremål.
Men hvor gode er de på logiske problemer? Og hva påvirker deres evne til å resonnere?
Dette utforsker Daniel Kaiser i en ny studie.
Han forsker på store språkmodeller i doktorgradsprosjektet sitt hos UiT sin maskinlæringsgruppe og Integreat – Norsk senter for kunnskapsdrevet maskinlæring.
Han har utviklet en ny metode til å undersøke hvor gode store språkmodeller er til problemløsning.
Avdekker skjulte feil i modellene
Selv om store språkmodeller har blitt en
nyttig teknologi med mange fordeler, er de kjente for å gjøre feil. Noen
ganger på katastrofalt vis.
I 2025 fant ChatGPT opp 11 av 18 kilder
som Tromsø kommune brukte i en rapport om skolestruktur. Det er et typisk eksempel
på hallusinasjon, altså at KI-modellen finner opp ting som ikke stemmer.
– Vi bør aldri stole blindt på hva store
språkmodeller sier, selv om det virker sant eller overbevisende. Det er viktig
å alltid dobbeltsjekke og kontrollere svarene deres, advarer Kaiser oss.
Han tror metoden, som han kaller CogniLoad, kan bidra til å oppdage og forstå hvilke begrensninger
store språkmodeller har når de løser logiske problemer.
– Den er lagd for å hjelpe oss å forstå
hvorfor enkelte modeller gjør det godt eller kommer til kort på ulike
oppgaver, sier Kaiser.
Ikke alle store språkmodeller er like flinke på
samme oppgave
Hvordan store språkmodeller utvikles, for
eksempel størrelsen på modellene eller hvilke data de trenes på, avgjør
hvor gode de blir på å løse en bestemt oppgave.
Derfor er ikke alle modeller
like flinke på den samme oppgaven.
– Det er enorme forskjeller i hva store
språkmodeller er i stand til. Avanserte modeller som ChatGPT sin GPT-5-modell
er vanligvis flinkere på mer komplekse problemer. Mindre modeller som
Metas LLaMA-modeller er bedre egnet for enklere oppgaver, forklarer Kaiser.
Likevel er det ikke alltid innlysende hva
modellene er best eller verst på. Den komplekse strukturen bak modellene gjør
det også vanskelig å forstå hvor mulige feil kommer fra.
Verdifull kunnskap for flere
Annonse
Derfor er det viktig å undersøke hva store
språkmodeller kan og ikke kan gjøre, uavhengig av hvor avanserte de er, mener forskeren.
Selv de
mest avanserte modellene kan gjøre feil, uansett hvor selvsikre de fremstår.
– En test som CogniLoad kan bidra til å
finne ut når og hvorfor tankegangen til store språkmodeller bryter sammen. Det
gjør det mulig å undersøke hvilke typer logiske feil modellene gjør, sier
Kaiser.
Denne kunnskapen er verdifull på mange
måter.
Metoden til Kaiser, CogniLoad, går ut på å gi store språkmodeller en logisk gåte som de skal løse.(Foto: Mostphotos)
– Denne informasjonen kan brukes til å
bedre forstå hva store språkmodeller strever mest med. Utviklere kan bruke den
til å justere og forbedre modellene sine, sier han.
Gir chatbotene gåter
CogniLoad går ut på å gi en stor
språkmodell en logisk gåte. Den starter med å beskrive en situasjon med flere
mennesker og ulike fakta om dem. Det kan for eksempel være hva de har på seg
eller hvilken musikk de sist lyttet til.
Deretter får modellen en rekke påstander
som endrer hvordan situasjonen ser ut. Til slutt skal den svare på et spørsmål
om én person, for eksempel hvilken farge de har på sokkene sine.
– Modellen må hele tiden holde oversikt
over endringene fra start til slutt for å løse gåten på riktig måte, forklarer
Kaiser.
Kaiser kan justere gåten for å gjøre den
vanskeligere, for eksempel ved å øke lengden eller kompleksiteten, eller å
legge til mer irrelevant innhold.
Justerbarheten er ment for å avsløre
hvilke aspekter med gåten som påvirker modellens evne til å løse den.
Metoden er basert på kognitiv
belastningsteori, som sier at hvor hardt hjernen vår må jobbe påvirker vår evne
til å løse ulike oppgaver.
Annonse
– Når vi har for mye å holde oversikt over
på én gang, blir det vanskeligere å tenke nøye og unngå feil. Ettersom store
språkmodeller er laget for å etterligne menneskelig intelligens, så ønsket vi å
se hvordan ulike former for kognitiv belastning påvirker modellenes evne til å
resonnere, sier Kaiser.
Testet på ChatGPT, DeepSeek og Gemini
Kaiser testet metoden på 22 forskjellige
store språkmodeller – både på åpne og kommersielle modeller som ChatGPT,
DeepSeek og Gemini.
– Poenget var å undersøke hvilke
belastningsformer modellene håndterer best, og hvilke som får de til å slite,
forklarer Kaiser.
Funn fra studien viser at metoden kan gi
unik innsikt i hvordan disse modellene behandler og løser logiske problemer –
uavhengig av størrelsen på modellene.
– De viser at metoden kan brukes på alle
disse modellene for å forstå hva som påvirker resonneringsevnene deres,
sier han.
Likheter med menneskelig intelligens
Resultatene peker på noen interessante
likheter mellom hvordan mennesker og store språkmodeller behandler informasjon.
– Vi fant ut at faktorer som lengde,
kompleksitet og støy faktisk påvirker de store språkmodellenes evne til å løse
logiske problemer. Akkurat som når mennesker utsettes for ulike former for
kognitiv belastning, sier Kaiser.
Selv de mest avanserte modellene slet når
oppgaven ble lengre eller vanskeligere.
– Det er en påminnelse om at selv når de
beste modellene høres selvsikre og flytende ut, kan de fortsatt miste
oversikten over viktige detaljer og ende opp med å gjøre feil, sier han.
Modellstørrelse spiller viktig rolle
Annonse
Modellene møtte på flest problemer når
gåten ble lang. Men størrelsen på modellene spiller også en viktig rolle.
– Jo lengre gåten ble, desto vanskeligere
ble det for flere av modellene å gi riktig svar. Vi ser at mindre modeller
strevde mye tidligere, mens de mer avanserte klarte å holde tritt lengre, sier
Kaiser.
– Men til slutt begynte selv de beste
modellene å gjøre flere feil når oppgaven ble ganske lang, legger han til.
Han ser et lignende mønster når gåten ble
mer kompleks.
– Treffsikkerheten til modellene
faller også når påståndene ble mer detaljrike og vanskeligere å følge, sier
Kaiser.
Poenget med CogniLoad er ikke å måle
hva de store språkmodellene kan fra før, understreker han – men å forstå hvor
godt modellene tar til seg og behandler ny informasjon.
– Det er ikke en kunnskapstest hvor vi
spør store språkmodeller om fakta de skal huske på. Her ser vi på hvor godt
modellene løser problemer de aldri har sett før, sier han.
Er generell kunstig intelligens nærmere enn vi tror?
KI-systemer utvikler seg i et raskt tempo.
Noen frykter at de etter hvert vil ligne eller overgå menneskelig intelligens,
og oppnå såkalt generell kunstig intelligens.
Selv om metoden til Kaiser ikke gir et
klart svar om fremtiden, tyder likevel forskningen hans på at dette tiltenkte
scenarioet ligger et godt stykke forbi horisonten.
– Selv gåter som virker enkle kan bli
vanskelige for dagens modeller når de blir lengre og vanskeligere å
følge med på. Gåten burde egentlig være ganske enkel for en stor språkmodell å
løse, så det er ganske fascinerende å se hvordan de mest avanserte modellene
slet når vi økte vanskelighetsgraden, sier Kaiser.
Derfor har både mindre og mer
avanserte modeller fortsatt et forbedringspotensial.
– Det viser på en måte hvor langt unna
dagens modeller er fra å oppnå denne typen superintelligens, sier forskeren.
Annonse
Referanse:
Om Integreat – Norsk senter for kunnskapsdrevet maskinlæring
Et norsk senter for fremragende forskning (SFF). Senterets mål er å gjøre maskinlæring mer bærekraftig, presist, pålitelig og etisk.
Ved å dra nytte av ekspertisen til ledende forskere, unge talenter og anerkjente internasjonale eksperter, vil Integreat være med på å definere det nyskapende området kunnskapsdrevet maskinlæring i Norge.
Senteret er et partnerskap mellom Universitetet i Oslo, UiT Norges arktiske universitet og Norsk regnesentral.