Helseråd fra KI bør du ikke stole på, ifølge ny studie: – Verre enn jeg hadde fryktet
Det er populært å spørre KI-chatboter om råd om sykdom og helse. Men svarene er ofte villedende.
Har du prøvd å spørre ChatGPT hvorfor du har vondt i magen? Om symptomene dine tyder på angst eller kanskje til og med kreft?
Ja, hvorfor ikke.
Det er raskere og enklere enn å gå til legen, men neste gang bør du kanskje tenke deg om to ganger.
En ny studie avslører at svar du får fra KI-chatboter, ikke er til å stole på.
– Verre enn jeg hadde fryktet
Forskere vurderte halvparten av svarene fra chatboter som problematiske, viser den amerikansk-canadisk-britiske studien publisert i tidsskriftet BMJ Open.
Dette er svar som er direkte misvisende eller potensielt skadelige og svar som er uklare, ufullstendige eller udokumenterte.
– Hvis jeg skal være helt ærlig, så er det verre enn jeg hadde fryktet, sier den danske forskeren Tor Juul Groth, som er ekspert på digital helse ved Center for Digital Psykiatri i Odense.
Oppga heller ikke kilder
Ikke nok med at nesten annethvert svar halter.
Ingen av de undersøkte chatbotene klarte å utstyre svarene med korrekte henvisninger til kilder.
– Det er nesten det som ryster meg mest, sier Groth.
Han følger utviklingen innen digitale selvhjelpsteknologier for mental helse nøye.
Etter å ha lest studien for den danske forskningsavisen Videnskab.dk mener han at selskapene som lager teknologien, ikke ser ut til å ta helsespørsmål på alvor.
– Dette viser jo hvor uegnet disse chatbotene er til å svare på helsefaglige spørsmål. Men også hvor lett utviklerne tar på oppgaven, sier han.
Den internasjonale forskergruppen undersøkte totalt 250 svar om helse fra fem av de mest populære chatbotene.
Grok – chatboten på X – var den mest upålitelige. 30 prosent av Groks samlede svar var «svært problematiske», ifølge studien.
Derimot klarte Googles KI-chatbot Gemini seg best når det gjaldt nøyaktighet.
Forskerne fant dessuten ut at svarene fra chatbotene var vanskelige å lese.
Svarer alltid, selv når de ikke kan
Studien viser også at chatboter mangler evnen til å si nei.
Til tross for de mange misvisende svarene, var det bare to ganger på 250 spørsmål at chatbotene avslo å gi et svar.
Chatbotene svarer altså nesten alltid, selv om de tydeligvis risikerer å gi feil råd.
Tor Juul Groth forklarer dette med at KI-chatboter er designet for å være «pleasere» og for å holde samtalen i gang.
– Disse chatbotene sier ikke nei. De har få forbehold. Og i tillegg snakker de brukerne etter munnen. Slik er de bygget, forklarer han.
Han peker på at svarene typisk leveres i en tone preget av selvtillit og autoritet, selv når de inneholder feilinformasjon.
Utfordringene ved å bruke kilder
For å forstå utfordringene, har Tor Juul Groth selv prøvd å bygge digitale prototyper som kunne hente informasjon fra sikre nettsider og gi klare kildehenvisninger.
Men det er utrolig vanskelig å gjøre dette konsistent.
– Det er virkelig vanskelig å få disse språkmodellene til å gjenbruke kilder uten å hallusinere og finne opp svar. Så jeg kan godt forstå hvorfor det blir slik, sier han.
Dette unnskylder likevel ikke selskaper som Google, Meta og OpenAI. Groth peker på at tech-gigantene prøver å få så mange som mulig til å bruke KI-en deres. Et godt eksempel er Google, som har innført KI-svar øverst i søkeresultatene sine.
– Da Google lanserte sine KI-svar i fjor, valgte de jo selv å levere svar av tvilsom kvalitet, også på søk etter helseinformasjon, sier han.
Aksepterer risiko for feil
Da Google introduserte KI-svar øverst i søk, falt trafikken markant på offentlige nettsider i Danmark, for eksempel Sundhed.dk, viser en rapport fra Center for Digital Psykiatri.
Fra å ha 1,6 millioner brukere i april 2025, har tallet falt til én million ved utgangen av året.
Samtidig har en norsk studie vist at unge heller vil ha råd fra KI enn fra legen.
Til tross for at vi, ifølge Groth, godt vet at KI kan ta feil.
– Det skyldes i stor grad brukervennligheten. Det er så enkelt for meg å få svar på akkurat det som interesserer meg nå, på det tidspunktet og stedet jeg er interessert i det, sier han.
Derfor er vi også villige til å gå på kompromiss med kvaliteten på svarene.
– Det er en del brukere som ikke går videre fra KI-svaret. Mange vet godt at de ikke helt kan stole på det, men aksepterer det likevel.
Kan bli enda verre
Kanskje må chatbotene bare «lære» litt mer?
Groth er ikke så sikker. Faktisk kan det gå motsatt vei, mener han.
De nyeste modellene er ikke nødvendigvis mer sannferdige enn dem de erstatter.
– Mange av dem hallusinerer faktisk litt oftere enn dem som fantes i 2025. Det ligger i kjernen av teknologien at det er en kreativ sannsynlighetsberegner. Så jeg kan godt forestille meg at det blir verre – ikke bedre, sier han.
Myndighetene bør se på om chatboter som gir helsefaglige råd, skal regnes som medisinsk utstyr, mener han. Da må det stilles samme strenge krav til disse som til annet utstyr innen helse.
– Vi vet at et av de primære bruksområdene for disse chatbotene er helse. Og vi vet at de svarer villig på helsespørsmål. Jeg kan ikke se hvorfor disse produktene ikke er medisinsk utstyr, sier Groth.
Fram til det skjer, trenger du ikke å slette chatbotene fra app-samlingen din, sier han. Men du bør være «svært kritisk» når det gjelder helsen din og søke andre steder enn hos chatbotene.
Kilde:
Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit, BMJ-journals (2025), DOI: 10.1136/bmjopen-2025-112695
©Videnskab.dk. Oversatt av Trine Andreassen for forskning.no. Les originalartikkelen på videnskab.dk her.
LES OGSÅ
Opptatt av teknologi?
Følg den nyeste utviklingen innen kunstig intelligens, energi, sosiale medier og roboter med nyhetsbrev fra forskning.no.