Denne artikkelen er produsert og finansiert av Universitetet i Oslo - les mer.
Forskere trener KI med feilaktige eksempler
Maskinlæring og kunstig intelligens vil spille en sentral rolle i utviklingen av nye legemidler og vaksiner. Ny forskning har avdekket nye innsikter om hvordan disse modellene bør trenes.
Figuren illustrerer det forskerne kaller «digitaliserte antistoffer».(Illustrasjon: Rahmad Akbar)
Antistoffer er proteiner i kroppen som binder til smittestoffer og bidrar i bekjempelse av infeksjoner.
Tenk
deg at du er en forsker som jobber med å lage antistoffer. Antistoffer kan
angripe spesifikke mål i kroppen. Målene kan for eksempel være et virus eller proteiner og
molekyler som viser tegn på kreft.
Du tester en rekke antistoffer. Du finner ut at noen fungerer, mens andre ikke gjør det. Du vil fortsette å tilpasse dem og se om du kan gjøre dem enda bedre.
Men du vil ikke bruke tid på å teste de antistoffene som helt sikkert ikke kommer til å virke. Disse vil du identifisere. Slik står du bare igjen med antistoffer som potensielt kan brukes når du går videre til kostbare og tidkrevende eksperimenter.
KI-modeller
kan finne ut hvilke antistoffer som kan fungere
En
måte å gjøre dette på er å trene en KI-modell sånn at den kan hjelpe deg i
prosessen.
Flere
forskere bruker allerede slike modeller for å snevre inn søket sitt.
Vi må vise modellene feilaktige eksempler som ligner veldig på de riktige. På denne måten lærer datamodellene mer effektivt, forklarer forsker Minnegalieva.(Foto: Åsne Rambøl Hillestad / UiO)
Modellene kan lære hvilke egenskaper et antistoff må ha for å kunne binde seg
til og angripe et mål i kroppen. De lærer dette ved å se på mange eksempler.
– Vi mennesker kan ikke få til dette. Vi klarer nemlig ikke å
oppfatte hvilke antistoffer som kan binde seg og hvilke som ikke kan det, sier forsker Aygul Minnegalieva ved Universitetet i Oslo.
Hun
forsker på hvordan vi kan trene KI-modeller på best mulig måte.
–
Men ikke alle modeller for maskinlæring vil klare dette riktig. Bare hvis modellene
trenes med de riktige dataene, kan vi bruke dem til å få en forståelse av hva som for eksempel gjør et antistoff til en
binder, forklarer hun.
Forskerne trener modellene
Forskerne
vil trene modellene slik at de klarer å kjenne igjen hvilke antistoffer som
binder seg til et virus eller en bakterie eller sopp.
–
En tilnærming for å oppnå dette er å gi modellene eksempler på både riktige og
gale responser angående hva vi ønsker at de skal gjenkjenne, forklarer
forskeren.
Slike
eksempler på feil kalles negative data. De riktige eksemplene kalles
positive data.
Feilene
må være vanskelige for modellene å kjenne igjen. I den nye studien viser
Minnegalieva og kolleger at de negative dataene som modellene utsettes for,
må være tilstrekkelig utfordrende.
–
Vi må vise modellene feilaktige eksempler som ligner veldig på de riktige. På denne måten lærer datamodellene mer effektivt, påpeker
hun.
KI-modellene
ble flinkere til å resonnere
Annonse
Spesifikt
presenterte forskerne modellene for negative data med antistoffer som binder
seg til proteiner på en dårlig måte. Det kunne for eksempel være i et virus.
–
Modellene forbedret evnen sin til å skille mellom antistoffer som ville være
effektive i å bekjempe et virus og dem som ikke ville vært det, forklarer forskeren.
Viktigst
av alt – denne metoden gjorde at modellene fanget opp de underliggende faktorene i antistoffer som gjør at de enklere binder seg til et protein i et virus.
–
Disse ga mer biologisk mening. I bunn og grunn ble modellene bedre til å resonnere, sier Minnegalieva.
Forskere
kan bruke KI for å utvikle medisiner raskere
Maskinlæring
brukes i økende grad i utviklingen av nye legemidler. Det gjør at forskere ikke
trenger å gjøre like mange kostbare, eksperimentelle tester.
Professor Victor Greiff er leder ved laboratoriet hvor forskningen har funnet sted.(Foto: Øystein Horgmo / UiO)
Hun sier at de kan redusere antallet feil når de utvikler nye kandidater av antistoffer
eller medisiner som skal målrettes mot ulike virus, bakterier, sopp, parasitter eller kreft, sier
hun.
–
Modellene vi bruker, må både være nøyaktige og pålitelige. De må virkelig forstå
hva som er viktig fra et biologisk perspektiv. Først da kan vi gjøre gode
beregninger og spare tid.
Den
nye studien viser hvordan modellene kan trenes for bedre å oppfylle disse
kravene.
Metoden
kan tas i bruk innen språkmodellering og proteindesign
Selv
om studien tok for seg antistoffer, kan denne treningsmetoden med positive og
negative data tas i bruk innen ulike fagfelt hvor maskinlæring brukes.
Minnelagieva forteller at i felt som språkmodellering, proteindesign og beregning av molekylære egenskaper trenger forskerne også eksempler på det som ikke fungerer, altså negative data.
Annonse
– Alle disse områdene står
overfor risikoen for at modellene tar snarveier hvis de negative eksemplene er
for enkle. Studien vår er derfor relevant også for disse fagfeltene, sier hun.
Også
professor og leder ved laboratoriet på UiO, Victor Greiff, påpeker betydningen og
relevansen av studien.
Arbeidet viser at datasamling ikke bare er et steg for forhåndsbehandling, men derimot et vitenskapelig valg som koder antakelser og bestemmer hva maskinlæring kan
oppdage, forklarer han.
– For immunologi, oppdagelsen av legemidler og mer, kan nøye design av
datasett være nøkkelen til å bygge maskinlæringsmodeller som generaliserer og
avdekker ekte biologiske prinsipper, sier Greiff.
Referanser:
Eugen Ursu, Aygul Minnegalieva, Victor Greiff mfl.: Training data composition determines machine learning generalization and biological rule discovery. Nature Machine Intelligence, 2025. Sammendrag. Doi.org/10.1038/s42256-025-01089-5
Wesley Ta & Jonathan M. Stokes: The importance of negative training data for robust antibody binding prediction: Machine learning. Nature Machine Intelligence, 2025. Sammendrag. Doi.org/10.1038/s42256-025-01080-0