Denne artikkelen er produsert og finansiert av Sintef - les mer.
Norske forskere utvikler et system som oversetter tegnspråk der og da ved hjelp av KI
Lykkes de, vil det bedre kommunikasjonen mellom hørende og døve.
Tegnspråkbrukeren Benjawan Udommongkol viser tallet fire med munn og håndbevegelser, og maskinen oversetter korrekt. Den enkle testen er et viktig steg på veien mot en mer utviklet modell.(Foto: Unni Skoglund)
For verdens 430 millioner mennesker som er døve og hørselshemmede, kan kommunikasjon med hørende være vanskelig.
Nå har forskere sett på en løsning som bruker maskinlæring for å oversette tegnspråk til tekst eller tale med én gang.
Løsningen kan gjøre dialog enklere. Den bidra til at døve og hørselshemmede blir bedre inkludert i samfunnet.
KI foreslo samarbeid med forskere
Ideen om å bruke KI-teknologi til å oversette tegnspråk til tekst eller tale, var det Tone Ervik og Pål Rudshavn ved Statped i Trondheim som hadde. De så at KI stadig ble bedre til å oversette fra tale til tekst.
Kanskje kunne KI og nye språkmodeller også brukes for å oversette tegnspråk?
– Jeg spurte ChatGPT om hvordan vi kunne komme videre med denne ideen. Den foreslo at vi skulle kontakte Sintef. Så det gjorde vi, sier Ervik.
Tone Ervik og Pål Rudshavn ved Statped hadde ideen om at det burde gå an å bruke KI til å oversette tegn til tekst eller tale. De kontaktet Sintef for å få hjelp til utvikling av en løsning.(Foto: Unni Skoglund)
Forskerne tente umiddelbart på ideen. Det som trigget dem var kombinasjonen av det samfunnsnyttige og det teknologisk utfordrende ved å utvikle et slikt verktøy.
– Vi så på dette som en fantastisk mulighet. Med de raske fremskrittene som er innen KI, ønsket vi å bruke denne teknologien til noe som faktisk kan gjøre en meningsfull forskjell i samfunnet.
Det forteller Kostas Boletsis. Han får støtte fra kollega Zia Uddin.
Med støtte fra Stiftelsen Dam startet de opp prosjektet KI-drevet Norsk Tegnspråkoversetter i februar 2024.
Fakta:
I 2009 ble norsk tegnspråk anerkjent som et fullverdig og selvstendig språk. I Norge er det 16.500 som kommuniserer på tegnspråk. Ifølge WHO forventes det at antallet mennesker med nedsatt hørsel vil øke i årene som kommer. For å bedre kommunikasjonen mellom døve og hørende er det behov for en teknologi som kan lese norsk tegnspråk (NTS) og oversette det til tekst eller tale. På den måten kan kommunikasjonsgapet mellom NTS-brukere og hørende bli mindre.
Forskere fra Sintef Digital er i gang med å utvikle en KI-drevet tegnspråkoversetter. Første del av prosjektet hadde 400.000 kroner i budsjett etter støtte fra Stiftelsen Dam.
Forskerne skisserer prosjektet som tredelt:
Utvikling av en maskinlærings/KI-basert metodikk for videoanalyse av tegnspråk som kan brukes i norsk tegnspråk, men også i andre tegnspråk.
En første prototyp som kan lese NTS og transformere det til tekst.
Prosjektet vil utvikle grunnlaget for et system for sanntids oversetting av NTS til tekst.
I USA er forskere kommet et godt stykke på vei. Der har de et verktøy som kan tolke tegnspråk i sanntid ved hjelp av maskinlæring.
Men norsk tegnspråk er unikt. Derfor må en egen modell utvikles her til lands.
Ifølge Norges Døveforbund er det 16.500 personer som kommuniserer ved hjelp av tegnspråk.
Kostas Boletsis og Zia Uddin håper de får anledning til å ta prosjektet videre.(Foto: Unni Skoglund)
Boletsis og Uddin bestemte seg for å starte med å få en datamaskin til å kjenne igjen tegn fra norske tegnspråk (NTS) for tallene 0 til 10 automatisk. Det var etter forslag fra Statped.
Fakta:
Forskerne brukte verktøyet MediaPipe fra Google til å hente ut viktig informasjon fra videoer hvor tegnspråklærere fra Statped utfører tegnene.
MediaPipe er et åpen kildekode-rammeverk fra Google. Det gjør det enkelt å bruke maskinlæring på mobiler, i nettlesere og innebygde systemer. Det tilbyr ferdige løsninger for blant annet håndsporing, ansiktsgjenkjenning og objektidentifisering.
Deretter brukte de LSTM-nettverk for å kjenne igjen tegnene. LSTM er forkortelse av Long Short-Term Memory og er en type nevralt nettverk som husker informasjon over tid. Det brukes ofte i språk og tidsserieanalyse fordi det kan fange opp både kortsiktige og langsiktige mønstre.
Et nevralt nettverk er en datamodell inspirert av hjernen, med lag av «nevroner» som lærer mønstre i data – som å gjenkjenne bilder, språk eller tall.
Datasettet består av 1.059 korte videoklipp.
– Grunnen til at vi fokuserte på tallene 0–10, er at vi måtte starte fra et sted, da norsk tegnspråk skiller seg fra andre tegnspråk. Det kunne vært hvilke som helst andre 11 gester, sier Zia Uddin.
Han forklarer at de kan utvikle det videre med tilleggsanalyse. Likevel forblir den grunnleggende tilnærmingen den samme, i større skala med mer komplekse algoritmer.
Testet systemet i sanntid
Annonse
Gjennom egen testing har de funnet at systemet de har utviklet for gjenkjenning av norsk tegnspråk, viser sterke resultater. Den har en testnøyaktighet på 95 prosent.
Forskerne mener dette viser at løsningen takler variasjoner i både tegnstil, hastighet og vinkel.
Vi treffer forskerne et drøyt år etter oppstarten. Nå er tiden inne for å teste det KI-baserte systemet i sanntid.
Tolv tegnspråklige har møtt opp på Statped. En etter en stiller de seg foran datamaskinen og viser tegnene mellom 0 og 10. Dataprogrammet bruker hånd- og munnmarkører til å skille mellom tegn med like håndformer, som tegnene 3 og 8.
Selv om modellen presterte godt på praksistesten, oppstod noen forvekslinger. Denne informasjonen kan forskerne bruke til å gjøre forbedringer.
– Målet er å utvikle en læringsapp for gjenkjenning i sanntid og evaluering av NTS. Der får brukere en umiddelbar oversettelse via en avatar. Det vil hjelpe tegnspråkbrukere å kommunisere med hørende i butikken, hos frisøren, på flyplassen og så videre. Resultatene fra testen i dag peker mot stor fremtidig nytte, sier Kostas Boletsis.
Forskerne sier videreutviklingen bør rette seg mot å utvide ordforrådet. Den bør også teste i ulike omgivelser, som forskjellig lys, kameravinkler og hastigheter. Den bør videre bruke flere typer sensordata for å få bedre romlig forståelse.
Målet er en app
– Når omfanget av det vi skal oppnå er så stort, er det naturlig at arbeidet vil ta flere år. Samtidig vil kunstig intelligens utvikle seg parallelt. Kjernen i denne typen prosjekter er data. Vi må utvikle et datasett, et korpus, hvor vi har mye informasjon og mange videoer for hvert tegn som uttrykkes, sier Zia Uddin.
Han forteller at de da kan begynne å bruke KI-modeller i stor skala. De kan trene dem effektivt og undersøke om de kan håndtere et langt bredere spekter av uttrykk enn det de har trent på så langt.
Tegnspråkbruker Maarten Vreugdenhil tester tegnspråkoversetteren, mens forskerne følger nøye med.(Foto: Unni Skoglund)
Forskernes drøm er en app eller en software som eksempelvis kan installeres på mobilen, og som kan oversette sentrale ord og fraser av tegnspråk simultant.
– Tegnspråk er utrolig viktig for døve og hørselshemmede. Med de fremskrittene som gjøres innenfor KI, spesielt innenfor bilde- og videoanalyse, så har vi tro på at vi kan utvikle et verktøy som kan gjøre en forskjell for mange mennesker, sier Zia Uddin.