Denne artikkelen er produsert og finansiert av De regionale forskningsfondene - les mer.

Når dokumentene som lagres på film i hvelvet på Svalbard er digitalisert, ser de omtrent ut som QR-koder. Denne filmen inneholder opptak av den første månelandingen i 1969.

Slik kan digitale data bli gjenskapt i riktig filformat om tusen år

Bilder, dokumenter og lydfiler som skal lagres virkelig lenge, må ha en idiotsikker bruksanvisning for å bli vist i fremtiden.

I en nedlagt kullgruve langt inne i fjellet på Svalbard lagres digitale kopier av dyrebare kunstverk og sjeldne bøker. Her skal de kunne ligge trygt i hundrevis, for ikke å si tusenvis, av år.

Langtidslagring av data handler imidlertid ikke bare om sikre hvelv. For når filformatene skifter nesten like ofte som årstidene, hvordan kan vi da sikre oss at materiale arkivert i dag, blir riktig gjengitt i år 3000?

I dette hvelvet på Svalbard kan digitale data lagres trygt i hundrevis av år. Den europeiske romfartsorganisasjon, Mexicos nasjonalarkiv, det norske Nasjonalgalleriet og brasilianske Museum of the Person har lagret deler av samlingene sine her.

Løsningen er virtuell

Én løsning er å lagre dataene sammen med det som kalles en virtuell maskin.

– En virtuell maskin er ikke en maskin i fysisk forstand, men det vi kan kalle «en dataprogrammert maskin» forklart av en bruksanvisning. I dette tilfellet snakker vi om en oppskrift på hvordan du skal gjenskape innhold som er lagret digitalt, i riktig format. Bruksanvisningen er enkel og ikke avhengig av en bestemt teknologi eller et bestemt operativsystem, sier Bjarte M. Østvold.

Østvold er sjefsforsker ved Norsk Regnesentral og har deltatt i det norske selskapet Piqls forskningsprosjektet VirtuMa. Forskningen ble gjennomført med støtte fra Oslofjordfondet.

I prosjektet har forskere fra Norsk Regnesentral laget nettopp en virtuell maskin som skal gjøre det mulig i fremtiden å gjenskape korrekte versjoner av bilder og dokumenter lagret digitalt i dag.

Digitale data er nemlig ikke noe annet enn et hav av nuller og enere som er ordnet i bestemte mønster og rekkefølger.

–De fleste av oss bruker virtuelle maskiner i dag, for eksempel når vi bruker skylagring. Da benytter vi oss av programmer som kjører på eksterne datamaskiner, sier Bjarte M. Østvold.

For at disse dataene skal kunne gjenoppstå i en form som gir mening, trengs en oppskrift som må følges til punkt og prikke. Den oppskriften gir altså en virtuell maskin.

Et program som simulerer en maskin

Østvold beskriver en virtuell maskin som «et program som er i stand til å late som om det er en maskin». Og akkurat slik det finnes frø som kan spire etter tusenvis av år i isen, har en virtuell maskin potensial til å «folde seg ut» langt inn i fremtiden.

– Betingelsene er at de som henter frem materialet, fortsatt er i stand til å lese språket vi har brukt. En del ingeniørbegreper og matematiske begreper må også oppfattes på samme måte som i dag. Og så må det finnes en eller annen teknologi maskinen kan «puttes inn i», sier Østvold.

Selv tror han sannsynligheten er stor for at disse betingelsene vil være oppfylt også mange hundre år frem i tid. Han får dessuten støtte fra matematikkhistorien, som viser at innholdet i matematiske begreper i liten grad har endret seg når de først er etablert.

– At det vil finnes avansert datateknologi i fremtiden, tror jeg også vi trygt kan regne med, hvis vi da ikke snakker om en post-apokalyptisk verden. I en slik verden står nok utgraving av gamle filer uansett ikke særlig høyt på agendaen, sier sjefsforskeren.

Digitaliserer verdensarven

Initiativet til forskningsprosjektet kom fra Piql, som driver Arctic World Archive på Svalbard. Her har blant annet Nasjonalgalleriet, Vatikanstatens bibliotek og Mexicos nasjonalarkiv leid lagringsplass for digitale kopier av viktige dokumenter og verk som regnes som uerstattelige deler av verdensarven.

Her finnes blant annet Munchs «Skrik» og Dantes «Den guddommelige komedie» kodet som nuller og enere. Den indiske regjeringen har lagret en kopi av hinduenes hellige skrift «Bhagavadgita». Amerikanske GitHub har lagret mer enn 20 terabyte med åpen kildekode til alskens programmer, samlet inn av mange millioner brukere.

Alt er lagret på spesiallaget film i bokser som skal være fuktsikre, brannsikre, frostsikre og atomsikre.

Filmen, som er utviklet av Piql, er ikke bare skodd for å takle alskens ytre påkjenninger i hundrevis av år. Den kan også lagre analoge bilder og digitale data på ett og samme lagringsmedium.

Det betyr at det er rom for svært mye informasjon, siden digitale data tar lite plass. Samtidig kan filmen ha en analog beskrivelse av hva den inneholder. Da holder det med et forstørrelsesglass for å få med seg budskapet. Også den virtuelle maskinen vil være gjengitt analogt. Den vil forklare hvordan de digitale dataene skal dekodes ved hjelp av maskinen.

En digital kopi av Baldisholteppet fra 1100-tallet er lagret i Arctic World Archive på Svalbard.

Gjør seg selv smartere

Bruksanvisningene må være så enkle at mennesker i fremtiden både kan forstå dem og være motiverte til å følge instruksene.

I utgangspunktet går dette kravet til enkelhet ut over maskinens evne til å gjøre jobben effektivt, men det har forskerne funnet en fiffig løsning på.

– Løsningen er ganske enkelt å sørge for at det første maskinen fores med fra filmen etter at den er laget, ikke er data fra selve verket som er lagret, men derimot små programmer som gjør den mer avansert. Deretter kan den mer effektivt hente frem digitale data i riktig format, forklarer Østvold.

Har fokusert på viktige arkivformater

I akkurat dette samarbeidsprosjektet har forskerne i hovedsak jobbet med litt mindre spektakulære ting enn Munchs eksistensielle angst og Dantes syv helvetessirkler.

– Vi har konsentrert oss om virtuelle maskiner som kan gjenskape TIFF- og PDF-filer. Dette er formater som er svært mye brukt til digital arkivering, og som inngår i forskriftene til Riksantikvaren, sier Ole Liabø, teknisk prosjektleder hos Piql.

- Arkivering handler også om tillit. De som henter opp et dokument om 250 år, skal helst kunne stole på at dokumentet er riktig gjengitt, sier Ole Liabø.

Han forteller at også dette er filformater som byr på utfordringer når målet er lagring over virkelig lang tid.

– Alle har hørt om PDF, men det finnes mange undervarianter av filformatet, og det kommer stadig nye versjoner. Selv i dag kan det være vanskelig å vite hvilken versjon vi har foran oss og dermed også å få innholdet riktig gjengitt. Den utfordringen blir ikke mindre om 100 eller 500 år, sier Liabø.

Små kodeforskjeller kan gi store avvik

Om 250 år ønsker en ingeniør kanskje å finne ut nøyaktig hvordan verdens høyeste bro i Aveyron i Frankrike ble konstruert. Eller hvordan italienerne gikk frem for å beskytte Venezia mot tidevannet ved hjelp av flombarrierer.

Da er det en fordel at konstruksjonstegningene kommer riktig opp, enten de nå skal vises på en skjerm, i et 3D-hologram eller ved hjelp av en visualiseringsmåte vi i dag ikke kan se for oss.

– Alle som har flyttet dokumenter fra Mac til PC eller omvendt, eller hentet opp gamle filer i ny programvare, vet at det skal lite til før noe forskyver seg. Både i tegninger og i alle andre dokumenter er det viktig at elementene kommer på riktig sted og vises riktig. Derfor må data som lagres lenge ha en bruksanvisning som øker sannsynligheten for at ting gjengis riktig, sier Liabø.

Testet av forsker utenfor prosjektet

Ved Norsk Regnesentral fikk en ansatt som ikke var med på forskningsprosjektet i oppdrag å bygge en virtuell maskin. Ifølge Østvold klarte vedkommende brasene med bravur.

Forskerne i prosjektet fikk maskinen til å rekonstruere en offentlig utredning i PDF-format med utgangspunkt i en «svart sky» av digitale data. Etter en runde i den virtuelle maskinen var dokumentet «Enklere merverdiavgift med én sats» akkurat like lesbart som før.

Østvold forteller at Norsk Regnesentral også har bevist matematisk at deler av bruksanvisningen holder mål. Den er oversatt til matematiske størrelser og underlagt de samme strenge kravene som stilles til «vanlige» matematiske bevis. Slike bevis kan ikke inneholde noen logiske uoverensstemmelser og kan bare hvile på forutsetninger som er grunnleggende selvinnlysende.

– Formålet med en slik matematisk beskrivelse er å unngå at bruksanvisningen inneholder instrukser som kan tolkes på flere måter eller har logiske brister, sier Østvold.

Skulle den matematiske øvelsen mot formodning likevel ha vært tvilsom, forteller Liabø at det er lagt inn andre sikkerhetsmekanismer.

– Vi bruker steg-for-steg-validering av trinnene i oppskriften. Det betyr at den som prøver å lage den virtuelle maskinen, jevnlig møter sjekkpunkter av typen «hvis du nå har gjort dette riktig, vil resultatet være slik og sånn». Dermed tvinges man et skritt tilbake hvis noe er gjort feil, sier han.

Bruker åpen kildekode

Koden til den virtuelle maskinen blir gjort tilgjengelig som åpen kildekode. Det betyr at programmeringskoden kan brukes videre av hvem som helst.

Det er det flere grunner til. For det første er åpen kildekode et bransjekrav innen arkivering. Ingen ønsker å låse seg til én aktør med en lukket løsning. For det andre finnes det så mange forskjellige filformater at Piql alene umulig kan utvikle løsninger for alle.

– Når vi gjør kildekoden tilgjengelig for andre utviklere, øker sjansen for at det lages virtuelle maskiner som kan gjenskape de fleste filformater, sier Ole Liabø.

Powered by Labrador CMS