Kronikk: Mobilnett-kollapsen: Vi må leve med risikoen
Slike kollapser har skjedd og vil skje om igjen og igjen. Derfor må vi gjøre nye risikovurderinger som sikrer alle ledd i kommunikasjonskjeden, skriver Anders Moen-Hagalisletto og Lothar Fritsch i denne kronikken.
Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.
Den 16. juni 2011 offentliggjorte Telenor sin analyse om årsaken til mobilnett-kollapsen i pinsehelgen 2011. En sentral komponent i nettverket som styrer datatrafikken, klarte å oversvømme nettverket med signaliseringsmeldinger etter en programvareoppdatering og påfølgende restart.
I etterkant ble det en debatt om driftssikkerhet og ansvar for kollapsen, med sterke utsagn fra politikere at det forventes at mobilnett ikke svikter i tolv timer slik det gjorde.
Debatten uttrykker en motsetning mellom samfunnsforventinger og hva en kan forvente av komplekse teknologiske infrastrukturer, som dagens mobil- og datanettverk, kan levere. Det er ikke lett å drive store systemer, enten de bygges på datanettverk eller jernbanenettverk.
Det er to tema bak kollapsen som er verdt å se på for å kaste lys over saken: Et kort blikk i telefoni- og telekommunikasjonens historiebok, og en analyse av risiko og urealistiske forventninger mot teknologiske monokulturer.
Historien gjentar seg
Sammenbrudd i Telenor-nettverket var egentlig en helt vanlig feil. Graver man seg inn i telefoniens historie, finner man mange eksempler der oppdateringer eller ny oppstart av kjernesystemer har skapt en bølge av signaliserings- og forvaltningsmeldinger som gjør nettverk ubrukelige.
Et av de mest kjente skjedde 15. januar 1990 i USA. AT&Ts fjerntelefoninettverk gikk ned. 60 000 deltakere mistet telefontjenesten sin. Feilsøking og gjenoppretting varte i ni timer, et tidsrom tilsvarende 70 millioner telefonsamtaler som ikke kunne gjennomføres.
Årsaken var en programvareoppdatering i telefonsentralene. Det oppsto en feil som førte til at programvaren ikke klarte å håndtere alle telefonsamtalene. Etter det tok sentralen i bruk et nødprogram: sentralen sendte “SOS”-meldinger til alle nabosentraler og ba om overtakelse av telefonforbindelser. Nabosentralene tok imot disse forbindelser,men klarte heller ikke å behandle disse. Som resultat kom det en voksende bølge av “SOS”-meldinger som oversvømte kjernenettet til AT&T og som ødela telefonitjenesten fullstendig.
Dette pågikk i ukesvis, helt til feilen i programvaren ble funnet og fjernet fra alle telefonsentralene. Det var altså bølger av interne servicemeldinger som slo ut AT&Ts nettverk.
Skype-krise
Den 22. desember 2010 var dagen den første store Skype-krisen kom over hele verden. Mennesker satt med sin PC, og Skype-programvaren fikk ingen forbindelse med Skype-tjeneren. Cirka 50 prosent av Skype-brukerne opplevde en ventetid på flere timer eller dager før de fikk knyttet seg til Skype-nettverket. Problemet varte fram til 25. desember, da juleferien i mange land reduserte antall Skype-klienter på nett kraftig.
Problemet oppsto ved en programvareoppdatering. Skype hadde en feil i en viss versjon av sin Windows-klient. Med automatisk oppdatering ble denne versjonen raskt fordelt over hele verden. Skype bruker klientene for å sende samtaletrafikk videre, man kan gjerne forestille seg at alle Skype-klientene har en “telefonsentral”-komponent.
Feilen i Skype gjorde at telefonsentralen-komponenter for millioner av brukerne ikke var tilgjengelig for å videreformidle samtaler i Skype-nettverket. Som resultat sto alle klienter i kø for å tilknytte seg til disse Skype-“telefonsentralene” som fortsatt var i drift. Men det var millioner av klienter, og bare få “sentraler”.
Skype måtte rulle ut en oppdatering, og det gikk flere dager før det hadde blitt startet opp nok nye Skype-klienter med tilgjengelig telefonsentral-komponent. Skype-kollapsen i 2010 var dermed også en signaliseringsbølge som drepte Skypes “sentraler”. Det nye var at disse “sentralene” var klienter i et peer-2-peer nettverk.
Må klare noen dager
Mange liknende hendelser har skjedd i telekommunikasjonens historie. Og det vil skje igjen. Mange innenfor IKT-bransjen har varslet at dagens bølge av mobilt leketøy (smarttelefon, lesebrett, mobilt overvåkningsutstyr på hytta, GPS med mobilt oppdatering og så videre) kommer til å være krevende å håndtere på mobiloperatørenes side.
Grunnen til dette er at alle disse mobile maskinene viser en veldig individuell og uforutsigbart profil,i motsetning til mobilnettverketsom må planlegge ressursbruk og virker best med forutsigbart kommunikasjonsutstyr.
Annonse
De som kritiserer Telenor nå sterkt kunne kanskje sette seg inn i hvordan et mobilnettverk fungerer. Slike kollapser kommer til å skje igjen. Og igjen. Samfunn må heller være i stand til å overleve dette i noen dager. Det leder oss til det andre temaet.
Risiko i teknologiske monokulturer
Det mest forbausende aspektet er den offentlige uroen og oppstyret over en halv dags kollaps i et mobilnettverk. Mange mobilbrukere hadde sin første opplevelse at mobilnettverk var borte.
Det er en situasjon som man er vant med i mange andre land i verden. Og egentlig er det beredskap for en slik situasjon i mange områder i samfunn, politi, redningsvesen og militæret driver alle sitt eget kommunikasjonsnettverk, for driftens sikkerhet.
Mange land har mange flere enn to mobilnettleverandører, for å garantere at man har mobildekning. Det fins fasttelefoni, og det fins Iridium-telefoner som tar imot samtaler via satellitt, og kobler disser til fasttelefoninettverk i hele verden.
Det fins forhåpentligvis en sånn satellitt-mobiltelefon ved siden av nettbrettet både i stresskoffen til statsminister og til Telenor-sjefen.
Det har vært mye debatt om samfunnsrisiko og kritiske infrastrukturer i løpet av de siste tiår. Mye av fokuset har vært på terrorister og onde krefter, ikke på mislykkete programvareoppdateringer eller kanskje askeskyer fra et av de mange europeiske landene som har aktive vulkaner - også Norge, på Jan Mayen.
Nye vurderinger av risiko
Det er kjent at monokulturer skaper sårbarhet når det gjelder risikobildet. Det er lett å glemme risiko og sårbarhet til fordel av innovasjon, nye arbeidsplasser, pene lesebrett eller prestisjeprosjekter. De siste årene er preget av et nesten voldsomt sug mot mobilapplikasjoner. Alt fra nettbank-pålogging til e-valg sikter mot mobile klienter.
Og dermed delegerer de både viktige spørsmål om driftssikkerhet og informasjonssikkerhet til mobiloperatørene og mobilfabrikantene. Alt må igjennom mobilen, også mobilen på veien med sitt telefonkart er låst til en mobiloperatør. Når telefoni, bank, e-valg og kanskje også GPS-sporing av bestemor, kjøres over samme mobilnettverk, øker det risikoen for de som rammes av en kollaps betraktelig. I den forstand er konvergens av mange tjenester til mobiltelefon kanskje et problem.
Heldigvis fins det et valg. Ingen av de aktørene tvinges til usunn konvergens. Man må ikke nødvendigvis konstruere et e-valg-system som krever at både fiberoptikk, DSL og mobilnett samt webtjeneren må fungere samtidig og i realtid.
Vil man gjøre det uansett, burde man gjennomgå sine risikovurderinger etter Telenor-kollapsen. En kjede er aldri sterkere enn sitt svakeste ledd. Noen kjeder bør da kanskje har mindre ledd, eller det bør henges på en annenkjede som reserveløsning.
Annonse
Vår kommunikasjonsverden er i forandring. Det betyr også at man må vurdere risiko på nytt i informasjons- og kommunikasjonsteknologien og i sine applikasjoner.
Dagens konvergens og fokus på mobilapplikasjoner ryster mange av de tradisjonelle risiko- og sikkerhetsmodellene. Disse bør vurderes på nytt for en tryggere framtid med IKT. Forsknings- og sikkerhetsmiljøet i Norge kan bidra mye til dette.