Annonse

Kommentar: Tekstsøking og de ufrivillige pionerene

Det var jurister som for 40 år siden utviklet tekstsøkesystemer, og dermed ble ufrivillige pionérer på et område som har svært stor betydning i dag, skriver Jon Bing i denne kommentaren.

Publisert

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

På slutten av 1950-tallet ble det fremmet et forslag for delstatparlamentet i Pennsylvania, man ønsket å endre uttrykket “retarded child” (tilbakestående barn) til det noe mindre belastende uttrykket “exceptional child” (uvanlig barn).

I Pennsylvania har man - som i Norge - det prinsipp ved lovendringer som gjerne kalles “prinsippet om tekstuell erstatning”. Det betyr at man i endringsloven nøyaktig angir alle de steder til gjeldende lover som skal endres. I dette tilfellet betød det at man måtte identifisere alle tidligere bestemmelser som brukte uttrykket “retarded child”.

Delstatsparlamentet henvendte seg til en professor ved universitetet i Pennsylvania, John F Horty. Han aksepterte oppdraget, og søkte å løse det på den måten professorer til alle tider har løst slik oppdrag: Han hyret en gruppe studenter som skulle lese gjennom lover og forskrifter, og merke av alle de stedene hvor frasen forekom.

Dessverre gikk det for ham som for så mange andre lærere: Han ble misfornøyd med resultatet. Så han hyret en ny gruppe studenter, men med like nedslående resultat.

Det var da professor Horty bestemte seg for å gå radikalt til verks: Han tok kontakt med sine kolleger ved edb-senteret, som var etablert to år tidligere. Hans plan var å overføre alle tekstene ved hjelp av hullkort til maskinlesbar form, og bruke datamaskiner for å søke i teksten.

Vi kan vanskelig forestille oss hvor dristig dette var. Edb-senteret hadde på dette tidspunktet en IBM 650, som brukte radiorør og en tromme som kunne lage 2 000 maskinord, og en mer moderne IBM 7070, hvor radiorørene var byttet ut med transistorer. Den hadde en lagringskapasitet på 9 990 tall, hvert med ti siffer. Sammenlignet med for eksempel en moderne, håndholdt maskin, hadde Horty til disposisjon noe vi knapt ville se på som leketøy.

Men likevel gjennomførte han sin plan, og løste oppdraget sitt. Han laget et system som gjorde det mulig å identifisere alle setninger i tekstene som inneholder både ordet “child” og order “exeptional” (eller spesifiserte versjoner av de to ordene).

Horty hadde løst oppdraget sitt, og systemet ble demonstrert offentlig første gang i 1960 på et møte i den amerikanske advokatforening. Horty forsto at han kunne finne hvilke som helst ord ved hjelp av systemet sitt, han hadde faktisk laget det første tekstsøkesystemet. Han forsøkte å selge ideen til andre, og US Air Force i Denver, Colorado tok ideene i bruk for å lage et system med det omstendelige navnet “Legal Information Thru Electronics”. Det ble lansert i 1963 med det bibelske mottoet: “Let there be LITE!”

Hortys system var basert på en enkel bearbeidelse av tekstene. Han laget to filer. I den første filen - søkefilen - ble alle ordene i teksten sortert alfabetisk. Til hvert ord ble det gitt en “adresse” som anga hvor i teksten ordet forekom: I hvilket dokument, i hvilket avsnitt innen dokumentet, i hvilken setning innen avsnittet og hvilket nummer av ordene innen setningen. Forekom ordet mer enn én gang, fikk det like mange adresser som forekomster.

Adressene ble brukt for å knytte søkefilen til tekstfilen: I tekstfilen var dokumentene gjengitt, ord for ord, og filen hadde en indeks som gjorde det mulig å finne frem til akkurat det sted i tekstfilen et ord med en bestemt adresse var lagret.

Brukeren kunne skrive inn et søkeord. Systemet slo opp i søkefilen, fant hvor mange dokumenter som ordet forekom i, og skrev dette tilbake til brukeren. Så kunne brukeren be om å få se det første dokumentet, systemet brukte adressen og slo opp i tekstfilen, og viste så teksten for brukeren. Systemet tillot også at brukeren brukte flere ord for å finne dokumentet, for eksempel kunne brukeren be om at ordet “child” skulle forekomme i samme setning som ordet “retarded”. Systemet fant alle adressene for begge ordene, sammenlignet adressene for å finne om noen av ordene forekom i samme dokument, samme avsnitt og samme setning. Fant systemet slike dokumenter, ble de hentet fra tekstfilen.

Dette er selvsagt en dramatisk forenkling av hvordan et tekstsøkesystem er bygget opp, men det gir likevel en skisse. Horty laget sitt system for over 40 år siden. Det mest forbløffende er at dagens tekstsøkesystemer faktisk har den samme grunnstrukturen. Når man for eksempel bruker en søkemotor på Internett, vil mange av dem nettopp være tekstsøkesystemer. Søkemotoren har kopiert sider, eller deler av sider, fra nettet, sortert ordene derfra alfabetisk og brukt nettadressen som “adresse” i søkefilen. Et eksempel er Altavista, søker man på “retarded + child” finner man et stort antall nettsteder som omhandler emnet.

Jurister har ikke ord på seg for å være teknologiske entusiaster. Men likevel var det nettopp jurister som først tok tekstsøkesystemer i bruk, og utviklet dem videre. Fra begynnelsen med LITE i 1963, spredde systemene seg ut over hele verden. De ble kjernen i systemer som gjorde det mulig å søke i lover, forskrifter, dommer osv - det kildematerialet som jurister bruker når de skal argumentere for hva som er gjeldende rett.

De første europeiske systemene kom omkring 1970, i Norge lanserte Lovdata sitt direktekoblede system i 1981. I dag omfatter Lovdatas system nesten 100 databaser, dvs alle lover, forskrifter, dommer fra høyesterett og lagmannsrettene og fra mange andre organer, alle rettsakter fra EU osv. Jurister var antagelig den første profesjonen som fikk alle sine kilder (med unntak av litteratur) direkte tilgjengelig ved hjelp av datamaskinbaserte systemer. Først da World Wide Web vokste frem fra 1993, ble tekstsøking tatt i bruk av bredere grupper.

Årsaken til at jurister - litt motvillig - ble pionerer på området, kan man kanskje best forklare ved å se på forholdet mellom faktasøking og interessesøking. Forskjellen kan lettest forklares med et eksempel. Tenk deg at du går inn i en bokhandel og spør om de har en roman av Tor Åge Bringsværd. Bokhandlermedhjelperen slår etter i en katalog og forteller at nei, de har ikke det. Da går du ut igjen, du har fått svar på ditt spørsmål, og du vet det ikke hjelper å spørre en gang til - de har dessverre ikke bøker av denne forfatteren.

Men tenk deg i stedet at du går inn i bokhandelen og spør om de har noen bøker om hvordan man bygger bokhyller. Medhjelperen slår opp på ny og sier at de ikke har noen bok som heter “Hvordan man bygger bokhyller”. Men da gir du deg ikke like lett, for slik veiledning kan selvsagt stå i bøker med andre titler - som “Vi pusser opp hjemme”, “Den lille hobbysnekkeren” osv.

Forskjellen er i relevansvurderingen. I det første tilfelle kunne du, før du fikk svaret, angi nøyaktig hvilke betingelser boken måtte oppfylle for å være relevant: Den måtte angi “Bringsværd” som forfatter. I de siste tilfellet mangler vi mulighet til å angi et slikt entydig kriterium.

For jurister som arbeider med dommer, blir dette svært tydelig. Leter du etter en dom om eiers ansvar for personskade voldt av husdyr, kan husdyret være ku, kalv, hund, katt osv. Og skaden kan være benbrudd eller hoderystelse eller hva som helst annet. Det er på forhånd vanskelig å gjette seg til hvorfor juristen vil finne en dom. Derfor trenger juristen å søke på selve den opprinnelige teksten, slik den ble utformet av domstolen. Først da sikrer man at ikke noen av de opprinnelige opplysningene i dommen går tapt.

Og derfor var det altså at jurister for over 40 år siden utviklet tekstsøkesystemer og ufrivillig ble pionerer - samtidig som de åpnet et forskningsområde som vi her så vidt har antydet: Hvordan søke i lange dokumenter med naturlig språk.

Powered by Labrador CMS