"Målet är att automatiskt kunna läsa kodade historiska manuskript"

22 mars 2019

Fotografi på Beáta Megyesi fotograferat inomhus.

Beáta Megyesi, lektor i datorlingvistik, vid institutionen för lingvistik och filologi.

Hallå där Beáta Megyesi, lektor i datorlingvistik, du är forskningsledare för ett tvärvetenskapligt forskningsprojekt som ska bygga upp forskning inom historisk kryptologi som har moderna tillämpningar. Vad ska ni göra i projektet?

– Vi tar fram automatiska metoder för att kunna läsa hemligt kodade historiska manuskript där vi inte längre har någon kodnyckel. Målet är att till exempel en historiker ska kunna ladda upp ett krypterat manuskript och automatiskt få tillbaka texten i klartext. För att kunna göra det behöver vi experter från olika vetenskapsområden, från kryptologer och datavetare till historiker och lingvister. 

Finns det många kodade historiska manuskript?
– Vi vet inte riktigt hur många som finns, bland annat eftersom kodade manuskript som vi inte kan läsa är svåra att kategorisera i bibliotek. Men historiker brukar räkna med att ungefär en procent av de historiska texterna är krypterade och det mesta är idag oläsbart. Och det var ju troligen den viktigaste informationen som man valde att kryptera och det är därför viktigt för den historiska forskningen.

Vad brukar de kodade manuskripten handla om?
– Underrättelseinformation till makthavare men även skvaller, det kan till exempel vara påvens sändebud som skriver hem till Vatikanen om vem som festar med vem vid ett hov. Och det kan vara oerhört viktig information för det politiska arbetet. Den bästa moderna jämförelsen kanske är Wikileaksmaterial.

Hur ska ni gå till väga?
– Första steget är att samla in krypterade texter och autentiska nycklar via en webbplats. Det är lättare sagt än gjort eftersom de är svåra att hitta. Många nycklar har också förstörts med avsikt av säkerhetsskäl eller förvaras på olika platser utan någon koppling till de kodade breven. Om det inte finns en samtida nyckel men någon har löst koden vill vi också ha en beskrivning av hur personerna har gått till väga för att lösa koden eftersom vi automatiserar det kryptologerna gör.

Vad är nästa steg i projektet?
– Projektet innehåller två stora tekniska utmaningar. Först måste manuskriptet läsas in digitalt med hjälp av bildanalys från ett fotografi av manuskriptet. Det är inte så lätt som det kanske låter eftersom manuskripten är handskrivna och kan innehålla många olika typer av symboler, siffror, bokstäver och diakritiska tecken från olika alfabeten men också unika symboler, tagna från zodiaken eller alkemin.

Fotografi på handskriften.
2011 lyckades forskarna lösa det så kallade
Copialechiffret. Lösningen av Copialechiffret gav
inspiration till att bygga upp forskning i historisk
kryptologi.

– Nästa utmaning är att automatiskt lösa koden och få fram en läsbar text. Det innebär till exempel att förstå vilken metod som har använts för att kryptera texten och vilket språk den underliggande texten är skriven på. Det är nog den svåraste utmaningen.

– Men det finns andra problem vi måste hitta sätt att automatiskt lösa, till exempel variation i stavning och grammatik som inte är enhetlig i historiska texter. Det var också vanligt förr, precis som idag, att i texten blanda olika språk. Dessutom förändras språket över tid så vi behöver olika språkmodeller beroende på hur gammalt manuskriptet är.

Kan metoderna ni tar fram användas till något annat?
– Absolut. Det är den kanske största poängen med projektet som involverar grundforskning för ett flertal områden. Genom att vi i projektet lär oss hur vi automatiskt kan lösa ett antal textanalysproblem blir det lättare att till exempel analysera skolelevers texter i de nationella proven i svenska.

Hur kan tolkning av historiska manuskript underlätta analyser av nationella prov i svenska?
– Problemen i texterna påminner om varandra. Eleverna blandar till exempel språk, bland annat genom att använda engelska ord i en svensk text, de stavar fel och skriver inte alltid grammatiskt korrekt. I historiska texter är förkortningar vanliga, skiljetecken som punkt och komma förekommer mer sällan, i likhet med hur vi ofta skriver i informella sammanhang idag, inte minst på sociala medier.

– Allt detta innebär problem för automatisk analys av olika, mer eller mindre formella, texter där metoderna från det här forskningsprojektet kan bidra med lösningar.

Kan du ge fler exempel på tillämpning?
– Metoderna kan till exempel hjälpa oss att automatiskt hitta känslig information i texter, som personnamn och platser, som ofta krypterades på ett speciellt sätt och det i sin tur kan utveckla det som kallas pseudonymisering.

Vad är pseudonymisering?
– I till exempel medicinsk eller samhällsvetenskaplig forskning används ofta anonymiserad känslig information som inte ska gå att koppla till person. Men personerna kan i efterhand kräva enligt lag att uppgifterna raderas. Har man då anonymiserat uppgifterna finns ingen möjlighet att i efterhand hitta vilken information som hör till vilka personer.

– Pseudonymisering innebär att man maskerar eller ersätter den känsliga informationen om personen men med en nyckel som gör att det går att koppla uppgifterna med hjälp av nyckeln om det behövs. Det är metoder som är högst aktuella i och med den nya dataskyddsförordningen (GDPR) för att skydda personlig information.

 

Fakta

Det tvärvetenskapliga forskningsprojektet "DECRYPT: Decryption of historical manuscripts" syftar till att bygga upp ett nytt tvärvetenskapligt forskningsämne i historisk kryptologi. Projektet finansieras av Vetenskapsrådet med 29,5 miljoner kronor i sju år. Projektet leds av Beáta Megyesi, lektor i datorlingvistik vid institutionen för lingvistik och filologi vid Uppsala universitet.

I forskningsprojektet ingår forskare från sex olika forskningsdiscipliner: datorlingvistik, kryptologi, bildbehandling, datavetenskap, historia och lingvistik.

Forskningsprojektet DECRYPT är en fortsättning på det tidigare forskningsprojektet DECODE där forskarna började utveckla tekniska lösningar för att läsa kodade historiska manuskript.

Dataskyddsförordningen (GDPR, The General Data Protection Regulation) gäller i hela EU från maj 2018 och till syfte att skapa en enhetlig och likvärdig nivå för skyddet av personuppgifter.

Läs mer