Näkökulmia arkistosta: Kansallisarkisto mukana kehittämässä käsinkirjoitetun tekstin tunnistusta

Kansallisarkisto on mukana vuoden 2016 alussa käynnistyneessä READ-hankkeessa, jonka tarkoituksena on mullistaa käsinkirjoitetun tekstin tunnistus. Tämä on tarkoitus toteuttaa tuomalla yhteen eri alojen vahvuudet ja asiantuntemus. Asiantuntemus koostuu arkistojen, tutkijoiden, sovelluskehittäjien ja vapaaehtoisten osaamisesta ja panoksesta.

Tarkoituksenamme on saada kytkettyä nykyinen digitaalisen aineiston käsittelymme automaattisen tekstintunnistuksen piiriin. Tekstintunnistuksen tuotteena syntyvää dataa pyrimme analysoimaan siten, että ainakin osa metatietotuotannosta voitaisiin automatisoida. Tämä voi tarkoittaa yksinkertaisuudessaan asiasanoitusta, mutta mahdollisesti myös jotain rikkaampaa, kuten mahdollisten rajoitusten tunnistamista. Tämä luonnollisesti tehostaa toimintaamme ja sitä kautta palveluitamme jatkossa. Hanke jatkuu aina vuoden 2019 kesäkuulle, minkä jälkeen meillä on toivottavasti mahdollisuus jatkaa toimintaa, jonka olemme suunnitelleet READ-hankkeen aikana. Aika näyttää, miten onnistumme.

Hanke toteuttaa virtuaalisen tutkimusalustan, jonka pohjana toimii Transkribus-sovellus. Sovelluksen voi jo nyt ladata käyttöönsä. Transkribuksen avulla käyttäjät voivat ladata omaa aineistoaan sovellukseen ja tuottaa aineistoistaan transkriptiot eli puhtaaksikirjoitukset sekä hyödyntää enenevissä määrin erilaisia muita toiminnallisuuksia – käykäähän tutustumassa sovellukseen! Transkribus on perua READ-hanketta edeltäneestä tranScriptorium-hankkeesta ja nykyisen hankkeen puitteissa sovellusta kehitetään entistä paremmaksi ja monipuolisemmaksi. Jatkossa READ-hankkeessa toteutetaan myös selainkäyttöinen versio, jonka tarkoitus on toimia yksinkertaistettuna versiona Transkribus-sovelluksesta.

Vapaaehtoisten panosta tarvitaan

Yksi suurista haasteistamme tulee olemaan transkriptioden ja muun tarvittavan pohjatiedon tuottaminen teknisille partnereillemme. Perusajatuksena voidaan pitää sitä, että mitä enemmän meillä on koneymmärrettävää dataa aineistoistamme, sitä paremmaksi tunnistusteknologiaa voidaan kehittää. Hankkeessa, ja sen jälkeenkin, onkin tarkoitus saada käyttäjiä mukaan transkriptioiden ja tekstialueiden sijaintien yms. määrittämiseen. Hyviä kokemuksia tämänkaltaisesta toimintamallista on saatu esimerkiksi University College Londonin (UCL) Transcribe Bentham -projektissa, jossa kymmenet tuhannet vapaaehtoiset ovat kirjoittaneet puhtaaksi englantilaisen filosofin Jeremy Benthamin (1748–1832) muistiinpanoja ja käsikirjoituksia. UCL on myös mukana READ-hankkeessa jakamassa kokemuksiaan ja kehittämässä READia.

Kaiken kaikkiaan edessä on varmasti erittäin mielenkiintoisia vuosia käsinkirjoitetun tekstin tunnistuksen parissa. Tässä vaiheessa vuotta haluan kuitenkin toivottaa omasta puolestani erinomaisia kesälomia kaikille lukijoille!

Vili Haukkovaara
Kehittämispäällikö, READ-projektipäällikkö Kansallisarkistossa

Näkökulmia arkistosta

Kansallisarkisto mukana kehittämässä käsinkirjoitetun tekstin tunnistusta

Ei kommentteja:

Lähetä kommentti