Arkistojen päivän Scanathon – tutustumista käsinkirjoitetun tekstintunnistuksen saloihin

Kansallisarkistossa Helsingissä järjestettiin 8.6.2018 kansainvälisen arkistojen päivän kunniaksi Scanathon-tapahtuma yhteistyössä Iso-Britannian ja Sveitsin kansallisarkistojen kanssa. Tapahtumassa tutustuttiin READ-hankkeessa (Recognition and Enrichment of Archival Documents) kehitettyjen ScanTentin ja DocScan-sovelluksen käyttöön ja Transkribus-alustaan.

Vanhaan tutkijasaliin kokoontui 25 osallistujaa eri muistiorganisaatioista tutustumaan käsinkirjoitetun tekstintunnistuksen mahdollisuuksiin ja Kansallisarkiston kokoelmista löytyviin kiinnostaviin aineistoihin.



Recognition and Enrichment of Archival Documents


READ on EU:n Horisontti 2020 -ohjelmaan kuuluva hanke, jonka tarkoituksena on kehittää virtuaalinen tutkimusympäristö, joka mahdollistaa käsinkirjoitetun tekstintunnistuksen käytön sähköisillä arkistomateriaaleilla. Hankkeessa on mukana 14 Eurooppalaista tutkimuslaitosta ja yliopistoa. Lisäksi hankkeella on useita Memorandum of understanding -yhteistyökumppaneita, jotka saavat etuoikeutetusti käyttöönsä hankkeessa kehitettyjä teknologioita.

Kansallisarkisto tarjoaa hankkeessa laajan kokoelman digitoitua käsinkirjoitettua aineistoa, sekä tutkimusalustan pilottikäyttöä suurilla käyttäjämäärillä. Hankkeessa on keskitytty pääasiassa renovoitujen tuomiokirjojen, henkikirjojen ja sotapäiväkirjojen tunnistukseen. 

Transkribus – sähköisten aineistojen tutkimusalusta


Transkribus on READ-hankkeessa kehitetty sähköisten arkistoaineistojen tutkimusalusta, jota voi käyttää aineistojen transkribointiin ja automaattiseen tunnistukseen. Transkribuksen avulla transkriptiota voi myös rikastaa tageilla, joilla voi merkitä erimerkiksi nimiä, lyhenteitä ja epäselviä kohtia tekstissä. Alustalla luotuja transkriptioita voi käyttää HTR (Handwritten Text Recognition) opetusmateriaalin luomiseen.  Automaattisesti tunnistettuun tekstiin voi käyttää myös Transkribuksen avainsanatunnistusta.

Automaattinen käsialantunnistus helpottaa arkistoaineistojen käyttöä luonnollisesti vähentämällä vanhojen käsialojen lukemisen opetteluun ja aineistojen lukemiseen käytettävää aikaa. Yhdistettynä asiasanahakuun, automaattisesti tunnistettu teksti on valtava apu isojen aineistomäärien käsittelyssä, esimerkiksi jos haluaa löytää tietyn nimen henkikirjoista tai nähdä, miten usein tietty ilmaisu esiintyy tuomiokirjoissa.

ScanTent ja DocScan nopeuttavat asiakirjojen kuvaamista


ScanTent ja Android-puhelimilla toimiva DocScan-sovellus on tarkoitettu asiakirjojen nopeaan kuvaamiseen, esimerkiksi pienten arkistojen ja yksittäisten tutkijoiden käyttöön. DocScan tunnistaa kuvasta automaattisesti sivun. Kuvia voi ottaa joko yksittäin tai sarjakuvauksella, jolloin sovellus ottaa kuvan automaattisesti kun sivu muuttuu. Kuvat voi ladata DocScanista suoraan Transkribus-alustalle.

ScanTent on pienikokoinen skannausteltta käytettäväksi esimerkiksi pöydän päällä. Siinä on oma valonlähde, sekä alusta älypuhelimelle, jolloin asiakirjoja ei tarvitse kuvata ”käsivaralla”. Oma valonlähde tarkoittaa, että kuvattavat asiakirjat valaistuvat tasaisesti. Koska teltta ei päästä valoa läpi, sen käyttö ei myöskään häiritse muita, jos sitä käyttää esimerkiksi lukusalissa. ScanTenteja saattaa tulevaisuudessa olla asiakkaiden käytössä myös Kansallisarkistolla.

Scanathon kolmessa kaupungissa


Tapahtuma aloitettiin esittelemällä osallistujille READ-hanketta ja Transkribus-alusta, sekä tapahtumassa käytettävät aineistot, jonka jälkeen osallistujat saivat vapaasti tutustua ScanTentien käyttöön ja kuvata tarjolla olevia aineistoja. Tapahtuman alku myös videoitiin Kansallisarkiston Facebook-sivulle.

Lounastauon jälkeen osallistujille demonstroitiin Transkribuksen automaattista tekstintunnistusta.  Lisäksi oltiin videopuhelun kautta yhteydessä muihin Scanathoniin osallistuviin arkistoihin ja kuultiin, millaisia aineistoja muissa arkistoissa oli tapahtuman aikana käsitelty. Louise Seaward (University College London) esitteli päivän aikana Iso-Britannian kansallisarkistossa digitoituja arkiston historiaan liittyviä asiakirjoja, ja Tobias Hodel (State Archives of Zurich) esitteli Sveitsissä käytettyjä Zürichin valtuuston pöytäkirjoja. Maria Kallio (Kansallisarkisto) puolestaan esitteli Helsingissä päivän aikana käytettyjä aineistoja muille Scanathoniin osallistuneille arkistoille.

Kiinnostavia yksityisarkistoja


Helsingin Scanathonissa käytettävät aineistot oli valittu yksityisarkistoista, joita ei niiden pienen koon vuoksi muuten luultavasti tultaisi digitoimaan. Malliaineistoina käytettiin Wrede-suvun kopiokirjaa, Jakob Immeniuksen päiväkirjaa, Amore Proximi –seuran asiakirjoja, vuorihallituksen kullanetsintäpäiväkirjoja ja Inkeriläisen Sulo Jamalaisen kirjeitä.

Wrede-suku esiteltiin Ruotsin ritarihuoneelle vapaaherrallisena sukuna vuonna 1654, ja sen rälssimaat sijaitsivat Elimäen neljänneksellä nykyisessä Kouvolassa, Porvoossa ja Mäntsälässä. Kopiokirjassa on kopioita suvulle kuuluneista asiakirjoista vuosilta 1567-1667.

Jakob Immenius kuvaa päiväkirjassaan Turun ja sen lähikuntien vaiheita isovihan aikana. Immenius opiskeli Turun katedraalikoulussa vuoteen 1713, jonka jälkeen hän hoiti papillisia tehtäviä Turun seurakunnissa, kunnes hän siirtyi vuonna 1718 Maskun Vahtoon. Immeniuksen päiväkirja on kirjoitettu vuonna 1868 julkaistun Enchoridion logicumin taakse.

Amore Proximi oli 1786 perustettu loviisalainen vapaamuurarien veljesseura, johon kuului pääasiassa Svartholman linnoituksen henkilöstöä, mutta jäsenten joukosta löytyy myös muita korkea-arvoisia henkilöitä. Seuran arkisto löytyy kansallisarkistosta, ja Scanathonissa käytössä oli seuran juhlamenoja kuvaava nide, sekä sääntöasiakirjoja.

Vuorihallitus oli Suomen kaivos- ja ruukkitoimintaa valvova viranomainen, joka myös pyrki edistämään uusien malmiesiintymien käyttöönottoa. Vuorihallituksen arkistossa on kullanetsintäkertomuksia vuodesta 1831 vuoteen 1878. Scanathonissa tutustuttiin Anders Ferdinand Thoreldin retkikunnan kullanetsintäretken päiväkirjaan vuodelta 1850.

Sulo Jamalainen oli kotoisin Inkerin Hietaniemeltä, josta hänet lähetettiin Suomeen opiskelemaan. Jamalainen teloitettiin vuonna 1919 Pietarissa hänen jäätyään kiinni värväämästä kolppaanalan seminaarilaisia taistelemaan bolševikkihallintoa vastaan. Jamalaiselle saapuneet kirjeet ovat pääasiassa vuosilta 1914–1916, ja suurin osa niistä on Jamalaisen äidiltä ja hänen veljeltään Viljolta.

Kaisa Luhta

Kirjoittaja on kulttuurihistorian maisteriopiskelija Turun yliopistosta. Hän suorittaa korkeakouluharjoittelua READ-hankkeessa Kansallisarkistossa.

Ei kommentteja:

Lähetä kommentti

Kiitos kommentistasi. Viesti ilmestyy näkyviin heti kun ylläpito on ehtinyt tarkastaa sen.