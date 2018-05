Tehisintellekti kasutamine tekstide digiteerimiseks pole esmakordne üritus. Kuid kuna lõviosa salajastest arhiividest on kirjutatud käsitsi ja sisaldab kõiki kirjutajate kätearmee omapärasid ning kirjatüüpide iseärasusi, siis on see ülesanne seni kaunis võimatuks osutunud. Trükitud teksti lugevalt masinale saab selgeks õpetada kõigi vajalike tähtede kujud ning seejärel aparaat lehekülgede kallale suunata. Sääraselt käituski Google Books projekt trükitud kirjaga, vahendab The Atlantic.

Kuid kuna iga käsitsi kirjutatud tekst on täis erinevaid anomaaliaid, siis sellist lähenemist ei saa kasutada. Tehisintellektile võib selgeks õpetada muidugi kogu ladina keele sõnastiku ning selle erinevad kirjutamise viisid kuid see nõuaks säärasel määral mäluruumi, et on ikkagi praktiliselt mõttetu.

In Codice Ratio projekti eestvedajad Roma Tre ülikoolist ja Vatikani salajastest arhiividest otsustasid masinale selgeks teha hoopis tähest väiksemad tekstiosad – suletõmbed. Kategoriseerides eri kirjatüüpides leiduvaid suletõmbe vorme ning suunda suutsid teadlased masinale selgeks teha milliseid tähti kunagine kirjutaja on paberile pannud. Kui sellist tehnikat valdavale masinale panna ette muistne kiri, siis ideaalis suudaks ta selle põhjal luua täpse digitaalse koopia.

Digiteerimine tooks salajaste arhiivide tekstid avalikkuse ette ning lisaks neile otsingufunktsiooni mis teeks ajaloolastele selle muljetavaldava tekstikorpuse käsitlemise hulga hõlpsamaks. Täna peab arhiividele ligi pääsemiseks rändama Rooma ning käsitsi huvi äratanud tekstid läbi töötama.

Kuigi uuelgi süsteemil olid omad kasvuvalud. Näiteks ei suutnud see korrektselt tuvastada ladinakeelset sõna anno (aasta) mis oli kirjutatud karolingi minuskelkirja tüübis. Karl Suure pärijate valitsemise ajal levinud kirjutamise viisi puhul ei jäetud eri tähtede vahele ruumi ning tihedalt kirjutatud kirjamärgid olid tihti ka ühendatud. Seetõttu kippus tehisintellekt topelt-n'i sõna keskel hoopis nelja i'na lugema, moodustades tähenduseta kombinatsiooni aiiiio.

Karolingi minuskelkirjas kirjutatud lauluraamatu lehekülg FOTO: Wikimedia Commons

Sellest murest saadi üle õpetades arvutile väheke statistikat ning «tervet mõistust». Loomulikult arenenud keele igapäevase kasutajana on inimesel kaunis lihtna mõista, et tõenäoliselt on sõna aiiiio tähenduseta ning tegelikult tähistavad need jooned muid tähti. Sama oskus õpetati piiratud määral ka arvutile selgeks. Seega teab tekstimasin nüüd, et nelik-i on nõnda haruldane, sisuliselt esinematu, kombinatsioon, et seda tuvastades on aparaat tõenäoliselt vea teinud.

Kasutades kahte kombineeritud tehnikat suutis masin 96 protsendil juhtudest tähe korrektselt tuvastada. Töö käigus areneb masina teksti mõistmise võime veelgi täpsemaks.