METODICKÝ MANUÁL č. 5
Metodický manuál pre zabezpečenie konverzie textových
objektov
Verzia 6.0
Metodický manuál č. 5
Riadenie dokumentu:
Dokument
Názov
Verzia:
Číslo:
Autor
Metodický manuál pre zabezpečenie konverzie textových objektov
ID:
6.0
Stav:
1
5
Finálny
Vydanie:
Vytvorený:
18. 06. 2009
Dostupný v:
Posledná úprava:
30. 11. 2009
Kľúčové slová:
Celkom strán:
Pripravený kým:
Prispievatelia:
Alena Kulíková
na
zájklade
osvedčenej
praxe
z rôznych projektov a
metodológií
67 s prílohami
. (4)
Celkový čas prípravy:
Odovzdal:
[................]
Oponoval:
[................]
Prevzal:
[................]
Alena Kulíková
microform, s.r.o.
Zhotoviteľ
Doc. PhDr. Dušan Katuščák, PhD.
Václav Šuplata
Národné osvetové centrum
Objednávateľ
SNK
Odborný garant
Oponoval:
[................]
Ing. Hilda Gajdošová
MK SR
Odborný garant
Strana 2 z 67
Metodický manuál č. 5
Zoznam stavov dokumentu:
Verzia
Dátum
Dôvod zmeny, dodatku
1.0
18. 06. 2009
Vytvorenie dokumentu
2.0
19. 07. 2009
Doplnenie a aktualizácia dokumentu
3.0
31. 07. 2009
Finalizácia dokumentu
4.0
28. 10. 2009
Zapracovanie pripomienok
5.0
18. 11. 2009
Zapracovanie konečných pripomienok
6.0
1.12.2009
Zapracovanie dodatočných konečných
pripomienok
Autor
História verzií
Verzia
Zoznam menených častí
1.0
Prvé, aktuálne vydanie.
2.0
Druhé, aktuálne vydanie (pridané metodické usmernenia)
3.0
Tretie vydanie pre pripomienky
4.0
Zapracované pripomienky
5.0
Zapracované pripomienky
6.0
Zapracované pripomienky, konečná verzia
Strana 3 z 67
Metodický manuál č. 5
OBSAH
1
ÚVOD.......................................................................................................................... 6
2
Informácie o používaní metodického manuálu....................................................... 7
3
Východiská a princípy .............................................................................................. 9
4
5
3.1
Východiská .................................................................................................. 9
3.2
Súvislosť s platnou legislatívou a zmluvnými vzťahmi ............................... 10
3.3
Princípy...................................................................................................... 11
3.4
Normy a štandardy .................................................................................... 11
3.5
Metódy ....................................................................................................... 12
Hlavné ciele ............................................................................................................. 13
4.1
Hlavné ciele ............................................................................................... 13
4.2
Nadstavbové ciele ..................................................................................... 13
Základné informácie o spracovávanej oblasti ..................................................... 14
5.1
6
7
Základná charakteristika oblasti................................................................. 14
Popis metodického postupu .................................................................................. 16
6.1
Organizačné riešenie v rámci inštitúcie/SR/EÚ.......................................... 16
6.2
Technické riešenie..................................................................................... 16
6.3
Požiadavky ................................................................................................ 17
6.4
Funkčný a procesný model ........................................................................ 17
6.5
Dátový model............................................................................................. 18
6.6
Zabezpečenie kontroly a monitorovanie aktivít .......................................... 18
6.7
Časové súvislosti ....................................................................................... 19
6.8
Cieľové skupiny a ich participácia na realizovaní konkrétnych aktivít ........ 19
6.9
Zabezpečenie kontroly kvality.................................................................... 19
METODICKÉ USMERNENIA PRE KONVERZIU TEXTOVÝCH OBJEKTOV.......... 20
7.1
Plánovanie a príprava ................................................................................ 20
7.1.1
Plánovanie projektu digitalizácie......................................... 20
7.1.2
Všeobecná definícia objektu digitalizácie ........................... 21
7.1.3
Historické knižničné dokumenty a pasportizácia ................ 21
7.2
Kontrola duplicity a porovnanie údajov pre projekty digitalizácie textu ...... 23
7.3
Ľudské zdroje a školenia ........................................................................... 23
Strana 4 z 67
Metodický manuál č. 5
7.4 Proces digitalizácie textových objektov (rukopisy, tlačené materiály, vzácne
exempláre) ......................................................................................................... 26
7.4.1
Celkový prehľad.................................................................. 26
7.4.2
Príprava na digitalizáciu...................................................... 27
7.4.3
Konzervačno-reštaurátorská prehliadka a zásah................ 33
7.4.4
Operácie a úkony spracovania textových dokumentov....... 35
7.4.5
Digitalizácia obrazu ............................................................ 37
7.4.6
Mikrofilmovanie a hybridné technológie.............................. 40
7.4.7
Generovanie plných textov ................................................. 41
7.4.8
Analýza textu, extrakcia údajov, informácií a znalostí ........ 45
7.4.9
Metaúdaje pre textové objekty............................................ 48
7.4.10
Zabezpečenie kvality .......................................................... 48
7.4.11
Výskum............................................................................... 49
7.5
Citovanie digitalizovaných textových objektov a trvalé adresovanie .......... 50
7.6
Sprístupnenie digitalizovaných textových objektov .................................... 50
7.7
7.6.1
Otvorený prístup ................................................................. 50
7.6.2
Požiadavky na funkčnosť.................................................... 51
7.6.3
Formáty (METS / MODS) ................................................... 51
Manažment procesu konverzie textových objektov a model nákladov....... 51
8
Súvislosti a prepojenia s inými metodikami ......................................................... 54
9
Riziká........................................................................................................................ 55
10 Aktualizácia metodiky............................................................................................. 56
11 Záver......................................................................................................................... 57
12 Definície a skratky................................................................................................... 58
13 Zoznam literatúry .................................................................................................... 59
14 PRÍLOHY .................................................................................................................. 61
15 PRÍLOHA 1 – Technologická schéma spracovania textových objektov
SOFTVéROM DocWORKS............................................................................................... 2
16 PRÍLOHA 2 – Zachytenie textu................................................................................. 2
Strana 5 z 67
Metodický manuál č. 5
1
ÚVOD
Cieľom tohto metodického manuálu je podrobný opis, vysvetlenie a odporúčanie pre praktické
uplatnenie v oblasti konverzie textových objektov kultúrneho, vedeckého a intelektuálneho
dedičstva. Ide o materiály, ktoré sú prítomné vo všetkých oblastiach a rezortoch súvisiacich
s kultúrnym, vedeckým a intelektuálnym dedičstvom, teda metodika je určená najmä
knižniciam, archívom, múzeám a podobným pamäťovým a fondovým inštitúciám, ako aj
školám všetkých úrovní a typov, miestnym samosprávam, súkromným fyzickým a právnickým
osobám, ktoré zhromažďujú, spracovávajú, uchovávajú a sprístupňujú textový (jazykový)
obsah na účely výskumu a vývoja, vzdelávania, kultúrneho života. Konverzia textových
objektov je oblasť, za ktorú zodpovedná národná kultúrna inštitúcia – Slovenská národná
knižnica, ktorá na základe legislatívnych predpisov a v spolupráci s ďalšími subjektmi
zabezpečuje fyzické aj digitálne zhromažďovanie, spracovanie jazykového a textového
dedičstva obsiahnutého na rôznych nosičoch ako sú knihy, noviny, časopisy, zborníky,
pohľadnice, rukopisy a iné.
Strana 6 z 67
Metodický manuál č. 5
2
INFORMÁCIE O POUŽÍVANÍ METODICKÉHO
MANUÁLU
Tento metodický manuál vznikal ako výstup z poznatkov, know-how a praktických skúseností
získavaných, spracovávaných a distribuovaných v rámci spolupráce medzi vzdelávacou
inštitúciou pripravujúcou budúcich profesionálov v odbore mediamatika a dokumentácia
kultúrneho dedičstva – Žilinskou univerzitou, Fakultou prírodných vied, a Slovenskou národnou
knižnicou, ktorá zodpovedá podľa legislatívy za oblasť uchovávania a sprístupňovania
textových objektov (t.j. dokumentárne dedičstvo) zameranej v rámci študijného odboru
Dokumentácia kultúrneho dedičstva na teoretickú a praktickú prípravu na konverzie objektov
kultúrneho dedičstva, vrátane textových. Metodika zahŕňa informácie odporúčania,
pozorovania, kalkulácie, fakty a ďalšie znalosti od niekoľkých svetových autorít v oblasti
digitalizácie kultúrneho a vedeckého dedičstva, začínajúc metodikami vypracovaných
v európskych projektoch (DIGICULT, MINERVA) a výmenou osvedčených praktík v expertných
a pracovných skupinách (Expertná skupina členských štátov pre digitalizáciu a digitálne
uchovávanie, do r. 2007 Skupina národných zástupcov, Spojenej skupiny EBLIDA/LIBER pre
digitalizáciu a on-line sprístupnenie), pokračujúc osvedčenou praxou knižníc, archívov,
univerzít a výskumných komunít, a končiac priamymi konzultáciami s expertmi a výrobcami
špičkových softvérových a hardvérových technológií v príslušnej oblasti. Taktiež prináša
aktualizované informácie z ´kampane na prieskum a vypracovanie prehľadu a analýzy
digitalizácie a digitálneho uchovávania z konca roku 2006 pre Stratégiu digitalizácie
a digitálneho uchovávania intelektuálneho, kultúrneho a vedeckého dedičstva SR pripravenú
Slovenskou národnou knižnicou v spolupráci so Žilinskou univerzitou. Tento dokument
predstavuje súhrn odporúčaných, preverených a funkčných postupov, krokov a návodov
použiteľných v praxi prípravy a budovania digitálnej knižnice z pohľadu prevažne knižničného
sektora, pričom presahuje mimo tento sektor a metódy sú uplatniteľné aj v iných pamäťových
a fondových inštitúciách (múzeách, galériách, archívoch, zvukových audiovizuálnych
zbierkach) alebo u ďalších súkromných alebo verejných subjektov, ktoré prostredníctvom
centrálneho programu digitalizácie textu koordinovaného Slovenskou národnou knižnicou
alebo vo vlastnej réžii, pristúpia k digitalizácii a digitálnemu uchovávaniu textových objektov
tak, aby bol výstup všetkých takýchto aktivít trvalo udržateľný kompatibilný s medzinárodnou
infraštruktúrou výmeny informácií a znalostí. Vychádza zo známych zámerov a parametrov
a aktuálnej situácie na Slovensku v knižničnom sektore a plánovaných a dostupných
výrobných faktorov. Konkrétne využitie metodiky sa musí dať do súladu s miestnymi
podmienkami a možnosťami, čo bude predmetom príslušného národného projektu.
Základným cieľom metodiky je poskytnúť usmernenia pre slovenské subjekty vrátane
usmernení týkajúcich sa projektového manažmentu, kategorizácie analógových textových
dokumentov určených na digitalizáciu, manažmentu lokálnych digitálnych repozitov, aplikácie
základných štandardov zabezpečujúcich interoperabilitu na národnej a medzinárodnej úrovni,
riešenia dlhodobej archivácie digitálneho obsahu, perzistentnej identifikácie, získavania a
pridávania deskriptívnych metaúdajov, autorít a sprístupnenia digitálnych zbierok. Prakticky je
využiteľná pre realizáciu konverzie textových objektov pre digitálnu knižnicu a pre ďalšie
systémy sprístupnenia ako Europeana a pod. Metodický manuál sa zaoberá otázkami
plánovaniu, prípravy a riadenia projektu digitalizácie, technologickými postupmi spracovania
obrazu s textom a textu, a otázkami súvisiacimi s sprístupnením a dlhodobým uchovaním
súčasným a budúcim generáciám používateľom a komunitám. Metodika sa v úvodných
kapitolách zameriava na východiská, ciele a kontext pre danú oblasť , v kapitole 7
s metodickými usmerneniami podkapitoly na seba nadväzujú na základe chronológie krokov pri
Strana 7 z 67
Metodický manuál č. 5
konverzii textových objektov, t j. od prípravy a stanovenia pravidiel, cez procesy získavania
a spracovania digitálneho textového obsahu až po otázky ako sú zverejnenie, citovanie
a permanentné adresovanie. Popri teoretických odporúčaniach sú uvedené metodické
odporučenia a postupy spolu s príslušnými odkazmi na ďalšie súvisiace materiály. Táto
metodika vo všeobecnosti súvisí takmer so všetkými metodikami pripravovanými v rámci NP2
OPIS, úzku súvislosť má najmä s metodikami o kategorizácii objektov, o deacidifikácii,
metaúdajoch, autoritách, slovníkoch a tezauroch, digitalizácii 2D objektov.
Strana 8 z 67
Metodický manuál č. 5
3
VÝCHODISKÁ A PRINCÍPY
3.1
Východiská
Čo sa týka politiky, programov a projektov digitalizácie, v oblasti digitalizácie kultúrneho a
vedeckého dedičstva boli v pôvodných 15 krajinách EÚ v rámci iniciatívy eEurope vypracované
Lundské zásady (2001) s cieľom vytvoriť v rámci členských štátov koordinačný mechanizmus
pre programy digitalizácie. Na koordináciu politiky a programov digitalizácie bol vypracovaný
Lundský akčný plán a vznikla Skupina národných zástupcov (NRG) krajín EÚ a iných krajín.
Ako sekretariát pre skupinu NRG vystupuje projekt MINERVA/MINERVA Plus, ktorý zabezpečil
vytvorenie špecializovaných pracovných skupín, vydávanie publikácií a politického dokumentu
s názvom Parmská charta, ktorý podporuje a nadväzuje na Lundské zásady. Ako pokračovanie
Lundského akčného plánu vznikol Dynamický akčný plán, ktorý identifikuje hlavné zistené
bariéry:
•
Fragmentovaný inštitucionálny prístup
•
Nevyspelosť kľúčových technológií a štandardov
•
Fragmentácia národných politických prístupov
•
Nedostatočná integrácia digitalizačných akcií v európskej znalostnej ekonomike
a navrhuje konkrétne činnosti v týchto oblastiach
•
Používatelia a obsah
•
Ekonomická trvalá udržateľnosť
•
Technologický rozvoj a nástroje
•
Uchovávanie digitálnej pamäti
Európska komisia má v úmysle vybudovať spoločnú európsku digitálnu knižnicu, ktorá by mala
byť postavená na koncepcii už prevádzkovanej Európskej knižnice združujúcej takmer všetky
národné knižnice Európy. Za podstatnú hodnotu spoločného európskeho postupu pri
digitalizácii je považovaná mnohojazyčnosť a kultúrna rôznorodosť.
V rámcových programoch výskumu a vývoja technológií sa digitalizácii a digitálnemu
kultúrnemu a vedeckému obsahu venujú okrem projektov MINERVA aj CALIMERA,
ERPANET, TEL-ME-MOR, DELOS, BRICKS, PRESTOSPACE a i. Osobitný význam má fórum
DigiCULT, v rámci ktorého sa publikovali analýzy technologického vývoja v oblasti kultúrneho a
vedeckého dedičstva.
Ako odozva na problém dlhodobého uchovávania digitálne vytvoreného a digitálneho obsahu
bola v roku 2003 schválená Charta UNESCO o zachovaní digitálneho dedičstva.
Harmonizácia s vytváraním Európskej digitálnej knižnice – Europeany je postavená na
existujúcej spolupráci na tvorbe Európskej knižnice (The European Library – portál Europeana)
a účasti v podporných projektoch ako MINERVA Plus a MINERVA EC, TEL-ME-MOR,
TELPlus, EuropeanaTravel, EDLnet a i., ktorého výsledkom je vytvorenie a ďalší vývoj
Európskej knižnice a spoločného prototypu Európskej digitálnej knižnice so zapojením
archívov, knižníc, múzeí a audivizuálneho sektora. Veľký význam má implementácia
odporúčaní Expertnej skupiny na najvyššej úrovni pre digitalizáciu pri EK a výmena poznatkov
v rámci Expertnej skupiny členských štátov pre digitalizáciu a digitálne uchovávanie, ktorej
úlohou je monitorovať implementáciu Odporúčania EK č 2007/320/ES z 24. augusta 2006 a
Závery Rady EÚ č. 2006/C 297/01 z 13. novembra 2006 o digitalizácii, on-line sprístupnení
a digitálnom uchovávaní kultúrneho dedičstva určené členským štátom EÚ.
Strana 9 z 67
Metodický manuál č. 5
Základné pojmy
strana
v rámci
dokumentu
Východiská
Lisabonská zmluva
i2010
Odporúčanie Európskej komisie a Závery Rady
Ministrov
EÚ
o digitalizácii,
digitálnom
uchovávaní a online sprístupnení
Operačný program Informatizácia spoločnosti Prioritná os 2
Bibliografické štandardy pre opis kap. 7
Princípy, normy, štandardy a metódy
konkrétnej a výmenu bibliografických údajov (MARC 21
metodiky
Formát na označenie obsahu (autority,
bibliografické údaje, komunity, holdingy,
klasifikácia),
Medzinárodný štandardný bibliografický
opis (ISBD)
Anglo-americké katalogizačné pravidlá
AACR2
Dublin Core – metaúdajová schéma
Metodické
usmernenia
MINERVA
Príručka pre osvedčenú prax, Technické
predpisy pre programy na tvorbu kultúrneho
obsahu a i.
Metodika NINCH Guide to Good
Practice Digitisation
Najlepšie osvedčené praktiky veľkých
programov a projektov vo svete a EÚ
3.2
Súvislosť s platnou legislatívou a zmluvnými vzťahmi
Na národnej úrovni súvisia s danou oblasťou nasledovné legislatívne a nelegislatívne
opatrenia:
Zákon č. 183/2000 Z. z. o knižniciach, o doplnení zákona SNR c. 27/1987 Zb. o štátnej
pamiatkovej starostlivosti a o zmene a doplnení zákona c. 68/1997 Z. z. o Matici slovenskej v
znení neskorších predpisov
Zákon č. 535/2003 Z. z. , ktorým sa mení a doplna zákon c. 212/1997 Z. z. o povinných
výtlačkoch periodických publikácií, neperiodických publikácií a rozmnoženín audiovizuálnych
diel v znení zákona c. 182/2000 Z. z. a o zmene a doplnení zákona c. 81/1966 Zb. o
periodickej tlaci a o ostatných hromadných informačných prostriedkoch v znení neskorších
predpisov
Zákon č. 618/2003 Z. z. o autorskom práve a právach súvisiacich s autorským právom
(autorský zákon) a o zmene a doplnení niektorých zákonov
Zmluvné vzťahy s Európskou knižnicou a Európskou digitálnou knižnicou Europeana
Programové a riadiace dokumenty OPIS zverejnené na stránke Riadiaceho orgánu OPIS,
Úradu vlády SR: http://www.opis.gov.sk/6029/programove-dokumenty.php
Strana 10 z 67
Metodický manuál č. 5
Stratégia rozvoja slovenského knihovníctva na roky 2008 – 2013 (ďalej len „stratégia“),
ktorú prerokovala vláda Slovenskej republiky 7. novembra 2007 a schválila uznesením vlády
SR č. 943/2007
Uznesenie vlády SR č. 801/2002.
Rozpracovanie programového vyhlásenia vlády SR (PVV SR) v pôsobnosti Ministerstva
kultúry SR na roky 2006 – 2010.
.
3.3
Princípy
Problematika digitalizácie a digitálneho uchovávania spojená s konverziou textových objektov
zahŕňa oblasti ako sú digitalizačná politika, koordinácia, programovanie a manažment
projektov, hardvér, softvér, prostredie, zaobchádzanie s originálnym materiálom, uchovanie
matričných súborov, formáty súborov, voľba médií, stratégia uchovávania, preformátovanie,
ľudské zdroje, výskum, školenie personálu, vystavovanie zdrojov – zber metaúdajov,
distribuované vyhľadávanie, alerting, webové služby, RDF a Web Ontológie. Konverzia
textových materiálov stojí na 4 pilieroch informačnej architektúry: klasifikácia, navigácia,
vyhľadávanie, metaúdaje.
Digitálny obsah pamäťových a fondových inštitúcií musí byť dostupný na zber (harvesting) a
používanie cez štandardný protokol a opísaný prostredníctvom spoločného rámca, nástroje
sémantického webu - jazyk na popis webovských zdrojov a metaúdajov. Ďalej je potrebné
tvoriť a používať národné medzisektorové súbory autorít alebo tezaury, uplatňovať výsledky
výskumu a aplikovať systémy na organizáciu poznania. V oblasti slovníkov a klasifikačných
systémov zabezpečiť ich mapovanie do schém organizácie a manažmentu poznatkov.
Výrobou vysokokvalitných digitálnych obrazov dostupných elektronicky sa redukuje
opotrebovanie krehkých a ľahko poškoditeľných dokumentov a predmetov. Digitalizácia môže
pomôcť pri uchovávaní vzácnych materiálov a pri manipulácii s nimi napríklad cez digitálne
pracovné katalógy a evidencie a pod. Cieľom digitalizácie sú lepšie služby kultúrnych,
informačných a vzdelávacích entít a nie náhrada originálov. Digitálne súbory sú nestále. Slúžia
na zlepšenie prístupu ku zbierkam. Pokiaľ nie sú spoľahlivo vyriešené technické otázky
dlhodobého archivovania digitálnych materiálov, treba zabezpečiť, aby bolo zabezpečené ich
udržiavanie a pravidelne prevádzanie do nových formátov. Digitálne kópie nemôžu byť
náhradou originálu.
O originálne dokumenty a artefakty je potrebné starať sa aj po digitalizácii. V kontexte ďalších
metodík sa navrhne systém digitálneho skladiska (repozitu) a systém dlhodobého archivovania
digitálneho obsahu v centrálnom digitálnom archíve pre textové objekty.
3.4
Normy a štandardy
Pri realizácii konverzie textových dokumentov sa vychádza zo obsiahleho rámca štandardov,
v kontexte medzinárodnej organizácie pre štandardizáciu ISO ide najmä o normy vytvorené
v rámci práce technickej komisie 46 Informácie a dokumentácia, 37 Terminológia. Uplatňujú sa
taktiež aj Nižšie je uvedený zoznam základných noriem Pri konverzii textových objektov sa
musí zabezpečiť, aby sa v súlade s prístupom pri budovaní Europeany posúdili a uplatnili
nasledujúce štandardy vymedzujúce technické prostredie
:
bibliografické štandardy a štandardy pre metaúdaje vyvinuté Kongresovou knižnicou
MARC 21, METS, MODSPravidlá na označenie obsahu
OAI-PMH v 2.0 pre (zber) harvesting ,
SRU, SOAP, JSR a OpenSearch pre externé vyhľadávanie a prístup,
Strana 11 z 67
Metodický manuál č. 5
XML pre syntax,
OWL , RDF a RDF schéma pre sémantiku,
SPARQL pre pokročilé vyhľadávanie,
HTTP a HTTPS, CIDOC/CRM a DCMI Abstraktný model pre modelovanie metaúdajov,
SAML a LDAP pre bezpečnosť a autentifikáciu,
ďalej: WSDL, SKOS, WAI, UNICODE UTF-8, XSLT, NACO, unAPI a SeeAlso, VRA
Core, OpenID1.
Ďalej sú to štandardy: ISO 21127:2006 Informácie a dokumentácia – Referenčná
ontológia pre výmenu informácií kultúrneho dedičstva;
ISO 15836:2003 Informácie a dokumentácia – Množina metaúdajových prvkov Dublin
Core;
ISO 15511:2003 Informácie a dokumentácia – Medzinárodný štandardný identifikátor
pre knižnice a súvisiace organizácie (ISIL);
ISO 8459-5:2002 Informácie a dokumentácia – Adresár bibliografických údajových
prvkov -- Časť 5: Údajové prvky na výmenu katalogizačných údajov a metaúdajov.
ISO 14721:2003 : Priestorové údaje a systémy na prenos informácií – Otvorený
archivačný informačný systém – Referenčný model.
Ďalšie relevantné štandardy pre textové objekty sú uvedené v Technických predpisoch
pre programy na tvorbu kultúrneho obsahu (projekt MINERVA)
3.5
Metódy
Pri konverzii textových objektoch sa používajú metódy vyplývajúce z medzinárodne uznaných
a dohodnutých základných línií, pričom neustály technologický vývoj núti adaptovať metódy
novým výzvam vyplývajúcich najmä z požiadaviek používateľov. Táto metodika vychádza
najlepších a najosvedčenejších pozorovaní a skúseností z viacerých projektov a iniciatív
zameraných na prax alebo metodológiu.
Na webovom sídle projektu MINERVA EC2 je zoznam s metodickými usmerneniami na
digitalizáciu textových objektov, najmä z papierových nosičov dokumentárneho dedičstva,
vrátane pracovných nástrojov a presného opisu postupov.
1
EDLnet. D2.2. Initial Semantic and Technical Interoperability Requirements / Authors: Makx Dekkers,
Stefan Gradmann, Carlo Meghini, Nicola Aloia, Cesare Concordia; Contributors: EDLnet WP2 Working
Group members, EDLnet office. Date: 17 December 2007. Version: 1.0. 25 s.
2
http://www.minervaeurope.org/interoperability/digitisationguidelines.htm
Strana 12 z 67
Metodický manuál č. 5
4
HLAVNÉ CIELE
4.1
Hlavné ciele
Hlavným cieľmi digitalizácie a konverzie textových objektov sú sprístupnenie a uchovanie
obsahu pre ďalšie generácie. Text je jedným z hlavných spôsobov zachytenia informácií
a poznania, ktoré sa dajú sprístupniť na účely vzdelávania, výskumu a vývoja, celoživotného
vzdelávania, kultúry, voľnočasových aktivít a pod. Textové objekty sú konverziou pripravené na
dlhodobé uchovanie a sprístupnenie používateľom
4.2
Nadstavbové ciele
Spolu s produkčným tokom digitalizácie je cieľom aj fyzická ochrana, reštaurovanie
a konzervovanie materiálov. Sprístupnenie digitálnej náhrady materiálov umožní redukovať
potrebu fyzickej manipulácie s originálmi, ktoré môžu byť zakonzervované vo vhodných
skladovacích podmienkach. Ďalším nadstavbovým cieľom je vytvorenie možnosti na extrakciu
znalostí a ďalší manažment znalostí, ako aj štúdium vývoja jazyka a národneho jazykového
korpusu.
Strana 13 z 67
Metodický manuál č. 5
5
ZÁKLADNÉ INFORMÁCIE O SPRACOVÁVANEJ
OBLASTI
5.1
Základná charakteristika oblasti
Digitalizácia kultúrneho a vedeckého dedičstva je proces konverzie analógových materiálov, v
prípade historických knižných dokumentov textovo-vizuálnej povahy, do digitálneho formátov
použiteľných na dlhodobé uchovanie a sprístupnenie obsahu, čiže informácií, poznatkov.
Národný projekt masovej konverzie textových objektov v podmienkach SR má za cieľ
digitalizovať celú slovacikálnu knižnú produkciu v objeme vyše pol milióna kusov kníh a ďalších
dokumentov, celkovo vyše 1,4 milióna textových objektov, t.j. do cca 200 miliónov strán (knihy,
noviny, časopisy) a ďalšie zbierky (fotografie, rukopisy, hudobniny, múzejné predmety a pod.),
pričom v rámci spoločnej stratégie digitalizácie kultúrneho, vedeckého a intelektuálneho
dedičstva má Slovenská národná knižnica zodpovednosť najmä za písomné dedičstvo, ktoré
sa bude digitalizovať uplatnením priemyselných postupov na masovú a v čo najvyššej miere
automatizovanú digitalizáciu, spracovanie a uchovanie materiálov a ich sprístupnenie na rôzne
spôsoby použitia pre vzdelávanie, vedu, výskum a vývoj, či cestovný ruch a voľný čas.
Samotná digitalizácia sa bude realizovať na profesionálnej úrovni pomocou digitalizačných
robotov s automatizovaným obracaním strán v prípade zachovalých viazaných materiálov,
krehkejšie dokumenty budú na základe precíznej selekcie nasmerované na manuálnu
digitalizáciu. Digitálna dokumentácia sa taktiež využíva aj na manažment komplexného cyklu
spracovania materiálov - od bezkontaktnej rádiofrekvenčnej identifikácie objektu, jeho
sledovanie a kontrola v procesoch pasportizácie, ochrany, deacidifikácie, digitalizácie,
mikrofilmovania, digitálneho spracovania publikovania (vytvorenia digitálneho záznamu
v softvéri digitálnej knižnice, s prepojením na knižničný katalóg (Slovenská knižnica) na fyzickú
lokalizáciu exemplárov na účely výpožičiek.
Digitalizácia je jedným zo spôsobov uchovania (ochrany, konzervácie) knižničných
dokumentov, keďže je chránený papierový originál. Zároveň poskytuje veľmi efektívne spôsoby
sprístupnenia obsahu dokumentov, od možnosti vyhľadávania plných textov, podľa vybraných
indexovaných polí a analytický prieskum na základe formálneho a sémantického štruktúrovania
textu.
Pridanou hodnotou konverzie textových objektov je možnosť vyhľadávania v plných textoch,
indexoch či klasifikáciách, a tým aj efektívneho a rýchleho získavania potrebných informácií,
údajov, odpovedí či znalostí, čo má nesmierny význam pri procesoch riadenia a rozhodovania,
vzdelávania a ďalších ľudských činnosti v akejkoľvek sfére. Vzhľadom na všadeprítomné
počítačové a sieťové technológie je možný prístup k týmto textovým objektom prakticky
kdekoľvek a kedykoľvek.
Historický vývoj konverzie súvisí s rozvojom informačno-komunikačných technológií,
kancelárskych systémov. Kým pred desaťročím nebolo predstaviteľné zdigitalizovať napr.
všetky knihy vo fonde, v súčasnosti sa takéto možnosti vyvíjajú spolu s vývojom Webu 2.0, 3.0
a súvisiacich služieb. V minulosti mali používatelia elektronický a postupne aj vzdialený prístup
najmä k metaúdajom o umiestnení fyzickej kópie alebo mikrofilmu, neskôr sa umožnil prístup
k plným textov časti diela (abstrakt, obsah) alebo celého diela, ktoré však boli získané
prevažne ručným prepisom. Alternatívne sa používateľom poskytovali obrazy strán
Strana 14 z 67
Metodický manuál č. 5
dokumentov. Vývoj technológií optického rozpoznávania a inteligentného rozpoznávania
štruktúry umožňuje poskytovanie plných textov s kontrolou úrovne prístupu. Technológie
skupiny XML umožňujú poskytovanie ďalších nadstavbových služieb.
V súčasnosti sa problematike zlepšovania prístupu k textu venuje projekt financovaný
Európskou komisiou s názvom IMPACT, ktorý má v roku 2011 vyprodukovať pre Európske
spoločenstvo model kompetenčného centra a sadu nástrojov potrebných na plánovanie
a realizáciu masové spracovania a sprístupnenia textu, vrátane historických dokumentov
(www.impact-project.eu).
Strana 15 z 67
Metodický manuál č. 5
6
POPIS METODICKÉHO POSTUPU
6.1
Organizačné riešenie v rámci inštitúcie/SR/EÚ
V národnom projekte konverzie textových objektov do digitálnej formy bude vytvorená digitálna
knižnica textových objektov. Túto úlohu bude v súlade so Zákonom 183/2000 Z. z., § 6, ods. 3,
písm m), podľa ktorého je „je národným pracoviskom pre oblasť reštaurovania,
konzervovania, ochranného kopírovania a digitalizácie knižničných dokumentov“
vykonávať Slovenská národná knižnica. V súlade so Zákonom 183/2000 Z. z., § 6, ods. 3,
písm a) je Slovenská národná knižnica je „konzervačnou knižnicou a depozitnou knižnicou
Slovenskej republiky“. Podľa § 6, ods. 3, písm. b) „prednostne zhromažďuje, odborne
spracúva, uchováva, ochraňuje a sprístupňuje domáce a zahraničné slovacikálne dokumenty“
a podľa § 6, ods. 3, písm c) „je národnou bibliografickou agentúrou, ktorá zabezpečuje
koordináciu národného bibliografického systému, národnú bibliografickú registráciu
slovacikálnych dokumentov, odborné spracúvanie a sprístupňovanie slovenskej národnej
bibliografie“.
6.2
Technické riešenie
Samotná fyzická digitalizácia sa bude realizovať priemyselným spôsobom na profesionálnej
úrovni pomocou digitalizačných robotov s automatizovaným obracaním strán v prípade
zachovalých viazaných materiálov. Krehkejšie dokumenty budú na základe precíznej selekcie
nasmerované na manuálnu digitalizáciu. Digitálna dokumentácia sa taktiež využíva aj na
manažment komplexného cyklu spracovania materiálov - od bezkontaktnej rádiofrekvenčnej
identifikácie objektu, jeho sledovanie a kontrola v procesoch pasportizácie, ochrany,
deacidifikácie, digitalizácie, mikrofilmovania, digitálneho spracovania publikovania (vytvorenia
digitálneho záznamu v digitálnej knižnici, s prepojením na knižničný katalóg (Slovenská
knižnica) na fyzickú lokalizáciu exemplárov na účely výpožičiek. Surové údaje z digitalizácie
budú uložené vo forme veľkých obrazov v dátovom sklade, menšie kópie budú slúžiť na Ďalšie
operácie s textom až po verzie pre používateľov. Textové objekty budú prístupné cez webové
služby a cez služby na zber údajov (Europeana a pod.)
S konverziou textových materiálov priamo alebo nepriamo súvisia nasledovné technológie,
opísané aj v rámci projektu DIGICULT (www.digicult.info)
•
Systémy na správu digitálneho obsahu (systémy digitálnych knižníc)
•
Skupina technológií XML,
•
Tematické mapy
•
Sémantický web - ontológie, taxonómie,
•
Systémy na správu vzťahov so zákazníkmi,
•
Inteligentné nálepky a visačky (Rádiofrekvenčné identifikačné systémy (RFID)
•
Technológie virtuálnej reality a zobrazovania,
•
Ľudské rozhrania,
•
Technológie hier,
•
Model aplikačnej služby,
•
Kultúrni agenti a avatári,
•
Sprievodcovia elektronickým programovaním a personalizácia,
•
Mobilný prístup ku zdrojom informácií o kultúre,
•
Technológie na správu práv a platenie,
•
Mechanizmy a technológie na spoluprácu,
Strana 16 z 67
Metodický manuál č. 5
•
•
•
•
•
•
•
•
•
•
•
Vizualizácie a 3D objekty, virtuálna realita,
Softvér z otvoreného zdroja a štandardy,
Spracovanie prirodzeného jazyka,
Získavanie informácií (informačný prieskum),
Lokalizačné systémy,
Vizualizácia údajov,
Teleprítomnosť,
Haptika,
Robotika,
Technológie na dlhodobú digitálnu archiváciu,
Archivácia webu.
Konverziu textových materiálov je potrebné naplánovať a jeho kvalitu nastaviť tak, aby súčasný
výstup bol použiteľný aj v budúcich aplikáciách virtuálnej reality a systémov s umelou
inteligenciou, bez potreby opätovnej práce zo zdrojovým materiálom.
6.3
Požiadavky
•
Na konverziu textových materiálov sú potrebné relevantné informačno-komunikačné
a ďalšie technológie a priestory na digitalizáciu špecifikované v kapitole 7
s metodologickými usmerneniami. Procesy by mala organizačne zabezpečovať a koordinovať
Slovenská národná knižnica,
6.4
Funkčný a procesný model
Konverzia textových objektov pozostáva z nasledovných procesov a funkčných komponentov
(uvedených spolu s odkazom na príslušný metodický manuál), ktoré sú detailne opísané
z hľadiska konverzie textových objektov v kapitole 7:
Procesy:
Identifikácia objektov (manuály č. 2, 3, 13, 15, 16, 17, 18, 19, 21)
Využitie registrov (manuály č. 1, 15, 16, 20)
Vykazovanie stavu (manuály č. 1, 13, 15)
Auditné protokolovanie (manuály č. 1, 13, 15)
Evidencia a katalogizácia (manuál č. 15)
Digitalizačné plány (manuály č. 1 a 2)
Diagnostika
Presun objektov a logistika
Príprava na konverziu - digitálna akvizícia, logistika, kategorizácia (manuál č. 2)
Konverzia - fyzická digitalizácia (technológia masovej a manuálnej digitalizácie)
Návrat objektov (logistika)
Úprava digitálnych objektov - Spracovanie digitálneho obsahu (separácia textových
a obrazových informácií)
Spracovanie metaúdajov (manuál č. 19)
Funkčné komponenty:
Podateľňa digitálneho obsahu (manuály č. 15, 17)
Národný digitálny archív kultúry (manuály č. 1, 15, 17, 18)
Strana 17 z 67
Metodický manuál č. 5
6.5
Centrálne úložisko digitálneho obsahu (manuály č. 3, 15, 21)
Systém na správu digitálneho obsahu (manuály č. 3, 15, 19, 21)
Národný agregátor (manuály č. 15, 19, 21)
Systém na spracovanie obsahu (manuály č. 15, 17)
Národný register kultúrnych objektov (manuály č. 2, 3, 13, 15, 17)
Národný register autorít (manuály č. 15, 19, 20, 21)
Národný register digitalizácie (manuály č. 1, 2, 3, 13, 15, 18)
Národný register autorských práv (manuály č. 15, 16, 21)
Lokálne registre (manuály č. 3, 15, 18, 20)
Produktový softvér (manuál č. 15)
Integračný softvér (manuály č. 1, 15, 18)
Dátový model
Pri konverzii textových objektov sú v prvom rade potrebné bibliografické údaje, ktoré
pochádzajú z katalógov ako sú KIS3G Virtua. Tie budú dávkovo nahraté do systému digitálnej
knižnice ako základ pre metaúdaje digitálneho objektu. Spolu s týmito údajmi budú zahrnuté aj
údaje o konzervovaní a reštaurovaní. Katalogizátori, operátori spracúvajúci obraz alebo text,
korektori OCR a osoby vykonávaje kontrolu kvality pristupujú k obsahu cez Web. Technické
a ďalšie administratívne metaúdaje sa nabaľujú na digitálny objekt v procese spracovania,
pochádzajú z digitalizačného zariadenia a jeho softvéru, zo systému na správu farieb,
manuálneho zadania operátormi a logistického systému na sledovanie a monitorovanie
fyzických a digitálnych objektov. Na konci je používateľ, od ktorého taktiež môže prichádza
spätná väzba a nové podnety.
6.6
Zabezpečenie kontroly a monitorovanie aktivít
Za konečnú kvalitu, integritu a autenticitu vyprodukovaných digitálnych textových objektov a ich
sprístupnenie zodpovedá rezort kultúry, inštitucionálne Slovenská národná knižnica, ktorá
taktiež v zmysle zákona o knižniciach zodpovedá za analógové zbierky a ich fyzický stav
6.6.1.1 Monitorovanie aktivít - vstup
•
o
o
rozpočet pridelený tvorbe kultúrneho obsahu
Vláda – financovanie pridelené na podporu digitalizácie
Inštitucionálny – financovanie pridelená z existujúcich inštitucionálnych
rozpočtov
•
rozsah pracovných síl [miesta na plný úväzok]
6.6.1.2 Monitorovanie aktivít - výstup
•
•
o
o
o
o
•
o
počet digitalizovaných zbierok zaznamenaných v národnom súpise
počet digitalizovaných položiek na typ zbierky
textové dokumenty (strany)
obrazy
audio (hodiny)
pohyblivé obrázky (film) (hodiny)
meranie kvality
prístupnosť
Strana 18 z 67
Metodický manuál č. 5
o
o
použiteľnosť
trvalá udržateľnosť
poznámka: toto meranie bude vypracované a malo by priamo vychádzať zo Zásad kvality
MINERVA
6.6.1.3 Monitorovanie aktivít - využitie
•
nákup alebo distribúcia CD / DVD médií, kde majú organizácie z kultúrneho
sektora významnú redakčnú kontrolu
•
používatelia pre streaming, video-prenos alebo vysielanie, kde majú organizácie
z kultúrneho sektora významnú redakčnú kontrolu
•
využitie webových sídel
o
počet spojení (relácií) používateľov so systémom
o
priemerné trvanie spojenia
o
priemerný počet zobrazených stránok počas spojenia
[pozri http://www.ukoln.ac.uk/interop-focus/gpg/SectorStatistics/]
6.7
Časové súvislosti
Digitalizácia a väčšinová časť konverzie textových objektov by mala prebehnúť do konca
trvania programovacieho obdobia 2013.
6.8
Cieľové skupiny a ich participácia na realizovaní
konkrétnych aktivít
Digitalizácia textových objektov má dva základné ciele – uchovanie obsahu a vytvorenie
možností na jeho sprístupnenie používateľským skupinám. Pri financovaní digitalizácie z
verejných zdrojov musí národná infraštruktúra poskytovať výstupy konverzie obsahu všetkým
relevantným zložkám spoločnosti. Cieľové používateľské skupiny budú teda rôznorodé
z hľadiska veku, primárnej činnosti, záujmov a motivačných faktorov. Potenciálne početné
zastúpenie v celkovom východiskovom rámci rádovo až desať miliónov používateľov (čiže
gramotná populácia Slovenska, vrátane Slovákov a ich potomkov žijúcich v zahraničí, plus
odhad potenciálnych používateľov služieb zahŕňajúcich textové objekty zo zahraničia) je od
niekoľkých osôb, napr. pri štúdiu archívnych spisov z osobného záujmu, až po státisíce
používateľov na školách rôznych úrovní a typov.
6.9
Zabezpečenie kontroly kvality
Kontrola za zabezpečuje na viacerých bodoch v pracovnom toku. Systémy by mali byť vo
všeobecnosti nastavené tak, aby sa kvalita zaisťovala pred začatím procesov namiesto
potreby komplikovaných revízií a opráv vyprodukovaného výstupu. V kapitole 7
s metodologickými usmerneniami sú uvedené opatrenia za zabezpečenie kontroly kvality. Ide
najmä o zabezpečenie kontroly duplicít, konzistentnosti, integrity, zabezpečenia autenticity,
kvality zachytenia a extrakcie textu a kvalitu výsledných súborov.
Strana 19 z 67
Metodický manuál č. 5
7
METODICKÉ USMERNENIA PRE KONVERZIU
TEXTOVÝCH OBJEKTOV
7.1
Plánovanie a príprava
7.1.1 Plánovanie projektu digitalizácie
Plánovanie projektu je prvým krokom akéhokoľvek projektu digitalizácie. Čas venovaný
plánovaniu sa oplatí tak, že sa uľahčí riadenie a realizácia projektu. Za normálnych okolností je
potrebné odpovedať na nasledovné otázky:
o
o
o
o
o
Čo sa musí urobiť?
Kto to bude robiť?
Kde sa to bude robiť?
Kedy sa to bude robiť?
Ako sa to bude robiť?
Projekt digitalizácie musí mať jasne špecifikované ciele, pretože majú priamy vplyv na výber,
copyright a zverejnenie materiálu. Do projektu by mal byť zapojený vhodný personál
s vyhovujúcimi vedomosťami a zručnosťami. Mal by zahŕňať aj plán školení, aby sa zaručila
dostatočná odbornosť, ktorú môže projekt vyžadovať.
Projekt by sa nemal začať bez toho, aby sa uskutočnil prieskum iných projektov v rovnakej
oblasti. Takýto výskum identifikuje problémy, ktorým sa treba venovať, bude stimulovať nové
nápady a oblasti, ktoré ešte neboli zvážené a pridá hodnotu výstupu projektu.
Výskum taktiež pomôže určiť množstvo práce, ktorú treba naplánovať pre realizáciu projektu
pomocou stretnutí alebo inej komunikácie s organizáciami, ktoré realizovali podobné projekty.
Takáto interakcia pomôže stanoviť, či vaša organizácia má potrebný personál, vedomosti
a technologickú infraštruktúru na realizáciu projektu, alebo či bude potrebné školenie a iná
príprava.
Je výhodné investovať určitý čas do zistenia statusu copyrightu materiálu, ktorý sa ma
digitalizovať. Neúspech pri získaní povolenia digitalizovať a zverejniť na webe môže spôsobiť
neúspešnosť celého projektu, bez ohľadu na technickú odbornosť a skúsenosti.
Môže sa zvážiť aj možnosť realizácie technického pilotného projektu na začiatku projektu, aby
sa zabezpečilo to, že akékoľvek anomálie alebo problémy pri technickej realizácii sa odstránia
pred spustením hlavného projektu
Z odborného používateľského hľadiska tvoria vecnú, obsahovú štruktúru repozitu digitálnej
knižnice tri entity a väzby medzi entitami. Ide o:
Komunity
Zbierky
Objekty
Významným prvkom digitálnej knižnice textových dokumentov bude softvér, v ktorom sú
najvšeobecnejšou triedou komunity.
Strana 20 z 67
Metodický manuál č. 5
Komunity pomáhajú organizovať v digitálnej knižnici zbierky objektov v skladisku. Oprávnený
používateľ softvéru v digitálnej knižnici je jednak oprávnený vytvárať nové komunity a jednak
nové zbierky v rámci komunít. Obsah zbierok tvoria objekty.
Zbierka sú súbory objektov v skladisku. Tieto objekty môžu mať väzbu na „nadradenú“ entitu
(„je členom...“) alebo môžu mať väzbu s „podriadenou“ entitou („má člena...“).
Objekty sú kľúčovým pojmom konverzie textových objektov. Preto je potrebné vymedziť obsah
a rozsah tohto pojmu a konkretizovať pojem objekt pre oblasť digitalizácie textových tlačených
dokumentov.
7.1.2 Všeobecná definícia objektu digitalizácie
Pre potreby projektu digitalizácie v digitálnej knižnici vo všeobecnosti sú objektami všetky
entity, ktoré majú samostaný identifikačný znak alebo ktoré môžu potenciálne predstavovať
predmet používateľského záujmu ako samostane identifikované jednotky.
Pojem objekt v digitalizácii má dva hlavné významy:
Objekt (predmet) digitalizácie (analógový dokument, ktorý je predmetom záujmu digitalizácie)
Digitálny objekt3,4 (digitálna entita v digitálnom prostredí, v digitálnej sieti)
Digitálny objekt je základná jednotka pre agregáciu informácií v repozite. Digitálny objekt musí
obsahovať minimálne dva elementy: a) persistentný identifikátor, b) metadáta Dublin Core.
Objekty v digitálnej knižnici textových dokumentov a knižničných zbierok sú:
1.
fyzický zväzok tlačenej knihy (jeden fyzický zväzok viaczväzkového vydania titulu)
2.
zviazaný ročník novín a seriálu
3.
číslo tlačených novín
4.
číslo tlačeného časopisu
5.
jednotlivý článok z tlačeného vedeckého alebo odborného časopisu a monografie
6.
jednotlivý článok z tlačeného vedeckého alebo odborného zborníka
7.
jednotlivý článok z tlačených novín alebo časopisu s priradeným kódom SICI
8.
tlačená pohľadnica ako jednotka fondu
9.
fotografia ako jednotka fondu
10.
tlačená mapa ako jednotka fondu
11.
tlačená hudobnina ako jednotka fondu
12.
tlačená grafika ako jednotka fondu
13.
počítačový súbor
Prehľad kategórií textových objektov vstupujúcich do procesu digitalizácie rieši Metodický
manuál č. 2.
7.1.3 Historické knižničné dokumenty a pasportizácia
3
4
The DOI System. http://www.doi.org/
The Fedora Common. http://www.fedora.info/
Strana 21 z 67
Metodický manuál č. 5
Historické knižničné dokumenty sú jedným z dôležitých zdrojov materiálu na digitalizáciu. SNK
podľa § 6 ods. k Knižničného zákona vedie ústrednú evidenciu historických knižničných
dokumentov a historických knižničných fondov (ďalej len „ústredná evidencia") a evidenciu o
dokumentoch a súboroch knižničných dokumentov vyradených z ústrednej evidencie. Ústredná
evidencia je upravená v § 19 predmetného zákona.
V súčasnosti je celková situácia v odbornom spracovaní, v ochrane, sprístupňovaní a uložení
HKD, HKF a ostatných historických tlačí nevyhovujúca. Chýba celkový prehľad o aktuálnom
stave vzácnych knižničných dokumentov, ako aj odborná a vedecká analýza ich kultúrnej a
historickej hodnoty.
Ústrednú evidenciu a komplexnú ochranu je možné vykonávať jedine na základe odborných
informácií a poznatkov z pasportizácie. Pasportizácia je odborná činnosť, ktorá zahŕňa
kvalifikovaný súpis všetkých existujúcich slovacikálnych a vzácnych inorečových súborov
dokumentov a jednotlivín bez ohľadu na ich zriaďovateľa a vlastníka, zisťuje skutočný počet,
stav, úroveň spracovania u vlastníka, spôsob uloženia a ochrany a často aj ich rekatalogizáciu.
Najvzácnejšie dokumenty a fondy zatiaľ neboli pre nedostatky v odbornej evidencii u vlastníkov
a pre pomalú, časovo veľmi náročnú odbornú evidenciu dokumentov formou pasportizácie,
chránene knižničným zákonom a podľa § 18 vyhlásené za HKD alebo HKF. Pasportizácia
historických tlačí na území republiky prebieha aj v súčasnosti, ale je limitovaná personálnymi
možnosťami a technickým vybavením príslušného odborného pracoviska SNK.
Pasportizácia v rokoch 1986 – 1987
V rámci celoštátnej výskumnej úlohy Dejiny knižnej kultúry na Slovensku sa vykonala
pasportizácia vzácnych knižničných dokumentov a fondov na celom území Slovenskej
republiky. Vlastníci na všetkých úrovniach (knižnice, galérie, múzeá, cirkev, a pod.) podávali
dotazníkovou formou informácie o rozsahu, obsahu, potrebách a fyzickom stave starých
a vzácnych tlačí. Výstupom bol súpis historických knižníc a historických tlačí, ktorý slúžil ako
orientačný materiál pre potreby metodikov, bádateľov a ďalších pracovníkov v oblasti výskumu
knižnej kultúry. Pozitívom bolo získanie prehľadu o geografickom spektre výskytu uvedeného
typu dokumentov. Zároveň sa potvrdila teória niektorých odborníkov, že nie je možné
analyzovať stav bez priameho kontaktu so skúmaným objektom.
Aktualizácia pôvodných, jednoznačne nepresných výsledkov z konca 80. rokov minulého
storočia je nevyhnutná, pochopiteľne aj s ohľadom na zásadné spoločensko-politické zmeny,
ktoré sa citeľne dotkli aj vlastníctva uvedených dokumentov.
Pasportizácia po roku 2000
Aktualizácia výsledkov pasportizácie z rokov 1986 – 1987 prebieha v súčasnosti systematicky
(napr. podľa jednotlivých diecéz, dekanátov, ale aj podľa geografických oblastí
a inštitucionálnych ukazovateľov). Predpokladom zefektívnenia procesu je adekvátne
vybavenie (personálne, technické a materiálne) príslušného odborného pracoviska v SNK –
odboru správy historických knižničných dokumentov a fondov SR (OSHKDF SR).
Dôvody na pasportizáciu sú tieto:
Získanie aktuálnych informácií o HKD, HKF a knižničnom písomnom dedičstve, ktoré
sa nachádza na území SR, na ktoré nadväzuje postupnosť ďalších krokov pri realizácii
jednotlivých prioritných úloh programu.
Skvalitnenie úrovne poskytovania informácií vedeckým pracovníkom, bádateľom
a širokej verejnosti.
Vytvorenie aktuálnej generálnej bázy dát na Slovensku a jej spracovanie v elektronickej forme.
Spracovanie podkladov potrebných na vyhlásenie najvzácnejších tlačí za HKD, HKF
a definitívne stanovenie garancie ich ochrany vlastníkmi, správcami a štátom.
Zistenie aktuálneho fyzického stavu uvedených súčastí knižničného písomného dedičstva na
území Slovenska.
Strana 22 z 67
Metodický manuál č. 5
Komplexný program predpokladá, že v budúcnosti by sa mal pasportizačný výskum rozšíriť aj
na zmapovanie slovenského knižničného písomného dedičstva, ktoré sa nachádza v zahraničí.
Ukončenie procesu pasportizácie s komplexnými výstupnými analýzami výsledkov, súpisov
fondov a návrhov opatrení, predpokladáme pri požadovanom zabezpečení do roku 20205.
Gestorom a metodickým centrom pasportizácie je SNK. Program predpokladá vytvorenie siete
regionálnych partnerov pasportizácie na západnom a východnom Slovensku, na základe
projektov, ktoré pripravia potenciálni regionálni partneri na základe požiadaviek Slovenskej
národnej knižnice.
Sprievodná chemicko-materiálová a mikrobiologická pasportizácia
Táto pasportizácia sa musí stať neoddeliteľnou súčasťou odbornej knihovníckej pasportizácie.
V procese odbornej pasportizácie sa zároveň bude komplexne hodnotiť stav dokumentu so
zreteľom na:
štatisticky prevládajúce charakteristiky dokumentu – objektu a jeho poškodenia,
rozhodujúce technologické zmeny vo výrobe základného materiálu v historickom horizonte
(1450, 1530 – Levoča, 1800, 1850, 1880, 1980),
7.2
Kontrola duplicity a porovnanie údajov pre projekty
digitalizácie textu
Vedecké knižnice rezortu MKSR si podľa finančných možností a vlastných potrieb budujú
digitalizačné kapacity na základe dopytových projektov, ktoré vopred musia predložiť Rade
ministra kultúry SR pre informatizáciu a digitalizáciu, aby sa predišlo neefektívnemu
vynakladaniu nákladov na duplicitnú digitalizáciu.
Inštitúcie financované z verejných zdrojov sú povinné vypracovať špecializované projekty
digitalizácie. Digitalizácia slovacikálnych textových dokumentov je centralizovaná v Slovenskej
národnej knižnici.
Právnické a fyzické osoby financované z iných ako verejných zdrojov digitalizujú svoje zbierky
spravidla na vlastné náklady. Odporúča sa, aby rozsah a postupy digitalizácie vopred
konzultovali so Slovenskou národnou knižnicou.
Všetky subjekty, financované z verejných zdrojov, ktoré plánujú digitalizáciu môžu pristúpiť
k digitalizácii len na základe projektov a vyriešení otázok dlhodobého archivovania digitálneho
obsahu a v súlade s národným programom digitalizácie a štandardami.
Kontrola duplicity a existencie digitálnej kópie prebieha aj zisťovaním informácií v relevantných
informačných
zdrojoch,
portáloch
a databázach
ako
sú
knižničné
katalógy
(www.kis3g.sk/www.ekatalogy.sk) a digitálne knižnice Európsky Register of Digitálnych
originálov, TEL, Europeana), MICHAEL a ďalšie kompatibilné zdroje.
7.3
Ľudské zdroje a školenia
Pred tým, ako môže projekt začať, je dôležité, aby bol k dispozícii personál potrebný pre prácu
na projekte. Mnohé kultúrne inštitúcie nemajú veľký počet zamestnancov s dostatkom voľného
času na vykonávanie digitalizácie mimo ich zvyčajnej pracovnej náplne. Aj vedomosti potrebné
pre projekt digitalizácie sa môžu líšiť od zručností potrebných na vykonávanie bežných úloh
5
Navýšenie o 25 pracovníkov pre SNK a participujúce inštitúcie.
Strana 23 z 67
Metodický manuál č. 5
každodennej prevádzky. Preto je potrebné identifikovať hardvérové a softvérové riešenia
potrebné pre projekt digitalizácie.
•
•
•
Zabezpečte dostatočný počet zamestnancov na realizáciu projektu
Prideľte zamestnanca ku každej úlohe alebo pracovnému balíku projektového plánu.
Identifikujte požiadavky na školenie, vrátane IT školení a inštruktáži o zaobchádzaní s
jemnými artefaktmi a dokumentmi.
•
Ak je to možné, realizujte školenia pred začatím projektu pomocou tých istých
hardvérových a softvérových riešení, ktoré sa budú používať počas projektu (firmy niekedy
ponúkajú technické riešenia zdarma na školenie, na krátky čas sa dajú prenajať aj potrebné
zariadenia)
•
Zamerajte sa skôr na malé jadro šikovných zamestnancov nadšených projektom ako na
veľkú skupinu “príležitostných” zamestnancov.
Aj keď je materiál prezentovaný v tomto odporúčaní spoločný pre všetky scenáre riadenia
digitalizácie, je potrebné túto vec zopakovať: existuje reálne riziko, že môžu vzniknúť
nenapraviteľné škody na nenahraditeľných artefaktoch a dokumentoch pri nesprávnom
zaobchádzaní.
Pokiaľ ľudia pracujúci na projekte digitalizácie nemajú dostatočné skúsenosti
z predchádzajúcich projektov, bude potrebné školenie zamestnancov. To zahŕňa dve rôzne
oblasti – použité technológie a spracovanie zdrojového materiálu.
•
Nedá sa predpokladať, že zamestnanci archívov, múzeí knižníc budú mať automaticky
všetky relevantné odborné znalosti.
•
Požiadavky na školenie sa musia identifikovať na začiatku projektu, čiže už vo fáze
plánovania.
•
Požiadavky na školenie by sa mali zahrnúť v báze poznatkov projektu digitalizácie a
treba konať podľa nich pred tým, ako bude projekt vyžadovať školenie.
•
Niektoré školenia, napríklad tie, čo sú zamerané na používanie digitálnych technológií,
sa dajú realizovať “pri práci”; iné školenia – napríklad o zaobchádzaní so zdrojovým
materiálom sa musia konať dopredu.
•
Namiesto väčšej príležitostne vytvorenej skupiny s častou fluktuáciou členov sa
uprednostňuje menšie jadro zamestnancov, ktorí sa počas celého projektu vzdelávajú a
rozvíjajú svoje praktické skúsenosti.
•
Technologické školenie sa môže pridružiť ku inému projektu v tej istej inštitúcii; školenie
môže prípadne poskytnúť aj externá agentúra zaoberajúca sa digitalizáciou.
•
Školenie kurátorov poskytujú najlepšie osoby zodpovedné za starostlivosť o originálny
materiál.
Nedostatočne vyškolený personál môže spôsobiť nešťastné a nenapraviteľné nehody alebo
škody už na začiatku projektu, to isté sa môže prihodiť, ak z projektu nejaký personál vystúpi
a začne na ňom pracovať nový. Najžiadanejším aspektom takýchto projektov je malé, dobre
vyškolené jadro.
Čas investovaný do školení na začiatku projektu sa vyplatí vo forme zvýšenej produktivity
a menšieho počtu problémov počas celého projektu.
Kvalifikačné predpoklady korpusu zamestnancov:
Vysokoškolské vzdelanie riadiacich a metodických pracovníkov by malo byť v odbore
knižničná a informačná veda, muzeológia, archeológia, informačné technológie,
Strana 24 z 67
Metodický manuál č. 5
informatika, inovácie a konkurencieschopnosť, filozofia, humanitné vedy, jazyky a
literatúra
Držitelia ECDL alebo podobného dokladu o počítačových zručnostiach sú vítaní.
Poznatky o najčastejšie sa vyskytujúcich používateľských aplikácií Microsoft, Adobe,
Macromedia aplikácií z otvoreného zdroja (open source), produktov a formátov.
Základné poznatky o štandardoch ISO, W3C, DCMI a pod., prehľad o digitalizácii,
Schopnosť aktívne sa zúčastňovať na práci štandardizačných komisií je vítaná.
Anglický jazyk, ďalšie jazyky vítané
anie kultúrneho, vedeckého a intelektuálneho dedičstva
Na procesy digitalizácie textových objektov sú potrební najmä pracovníci so zaradením
knihovník, metodik, projektový manažér, kurátor/správca zbierok a materiálov,
operátor digitalizačného stroja, operátor spracovania obrazu, operátor
štrukturálnej analýzy a rozloženia obsahu, katalogizátor, korektor, kontrolór
kvality, šofér, logistický pracovník a i.
Strana 25 z 67
Metodický manuál č. 5
7.4 Proces digitalizácie textových objektov (rukopisy,
tlačené materiály, vzácne exempláre)
7.4.1 Celkový prehľad
Konverzia textu (a zároveň obrazových materiálov) z analógovej formy na digitálnu je proces
pozostávajúci z nasledovných prvkov:
Príprava na digitalizáciu
plánovanie, výskum, príprava projektu, príprava prostredia, zariadení, softwéru
Selekcia materiálov na spracovanie (kritérium slovacity, fond simplikátov SNK. očistenie,
konzervácia, reštaurovanie, rekonštrukcia fyzického exemplára, Uskladnenie, transport
materiálov (logistika)
Získavanie obrazu a textu
Digitalizácia automatizovaná priama, nepriama z inej predlohy (mikrofilm, fotokópia
a pod.)
Digitalizácia manuálna alebo automatizovaná 2D
perspektívne digitalizácia 3D, ak je to relevantné
Orezanie, otočenie, úprava farieb a charakteristík obrazu
Oddelenie obrazu a textu
Spracovanie textu
Optické rozpoznanie znakov
Materiál pre Národný korpus slovenského jazyka
Dolovanie textu – spracovanie prirodzeného jazyka, analýza textu, kategorizácia a
zhlukovanie, extrakcia informácií
Sématické, štrukturálne označkovanie, analýza rozloženia, tvorba štrukturálnych
metaúdajov
Kontrola kvality
Kontrola duplicity, konzistentnosti, integrity, kvality zachytenia obrazu a textu, výstupu
Agregácia, metaúdaje a právne otázky
Vyhľadanie bibliografických údajov v katalógu, aktualizácia, doplnenie
Priradenie metaúdajov, jednoznačná identifikácia digitálneho objektu
Správa digitálnych práv, autority, predmetové heslá, ontológie/taxonómie
Sprístupnenie a dlhodobé uchovanie
Digitálna archivácia
Využitie technológií na sprístupnenie kultúrneho, vedeckého dedičstva pre opätovné
využitie, vzdelávanie, cestovný ruch
Strana 26 z 67
Metodický manuál č. 5
Model procesov, vstupov a výstupov digitalizácie textových objektov
7.4.2 Príprava na digitalizáciu
7.4.2.1 Príprava prostredia
Mnohé vzácne alebo citlivé materiály vyžadujú špeciálne prostredie. Je kriticky dôležité pre
akýkoľvek projekt, aby proces digitalizácie mal čo najmenší negatívny dopad na zdrojové
materiály. Vyhovujúce prostredie pre digitalizáciu je dôležité. Prostredie, v ktorom prebieha
digitalizácia, vyžaduje zabezpečenie niekoľkých parametrov –svetelné podmienky, teplota.
•
Mali by sa získať poradenstvo od expertov, aby sa čo najlepšie zabezpečili všetky
aspekty práce s originálnym materiálom. To sa týka aj prostredia, v ktorom sa digitalizuje.
•
Priestor na digitalizáciu by mal byť vyhradený projektu digitalizácie počas celého
projektu. Nadmerný pohyb a premiestňovanie pracoviska a súvisiacich zariadení, materiálov a
dokumentov môže viesť k poškodeniu, strate, alebo k iným negatívnym vplyvom na zdrojové
materiály, takisto aj k strate času pre projekt.
•
Ak majú zdrojové materiály zvláštne požiadavky týkajúce sa svetla, vlhkosti a podobne,
tieto podmienky by sa mali čo najvernejšie vytvoriť v prostredí na digitalizáciu. Pri niektorých
materiáloch, napríklad kožených dokumentoch môže krátkodobé zvýšenie vlhkosti napomôcť
uvoľneniu materiálov pred vyrovnaním na účely odfotografovania alebo skenovania.
•
Takmer vo všetkých prípadoch sa neodporúča priame vystavenie silnému svetlu (napr.
slnečnému žiareniu) na dlhší čas. Fajčenie a konzumácia jedla a nápojov v blízkosti
dokumentov/predmetov nie sú povolené – nevchádzajte do pracovného priestoru s nápojmi!
Strana 27 z 67
Metodický manuál č. 5
Špecializované digitalizačné pracovisko nemusí byť v závislosti od veľkosti a projektu
realizovateľné. Napriek tomu je potrebné mať na pamäti tu vytýčené ciele, aby sa
minimalizoval pohyb, narušenie a manipulácia s materiálmi.
V prípade vzácnych kultúrnych materiálov by diskusia s tými, ktorí sú zodpovední za
starostlivosť o materiály, nemala byť nahradená žiadnymi referenciami.
Pri zaobchádzaní a manipulácii s materiálmi je potrebné dodržiavať pravidlá uvedené
v manuáli IFLA Zásady starostlivosti a zaobchádzania s knižničným materiálom
7.4.2.2 Logistika a preprava
Na prepravu a manipuláciu s materiálmi budú potrebné ďalšie materiálne a právne
zabezpečenie:
o systém na sledovanie/monitoring
o vozíky: musia byť dostatočne pevné a ľahko manévrovateľné, pri transporte mimo sklad
uzamknuteľné, vodeodolné a bez prvkov, ktoré by mohli spôsobiť poškodenie ako sú ostré
hrany, výčnelky a pod.). Ideálne je dať vyrobiť vozíky podľa uvedených špecifikácii na mieru.
o prepravky (typizované podľa formátov kníh a vozíkov)
o transportné úžitkové vozidlá (skriňová dodávka alebo menšie nákladné auto s nosnosťou
min 1 t s prístupom zozadu, ideálne aj zboku, ideálna je vysúvacia rampa na vozíky alebo
zdvíhacia plošina, zabezpečenie proti poveternostným vplyvom)
o označenie čiarovým kódom alebo RFID čipom (t.j. čítacie zariadenia, kódovacie
zariadenia, tagy/nálepky odolné voči spracovaniam pri deacidifikácii a konzervačných
zásahoch, brány, softvér)
o pri prevoze a preberaní materiálov na digitalizáciu tretími stranami je potrebné, aby mal
príslušný subjekt uzavretú zmluvu o poistení zodpovednosti za škodu od minimálnej výšky
plnenia 30 EUR za objekt až do neobmedzenej výšky plnenia stanovenej nezávislými expertmi,
pričom popri paušálnych poistkách musí existovať možnosť stanovenia poistných súm na
jednotlivé vzácne dokumenty do výšky stanovenej expertom.
7.4.2.3 Premiestňovanie a manipulácia s originálmi
V mnohých prípadoch je materiál určený na digitalizáciu veľmi citlivý a krehký. Nahradenie
bezprostredného prístupu on-line zverejnením je v prvom rade často dôležitým dôvodom
projektu digitalizácie. Je kriticky dôležité, aby projekt prijal opatrenia, aby sa počas procesu
digitalizácie materiál žiadnym spôsobom nepoškodil. Tieto opatrenia môžu mať podobu
používania správneho hardvéru, zabezpečenia vyhovujúcej mikroklímy alebo presunu
digitalizačného centra na miesto uloženia materiálu namiesto sťahovania dokumentov a
predmetov.
•
Pred manipuláciou a prácou so zdrojovým materiálom sa poraďte s osobou, ktorá za
materiál zodpovedá.
•
Vyžaduje sa určitá flexibilnosť – nevyhovenie z pohľadu projektu digitalizácie sa dá
prekonať, zatiaľ čo poškodenie jedinečného artefaktu môže byť nenapraviteľné.
•
Ak to bude potrebné, digitalizačné zariadenie (digitálna kamera) sa môže preniesť k
zdrojovému dokumentu alebo predmetu a nemusí sa prepravovať objekt určený na
digitalizáciu.
•
Vyhnite sa rozväzovaniu kníh a spisov. Namiesto plošného skenera použite skener s
knižnou kolískou alebo digitálnu kameru.
Strana 28 z 67
Metodický manuál č. 5
•
Vždy odstráňte skoby, spinky, zvierky a iné spony; môžu poškodiť digitalizačné
zariadenie i zdrojový materiál.
•
Pred prácou s originálom sa treba poradiť s odborníkom (napr. kurátorom
dokumentu/predmetu určeného na digitalizáciu).
•
Konzultácie sa majú realizovať pred digitalizáciou, ideálne v čase výberu daného kusu
na digitalizáciu. Pokyny by sa mali zaznamenať v báze poznatkov digitalizácie a mali by sa
preštudovať pred premiestnením alebo digitalizáciou. Ak je to potrebné, schopnosti každého
možného hardvérového riešenia by sa mali prekonzultovať s odborníkom.
Poznámky/komentár
Aj keď sú tieto odporúčania zrejmé, pri zaobchádzaní so zdrojovým materiálom je nutné
a dôležité dodržiavať disciplínu.
7.4.2.4 Príprava hardvéru
Je potrebné zabezpečiť vhodné technické zariadenia na digitalizáciu, akými sú zariadenia na
zachytenie digitálneho obrazu (digitálne fotoaparáty a kamery, skenery na knihy, dokumenty
alebo mikrofilmy, audio a video hardvér) pripojené na vhodnú počítačovú platformu (počítač,
operačný systém, sieť). Je možné rozlíšiť dve rôzne metódy digitalizácie: skenovanie a
používanie digitálnych kamier/fotoaparátov, manuálnych alebo automatických.
•
Pred začatím digitalizácie sa musí nainštalovať vhodný hardvér a skontrolovať jeho
kvalita a funkčnosť.
•
Na účely ohodnotenia zariadení na zhotovenie digitálneho obrazu by sa mali použiť
relevantné skúšobné materiály.
•
Kým sa hardvérové prostredie úplne nepripraví a neodskúša na necitlivých materiáloch,
nemali by byť prítomné žiadne zdrojové materiály.
•
Pre materiál, ktorý sa nepoškodí pritlačením o tvrdý povrch, bude vhodný plošný skener
(napríklad rozviazaný tlačený materiál a rukopisy, fotografie)
•
Na účely projektu by sa mal zaobstarať čo najväčší skener. Nemalo by sa pristupovať k
mozaikovitému skenovaniu alebo k skladaniu materiálov. Je potrebné mať na pamäti, že
preprava veľkého skenera (napr. A0) nie je triviálna záležitosť.
•
Plošný skener by sa mal použiť len vtedy, ak je materiál plochý a nepoškodí sa pri
pridržaní na plochom tvrdom povrchu. Pre mnohé viazané dokumenty bude vhodný skener s
knižnou kolískou, až do príslušnej veľkosti. Mnohé materiály, ktoré nie sú ploché, ani vhodné
pre knižnú kolísku, budú na zhotovenie obrazov vyžadovať digitálny fotoaparát/kameru.
•
Pri použití skenera by malo mať toto zariadenie aspoň taký rozsah, ako je veľkosť
dokumentu/objektu, ktorý sa má skenovať.
•
Zhotovenie obrazu by sa malo realizovať pri čo najvyššom primeranom rozlíšení. Takto
budú vznikať veľké súbory, z ktorých sa môžu extrahovať menšie verzie - napríklad na účely
prezentácie cez Web. Z obrazu s nižšou kvalitou nie je za žiadnych okolností možné získať
obraz s vyššou kvalitou.
•
Definícia “primeraného” rozlíšenia závisí od povahy snímaného materiálu a od
spôsobov využitia digitálnych obrazov. Napríklad ak sa skenované obrázky majú použiť len
ako miniatúrne náhľady, skenovať sa môže pri nižšom rozlíšení. Vo všetkých prípadoch však
musí rozlíšenie umožniť zachytenie najvýznamnejších detailov dokumentu alebo predmetu. Je
ťažké odôvodniť použitie vyššieho rozlíšenia, ak skenovanie s vyšším rozlíšením neposkytuje
viac informácií ako skenovanie pri nižšom rozlíšení.
•
Zachytávaním obrazu by sa mal vytvárať formát súborov, ktorý je bezstratový, čiže
nekomprimovaný. Typicky sa používa formát TIFF (Tagged Image File Format), alternatívne
JPEG 2000 v bezstratovom režime kompresie.
Strana 29 z 67
Metodický manuál č. 5
•
Projekt by mal použiť čo najvýkonnejšiu a flexibilnú digitálnu kameru (fotoaparát), akú
je možné zaobstarať. Žiadnym ďalším spracovaním nie je možné prekonať obmedzenia
digitalizačného zariadenia. Je potrebné poznamenať, že digitálny “zoom” neposkytuje lepšiu
kvalitu obrazu, len sa ním zobrazuje menej bodov (pixelov) na jednotku plochy zobrazenia. Na
zachytenie detailov sú najdôležitejšie tieto tri parametre: počet bodov (pixelov) v obraze, bitová
hĺbka a kvalita použitých optických šošoviek.
•
Je dôležité mať k dispozícii vhodné stojany na uchytenie a pridržanie materiálov pri
digitalizácii.
•
Mala by sa použiť digitálna kamera/fotoaparát s účelovým stojanom. Kamera alebo
fotoaparát by mali byť nainštalovane na trojnohom statíve a podľa potreby by mali mať
doplnkové osvetlenie, filtre a pod.
•
Fotografická rovina a rovina materiálu musia byť rovnobežné, aby sa obraz neskreslil.
•
Súčasťou fotografických príprav musí byť vhodné osvetlenie. Je málo pravdepodobné,
že bude postačovať len okolité svetlo. Svetelné podmienky musia byť stabilné.
•
Na zníženie skreslenia farieb by sa mali použiť vhodné filtre.
•
K zariadeniam musí byť pripojený počítač s veľkým úložným priestorom. Údaje na
tomto počítači by sa mali v krátkych a pravidelných intervaloch zálohovať.
•
Ak sa musí obraz skenovať po častiach, mal by sa ponechať priestor niekoľko
centimetrov na prekrytie, aby sa zabránilo vzniku medzier medzi jednotlivými časťami. Pre
všetky časti by sa mali použiť rovnaké nastavenia, aby nedošlo ku efektu „zlátaniny“.
Použitý hardvér je hlavným obmedzením kvality konečného výstupu projektu digitalizácie.
Pokiaľ projekt sa v rámci projektu nedigitalizujú len ploché materiály, ktoré sa dajú skenovať
bez poškodenia väzby, rámov alebo samotného materiálu, bude potrebné použiť digitálnu
kameru/fotoaparát. Môže sa použiť aj analógový fotoaparát a následne z neho skenovať
diapozitívy, no digitálny fotoaparát má mnohé výhody z hľadiska času, úsilia a kvality.
Ak má projekt obmedzený životný cyklus, môže byť výhodný prenájom hardvéru. Ďalšou
alternatívou je využitie externých agentúr na realizáciu digitalizácie v prospech kultúrnych
subjektov zapojených do projektu.
7.4.2.5 Príprava softvéru
Na konverziu textových objektov je potrebný nasledovný softvér:
na sledovanie/monitoring a manažment fyzických objektov s prepojením
na systém digitálnej knižnice (softvér na manažment digitalizačného toku)
na kalibráciu
na správu farieb
na spracovanie obrazu
na spracovanie textu - optické rozpoznávanie znakov (tlačený text,
strojopis, rukopis, vedecké, hudobné a iné znaky)
na dolovanie textu a údajov (analýza, extrakcia, kategorizácia,
zhlukovanie)
na analýzu rozloženia a rozpoznávanie štruktúry
na indexovanie
na agregáciu obsahu
na prezentáciu a sprístupnenie
Strana 30 z 67
Metodický manuál č. 5
Po vytvorení digitálnej verzie objektu je pravdepodobné, že výsledný súbor bude požadovať
spracovanie pred tým, ako sa bude môcť použiť. Medzi úpravy patria korekcia farby, orezanie
obrazu, kompresia na menší súbor (napr. náhľady, obraz na prezentáciu cez web).
•
•
Kalibračný proces má začať ihneď po zapnutí skeneru alebo digitálnej kamery.
Na zužitkovanie matričných súborov bude potrebný vhodný softvér na spracovanie
obrazov. Aj keď digitalizačný hardvér je často poskytovaný s nejakým softvérom, pre projekt
digitalizácie nemusí byť dostatočne výkonný a flexibilný.
•
Požiadavky na softvér závisia na cieľoch projektu. Je vhodné poznamenať, že ak sa
matričné súbory akýmkoľvek spôsobom nezmenia, na ich spracovanie sa môžu použiť rôzne
typy softvérov. Avšak náklady na čas a úsilie môžu byť významné a zvyčajne prevýšia náklady
na výkonnejší softvérový balík.
•
Projekt by mal získať ten najvhodnejší a najvýkonnejší softvér, ktorý si môže dovoliť.
•
Absolútne minimum, ktoré musí softvér byť schopný vykonať je:
o
otvárať veľmi veľké obrazové súbory (nad 100 MB)
o
meniť rozlíšenie a hĺbku farby
o
uchovávať viaceré rôzne verzie, s rôznymi veľkosťami súborov.
o
vyberať a kopírovať časť obrazu a uchovať ho ako iný súbor.
o
exportovať obrazy v rôznych formátoch súborov, vrátane webových štandardov
JPEG a GIF.
•
Túto úroveň funkčnosti poskytuje niekoľko voľne dostupných softvérových balíkov;
avšak investícia do komerčného produktu sa oplatí z hľadiska ušetrenia času, úsilia,
dokumentácie a technickej podpory.
•
Projekt digitalizácie textu obsahuje aj zložku optického rozoznávania znakov (OCR), je
dôležitá voľba softvéru pre OCR. Všetky úkony spojené s OCR vyžadujú určitú dávku ručných
úprav a opráv, spôsob, akým tieto funkcie softvérový produkt podporuje, má významný vplyv
na čas a úsilie vyžadované projektom. Lepšie balíky OCR umožňujú prehľad a úpravy na
jednej obrazovke, navrhujú opravy zle prečítaných slov. podporujú rôzne spôsoby rozloženia
textu a obrazov, obsahujú mnohé slovníky a pod. Oplatí sa zhodnotenie viacerých
softvérových balíkov pre OCR, ak projekt zahŕňa viac ako jednu osobu za rok.
Správna voľba softvéru ušetrí projektu množstvo času a práce. Ak má projekt značné trvanie
(napr. viac ako dve osoby počas viac ako pol roka), je vhodné ohodnotiť viac softvérových
balíkov, aby sa vybral produkt, ktorý najlepšie vyhovuje požiadavkám projektu
7.4.2.6 Kalibrácia a prispôsobenie svetelných podmienok
Kalibrácia je kriticky dôležitým aspektom procesu kontroly kvality v akomkoľvek projekte
digitalizácie. Pred začiatkom projektu je potrebne vykonať kalibráciu pracovného prostredia,
monitorov, digitalizačných zariadení a svetelných zdrojov. Príslušné zariadenie sa bude musieť
často opätovne kalibrovať aj počas trvania projektu.
V prvom rade sa musí zriadiť fyzické prostredie, kde sa bude vykonávať digitalizácia.
Vyhýbajte sa fluorescenčnému osvetleniu, prirodzenému svetlu, odrazom a žiarivých farieb na
stene. V ideálnom prípade by ste mali priestor zatemniť čiernymi závesmi/roletami a tmavými
neutrálnymi stenami na elimináciu okolitého svetla tak, aby jediným svetelným zdrojom je
žiarovka skenera alebo studené svetlá použité pre digitálny fotoaparát/kameru. Ak je to možné,
udržiavajte bezprašné prostredie, v ktorom operátori nosia odev s neutrálnymi farbami a
ochranou obuvou. Zhromažďovaniu prachu sa dá zabrániť nepoužívaním kobercov. Nemusí
byť vždy možné vyhovieť všetkým týmto podmienkam, ale je kriticky dôležité, aby ste
nepoužívali okolité osvetlenie— neinštalujte zariadenie v miestnosti, do ktorej preniká priame
Strana 31 z 67
Metodický manuál č. 5
slnečné svetlo a kde je fluorescenčné osvetlenie! Sú potrebné konzultácie s konzervátormi´,
aby sa nastavili stabilné podmienky teploty a vlhkosti, ktoré sú vhodné pre originálne diela.
Po nastavení fyzického prostredia je potrebné kalibrovať monitor pracovnej stanice na začiatku
každého dňa na zabezpečenie konzistentnosti nastavení kontrastu, jasu a hodnoty gamma.
Keďže monitory majú čoraz lepší výkon a kvalitu, nastavenia gamma by mali zostať nemenné,
ale s tým sa nedá vždy počítať. Jednoduchý kalibračný program obsiahnutý v softvéri na
spracovanie obrazu ako je napr. PhotoShop môže byť nápomocný pri realizácii takejto
kalibrácie. Je potrebné ustanoviť nastavenia pre kontrast a jas na začiatku projektu v rámci
prispôsobeného priestoru a zabezpečiť, aby ich všetci operátori dodržiavali. Konzistentnosť
digitálnych obrazov sa zaručí uplatňovaním jednotných pravidiel s príslušnými nastaveniami.
Údaje o týchto nastaveniach digitalizačného zariadenia by sa mali zobrazovať ako súčasť
metaúdajov asociovaných s digitálnym súborom. Pri náročnejších dielach (inkunábuly, rukopisy
atď,) by sa mal používať spektrofotometer a klibračný softvér ako napr. Eye-One Monitor
(pozrite si http://www.gretagmacbeth.com).
Zariadenie používané v procese digitalizácie by sa malo kalibrovať pravidelne. Väčšinu
plošných a filmových skenerov dokážu vykalibrovať len ich výrobcovia, keďže kalibrácia sa
odohráva viac na hardvérovej ako softvérovej úrovni. Vysokokvalitné digitálne kamery sa
musia kalibrovať častejšie, nakoľko ohnisková vzdialenosť a osvetlenie sa môžu pri
každodennom používaní meniť. Odporúča sa definovať kalibračné nastavenia na začiatku
každej dávky. Bez ohľadu na fakt, či sa digitalizácia realizuje interne alebo externe, mali by sa
uplatňovať príslušné pravidlá alebo zmluvné dojednania na zabezpečenie priebežnej kalibrácie
digitalizačných zariadení.
7.4.2.7 Správa farieb
Každá organizácia, ktorá má v úmysle verne reprodukovať farby zo zdrojových materiálov,
musí mať zavedený systém na správu farieb (color management system, CMS) vo všetkých
hardvérových zariadeniach od skenovacích zariadení až po monitory či tlačiarne. Systém na
správu farieb je množina softvérových nástrojov a hardvéroých meracích zariadení (snímače a
pod.), ktoré pracujú v súčinnosti s cieľom previesť široký rozsah originálneho farebného
priestoru do užšieho rozsahu obrazovky alebo výstupu na médiu (papier a pod.) tak, aby sa
zachovala primeraná a vnímateľná konzistencia a kvalita. Tieto systémy sú komplexné,
vyvíjajúce sa a zachádzajú mimo rámec tejto metodiky. Na dosiahnutie požadovaných
kvalitných výsledkov pri distribúcii obrazov (praktickým príkladom môže byť faksimile
historického dokumentu) je dôležité generovať hodnoverné farby, pričom na tento účel musí
byť zavedená efektívna forma komunikácie digitalizačného experta (napr. dodávateľa
zariadenia), prevádzkovateľa digitalizačného zariadenia a litografa, tlačiarenského experta,
grafika a pod. Súčasťou komunikácie je výmena ICC profilov (ICC je Medzinárodné
konzorcium pre farbu), ktoré slúžia na uchovanie informácií vo farebných priestoroch.
Linky:
Medzinárodné konzorcium pre farbu - International Color Consortium (ICC):
http://www.color.org/
Systém ColorSync spoločnosti Apple: http://www.apple.com/colorsync/
X-Rite: http://www.xrite.com
Strana 32 z 67
Metodický manuál č. 5
Electronics for Imaging: http://www.efi.com/
GretagMacbeth: http://www.gretagmacbeth.com/
Test registrácie farieb www.imatest.org
7.4.2.8 Referenčné vzory, škály a farby (terčíky)
Terčíky s referenčnými farbami poskytujú mechanizmus na meranie procesu zachytávania
obrazov a textu. Terčík je vzor so známymi charakteristikami, ktoré sa používajú na vytvorenie
východiskovej línie alebo normy na hodnotenie procesu fotografovania. Projekt digitalizácie by
mal mať zavedenú pravidlá o nevyhnutných terčíkoch a škálach, kedy sa budú používať a ako
bude kontrolovaná ich kvalita. Bežne sa používajú dva typy: terčíky na zistenie vernosti
zachytenia hrán (napr. deformácia strán obdĺžnika pri okrajoch záberu) a rozlíšenia a schémy s
referenčnými farbami alebo škálou sivej farby
Príklady:
Terčíky pre rozlíšenie a farebné charakteristiky.
Najbežnejšie testovacie terčíky pre rozlíšenie:
•
•
•
•
AIIM schéma na testovanie skenerov #2
RIT alfanumeický testovací objekt
Štandard IEEE167A.1995
Štandardná testovacia schéma IEEE pre faksimile
Najbežnejšie terčíky s referečnými farbami:
•
•
•
Pomôcky pre separáciu farieb a referenčná škála sivej Kodak Q13 a Q14
Terčík s referenčnými farbami Kodak Q60
Referenčné schémy so škálou sivej Kodak
Musí za zabezpečiť, aby použité terčíky boli vhodné a príslušné pre snímaný materiál, keďže
na priesvitné materiály, snímky a niektoré druhy reflektívnych materiálov sa musia použiť
odlišné terčíky. Na začiatku projektu sa musia použiť nové terčíky, nakoľko časom strácajú
svoje vlastnosti a tým presnosť pre referenčné merania. Farebné terčíky sú vyrobené z
organických farbív, ktoré pri starnutí po čase podliehajú degradácii. Príslušný terčík je potrebné
zoskenovať aspoň raz denne, na začiatku novej dávky materiálov alebo pri zmene nastavení
zariadenia z akéhokoľvek dôvodu. V niektorých projektoch je presadený názor, že je potrebné
pridávať terčíky do každého obrazu, tento spôsob sa nedá uplatniť pre nereflektívne formáty a
vyplývajú z neho zvýšené nároky na zdroje, keďže obrázky sa musia pred zobrazovaním
používateľovi orezať (aj keď sa tento proces dá zautomatizovať). Zahrnutie škály do každého
obrazu má význam a hodnotu. Ak nebude na každom obrázku, môže byť postačujúce zahrnúť
ho do prvéhho záberu dávky alebo po zmene nastavení digitalizačného zariadenia (napr.
výška polohy kamery, svetelné podmienky).
7.4.3 Konzervačno-reštaurátorská prehliadka a zásah
Strana 33 z 67
Metodický manuál č. 5
Procesy digitalizácie budú integrované s fyzickou ochranou dokumentov a chemickotechnologickými procesmi. Priama fyzická ochrana knižničných a archívnych dokumentov (nie
preventívna) má za cieľ ručnými, ale aj vysokokapacitnými procesmi zabezpečiť zlepšenie
niektorej rizikovej vlastnosti dokumentu bez toho, aby sa menil jej fyzický vzhľad. Základnou
požiadavkou
na tieto procesy je zachovať originalitu dokumentu a zabezpečiť jeho
používateľnosť a v konzervačných fondoch zabezpečiť ich dlhodobú stabilitu s minimálnou
mierou rozpadu (prirodzené starnutie).
Účinná a efektívna komplexná ochrana si vyžaduje niekoľkonásobné zvýšenie kapacít
ochrany. V opačnom prípade je proces degradácie písomného dedičstva rýchlejší ako jeho
záchrana pre budúce generácie. Inými slovami, kyslý papier sa rozpadne skôr, ako ho
stihneme zachrániť. Program komplexnej ochrany sa musí orientovať na postupné
vybudovaniu konzervačného priemyslu, ktorý popri laboratórnych zásahoch umožní ošetriť a
zachrániť väčšie množstvo dokumentov6.
Najdôležitejšie technologické postupy procesu komplexnej ochrany dokumentov sú tieto:
čistenie
dezinfekcia a sterilizácia
neutralizácia (deacidifikácia)- nevodná a vodná neutralizácia
laminovanie
klasické reštaurovanie
Čistenie
Najzákladnejším konzervačným úkonom je čistenie dokumentov, ktoré sú znečistené
prachom, ktorého zloženie je veľmi rôznorodé a nepriaznivo vplýva na chemickú stabilizáciu
dokumentu. Prach je rizikovým faktorom aj pre človeka, ktorý s ním manipuluje, resp. pre
čitateľa-užívateľa. Zároveň je živnou pôdou pre mikroorganizmy, ktoré sa tu následne
rozmnožujú: plesne, huby, baktérie a vírusy. Čistenie je závislé na pracovnej sile, lebo
vzhľadom na povahu dokumentov a ich rozmanitosť neexistujú nejaké výkonné mechanické
zariadenia a spôsoby. Procesy si vyžadujú zvláštne priestory a dôkladné hygienické
zabezpečenie pracovísk. Predpokladané kapacity a náklady sú uvedené v prílohe č. 1 –
tabuľka č. 8 až 10.
Dezinfekcia a sterilizácia
Dezinfekcia a sterilizácia je konzervátorský proces, ktorý sa využíva predovšetkým pri
rozsiahlom biologickom znečistení dokumentov a priestorov počas mimoriadnych udalostí.
Má za cieľ znížiť množstvo aktívnych spór v priestore. Za predpokladu vhodných skladov,
biologické znečistenie nehrozí a tieto procesy sa viac alebo menej používajú ako prevencia.
Používa sa pred mechanickým čistením. Aktívne biologické znečistenie (zaplesnenie) je
škodlivé pre postihnuté materiály, u ktorých dochádza k znehodnoteniu funkčnosti dokumentu
– stratou pevnosti, zmenou farby, resp. vznikom nových farebných škvŕn. Pre ľudí je zvýšenie
obsahu spór plesní v ovzduší výrazne nepriaznivým faktorom, ktorý vedie k alergiám,
bronchitídam a iným patologickým záťažiam organizmu. Využitie sterilizácie ako procesu
spojeného s úplným vykynoženia plesní si vyžaduje zložité zariadenia, ktoré vylúčia uvoľnenie
6 Predpokladaný denný výkon je daný parametrami použitého procesu. Predbežne program počíta s 1 pracovnou zmenou. Každá
zmena navyše si vyžaduje navýšenie sledovaných položiek 2x-3x.
Počet pracovníkov – je údaj vychádzajúci z technologických podmienok procesu a prevádzkového zabezpečenia (logistiky).
Nadobúdacie náklady – sú náklady na vybudovanie a zariadenie uvedených technologických procesov (prístroje, m2 potrebnej
plochy, predpokladaná cena 1 m2 plochy je v štúdii IKC).
Prevádzkové náklady – skladajú sa z 2 častí: náklady na pracovnú silu a náklady na materiálové zabezpečenie. Mzdové náklady
sa odvíjanú od priemerného mesačného hrubého platu v SR vo výške asi 20 000.-Sk. V tejto štúdii je použitý pomer medzi mzdami
a materiálovými nákladmi 80 : 20 (niektoré technológie si budú vyžadovať iný pomer v prospech materiálových nákladov).
Strana 34 z 67
Metodický manuál č. 5
karcinogénu (etylénoxidu) do ovzdušia. Plánujú sa 2 zariadenia so strednou kapacitou. Do
úvahy prichádzajú aj procesy založené na vytvorení inertného bezkyslíkového prostredia, resp.
vybudovanie depozitov s regulovanou nízkou teplotou. Predpokladané kapacity a náklady sú
špecifikované v príslušnom projekte.
Neutralizácia
Neutralizácia je hlavným konzervačným procesom, ktorý sa používa na dokumenty vyrobené
po roku 1850. Cieľom neutralizácie je odstránenie kyslosti papiera, ktorá je v papieri z výroby,
t. j. túto kyslosť majú papiere vyrábané až do rokov 1980. Kyslosť papiera výrazne
znehodnocuje pevnosť papiera, až po určitom čase sa papier sám rozpadne. Priemerný čas
zániku papierov od dátumu ich výroby v kyslom prostredí je asi 150 rokov. Nevodná
neutralizácia má povahu masového procesu (minimálne 20 000 kníh/rok). Využívajú sa
neutralizačné systémy na báze organických látok a rozpúšťadiel. Predpokladaný denný výkon
nevodnej neutralizácia je 80 knižných dokumentov (za predpokladu dolnej hranice výkonu
deacidifikačnej jednotky/jednotiek). Vodná neutralizácia vo vodnom prostredí je výhodná pre
archívne dokumenty, kde sa dosahujú aj vysoké výkony. Predpokladaný denný výkon vodnej
neutralizácie je 1500 listov papiera z toho 1400 listov z knižných dokumentov a 100 listov
archívnych dokumentov.
Laminovanie
Laminovanie je proces ktorý sa používa na spevnenie už chatrných papierov, aby sa dali
použiť obmedzene (na digitalizáciu, mikrofilmovanie a pod.). Predpokladáme, že v rokoch 2009
– 2013 to bude ručný proces, vrátane procesov, ktoré sú spojené s lamináciou (neutralizácia
vo vodnom prostredí sušenie, vyrovnávanie a pod.). Odhadované kapacity laminácie sú
uvedené v prílohe č. 1 – tabuľka č. 13.
Klasické reštaurovanie
Klasické reštaurovanie je ručný proces na záchranu najstarších, najvzácnejších a veľmi
poškodených dokumentov. Príprava procesu a samotný proces je závislý na vysoko odbornej
a vzdelanej pracovnej sile. Časť procesu sa môže obmedzene kombinovať aj s masovými
procesmi (preventívna dezinfekcia, čistenie).
O každom zásahu, vrátane digitalizácie, sa vykoná záznam do daného bibliografického
záznamu v poli 583 – Informácia o akcii.
7.4.4 Operácie a úkony spracovania textových dokumentov
Pri digitalizácii textových objektov je potrebné vykonať tieto operácie a úkony (postupné kroky):
1. Príjem dodaných dokumentov v akvizícii
2. Evidencia dodaných dokumentov v akvizícii (informačný systém a softvér na
manažment digitalizačného toku)
3. Pridelenie čiarového kódu/resp RFID jednotlivému exempláru (informačný systém a
softvér na manažment digitalizačného toku)
4. Pridelenie jednoznačnej identifikácie každému samostatnému fyzickému objektu
(informačný systém a softvér na manažment digitalizačného toku)
5. Nalepenie čiarového kódu/RFID
6. Zaznamenanie údajov do RFID (čiarový kód, vybraté metadáta, konzervačné údaje)
(informačný systém a softvér na manažment digitalizačného toku)
Strana 35 z 67
Metodický manuál č. 5
7. Príprava dokumentov na vstupné akvizičné spracovanie
8. Vyhotovenie skráteného katalogizačného popisu (informačný systém a softvér na
manažment digitalizačného toku)
9. Výber slovacík na digitalizáciu zo zdrojov – povinný výtlačok, kúpa, výmena, dar (status
- informačný systém digiproces)
10. Fyzická kontrola stavu exemplára (rozrezanie spojených strán, zhodnotenie formátu,
oddelenie samostatných príloh do osobitného obalu s exemplárom)
11. Chemicko-biologická inšpekcia (zaznamenanie informácií potrebných pre chemickobiologickúa fyzickú ochranu podľa štandardu „Ochranné a digitalizačné úkony Preservation & Digitization Actions: Terminology for MARC 21 Field 583”) (informačný
systém a softvér na manažment digitalizačného toku)
12. Uloženie vybratých slovacík na digitalizáciu do prepravného kontajnera
13. Prevoz kontajnera k digitalizačnému robotu (antény RFID)
14. Vyhotovenie záznamu o odovzadní a prebratí obsahu kontajnera medzi operátorom
akvizície a operátorom digitalizácie v informačnom systéme (informačný systém a
softvér na manažment digitalizačného toku)
15. Digitalizácia (komplexný technologický proces)
16. Uloženie digitálneho objektu do adresára Katalogizácia (administrátor digitalizácie)
(informačný systém a softvér na manažment digitalizačného toku)
17. Určenie objektov na katalogizáciu do osobných podadresárov v adresári Katalogizácie
(manažér katalogizácie) (informačný systém a softvér na manažment digitalizačného
toku)
18. Spracovanie úplného bibliografického záznamu na základe digitálneho objektu
exemplára (informačný systém a softvér na manažment digitalizačného toku)
19. Vyhľadanie digitálneho objektu (katalogizátor) (informačný systém softvér na
manažment digitalizačného toku)
20. Otvorenie digitálneho objektu (katalogizátor) (informačný systém softvér na manažment
digitalizačného toku)
21. Vytvorenie bibliografických popisných metaúdajov MARC 21 podľa digitálneho objektu
(bibliogaf) (informačný systém a softvér na manažment digitalizačného toku)
22. Klasifikácia objektu podľa fyzickej formy a obsahu (MDT, Konspekt, Klasifikácie a
riadené slovníky, hesláre, tezaury) (informačný systém a softvér na manažment
digitalizačného toku)
23. Záznam informácie o existencii digitálnej verze popisovaného titulu (MARC 21, tag 530)
(informačný systém)
24. Vloženie jednoznačnej identifikácie digitálneho objektu do záznamu MARC 21
(informačný systém)
25. Vytvorenie holdingového záznamu MARC 21
26. Vytvorenie záznamu exemplára MARC 21
27. Vloženie linky – spojenie záznamu MARC 21 s digitálnym objektom (MARC 21 tag 856)
(softvér na manažment digitalizačného toku)
Strana 36 z 67
Metodický manuál č. 5
28. Vloženie URL adresy digitálnej verzie exemplára do záznamu MARC 21 (softvér na
manažment digitalizačného toku)
29. Uloženie záznamu do databázy Virtua
30. Synchronizácia IKS Virtua s systémom digitálnej knižnice (Konverzia on fly MARC 21 –
XML, kvalifikovaný Dublin Core) (IKS a softvér na manažment digitalizačného toku)
7.4.5 Digitalizácia obrazu
7.4.5.1 Parametre digitalizácie
Medzi základné parametre digitalizácie patrí rozlíšenie, farebné charakteristiky a bitová hĺbka a
formát/veľkosť súboru.
V zásade platí, že farebné obrázky a obrázky v škále sivej sa ako norma odporúča minimálne
rozlíšenie 300 dpi vzhľadom na formát originálu. Pre rukopisy alebo mapy s jemnými čiarami
a malými prvkami môže byť potrebné rozlíšenie 400 dpi. Bitonálne skeny vyžadujú 600 dpi
nakoľko pri takomto čiernobielom skenovaní sa môžu stratiť (zmenou na biely pixel) časti
znakov, ak daný obrazový bod neobsahoval dostatok tónu na to, aby sa uložil ako čierny.
Použitie vyšších úrovní rozlíšenia je len málo nápomocné, nakoľko vyššie uvedené
nadštandardné nastavenia spravidla zabezpečia viditeľnosť a čitateľnosť všetkých podstatných
in formácií. môže vzniknúť aj situácia pri špeciálnych potrebách výskumu ako je napríklad
skúmanie štruktúr papiera, ktoré vyžadujú výrazné zväčšenie, avšak táto metodika sa zaoberá
najmä konverziou a extrakciou textových informácií a na tieto účely postačia úrovne rozlíšenia
od 400 do 600 DPI.
Na výpočet rozlíšenia potrebného na zosnímanie textu sa odporúča použiť jednoduchý vzorec
na výpočet hodnoty (indexu) kvality digitálneho obrazu navrhnutý, prijatý a prepracovaný
inštitúciou Cornell University v USA. Tento prístup je vysvetlený v manuáli Tutorial:
Determining Resolution Requirements for Reproducing Text-based Material. Tento vzorec
vychádza z prevedenia metódy na výpočet indexu kvality vyvinutej pre štandardy ochranného
mikrofilmovania do digitálneho sveta. Vzorec na výpočet IK dáva do vzťahu kvalitu (IK),
veľkosť znaku v mm a rozlíšenie (dpi). Podobne ako v prípade štandardu na ochranné
mikrofilmovanie, v digitálnej doméne má index kvality nasledovné úrovne: ťažko čitateľné až
nečitateľné (3,0), hraničná hodnota (3,6), dobrá kvalita (5), výborná kvalita (8,0)
Výpočet indexu kvality:
Index kvality IK pre bitonálny tlačený text škálu sivej/farbu
IK= (dpi x .039h)/3
h = 3IK/.039dpi
dpi = 3IK/.039h
Index kvality IK pre tlačený text v škále sivej/farbe
IK = (dpi x .039h)/2
Strana 37 z 67
Metodický manuál č. 5
h = 2IK/.039dpi
dpi = 2IK/.039h
Bitová hĺbka pri digitalizácii obrazu/textu vo farbe by mala byť 8 bitov na kanál, teda pri
farebnom priestore RGB 24 bitov, pri škále sivej minimálne 8 bitov.
Formát súboru s originálnym obrazom pri digitalizácii obrazu/textu je podľa odporúčaní
MINERVA formát TIFF bez kompresie alebo s bezstratovou kompresiou, alebo formát
JPEG 2000 s bezstratovou kompresiou.
Formáty TIFF a JPEG 2000 sú vhodné aj na účely dlhodobej archivácie, pričom existuje
možnosť obojstrannej medzi formátmi JPEG 2000 a TIFF.
7.4.5.2 Používanie skenerov
Plošné skenery sú najbežnejším nástrojom na digitalizáciu. Najrozšírenejšie modely A4 a A3
sú relatívne lacné, nenáročné na použitie a ak sa raz zabehne pracovný tok, zvládnu relatívne
veľké množstvo materiálu. Veľkoplošné skenery (až do A0) a skenery vybavené knižnými
kolískami sú veľmi drahé a požadujú dlhodobé projekty/programy, veľkokapacitnú digitalizáciu
alebo nadrozmerný zdrojový materiál.
•
Na plošnom skeneri snímajte len materiály, ktoré sa nepoškodia pri pritlačení o pevný
povrch. V prípade pochybností sa poraďte s odborníkmi.
•
Zabezpečte neustálu a úplnú čistotu sklenenej skenovacej plochy, čím zvýšite kvalitu
obrazu a chránite materiál pre znečistením.
•
Ak je to možné, skenujte len také dokumenty/predmety, ktoré sa celé zmestia na plošný
skener alebo skener vybavený knižnou kolískou.
•
Ak je potrebné skenovať dokument/predmet po častiach, zabezpečte, aby zostalo
dostatočné prekrytie umožňujúce znovu zmontovať obraz pri budúcom spracovaní (pomocou
mozaikovacieho softvéru).
•
Otestuje skener a jeho výstup na necitlivom materiáli pred tým, ako začnete skenovať
originálny zdrojový materiál. Používateľov tiež vyškoľujte pomocou toho istého necitlivého
materiálu.
•
Zaveďte konvenciu prideľovania názvov súborom vytvorených skenerom - napríklad
podľa existujúceho katalogizačného systému – a/alebo pridávania názvov s významom. Názov
súboru by mal umožniť mapovanie so zdrojovým dokumentom/predmetom.
•
Aby sa maximalizovala schopnosť prenosu súborov cez viaceré počítačové platformy,
mal by sa používať taký názov súboru, ktorý má osem znakov a po ktorom nasleduje
pozostávajúce z maximálne troch znakov.
•
Pred stanovením toku práce alebo dávkového pracovného procesu vykonajte ucelený
proces skenovania a spracovania obrazu, aby ste sa uistili, že výsledkom toku práce je to, čo
sa očakáva.
•
Rozlíšenie a bitová dĺžka by mali byť čo najvyššie, ako je prípustné podľa dôvodu
projektu, obmedzení skenera, podmienok na ukladanie údajov a atribútov zdrojového
materiálu.
•
Skenujte pri maximálnej vhodnej hĺbke farby, s tými istými limitmi uvedenými vyššie.
•
Denne zálohujte pevné disky, na ktorých sú uložené údaje.
•
Ďalej je dôležitá kontrola kvality digitálneho obrazu a metaúdajov. V čase skenovania je
najlepšie zaoberať sa otázkou kvality. Je potrebné mať na pamäti nasledovné body:
Strana 38 z 67
Metodický manuál č. 5
o
Pre jednotlivé skupiny dokumentov/predmetov a ich častí sa musí stanoviť
minimálne rozlíšenie.
o
Preskúmajte zoskenovaný výstup na obrazovke, na papieri, premietacom a v
akomkoľvek inom formáte, v ktorom sa môže používať (napríklad na mobilnom zariadení)
o
Uistite sa, že obrazovky (monitory) sú spoľahlivo vykalibrované. Zabráňte tomu,
aby na obrazovke alebo v jej okolí bol iný materiál, ktorý môže mať vplyv na vnímanie
dokumentu/predmetu.
o
Matricové obrazy sa musia vytvárať s viditeľnými mierkami, farebné obrazy
alebo obrazy so stupnicou šedej farby musia obsahovať aj štandardizované referenčné
hodnoty.
Samotné skenovanie je relatívne nenáročná operácia. Je však užitočné vytvoriť si pracovný tok
na zvýšenie efektívnosti a zníženie výskytu chýb.
Skenovanie nadrozmerných dokumentov/objektov alebo skenovanie pri veľmi vysokej kvalite
vyžaduje veľké investície času a úsilia na jeden dokument/objekt. Tie je možné znížiť
používaním hardvéru, ktorý vyhovuje povahe dokumentu (napr. veľkoplošný skener, knižná
kolíska). V prípade, že nie je k dispozícii veľa prostriedkov na hardvér, vyhraďte na skenovanie
dostatok času.. Nemalo by sa zanedbať školenie o práci s nadrozmernými a nepravidelne
tvarovanými materiálmi.
7.4.5.3 Používanie digitálnych kamier/fotoaparátov
Používanie digitálnych kamier/fotoaparátov sa stáva v digitalizačných projektoch čoraz
bežnejšie. To vypovedá o ich flexibilite, hlavne ohľadom schopnosti digitalizovať neploché
objekty, akými sú zviazané knihy, poskladané alebo pokrčené rukopisy a trojrozmerné
predmety. Normálne sa však pri digitalizácii zviazaných kníh a nadrozmerných materiálov ako
mapy a nákresy uprednostňuje skener vybavený knižnou kolískou
•
Pri obmedzenom rozsahu projektu je potrebné zvážiť prenájom vysoko-kvalitnej
kamery/fotoaparátu.
•
Digitálnu kameru/fotoaparát nainštalujte na motorizovaný vozík s možnosťou
vertikálneho posuvu a umiestnite dokumenty/predmety, ktoré sa majú digitalizovať, na pevný
podklad pri špeciálne prispôsobenom osvetlení.
•
Zorganizujte cvičenie špecialistom na digitálne fotografovanie – rozdiel medzi
obrázkami zhotovenými amatérom a tými istými fotografiami zhotovenými profesionálom môže
byť obrovský.
•
Vytvorte také pozadie, aby dokument/predmet na ňom vynikal.
•
Zabráňte zmenám svetelných podmienok medzi jednotlivými zábermi medzi obrazmi
rôznych častí alebo strán dokumentu/objektu – toto môže viesť k mylným dojmom z variácie
farieb.
•
Používajte apochromatické šošovky a vhodné filtre, aby nedošlo k nesprávnej
registrácii farieb a skresleniu obrazu.
Stúpajúce používanie digitálnych kamier/fotoaparátov v digitalizácii odráža ich dostupnosť ako
všeobecne rozšírený konzumentský produkt s klesajúcou cenou. Stále však zostáva veľký
rozdiel v cene aj kvalite medzi profesionálnymi digitálnymi kamerami/fotoaparátmi a masovo
vyrábanými konzumentskými produktmi.
Strana 39 z 67
Metodický manuál č. 5
7.4.5.4
Automatizácia digitalizácie
Vysoká produktivita sa dá dosiahnuť použitím robotizovaného hardvéru a automatizáciou
procesov pomocou softvéru. V oblasti zachytávania obrazu sú na trhu k dispozícii niekoľké
riešenia ako 4DigitalBooks, Kirtas, Treventus, Quidenus, s rôznou cenou a úrovne
inovatívnosti. Každé automatické alebo manuálne zariadenie musí spĺňať minimálne
špecifikácie, ideálna situácia je pri vytvorení možností výberu z rôznych zariadení, ktoré sa
obstarajú pre digitalizačné centrum, pretože zatiaľ na trhu neexistuje žiadne univerzálne
zariadenie pre všetky typy a formáty materiálov a každé z dostupných zariadení má svoje
špecifiká.
7.4.6 Mikrofilmovanie a hybridné technológie
Napriek mohutnému vývoju digitálnych technológií zostáva mikrofilmovanie stále tradičnou a
zatiaľ najspoľahlivejšou metódou ochrany dokumentov a zachovania ich obsahu, s výdržou
rádovo v stovkách rokov. S príchodom nových digitálnych technológií sa mení prístup
k dlhodobému uchovávaniu dokumentov, z ktorých sa vyrábajú mikrofilmové kópie vytvorené
hybridnými technológiami z digitálneho obsahu. Na jednej strane je možná tzv. nepriama
digitalizácia dokumentov z ich digitálnej predlohy, na druhej strane je možnosť dlhodobého
uchovávania digitálnych reprodukcií na mikrofilme v rámci celkovej konzervačnej stratégie
Mikroformy sú najodolnejším a najtrvácnejším médiom, ak sú skladované v správnych
podmienkach. V prípade potreby sa dajú mikrofilmy konvertovať naspäť do digitálnej formy
pomocou mikrofilmových skenerov. Existujú aj riešenia umožňujúce tvorbu farebných
mikrofilmov z predlôh vysoko kvalitných farebných digitálnych obrazov.
Pri digitalizácii mikroforiem je potrebné vziať do úvahy pomer zmenšenia obrazu na mikrofilme
alebo inej mikroforme vzhľadom na originál, aby sa dosiahlo cieľové rozlíšenie minimálne 300
DPI, ideálne 400 DPI. Napríklad ak sa má originál s rozmermi 24 × 36 cm zaznamenať na
médium s rozmermi 24 × 36 mm, cieľové rozlíšenie sa musí vynásobiť faktorom zmenšenia 10
pri skenovaní filmu; inými slovami, mikroformu je potrebné skenovať pri rozlíšení 3 000, resp. 4
000 dpi. Na presné určenie správneho rozlíšenia skenu je potrebné poznať veľkosť
originálneho objektu alebo aspoň vykonať kvalifikovaný odhad (napr. veľkosť fólia nepresahuje
40 cm), aby nikdy nedošlo k riziku nižšieho cieľového rozlíšenia aspoň 300 dpi vzhľadom na
veľkosť originálu.
Existuje všeobecná zhoda, že ak sa vyžaduje vysoko verná kópia dokumentu na účely
vytvorenia kvalitnej náhrady (faksimile), musí sa použiť rozlíšenie 600 DPI.
Rozlíšenie 300 DPI poskytne, aj keď nie v všetkých prípadoch, rozpoznanie znaku
malého písmena s veľkosťou štyri body a viac.
7.4.6.1 Formáty a veľkosť súborov
Digitálne obrazy sa tvoria štandardne vo formáte TIFF bez kompresie. Pri farebných
materiáloch sa použije bitová hĺbka 24bitov (vo farebnom priestore RGB je to 8 bitov
na kanál).
Výpočet približnej veľkosti súborov (v bajtoch):
Strana 40 z 67
Metodický manuál č. 5
Približná veľkosť materiálov produkovaných skenerom sa dá určiť pomocou nasledovného
výpočtu:
VS = (VZ x ŠZ x BH x dpi2)/8
VS = veľkosť súboru
VZ = výška zdroja (v palcoch; 1 palec = 2,54 cm)
ŠZ = šírka zdroja (v palcoch)
BH = bitová hĺbka
dpi = body na palec
/8 – pretože 8 bitov = 1 bajt, jednotka merania veľkosti súborov
V praxi to znamená, že priemerný obrázok v škále sivej (bitová hĺbka 8), s veľkosťou strany A4
s presahmi (34 x 25 cm = 13,4 x 10 palcov), snímaný pri rozlíšení 400 dpi bude mať veľkosť
cca 20,4 megabajtov. K tomu je potrebné pripočítať veľkosť derivátov obrazu po spracovaní
(vylepšený, orezaný, komprimovaný obraz plus náhľad má cca 50 percent pôvodného obrazu
TIFF), t.j. nároky na uloženie jednej strany s uvedenými parametrami po zahrnutí
dvojnásobného zálohovania sú 60 MB na stranu, t.j pri rádovo 200 miliónoch strán je to
celková požiadavka na skladovanie. je cca 11,17 PB. Realistický odhad podľa metodiky
nemeckej Spoločnosti pre výskum je pri priemerných 25 MB na obraz, 220 stranách na knihu ,
teda 5,5 GB na knihu, alebo 1 TB pre 182 kníh.
Kvôli veľkým súborom je kompresia zásadná pre doručovanie obsahu pre používateľov.
Odvodené súbory vo formáte JPEG/PDF zaručujú interoperabilitu v danej komunite
a systémoch sprístupnenia cez Internet. V niektorých prípadoch sa na rýchle zobrazenie
(napríklad výsledkov vyhľadávania) používa malý náhľad, na základe ktorého si používateľ
prevezme veľký súbor po nájdení príslušnej časti dokumentu.
7.4.7 Generovanie plných textov
7.4.7.1 Formáty na uloženie textového obsahu
Textový dokument je v tomto prípade synonymický pojem pre textový obsah, resp. digitálny
obsah založený na texte alebo, textovej forme.
Textový dokument by mal byť vytvorený a riadený v štruktúrovanom formáte, ktorý je vhodný
pre generovanie HTML alebo XHTML dokumentov pre doručovanie.
Najvhodnejšia voľba pre uchovávanie textového dokumentu je vo forme založenej na definícii
SGML zodpovedajúcej publikovanej DTD schéme alebo na definovanom XML dokumente.
Textový obsah môže byť uchovaný aj v tzv. jednoduchých textových dokumentoch (plain files)
alebo vo vnútri nejakého druhu databázy.
V niektorých prípadoch môže byť pre uchovávanie textových dokumentov použitý súkromný
formát Adobe Portable Document Format (PDF). PDF súbory sú kompaktné a môžu byť
Strana 41 z 67
Metodický manuál č. 5
zobrazované a tlačené za použitia voľne dostupného softvéru Adobe Acrobat Reader. Pri
použití súkromného formátu vzniká potencionálne nebezpečenstvo prevzatia takéhoto
dokumentu (napr. treťou stranou a pod.), a preto by malo byť zaistené preskúmanie migračnej
stratégie, ktorá umožní v budúcnosti prechod na otvorené štandardy.
Štandardy:
ISO 8879:1986. Information Processing – Text and Office Systems – Standard Generalized
Markup Language (SGML).
HTML 4.01 HyperText Markup Language - http://www.w3.org/TR/html401
XHTML 1.0 The Extensible HyperText Markup Language - http://www.w3.org/TR/xhtml1/
Extensible Markup Language (XML) 1.0 – http://www.w3.org/TR/REC_xml/
Adobe Portable Document Format (PDF) – www.adobe.com
7.4.7.2 Kódovanie znakov
Kódovanie znaku je algoritmus na prezentáciu znakov v digitálnej forme na základe priradenia
sekvencií číselných kódov znakov (t.j. čísla zodpovedajúce znakov v repertoári) na sekvencie
8-bitových hodnôt (bajtov alebo oktetov). Každá aplikácia vyžaduje uvedenie informácie
o kódovaní znakov použitom v dokumente, aby mohla interpretovať bajty, ktoré tvoria daný
digitálny objekt. Kódovanie znakov, ktoré využívajú textové dokumenty by malo byť explicitne
uvedené, napr v prípade XML dokumentov by malo byť kódovanie znakov oznámené
v deklarácii XML.
Norma:
The Unicode Consortium. The Unicode Standard, Version 4.0.0, defined by: The Unicode
Standard, Version 4.0 (Boston, MA, Addison- Wesley, 2003. ISBN 0-321-18578-1)
http://www.unicode.org/versions/Unicode4.0.0/
7.4.7.3 Označkovanie štrukturálnych metaúdajov dokumentov
Projekt na vytvorenie metaúdajového nástroja Metadata Engine Project (METAe) vedený
univerzitou Leopold-Franzens-Universität v Innsbrucku v Rakúsku ukázal ako sa dá
automatizovať a optimalizovať zachytávanie a metaúdajov a optické rozpoznávanie znakov
s cieľom ušetriť pri masovej digitalizácii kníh a periodík. Projekt METAe uľahčuje a zefektívňuje
digitalizáciu, nakoľko automaticky zisťuje štrukturálne prvky tlačených materiálov bez
akéhokoľvek nácviku. Rozpoznané prvky zahŕňajú:
čísla strán a ich správne poradie;
titulné strany;
stránky s obsahom;
predslovy, prílohy, registre;
kapitoly a ich hierarchické usporiadanie;
čísla časopisov;
príspevky a ich autorov;
priebežné názvy;
ilustrácie, tabuľky, vzorce, reklamy;
legendy, titulky;
poznámky pod čiarou; a
automatické rozdeľovanie a orezávanie dvojitých strán.
Strana 42 z 67
Metodický manuál č. 5
Projekt METAe ukázal aj to, že metaúdaje sa dajú automaticky zachytávať počas procesu
digitalizácie. Metaúdaje sa následne dajú exportovať ako súbor XML alebo ako súbor PDF,
prípadne v akomkoľvek inom formáte vhodnom pre aplikáciu digitálnej knižnice.
Nástroj METAe generuje informačný objekt METS (podľa architektúry OAIS) a poskytuje
niekoľko nástrojov na korekciu, ktoré umožňujú kontrolu kvality na všetkých úrovniach.
Nástroj METAe bol vyvinutý v úzkej spolupráci s niekoľkými partnermi v projekte. Partnerom
zodpovedným za technický vývoj je nemecký softvérový dom
CCS-GmbH, ktorý komerčne distribuuje tento nástroj pod názvom docWORKS/METAe Edition.
7.4.7.4 Analýza rozloženia
Pri konverzii textových dokumentoch je dôležité na účely prezentácie plných textov dlhodobo
zachovať rozloženie dokumentu. Táto metodika odporúča používanie vhodného
značkovacieho jazyka XML (napr. XSLT, XSL:FO), ktorý v prevažnej miere zaisťuje
nezávislosť od špeciálneho softvéru. Popri archivovaní využívajúcim technológie XML sa
textové objekty môžu dlhodobo ukladať a sprístupňovať podľa štandardu ISO 19005-1
(PDF/A), ktorý špecifikuje bezpečnú podmnožinu formátu PDF. Súbory vo formáte PDF však
nikdy nemôžu nahradiť poskytovanie štrukturálnych údajov vo formáte XML, nakoľko formát
PDF to neumožňuje.
7.4.7.5 Zachytenie textu
Existujú tri základné spôsoby získania alebo zachytenia textu – ručný prepis, optické
rozpoznávanie znakov a obstaranie už existujúcej digitálnej kópie. Ďalšou, menej používanou
oblasťou je rozpoznávanie textu z hlasového (zvukového) vstupu
Ručný prepis
Existujú dva spôsoby prepisu textov: metóda jednonásobný prepisu a dvojnásobný prepisu. Pri
dvojnásobnom prepise sa text prepíše dvakrát, dve verzie sa automatický porovnajú a všetky
nezrovnalosti sa odfiltrujú. Môže byť veľmi presné, ale časovo i finančne náročné. Prepis textu
je možné realizovať svojpomocne, pomocou profesionálneho pisára (v organizácii) alebo
s využitím externej agentúry.
Optické rozpoznávanie znakov
Konverzia textových dokumentov zahŕňa digitalizáciu tlačených dokumentov, akými sú knihy
a noviny. Používanie softvéru na optické rozoznávanie znakov (OCR) je populárnym
spôsobom extrakcie informácií zo zoskenovaných informácií a otvorenia možností spracovania
informácií. Softvér OCR rozoznáva písmená a číslice, ktoré vytvárajú zoskenovaný obraz
(obrazový súbor s mapovanými bitmi), a exportuje ich ako textové súbory ASCII namiesto
obrazových súborov. To umožňuje vykonať vyhľadávanie, indexovanie, konverzie formát a iné
operácie na spracovanie.
4 hlavné technológie OCR:
Rozpoznávanie vzorov (alebo priraďovanie matíc)
Extrakcia jednotlivých čŕt
Štrukturálna analýza
Neutrálne siete
Strana 43 z 67
Metodický manuál č. 5
Vo všetkých systémoch sa rozpoznávací nástroj snaží klasifikovať izolované znaky, namiesto
celých slov: Umiestnenie znaku >> izolácia znaku >> klasifikácia znaku
•
Pred výberom konkrétneho produktu ohodnoťte viaceré ponúkané riešenia na
rozoznávanie znakov (OCR, optické rozoznávanie znakov). Aj keď je softvér na OCR zahrnutý
v cene skenera, výkonnejší softvér sa typicky predáva osobitne.
•
Hlavným prvkom projektu OCR je identifikácia a manuálna oprava chýb, dvojzmyslov a
miest, na ktorých sa text nedal spracovať. Balík OCR, ktorý poskytuje rozhranie prívetivé k
používateľovi vykonávajúcemu túto úlohu, ušetrí čas a úsilie.
•
OCR pracuje najlepšie pri dokumentoch v dobrom stave – skladané, pokrčené a
vyblednuté zdrojové materiály zvýšia počet chýb v procese OCR. Aby ku takýmto chybám
nedochádzalo, zdrojový materiál by sa mal vopred ošetriť. Pri materiáloch, ktoré nie sú v
perfektnom stave, by sa pred použitím softvéru OCR malo zvážiť aj použitie softvéru na
spracovanie obrazu, aby sa zamedzilo strate farby a bolo možné zlepšiť kontrast.
•
Pri výbere softvéru OCR je nutné zistiť, či v balíku OCR je súčasťou aj jeho schopnosť
(alebo neschopnosť) pracovať so slovníkmi v jazyku zdrojového materiálu.
Medzi relevantné produkty na trhu patria:
OmniPage
TextBridge
Adobe Capture.
Abbyy FineReader – má vynikajúcu funkčnosť vykonávania úprav a rozpoznávania
chýb, je všeobecne odporúčaný
Popri bežnom texte materiály kultúrneho a vedeckého dedičstva obsahujú množstvo iných ako
alfanumerických znakov, s ktorými by sa malo riešenie na optické rozpoznávanie znakov
vyrovnať, ako sú vedecké zápisy (matematické, chemické značky, hudobné znaky a pod.).
•
•
•
•
Rozhodovacia matica pre zachytávanie textu
Niekedy je ťažké vybrať správnu metódu, ktorá ponúkne najvyššie ušetrené náklady pri
zachytávaní textu
Nasledovná tabuľka poskytuje prehľad pre rozhodovanie o vhodnej metóde zachytávania
textu. Jedna značka začiarknutia označuje užitočnú metódu a dvojitá značka začiarknutia
označuje najviac uprednostňovanú metódu z pohľadu efektívnosti nákladov a presnosti. Stĺpec
“Len to napíšte!” slúži na ukázanie skutočnosti, že niekedy je ľahšie zamestnať lacné pracovné
sily ako investovať čas a energiu do technických alebo externe dodaných riešení.
Legenda pre rozdelenie typov textových materiálov podľa zložitosti
Jednoduchý = Veľmi zreteľné, čisto vytlačený text v jednom stĺpci. Len jeden jazyk bez
vedeckého zápisu, malých písmen, neobvyklých znakov/slov, tabuliek, grafických prvkov alebo
ilustrácií.
Mierny šum = Rovnaké materiály ako Jednoduché s tým, že tlačený text nie je zreteľný alebo
čistý vzhľadom na prítomnosť faktorov ako sú nečistoty, roztrhnuté strany, líščie škvrny, ďalšie
známky poškodenia, pokrčené strany, presvitajúci text .
Zložitý = podobný ako v prípade jednoduchých materiálov, ale obsahuje buď text vo viacerých
stĺpcoch, viaceré jazyky, vedecký zápis, malé písmená a znaky, neobvyklé slová/znaky,
tabuľky, grafika alebo ilustrácie.
Moderný = Tlačený text produkovaný po roku 1950 z dokumentu, ktorý je hlavne čierno-biely,
so škálou sivej alebo farbou
Historický = Tlačený text produkovaný pred rokom 1900’s z dokumentu, ktorý je hlavne čiernobiely, so škálou sivej.
Scenár
Počet a typ
Dvojitý prepis
OCR s
OCR bez
Plný text
Strana 44 z 67
Metodický manuál č. 5
obrazov strán
Plný
text
alebo
indexovanie
Indexovanie
–moderný
dokument
Indexovanie
–historický
dokument
Plný
text
alebo
indexovanie
pre rukopis
Plný text –
moderná
kniha
Plný text –
historický
dokument
Plný text –
historický
dokument
Plný text –
historický
dokument
Plný text –
historický
dokument
Plný text –
historický
dokument
Plný text –
historický
dokument
korekciou
korekcie
alebo
indexovanie
<100
Akýkoľvek
objem alebo
typ
Akýkoľvek
objem alebo
typ
Akýkoľvek
objem alebo
typ
Akýkoľvek
objem alebo
typ
<
1 000
jednoduché
< 1 000
šumom
<
1 000
zložité
> 10 000
jednoduché
so
> 10 000 so
šumom
> 10
zložité
000
je potrebné
zvážiť len
indexovanie
je
potrebné zvážiť
len
indexovanie
7.4.7.6 Jazyky pri rozpoznávaní textu
Balík s riešením pre rozpoznávanie znakov musí obsahovať všetky jazyky obsiahnuté vo
fondoch určených na digitalizáciu, t.j. najmä slovenský, český, ruský, maďarský, nemecký,
poľský, ako aj anglický, francúzsky, taliansky, španielsky a i.. Riešenie musí zahŕňať
možnosť správy slovníkov a učenia nových vzorov rozpoznávania znakov. Vyššia presnosť sa
dá dosiahnuť správnym používaním historických slovníkov (napr. slovenčina z konca 19.
storočia alebo z polovice 20. storočia má inú slovnú zásobu a pravopis ako moderná
slovenčina).
7.4.8 Analýza textu, extrakcia údajov, informácií a znalostí
Vyhľadávanie relevantných informácií v množstve neštruktúrovaného digitálneho textového
obsahu je vysoko náročné. Techniky založené na automatickom indexovaní textu a následnom
Strana 45 z 67
Metodický manuál č. 5
vyhľadávaní podľa kľúčových slov sú nedostatočné. Vyžaduje sa práca s inteligentnými
nástrojmi reprezentácie poznania.
Zo všetkých neštruktúrovaných digitálnych textov je potrebné extrahovať obsah (odstrániť
formátovanie, extrahovať metaúdaje a obsah – delenie na kapitoly) a transformovať ho do
podoby XML. Následne je potrebná identifikácia jazyka, odstránenie tzv. stop-slov, výber slov,
morfologická analýza, identifikácia idiómov a normalizácia textu. Lingvistická analýza
a techniky spracovania prirodzeného jazyka sa pokúšajú identifikovať kľúčové pojmové
deskriptory (kto/čo/kedy/kde) uložené v textových dokumentoch. Všeobecne sa uznáva, že
analýza na úrovni slovných spojení je najvhodnejšia pre hrubé ale škálovateľné aplikácie
dolovania textov. Sémantická analýza si často vyžaduje značnú bázu znalostí alebo úsilie
o vytvorenie doménového lexikónu a preto nie je vhodná pre všeobecné účely dolovania textu
naprieč širokým spektrom domén.
Fázy analýzy textu sú nasledovné:
1) Konverzia textu na jednotný formát a extrakcia metaúdajov. Na vstupe možno vkladať
dokumenty vo formátoch HTML, PDF, MS Word alebo čistý text..Ako jednotný formát je
následne vhodný formát XML. Globálne metaúdaje (autor, dátum vytvorenia a pod. )
a klasifikačné kategórie sú uložené do osobitných XML značiek.
2) Segmentácia a tokenizácia. Po úprave na jednotný formát sa text rozdelí na
elementárne a ďalej nedeliteľné jednotky, tzv. tokeny. (Výsledkom /aplikácie/ algoritmov/
DM/ je/ množina/ vzorov/)
3) Lemizácia a morfologická analýza. Textové jednotky je potrebné ohodnotiť
morfologickými charakteristikami, ktorými sú základný tvar slov, tzv. lema, slovný druh
a jemu prislúchajúce gramatické kategórie.
Príklad:
výsledkom <l>výsledok<c>klgInSc7<c>lgInPc3
aplikácie <l>aplikácia <c>klgFnSc7<c>klgFnPc1 <c>klgFnPc4
algoritmov <l> algoritmus <c>klgInPc2....
4) Slovotvorná analýza. Lemizované a morfologicky ohodnotené lexikálne jednotky sa
v ďalšej fáze organizujú podľa obsahovej príbuznosti, čiže podľa príslušnosti
k slovotvornému hniezdu a k typu slovotvornej motivácie. Tieto charakteristiky sa potom
využijú pri určovaní váh indexových termínov v matici termín-dokument.
aplikovať -> aplikácia
->aplikovanie
->aplikovaný ->neaplikovaný
výsledok ->výsledný
->výsledkový
5) Syntaktická analýza. Úlohou je zistiť štruktúru syntagmatických vzťahov medzi
textovými jednotkami. Ide napr. o dezambiguáciu – odstránenie viacznačnosti; identifikácia
viet; značkovanie pozície začiatku a konca vety; určenie slovesných a menných fráz,
kolokácií. Výsledkom je syntaktický strom.
6) Sémantická a apragmatická analýza. Finalizuje sa identifikácia termínov, ich vzájomné
relácie a atribúty, vrátane váh. Výsledkom je hierarchia termínov, z ktorých je možné
priamo vytvoriť maticu termín-dokument.
Strana 46 z 67
Metodický manuál č. 5
Data Mining (DM) (0,6)
algoritmus DM (0,5)
aplikácie algoritmu DM (0,4)
výsledok aplikácie algoritmu DM (0,4)
Táto časť je najnáročnejšia, nakoľko je špecifická pre každý jeden jazyk a podľa druhu analýzy
aj pre doménovú oblasť.
Predspracovaná textová báza je následne vhodná na použitie techník dolovania textov –
kategorizácia textov, zhlukovanie textov, extrakcia kľúčových fráz, tvorba sumárov a abstraktov
a pod.
Niektoré techniky dolovania textu:
Extrakcia informácií
Softvéry na extrakciu informácií identifikujú kľúčové frázy a vzťahy v rámci textu, na základe
hľadania preddefinovaných sekvencií textu - pattern matching. Softvér následne vytvorí vzťahy
medzi všetkými identifikovanými osobami, miestami, časom a poskytne používateľovi
zmysluplnú informáciu.
Vyhľadávanie oblastí
Systém pracuje na základe udržiavania si profilov používateľových záujmov, podľa
dokumentov, na ktoré používateľ poukáže a predikuje iné potenciálne relevantné dokumenty.
Organizácia si môže od softvéru požadovať upozornenie na akúkoľvek informáciu, ktorá s ňou
nejako súvisí..
Sumarizácia
Kľúčovou úlohou sumarizácie je zredukovať dĺžku a detailnosť dokumentu, pričom si vytvorený
abstrakt si zachová hlavné témy a celkový zmysel dokumentu, ktorý takýmto spôsobom
skondenzoval.
Kategorizácia - klasifikácia
Cieľom je zatriedenie textových dokumentov podľa ich obsahu do niektorých
z preddefinovaných kategórií. Využíva princípy kontrolovaného strojového učenia , kedy sa
z množiny tréningových príkladov vytvorí model , ktorý sa následne použije na klasifikáciu
vopred neznámych dokumentov.
Zhlukovanie
Ide o inverznú techniku voči kategorizácii. Je založené na nekontrolovanom učení a pracuje sa
bez použitia tréningových príkladov. Cieľom je identifikovať v skupine textových dokumentov
skryté zhluky alebo skupiny vzájomne obsahovo podobných dokumentov, pričom ich
podobnosť je daná sémantickou blízkosťou.
Prepájanie tém
Úlohou nástrojov prepájania tém je prepojiť podobné dokumenty a pomôcť používateľovi nájsť
súvisiace informácie, ktoré by nenašiel za pomoci bežných vyhľadávacích nástrojov.
Vizualizácia informácií
Nástroje vizualizácie dávajú veľké textové zdroje do vizuálnej hierarchie alebo mapy
a poskytujú možnosti prehľadávania ako doplnok bežného systému vyhľadávania.
Odpovedanie na otázky
Strana 47 z 67
Metodický manuál č. 5
Ide o úlohu oblasti spracovania prirodzeného jazyka – nájsť čo najlepšiu odpoveď na otázku
v prirodzenom jazyku. Mnoho webových stránok obsahuje túto technológiu. V rámci tejto
technológie sa využívajú aj iné techniky dolovania textu ako napr. extrakcia informácií alebo
klasifikácia otázok na typy (kto, kde, kedy a pod.)..
Odskúšavaným zaujímavým modelom na Slovensku je tzv. knižnica Jbowl – (Java Bag-OfWords Library), ktorú vyvíjajú v Centre pre informačné technológie, spoločnom pracovisku
Ústavu informatiky SAV a na Technickej univerzite v Košiciach.
7.4.9 Metaúdaje pre textové objekty
Ako základ pre pridávanie metaúdajov textových dokumentov bude slúžiť korpus získaný zo
záznamov systému Virtua KIS3G, ktoré budú dávkovo nahraté do systému digitálnej knižnice
a následne upravované katalogizátormi cez web.
7.4.10 Zabezpečenie kvality
Zabezpečenie kvality musí tvoriť integrovanú a prirodzenú súčasť digitalizácie. Pri jej správnej
realizácii poskytuje príležitosti na neustále zlepšovanie a optimalizáciu procesov. Musí byť
systematická, koncentrovaná na konkrétne prvky a proaktívna, nie pasívna. Pri uplatňovaní
metód zabezpečenia kvality je chybou nazdávať sa, že ide čisto o proces hľadania a opravy
chýb. Žiadny projekt nebude mať dostatočné prostriedky na kontrolu každého samostatného
výstupu s cieľom zabezpečiť, že výstupy nebudú ma žiadne chyby. Účelom zabezpečenia
kvality je vychytať a eliminovať chyby v procese, pracovnom toku alebo ľudské chyby.
Systematické chyby sa dajú opraviť zmenou systému (napr. rozlíšenie, osvetlenie, parametre
spracovania obrazu, slovníky a pravopis pri kontrole textu a pod.). Ľudské chyby sa dajú
eliminovať opätovným školením alebo preradením danej osoby na inú činnosť.
Zabezpečenie kvality sa musí zamerať na priebežné zlepšovanie a optimalizáciu a nie na
generovanie zoznamu chýb. Chyby by sa mali preskúmať a na základe nich prijímať opatrenia.
V procese konverzie textových sa procesy kontroly na zabezpečenie kvality odohrávajú pri
nastavení hardvéru, softvéru a prostredia, po zosnímaní obrazov, po extrakcii textu (OCR), po
analýze rozloženia, po pridaní metaúdajov a po produkovaní verzie dokumentov na
publikovanie.
Zaistenie kvality digitálnych obrazov
Kontrola sa zameriava na to, či nedošlo k nasledovnému:
•
•
•
•
obraz nemá správnu veľkosť
obraz má nesprávne rozlíšenie
obraz má nesprávny formát
obraz má nesprávny režim alebo bitovú hĺbku (napr. jer bitonálny keď má byť v škále
sivej alebo vo farbe)
•
celkové problémy s osvetlením (napr. príliš tmavý alebo svetlý obraz)
•
strata detailov v svetlých alebo zatienených plochách
•
slabý kontrast
•
nerovnomerný tón alebo žiara
•
chýbajúce riadky skenovania alebo vynechané pixely
•
nedostatočná ostrosť
•
nadmerná ostrosť (vrátane svätožiary okolo tmavých hrán)
•
nesprávna orientácia obrazu
•
obraz nie je vycentrovaný alebo narovnaný
Strana 48 z 67
Metodický manuál č. 5
•
•
•
•
neúplné alebo orezané obrazy
nadmerný šum (v tmavších oblastiach)
nezarovnané farebné kanály
problémy pri spracovaní obrazu a problémy so snímacím zariadením (napr. rušivé
čiary, šum, pásy)
Zaistenie kvality textu
ideálne 100% rozpoznanie znakov, rozloženia a štruktúry dokumentu
Zaistenie kvality pre digitálnu knižnicu
•
Konzistentnosť identifikácie RFID, identifikácie digitálnych objektov a ich vzájomného
prepojenia so záznamom Virtua
•
Kvalita zápisu metaúdajov
•
Kvalita - štandardy pre prístupnosť a použiteľnosť
•
Validné HTML, XML
•
Spätná väzba používateľov, často kladené otázky
•
On-line podpora
Zaistenie kvality – kontrola duplicít
V tomto smere je potrebné z úrovne riadenia na všetkých stupňoch upozorniť na fakt, že
tlačené viazané slovaciká sú jedine v gescii SNK. Ostatní záujemcovia o digitalizáciu musia
svoje zámery koordinovať so SNK. Inak dôjde ku podobnej fragmentácii ako je to v prípade
duplicitnej katalogizácie a roztrieštenosti pri budovaní súborného katalógu. Duplicity
v katalogizácii a digitalizácii znamenajú ročne miliónové straty financované z verejných
zdrojov.
7.4.11 Výskum
Bez ohľadu na rozsah konkrétneho projektu sa dá predpokladať, že v minulosti sa už
realizovali podobné projekty. Je vysoká pravdepodobnosť, že informácie o takýchto projektoch
sú dostupné na internete alebo publikované inde v časopisoch a pod.
Výskum v danej oblasti môže ako súčasť procesu plánovania projektu pomôcť identifikovať
hardvérové a softvérové riešenia prichádzajúce do úvahy, naplánovať pracovný postup
a proces a vyhnúť sa problémom a prekážkam, ktoré sa vyskytli v iných projektoch.
•
Už vo fáze plánovania vykonajte prieskum všetkých podobných projektov, ktoré sa
zaoberajú podobným záležitosťami ako plánovaný projekt. Na internete je ich mnoho.
•
Výskum pomáha predchádzať chybám. Môže skontaktovať projektový tím s inými, ktoré
uskutočnili podobné projekty a poskytnúť možnosť učiť sa z ich skúseností.
•
Vlastný výskum pridáva uznanie a hodnotu výstupu akéhokoľvek projektu. Výsledok
projektu zlepší aj štúdium diel iných, aby sa zaručilo, že projekt sa nebude uskutočňovať vo
vákuu.
Mnohé kultúrne projekty digitalizácie sú financované z verejného rozpočtu a je na ne kladená
požiadavka, aby ich zistenia a správy boli zverejnené. Publikovanie môže byť na internete,
alebo cez iné vhodné médiá.
Projektové tímy sa často s radosťou delia o ich skúsenosti a výsledky – pridáva to hodnotu ich
dielu.
Strana 49 z 67
Metodický manuál č. 5
7.5 Citovanie digitalizovaných textových objektov a trvalé
adresovanie
Pozitívnym efektom formátu citovania zdrojov v sieti, ktoré sa zvyčajne riadia fyzickým poradím
obrazu, je, že uvádzanie odkazov sa stáva jednoznačné, čo sa nedá povedať o starých
tlačiach, nakoľko obsahujú mnoho chýb, alebo dokumentov ako sú inkunábuly, ktoré nemajú
číslovanie strán alebo fólií. Formát citácie vychádzajúci z obsahu (napr. str.8, a4, 213r atď. by
mal teda byť spojený s formálnou citáciou na základe poradia obrazu. Musí byť možná aj
jednoznačná citácia obrazov, ktoré netvoria súčasť samotného korpusu knihy (obálka, koncové
listy, dodatočné digitalizované vodoznaky, čiastočné reprodukcie ilustrácií a pod.). Jedinou
podmienkou je, aby sa konkrétny obraz (strana) dal jednoznačne identifikovať v stúpajúcom
alfanumerickom poradí (napr. 00001, 00002, 00002a, 00003 atď.; pričom v tomto príklade bol
vložený obrázok 00002a). Cieľom odkazu je v tomto prípade obrázok. Na plné texty sa
vzťahujú iné mechanizmy. Príkladmi možných riešení sú techniky XPath a podobné riešenia
umožňujúce jednoznačné odkazovanie. Pravidlom je, že by sa mala dosiahnuť čo najvyššia
realizovateľná granularita. Pre online prezentáciu sú významné dve funkcie: adresovateľnosť
diela ako celku a adresovateľnosť jednotlivých strán/dvojstrán v rámci diela. Štruktúra odkazu
by mohla vyzerať nasledovne (fiktívne príklady):
http://digitalnakniznica.sk?idnazov=Sobrane_spisy?obrazok=0002
Musí sa zaručiť prinajmenšom prístupnosť a možnosť citovania diela ako celku. V budúcnosti
bude potrebné zabezpečiť spoľahlivý spôsob na sprístupnenie a citovanie pomocou vhodných
mechanizmov (PURL, URN, DOI, Handle atď.), aby sa zaistila trvalá identifikácia
a prepojiteľnosť zdroja.
Odporúča sa vytvárať jedinečné názvy zdrojov na úrovni diela prostredníctvom Slovenskej
národnej knižnice ako centrálneho registrátora.
7.6
Sprístupnenie digitalizovaných textových objektov
7.6.1 Otvorený prístup
Všetky textové dokumenty konvertované do digitálnej podoby by mali byť prístupné
nasledovnými spôsobmi:
Ako webová stránka v domovskom prístupovom portáli
Ako webová stránka, ktorá sa dá vyhľadať bežnými nástrojmi (Google, Yahoo)
Ako objekt po zbere údajov cez národný portál Slovakiana
Ako objekt po zbere údajov cez európsky portál Europeana
Ako objekt pripojený cez bibliografický záznam v portáli Slovenská knižnica
Ako objekt, ktorý používateľ dostane cez e-mail alebo inou elektronickou formou na
základe predvoleného adresného rozširovania informácií (RSS a pod.)
Úroveň detailu prístupu (napr. len záznam, abstrakt, celý dokument, ďalšie služby) bude daná
obmedzeniami legislatívy copyrightu, na účely výskumu a vzdelávania sa bude obsah
sprístupňovať v lokálnych sieťach knižníc, prípadne iných verejných inštitúcií (škôl). Voľné
diela (diela verejnej domény) vymedzené autorským zákonom sa majú sprístupňovať bez
obmedzení. Digitálne práva by sa mali riešiť centrálnymi poplatkami autorom/autorským
Strana 50 z 67
Metodický manuál č. 5
organizáciám podľa miery využívania ich diel na základe štatistík o prevzatí/prezretí, pričom
dielo by mohlo byť a priori voľne prístupné všeobecným používateľom cez Web..
7.6.2 Požiadavky na funkčnosť
Hlavným meradlom funkčnej kvality je pohodlie, pri akom dokážu používatelia navigovať
v nájdených dokumentoch. Za základný štandard treba považovať nasleovné navigačné
funkcie:
Prechod na akýkoľvek požadovaný obraz
Domov: Prechod na začiatok dokumentu
Koniec: Prechod na koniec dokumentu
Dopredu: Prechod dopredu o jednu stranu
Dozadu: Prechod dozadu o jednu stranu
Fulltextové vyhľadávanie rešpektujúce špecifiká slovenského jazyka najmä skloňovanie
- vyhľadávanie v úplných textoch so schopnosťou nájsť všetky tvary hľadaného slova
a viacslovných spojení.
Metaúdaje: Zobrazenie informácií o aktuálnom dokumente s opismi polí
Pomocník: Ponuka s nápoveďou by mala poskytnúť podrobné informácie s príkladmi
navigovania a vyhľadávaní v digitálnej knižnici.
Ak je to možné a vhodné, mali by sa zahrnúť obsahy kníh, registre, stromové štruktúry alebo
funkčné ekvivalenty tak, aby v nich bolo možné vyhľadávať. Je potrebné implementovať napr.
grafické reprezentácie v hlavičke, ktoré signalizujú používateľovi aktuálnu polohu v digitálnom
dokumente. Ak server obsahuje materiály, ktoré používatelia bežne považujú za koncepčné
celky (diela vo viacerých zväzkoch), tieto celky sa musia týmto spôsobom zobrazovať.
Okrem toho sa musia implementovať aj tieto funkcie
• Prevzatie v rôznych formátoch (pri nadmerne veľkých súboroch po častiach)
• Tlač ako PDF (pri nadmerne veľkých súboroch po častiach)
• Prepojenie na ďalšie podsystémy (predmetové portály, klasifikácie, autority).
7.6.3 Formáty (METS / MODS)
Pri konverzii textových dokumentov by sa mali využiť štandardy vypracované Kongresovou
knižnicou (www.loc.gov). Tieto štandardy sú napríklad plne implementované do hotového
riešenia DocWORKS (v prílohe 1.), ktoré produkuje výstup vo formáte METS/ALTO, čiže
textové objekty kódované podľa formátu METS s analyzovaným rozložením obsahu.
7.7 Manažment procesu konverzie textových objektov
a model nákladov
Projekt LIFE, Fáza 2, je projekt financovaný britskou Spojenou komisiou pre informačné
systémy (JISC) pod záštitou divízií Sprístupnenie a Uchovávanie organizácie LIBER. Fáza 2
projektu LIFE vypracovala správu dostupnú na adrese http://eprints.ucl.ac.uk/11758/. Projekt
LIFE skúma životné cykly nákladov správy digitálnych objektov počas celého životného cyklu
od vytvorenia/nákupu až po dlhodobé digitálne kurátorstvo. Vzorec LIFE sa dá vyjadriť
nasledovne:
Strana 51 z 67
Metodický manuál č. 5
Prvky životného cyklu
Fáza
životného
cyklu
Prvky v tomto vzorci predstavujú tieto činnosti pracovného toku konverzie textových
obkjektov:
Vytvorenie
/obstarani
e
(C)
Akvizícia
(Aq)
Príjem (I)
Uchovávanie
na bitovej
úrovni (BP)
Uchovávani
e
obsahu
(CP)
Prístup (Ac)
...
Výber
Zaistenie
kvality
Správa
úložiska
Sprístupnen
ie
...
Dohoda
o odovzdaní
Metaúdaje
...
Práva
duševného
vlastníctva
a licencovanie
Objednávky
a fakturácie
Vloženie
do úložiska
Poskytovanie
skladovacieh
o
priestoru
Obnova
médií
Sledovanie
uchovávani
a
Plánovanie
uchovávani
a
Zásah
na
zachovanie
Podpora
pre
používateľo
v
...
...
Získavanie
...
Registrácia
zápis
Aktualizácia
informácií
o držaných
materiáloch
Linkovanie
odkazov
Zálohovanie
Opätovný
príjem
Kontrola
Likvidácia
Riadenie
prístupu
Budovanie digitálnej zbierky je za bežných okolností veľmi nákladné. Projekty musia brať do
úvahy všetky počiatočné náklady a náklady na infraštruktúru a prevádzku projektu. To
predstavuje náklady na úvodné plánovanie, pridanie opisných znakov, dokumentačné systémy,
školenie personálu a tak ďalej, rovnako aj postupné náklady na digitalizáciu zdrojového
materiálu.
Projekty digitalizácie by mali zvážiť nasledovné náklady spojené s navrhnutím, implementáciou
a údržbou digitálnej zbierky:
•
Ľudské zdroje a ich rozvoj - mzdy pre manažéra projektu, web programátora,
technickú podporu, úradníkov pre oblasť vzdelávania, cestovné náklady a školenia
•
Zariadenia – Náklady na zariadenia súvisia s otázkami požadovaných funkčností a
potreby kompromisov. Buď sú dôležité náklady, alebo najvyšší možný štandard kvality
snímania obrazu.
•
Prevádzkové náklady
o
Čas manipuláciu so zdrojovým materiálom (od vybratia z regálu k snímaciemu
zariadeniu a späť) ako percentuálny podiel celkových denných mzdových nákladov.
o
Príprava zdrojového materiálu (konzervácia, čistenie atď.).
o
Čas potrebný na snímanie (od prípravy až po pridelenie názvu a uloženie)
vyjadrený ako percentuálny podiel denných mzdových nákladov na operátora.
Strana 52 z 67
Metodický manuál č. 5
o
Katalogizácia a práca s metaúdajmi ako percentuálny podiel celkových
mzdových nákladov.
o
Náklady na hardvér a softvér na jeden digitalizovaný dokument/predmet
(uprednostňuje sa skôr výpočet na základe amortizácie alebo nákladov za výmenu ako na
základe nákladov na získanie)
o
Čas na zabezpečenie kvality ako percentuálny podiel mzdových nákladov.
o
Údržba hardvéru a softvéru.
o
Čas technickej podpory súvisiacej so snímaním.
o
Čas projektového manažmentu súvisiaci so snímaním.
o
Školenie súvisiace so snímaním.
o
Snímanie obrazu je najmenej nákladná časť projektu. V priemere je jedna
tretina celkových nákladov spojená s digitalizáciou, menej ako tretina ide na tvorbu metaúdajov
a o trochu viac ako tretina súvisí s administratívou a zabezpečením kvality. Zvyšok ide na
dlhodobé poplatky za údržbu.
•
Náklady na ukladanie – náklady na údržbu, počítajú sa ako náklady na jeden gigabajt.
Strana 53 z 67
Metodický manuál č. 5
8
SÚVISLOSTI A PREPOJENIA S INÝMI
METODIKAMI
Táto metodika na zabezpečenie konverzie textových objektov súvisí so ostatnými metodickými
manuálmi (pozri kapitolu 6.4 Funkčný a procesný model), najmä s nasledovnými:
č. 1 Metodický manuál pre zabezpečenie projektového manažmentu
č. 2 Metodický manuál pre kategorizáciu objektov vstupujúcich do procesu digitalizácie
č. 3 Metodický manuál pre systém správy lokálnych archívov
č. 4 Metodický manuál pre zabezpečenie informačnej bezpečnosti
č. 6 Metodický manuál pre zabezpečenie konverzie 2D objektov
č. 13 Metodický manuál pre zabezpečenie procesu deacidifikácie a reštaurovania
č. 14 Metodický manuál použitia digitálnych objektov pre propagáciu SR v zahraničí
č. 15 Metodický manuál pre zabezpečenia prepojenia konverzie, evidencie, archivácie,
spracovania a prezentácie objektov a následného spracovania obsahu
č. 16 Metodický manuál pre zabezpečenie digitálnych práv
č. 17 Metodický manuál pre zabezpečenie dlhodobej archivácie konvertovaných
objektov
č. 18 Metodický manuál pre zabezpečenie trvalej a jednoznačnej identifikácie
konvertovaných objektov
č. 19 Metodický manuál pre zabezpečenie mapovania a agregácie metaúdajov
č. 20 Metodický manuál pre zabezpečenie národných autorít, centrálnych slovníkov
a tezaurov
č. 21 Metodický manuál pre zabezpečenie spracovania, správy a prezentácie
konvertovaných objektov.
Strana 54 z 67
Metodický manuál č. 5
9
RIZIKÁ
Na začiatku digitalizácie je potrebné naplánovať spôsob zaručenia úspešnosti výstupu. Cieľom
však nie je odstrániť všetky hrozby, ale pripraviť sa na ne tak, že sa vytvorí rámec, v rámci
ktorého bude možné efektívne reagovať na nepredvídané okolnosti. Cieľom je vytvorenie
projektu s personálom a postupmi, ktoré sa môžu prispôsobiť zmenám. Preto je do plánovania
projektu potrebné zahrnúť analýzu rizík.
Autorské práva
Distribúcia digitalizovaných obrazov cez Internet je forma publikovania a preto sa na ňu
vzťahujú autorské zákony (copyright) a právo duševného vlastníctva (IPR). Je potrebné mať
vyriešené autorské práva a pri analýze rizík sa kladú nasledujúce otázky ako napr. aké by
mohli byť následky použitia materiálu bez špecifického povolenia (narušenie súkromia,
zverejnenie dôverných informácií, obžaloba, súdny proces, peňažný alebo iný trest a pod.),
bolo vyvinuté úsilie zistenie nositeľa práv, a v prípade porušenia copyrightu, aký by mohol byť
dopad na projekt/program (čiastočné alebo úplné pozastavenie projektu/programu, materiálne
straty, personálne následky a i.)
Autentickosť a hodnovernosť
Pri verejných informáciách je dôležitou otázkou právna hodnota informácie. Je potrebné
podniknúť kroky na zaručenie toho, aby digitalizovaný zdrojový materiál nebol narušený
(pozmenený, obsahovo a významovo upravený) a že sa vyprodukoval oprávnenou inštitúciou
so zabezpečením kontroly na viacerých úrovniach riadenia. Musí sa zaručiť autenticita
a vykonať úkony potrebné na udržiavanie obrazových súborov s použitím nástrojov kontroly
(od bitovej úrovne cez zabezpečenie informačných systémov až po pravidlá udeľovania
právomocí) sa použili?
Trvalá udržateľnosť
Financovanie projektu by mohlo predstavovať problém a možné ohrozenie možností dosiahnuť
ciele digitalizácie. Trvalá udržateľnosť výstupu konverzie textových objektov môže byť
ovplyvnená nedostatočným financovaním po ukončení OPISu a taktiež aj nepokračovaním
ďalšieho výskumu a vývoja pre budúce aplikácie.
Nedostatočné ľudské zdroje
Kľúčovou je otázka úrovne zručností a kompetencií v projekte. Je dôležité zamestnať a zapojiť
do projektu vysoko zručné a skúsené osoby s príslušným vzdelaním, od operátorov
digitalizačných zariadení a softvérov až po riadiacich pracovníkov a poskytovať im počas
digitalizačnej kampane priebežné školenia k metodológii a vyvíjajúcim sa technológiám
a implementovať potrebné nové nástroje. Najmä pri realizácii digitalizácie externe je potrebné
dbať na kompetentnosť a školenia osôb zapojených do práce s analógovými a digiálnymi
materiály, nakoľko hrozí absencia prehľadu o celkových cieľoch a koncepcii digitalizačnej
kampane.
Všeobecné riziká
Prírodné katastrofy, občianske nepokoje, vojna, teroristický útok a pod., ktoré by mohli mať
negatívny vplyv na infraštruktúru získavania, spracovania, uchovávania a sprístupnenia
textových objektov.
Strana 55 z 67
Metodický manuál č. 5
10 AKTUALIZÁCIA METODIKY
Digitalizácia, najmä jej automatizácia a technológie súvisiace s konverziou a spracovaním
a dlhodobým uchovávaním sa dynamicky menia, takže táto metodika bude musieť byť
priebežne aktualizovaná (cca 1x za rok). Veľký pokrok sa dá očakávať v oblasti praktických
nástrojov na sémantické označenie obsahu na efektívne využívanie znalostného kapitálu
uloženého v textových objektoch, ktorý zostáva väčšinou implicitný pri súčasnej úrovní rozvoja
metód vyhľadávania, indexovania a klasifikácie. Taktiež sa dá očakávať aktualizácia na
základe nových poznatkov o formátoch údajov a súborov, techník zachytenia a synergie
s inými technológiami a druhmi kultúrneho dedičstva.
Strana 56 z 67
Metodický manuál č. 5
11 ZÁVER
Tento metodický manuál prináša to najpodstatnejšie z svetového know-how, skúseností
a osvedčených praktík, ktoré sa dajú uplatniť pri digitalizácii, digitálnom uchovaní
a sprístupnení a využívaní údajov, informácií a znalostí obsiahnutých v textových materiáloch
uchovávaných a spracovávaných v kultúrnych, vedeckých a vzdelávacích inštitúciách SR so
zabezpečením trvalej udržateľnosti tak, aby sa konvertované textové objekty dali využívať
v roznych existujúcich i objavujúcich sa situáciách a kontextoch. Je potrebné si uvedomiť, že
cieľom projektu nie je samotná digitalizácia a súvisiace procesy, ale poskytnutie obsahu
a služby súčasnému a budúcemu používateľovi.
Strana 57 z 67
Metodický manuál č. 5
12 DEFINÍCIE A SKRATKY
Položka
Typ
Význam
MM
všeobecne
odborná
Metodický manuál
KIS3G
všeobecná
Knžnično-informačný systém 3. generácie
dpi
technická
body na palec (dots per inch)
IS
technická
Informačný systém
HW
technická
Hardware – technické vybavenie
SW
technická
Software – softwarové vybavenie
OAI-PMH
technická
Iniciatíva otvorených archívov – protokol na zber metaúdajov
SNK
všeobecná
Slovenská národná knižnica
OS
technická
Operačný systém
Strana 58 z 67
Metodický manuál č. 5
13 ZOZNAM LITERATÚRY
Cost Reduction in Digitisation. Working Draft. Version 1 / Simon Tanner, (King’s College
London, www.digitalconsultancy.net), jún 2006, MINERVA Plus Project. Dostupné na internete:
<http://www.minervaeurope.org/publications/CostReductioninDigitisation_v1_0606.pdf>.
Cit.
[12.06.2009]
DFG Practical Guidelines on Digitisation / Deutsche Forschungsgemeinschaft - Scientific
Library Services and Information Systems (LIS), April 2009. Dostupné na Internete:
<http://www.dfg.de/forschungsfoerderung/wissenschaftliche_infrastruktur/lis/download/praxisre
geln_digitalisierung_en.pdf>
Digital to Microfilm Conversion: A Demonstration Project 1994-1996. Final Report to the
National Endowment for the Humanities, PS-20781-94 / Anne R. Kenney, Principal
Investigator. – Ithaca, NY : Cornell University Library, Department of Preservation and
Conservation
Dostupné
na
internete:
<http://www.library.cornell.edu/preservation/com/comfin.html>
EDLnet. D2.2. Initial Semantic and Technical Interoperability Requirements / Authors: Makx
Dekkers, Stefan Gradmann, Carlo Meghini, Nicola Aloia, Cesare Concordia; Contributors:
EDLnet WP2 Working Group members, EDLnet office. Date: 17 December 2007. Version: 1.0.
25 s. Cit. [17.01.2009]
Knowledge Management Systems: A Text Mining Perspective / Chen, Hsinchun. 2001.
Knowledge Computing Corporation.
[online]. [citované 1.8.2009]. Dostupné na
internete:<http://ai.bpa.arizona.edu/go/download/chenKMSi.pdf>
Knowledge Management Systems: A Text Mining Perspective. Knowledge Computing
Corporation / Chen, Hsinchun. 2001 [online]. [citované 1.8.2009]. Dostupné na
internete:<http://ai.bpa.arizona.edu/go/download/chenKMSi.pdf>
Moving Theory into Practice: The Digital Imaging Tutorial. 2000-2003 Cornell University
Library/
Research
Department.
Dostupné
na
internete:
<http://www.library.cornell.edu/preservation/tutorial/index.html>. Cit. [20.06.2009]
National Library of Medicine Digital Repository. Policies and Functional Requirements
Specification. Version 1 / Prepared by the NLM Digital Repository Working Group. January –
March Dostupné na internete: < http://www.nlm.nih.gov/digitalrepository/NLM-DigRepRequirements-rev032007.pdf
NOF-digitise Technical Standards and Guidelines (Version 5, February 2003), developed on
behalf of the UK New Opportunities Fund (NOF) / UKOLN, University of Bath, in association
with Resource: The Council for Museums, Archives & Libraries (now known as MLA).
Dostupné
na
Internete:
<http://www.mla.gov.uk/resources/assets//T/technicalstandardsv1_pdf_7964.pdf>
Tapping into the Power of Text Mining / Fan, W. et al. 2005. [online]. [citované 12.3.2008].
Dostupné na internete: <http://filebox.vt.edu/users/wfan/paper/text_mining_final_preprint.pdf>
Strana 59 z 67
Metodický manuál č. 5
Technical Guidelines for Digital Cultural Content Creation Programmes. Version 2.0:
September
2008
/
Minerva
EC
Project.
2008.
Dostupné
na
Internete:
<http://www.minervaeurope.org/publications/ technicalguidelines.htm>
Text Mining / Witten I.H. [online]. [citované 12.8.2009]. Dostupné
<http://www.cs.waikato.ac.nz/~ihw/papers/04-IHW-Textmining.pdf>
na
internete:
The LIFE2 final project report/ Ayris, P., Davies, R., McLeod, R., Miao, R., Shenton, H. and
Wheatley, P. (2008) The LIFE2 final project report. Research report. LIFE Project, London, UK
The NINCH Guide to Good Practice in the Digital Representation and Management of Cultural
Heritage Materials / Humanities Advanced Technology and Information Institute (HATII),
University of Glasgow, and the National Initiative for a Networked Cultural Heritage (NINCH).
Version 1.0 of the First Edition, first published October, 2002. Dostupné na internete:
<http://www.nyu.edu/its/humanities/ninchguide/> Cit. [12.06.2009]
Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. [online]. / Furdík, K., Bednár, P.
2006.
[citované
27.7.2009].
Dostupné
na
internete:
<http://web.tuke.sk/feicit/furdik/publik/Kolokvium06_furdik-bednar_2006_KPLab-JBowl.pdf>
Získavanie znalostí a lokalizácia expertov z neštruktúrovaných a semištruktúrovaných dát
v kontexte manažmentu znalostí. Jambrich, M. 2006. [online]. [citované 24.7.2009]. Dostupné
na internete:http://keg.vse.cz/_slides/jambrich.pdf
Strana 60 z 67
Metodický manuál č. 5
14 PRÍLOHY
Zoznam príloh
Príloha č.
Obsah
1
Technologická schéma spracovania textových objektov DocWORKS (CCS,
GmBH, D)
2
Porovnanie zachytenia textovej informácie dvoma digitalizačnými
zariadeniami na automatické obracanie strán (4DigitalBooks (CH),
Treventus (AT))
Strana 61 z 67
Metodický manuál č. 5
15 PRÍLOHA 1 – TECHNOLOGICKÁ SCHÉMA SPRACOVANIA TEXTOVÝCH
OBJEKTOV SOFTVÉROM DOCWORKS
Strana 2 z 67
Metodický manuál č. 5
Strana 3 z 67
Metodický manuál č. 5
16 PRÍLOHA 2 – ZACHYTENIE TEXTU
Porovnanie zachytenia textovej informácie dvoma digitalizačnými zariadeniami na
automatické obracanie strán (4DigitalBooks (CH), Treventus (AT))
Porovnanie slúži ako príklad a vyvetlenie s cieľom usmernenia pre digitalizáciu textu, v
ktorom je kľúčovo dôležitý proces zachytenia textu. Pri digitalizácii textu ide často
o správnu registrácie plochy a tým aj farby textu a čo najvýraznejší kontrast medzi
plochou znaku a plochou mimo znaku. V zásade by takýto prechod, t.j. meziľahlá farebná
plocha medzi plochou znaku a plochou mimo znaku nemal presiahnuť šírku jedného,
max dvoch pixelov. Kvalitu zachytenia tmavých a svetlých plôch je možné čiastočne
ovplyvniť správnym nastavením zariadení pred digitalizáciou a nie úpravou po nej. Pri
prevode zachyteného textu na čiernobielu bitovú mapu sa ukáže, ktorá plocha je viac „do
biela“ a ktorá viac „do čierna“. Pri nesprávnom nastavení sa môžu tmavé plochy zachytiť
nesprávne a nedokreslením celej plochy znaku sa stratí textová informácia. Nižšie
uvedená tabuľka ukazuje rozdielne zachytenie textu z toho istého dokumentu dvomi
automatizovanými digitalizačnými zariadeniami – Treventus, ktorý využíva skenovanie po
segmentoch podobne ako pri plošných skeneroch a 4DigitalBooks s 2 bezspúšťovými
digitálnymi fotoaparátmi I2S.
Strana 2 z 67
Metodický manuál č. 5
Strana 3 z 67
4DigitalBooks
Treventus
Metodický manuál č. 5
prevod na čiernobielu bitovú mapu
Strana 4 z 67
Metodický manuál č. 5
***
Strana 5 z 67
Download

metodický manuál - OPIS