Manuál na používanie Bonita
Na získanie plného prístupu do Slovenského národného korpusu (ďalej SNK) je potrebné
zaslať poštou alebo priniesť osobne do oddelenia SNK vyplnený a podpísaný formulár. Vyplnením
a podpísaním formulára používateľ súhlasí s podmienkami používania SNK. Formulár na
registráciu používateľa SNK je dostupný na stránke SNK (http://korpus.sk/registration.html).
Súčasne je tiež potrebné zaslať správu so žiadosťou o registráciu do SNK a uvedením základných
údajov (meno, adresa, inštitúcia, e-mail) na e-mailovú adresu uvedenú na stránke SNK
([email protected]). Po prijatí žiadosti dostane používateľ e-mailom prihlasovacie meno a
heslo s platnosťou na jeden kalendárny rok. S pridelenými prihlasovacími údajmi môže používateľ
využívať plný prístup do databáz SNK prostredníctvom korpusového manažéra s klientom Bonito a
webovým klientom Bonito II.
Domovská stránka
Databázy SNK sú prístupné prostredníctvom webového prehliadača na stránke
http://bonito.korpus.sk. Po zadaní prihlasovacieho mena a hesla používateľa sa zobrazí domovská
stránka s hlavnou ponukou (obr. 00).
Prvé dve položky zo zložky KONKORDANCIA (NOVÉ HĽADANIE, ZOZNAM SLOV) sú
1
opísané nižšie.
DOKUMENTÁCIA
zahŕňa
informácie
o
vonkajšej
(BIBLIOGRAFICKÁ
A
ŠTÝLOVOŽÁNROVÁ ANOTÁCIA SNK) a vnútornej (MORFOLOGICKÁ ANOTÁCIA SNK)
anotácii v korpusoch. Okrem toho sa v dokumentácii nachádzajú aj informácie o Sketch Engine
(SKETCH ENGINE WIKI, SKETCH ENGINE DOCUMENTATION
INDEX) v anglickom
jazyku.
Výberom z ponuky NÁSTROJE → ZMENA HESLA môže používateľ zmeniť náhodne
vygenerované heslo, ktoré mu bolo pridelení pri registrácii (obr. 00_1).
Menu → Konkordancia → Nové hľadanie
Po kliknutí na NOVÉ HĽADANIE sa otvorí okno s vyhľadávaním (obr 01).
Horná lišta pod logom SNK obsahuje
– meno používateľa, ktorým sa prihlásil do korpusového klienta Bonito II (user: katarinag)
2
– názov korpusu, ktorý je aktuálne zvolený na vyhľadávanie (Corpus: prim-5.0-public-all).
Používateľsky je vždy prednastavený posledný korpus vo verzii public-all. V hlavnej časti
okna sa vedľa názvu CORPUS nachádza možnosť voľby korpusu z aktuálne dostupných
korpusov. Na obr. 3 je vidieť zvolený výber korpusu prim-5.0-public-sane.
Do položky QUERY vpisujeme hľadaný konkrétny tvar slova (WORD), lemu (LEMMA) tag
(TAG), regulárny výraz (CQL). Automaticky je prednastavené SIMPLE vyhľadávanie (opis nižšie).
Zmeniť vyhľadávanie na základe atribútu je možné v ľavom menu prostredníctvom položky
EXPERT OPTIONS → QUERY TYPE. Po kliknutí na túto položku sa na obrazovke objaví pod
riadkom CORPUS ďalší riadok s výberom z niekoľkých možností (obr 4.).
3
SIMPLE – vyhľadávanie na základe tvaru slova aj lemy bez ohľadu na veľkosť písma. Tento
atribút vyhľadávania v korpusu je prednastavený.
LEMMA - vyhľadávanie na základe lemmy
PHRASE – vyhľadávanie na základe viacerých slov, ktoré nasledujú v texte presne v takom
poradí, ako ich používateľ zapíše do vyhľadávacieho políčka, bez ohľadu na veľkosť písma
WORD FORM – vyhľadávanie na základe konkrétneho tvaru slova
CHARACTER – vyhľadávanie na základe písmena
CQL (Contextual Query Language) – vyhľadávanie na základe regulárneho výrazu. Pri tejto
možnosti je prostredníctvom položky DEFAULT ATRIBUTE možné aplikovať regulárny výraz na
slovo (WORD), lemu (LEMMA), tag (TAG) a PREC (PREC je číselný ukazovateľ, ktorý informuje
o tom, z koľkých možností nástroj vyberal pri desambiguácii korpusu). Po definovaní atribútu
hľadania (QUERY TYPE) a kliknutí na položku QUERY TYPE v ľavom menu sa táto možnosť z
hlavného okna pri zadávaní vyhľadávania stratí. Zvolený spôsob vyhľadávania však ostane
zachovaný.
Pri výbere CQL atribútu na vyhľadávanie a zadanie výrazu ".*ský" a zvolení možnosti
LEMMA v DEFAULT ATTRIBUTE sa do korpusu odošle rovnaká požiadavka, ako by používateľ
zapísal do riadka CQL regulárny príkaz [lemma=".*ský"] a nijakým spôsobom nemenil nastavenie
v položke DEFAULT ATTRIBUTE.
Na utvorenie regulárneho výrazu je možné použiť pomôcku na Tvorbu morfologických tagov zo
stránky SNK (DOPLŇ LINK).
Menu → Konkordancia → EXPERT OPTIONS → CONTEXT
Pri príprave vyhľadávania je možné použiť aj kontextový filter na obmedzenie zobrazenia
konkordancie. Po kliknutí na položku EXPERT OPTIONS → CONTET sa pod vyhľadávacím
políčkom zobrazí filter na obmedzenie lemy. Tá je určená istým rozsahom vzdialenosti
spoluvyskytujúcich sa výrazov (obr 4_0).
4
Ide o pozitívny a negatívny filter (opis nižšie) obmedzený na vopred definovaný rozsah. Vedľa
položky WINDOW sa nachádza výber z možností:
BOTH – rozsah na obe strany od hľadaného slova
RIGHT – rozsah na pravú stranu od hľadaného slova
LEFT – rozsah na ľavú stranu od hľadaného slova
Rozsah slov na konkrétnu stranu je definovaný počtom tokenov – pred položkou TOKEN sa
nachádza možnosť výberu (1, 2, 3, 4, 5, 7, 10, 15).
Do riadku vedľa LEMMA(S) vpisuje používateľ jednu alebo viac lem, ktoré chce zobraziť alebo
odfiltrovať z vyhľadanej konkordancie. Ďalej sa v riadku nachádza výber z troch možností:
ALL of these items – všetky vypísané lemy sa zobrazia v konkordancii hore hľadaného
slova (pozitívny filter)
ANY of these items – z vypísaných lem sa zobrazia v konkordancii hore hľadaného slova
(pozitívny filter) aspoň niektoré
NONE of these items – z vypísaných lem sa nezobrazia v konkordancii hore hľadaného
slova žiadne (negatívny filter)
Po definovaní rozsahu kontextu (CONTEXT) a kliknutí na položku CONTEXT v ľavom
menu sa táto možnosť z hlavného okna pri zadávaní vyhľadávania stratí.
Menu → Konkordancia → EXPERT OPTIONS → TEXT TYPES
Po kliknutí na položku TEXT TYPES v ľavom menu sa okno rozšíri (obr. 5).
Používateľ môže výberom jednotlivých kategórii zo štýlovožánrovej anotácie definovať texty, v
ktorých chce vyhľadávať. Ponechaním všetkých položiek prázdnych (prednastavené) vyhľadáva
používateľ vo všetkých textov toho korpusu, ktorý na prácu aktuálne vybral.
5
Po definovaní rozsahu textov (TEXT TYPES) a kliknutí na položku TEXT TYPES v ľavom menu
sa táto možnosť z hlavného okna pri zadávaní vyhľadávania stratí.
Na Obr. 4_1 je jednoduché hľadanie (SIMPLE) slova „slovenský“ v korpuse prim-5.0public-sane spolu s obmedzením, že zo všetkých výskytov tohto slova budú zobrazené len tie, ktoré
majú z oboch strán (pravý a ľavý kontext od hľadaného slova) v rozsahu 7 tokenov aj lemu „národ“,
aj lemu „povstanie“.
Po kliknutí na MAKE CONCORDANCE sa zobrazí konkordančný výstup na obr- 4_2.
Na obr č. 7 je ukážka jednoduchého hľadania (SIMPLE), v korpuse prim-5.0.-public-sane, v
položke QUERY je zapísané slovo „slovenský“.
6
Po kliknutí na MAKE CONCORDANCE vidí používateľ vyhľadané výskyty (konkordanciu) – obr.
6.
V záhlaví stránky sa po vyhľadaí konkordancie zobrazia nové informácie:
– počet výskytov (HITS); pri vyhľadaní slova „slovenský“ je to 890095
– vyhľadávanom výraze (QUERY: slovenský).
Centrálna časť zobrazuje vyhľadanú konkordanciu slova (zobrazená červenou) spolu s
niekoľkoslovným kontextom okolo každého slova. Jeden riadok predstavuje jeden výskyt v
7
korpuse. Na začiatku každého riadku sa nachádza tzv. bogocong, označenie textu, pod ktorým je
archivovaný v SNK. Po kliknutí naň sa zobrazí podrobná štýlovožánrová informácia o texte, do
ktorého patrí konkrétny hľadaný výraz (obr 6_1).
Po kliknutí na konkrétnu konkordanciu v riadku (je zvýraznená červenou farbou) sa zobrazí širší
kontext okolo vyhľadaného výrazu (obr 6_2).
V prípade potreby ešte širšieho okolitého textu je možné rozšíriť ho (EXPAND LEFT, EXPAND
RIGHT) až do 50 textových jednotiek vľavo od hľadaného výrazu a 50 textových jednotiek vpravo
od hľadaného výrazu.
8
Na stránke je zobrazených predvolene 20 riadkov konkordancie. Nad a pod konkordanciou je
zobrazený počet stránok, na ktorých sa nachádzajú ďalšie výskyty. Kliknutím na NEXT a LAST sa
môže používateľ pohybovať po jednotlivých stránkach. Konkrétnu stránku s konkordančným
zoznamom je možné zapísať aj priamo do políčka. Po stlačení klávesy ENTER sa zobrazí
požadovaná stránka.
V ľavej časti stránky sa nachádza menu.
Po kliknutí na položku CONCORDANCE môže používateľ opätovne vyhľadávať v korpuse.
Menu → Konkordancia → Save
Použitím výberu SAVE z ľavého menu sa zobrazí stránka s možnosťou uloženia vyhľadaných
výskytov v povolených formátoch do svojho počítača (obr. 8).
Po otvorení možnosti CONCORDANCE DESCRIPTION sa zobrazí regulárny výraz, ktorým
používateľ vyhľadával (obr. 9).
Po výbere želaných možností na uloženie a potvrdení (SAVE) sa vyhľadané výskyty uložia vo
zvolenom formáte do počítača používateľa.
9
Menu → Konkordancia → View Options
Druhou položkou v ľavom menu je VIEW OPTIONS, prostredníctvom ktorej môže používateľ
meniť nastavenie zobrazenia konkordancie podľa svojich potrieb. Po kliknutí na túto položku sa
zobrazia viaceré možnosti (obr. 10).
V konkordancii je prednastavené len zobrazenie slova (ATTRIBUTES – WORD). Okrem toho
môže používateľ vidieť aj lemmu a tag priradený jednotlivým tokenom spolu s PREC. Položka
DISPLAY ATTRIBUTES umožňuje zobrazenie výberu zo ponúkaných možností buď pre každý
token v texte (FOR EACH TOKEN), alebo len pre vyhľadaný výraz (KWIC TOKENS ONLY).
Po výbere zobrazenia lemy (LEMMA) pre vyhľadaný token a potvrdení výberu (CHANGE VIEW
OPTIONS) sa zobrazenie zmení tak, ako je na obr. 11.
Po zvolení možnosti zobrazenie TAG pre všetky tokeny a potvrdení výberu (CHANGE VIEW
OPTIONS) sa zobrazenie zmení tak, ako je na obr. 12.
10
Možnosti zobrazenia atribútov vyhľadaného výrazu je možné ľubovoľne kombinovať.
Jednotlivé možnosti zobrazenia z políčka STRUCTURES sa zobrazia v kontexte okolo hľadaného
výrazu.
doc – označenie začiatku <doc> a konca </doc> dokumentu
s – označenie začiatku <s> a konca </s> vety
p – označenie začiatku <p> a konca </p> odseku
g – informácia, kde medzi tokenmi nebola v pôvodnom texte medzera (dostupné od verzie prim6.0)
?br – označenie začiatku <br> a konca </br> prázdneho riadku
?noise – označenie začiatku <noise> a konca </noise> nezrozumiteľného textu
?picture – označenie textu, ktorý sa vzťahuje na obrázok <picture></picture>
?head –
?hi –
?equation – označenie matematických a chemických vzorcov <equation></equation>
?table – označenie textu, ktorý sa vzťahuje k tabuľke <table></table>
Možnosti zobrazenia štruktúrnych značiek je možné ľubovoľne kombinovať.
Na obrázku 12_1 je vidieť zobrazenie začiatkov (<s>) a koncov (</s>) viet v kontexte okolo
hľadaného výrazu.
11
REFERENCES sú informácie, ktoré sa zobrazujú na začiatku každého riadku konkordancie. Ide o
jednotlivé položky z bibliografickej a štýlovo-žánrovej anotácie textov spolu s TOKEN NUMBER,
ktorá zobrazí pozíciu konkrétneho tokenu v korpuse. Položky z REFERENCES je možné pri
zobrazení ľubovoľne kombinovať. Na obr. 12_2 sú zobrazené na začiatku riadku informácie o
dátume vydania textu a type textu v rámci triedenia textov v SNK.
V možnostiach zobrazenia môže používateľ zmeniť rozsah zobrazených riadkov konkordancie na
stránke (PAGE SIZE (NUMBER OF LINES)) vpísaním konkrétneho čísla. Predvolených je 20
riadkov na stranu. Podobne môže zmeniť aj východiskový rozsah kontextu okolo hľadaného výrazu
(KWIC CONTEXT SIZE (NUMBER OF CHARACTERS)).
Zvolenie možnosti SORT GOOD DICTIONARY EXAMPLES utriedi konkordančný výstup podľa
automaticky prednastaveného triadiaceho kritéria, ktoré sa ukázalo ako vhodné pre prácu
12
lexikografov. (pozri viac A. Kilgarriff – M. Husák – K. McAdam – M. Rundell – P. Rychlý, 2008, s.
425 – 433). Položka NUMBER OF LINES TO BE SORTED určuje počet riadkov, ktoré majú byť
takto utriedené.
Po zvolení možnosti ICON FOR ONE-CLICK SENTENCE COPYING sa na konci každého
konkordančného riadka objaví malá ikona (obr. 12_3).
Po kliknutí na ikonu sa ikona sfarbí na čierno. V tej chvíli sa do schránky na ukladanie textu
(clipboard) uloží veta z riadku, na ktorého konci sa nachádzala zvolená ikona. Do jednoduchého
textového dokumentu (Nodepad, Kate, Gedit, TextEdit a pod.) môže používateľ zvolením možnosti
vložiť (Ctrl V) vybratú vetu skopírovať.
Výberom možnosti ALLOW MULTIPLE LINES SELECTION môže používateľ vyberať viac viet
súčasne (obr. 12_4).
13
Tie sú ukladané do schránky na ukladanie textu a hromadne ich je možné vložiť do textového
dokumentu.
Možnosť XML TEMPLATE FOR ONE-CLICK COPYING nie je v korpusovom kliente Bonito II v
súčasnosti dostupná.
Potvrdením CHANGE VIEW OPTIONS v zmene nastavení MENU – KONKORDANCIA – VIEW
OPTIONS sa zmení zobrazenie pre aktuálne hľadanie. Potvrdením SAVE OPTIONS sa zvolené
možnosti zobrazenia uložia natrvalo (budú sa zobrazovať pri každom vyhľadaní), až kým opäť
nebudú zmenené inak podľa potreby používateľa.
V prípade, že sa používateľ rozhodne nezmeniť nastavenia v položke VIEW OPTIONS a práve sa
nachádza na tejto stránke, návrat na stránku s konkordanciou je možný po kliknutí na položku
VIEW CONCORDANCE v ľavom menu.
Položka KWIC/SENTENCES v ľavom menu zmení vzhľad konkordančného výstupu zo zobrazenia
niekoľkých konkordancií pod sebou na výstup so zobrazením vyhľadaného výrazu vždy v rámci
jednej vety (obr. 13).
Po opätovnom kliknutí na túto položku (KWIC/SENTENCES ) sa zobrazí konkordancia hľadaného
výrazu pod sebou (KWIC – Key word in context, hľadané slovo v kontexte).
Menu → Konkordancia → Sort
Položka SORT v ľavom menu ponúka dva druhy triedenia (obr 13_0).
14
SIMPLE SORT ponúka utriedenie niekoľkých možností v kontexte vyhľadaného výrazu. Ide o
možnosti voľby vedľa ATTRIBUTE – konkrétny tvar slova (WORD), lemu (LEMMA), tag (TAG),
PREC a všetky položky štýlovo-žánrovej anotácie.
SORT KEY utriedi zvolený atribút vľavo (LEFT CONTEXT) alebo vpravo (RIGHT
CONTENXT) od nájdeného výrazu, položka NODE utriedi vzostupne samotný hľadaný výraz.
Zadané kritérium v NUMBER OF TOKENS TO SORT určuje počet výskytov, ktoré sú utriedené na
zvolenú pravú alebo ľavú stranu od vyhľadaného výrazu.
K dispozícii je aj možnosť ignorovať veľkosť písmen v radených slovách (IGNORE CASE)
a použiť aj zostupné radenie (IGNORE BACKWORD). Po potvrdení výberu zvolením SORT
CONCORDANCE bude konkordancia utriedená podľa vybratých parametrov.
Na obr. 13_1 sa nachádza definovanie triedenia na základe jedného prvého slova vpravo od
vyhľadaného slova „slovenský“.
Po potvrdení SORT CONCORDANCE sa objaví utriedená konkordancia tak, ako je na obr. 13_2.
Interpunkcia je pri triedení aj štatistickom počítaní v korpusovom manažéri Bonito radená ako
prvá. Za ňou nasledujú písmena podľa abecedy, posledné sú číslice.
15
Okrem jednoduchého triedenia (SIMPLE SORT) je možné využiť aj ďalšie niekoľkostupňové
triedenie (MULTILEVEL SORT). Po definovaní prvej požiadavky na triedeni (FIRST LEVEL –
SORT BY) je možné pridať aj druhú (SECOND LEVEL – THEN SORT BY) a tretiu (THIRD
LEVEL – FINALLY SORT BY). Spôsob definovania je rovnaký ako pri jednoduchom triedení,
obohatením je možnosť POSITION, ktorá ponúka možnosť triedenia od tretej pozície vľavo (3L) až
po tretiu pozíciu vpravo (3P).
Na obr. 13_3 je vidieť definovanie MULTILEVEL SORT najskôr podľa prvého slova vpravo od
vyhľadaného slova konkordancie („slovenský“), potom podľa druhého slova vpravo a napokon
podľa tretieho.
Po kliknutí na SORT CONCORDANCE sa zobrazí konkordancia ako na obr. 13_4 (zobrazená je na
lepšiu ilustráciu 25 000. strana z vyhľadaných 44505.
16
Menu → Konkordancia → Sort → Left|Right
SORT → LEFT utriedi konkordančný výstup vzhľadom na abecedné poradie kontextu vľavo od
hľadaného výrazu, SORT → LEFT utriedi konkordančný výstup podľa pravého kontextu. Na obr 14
vidieť prvú stranu utriedeného konkordančného výstupu podľa ľavého kontextu.
Na obr. 15 je ukážka zo strany 31458.
Menu → Konkordancia → Sort → Node
SORT → NODE utriedi konkordančný výstup vzhľadom na abecedné poradie vyhľadaných
výrazov (obr. 16). KWIC je zvýraznený červenou farbou.
17
Menu → Konkordancia → Sort → References
SORT → REFERENCES utriedi konkordančný výstup vzhľadom na abecedné poradie zobrazených
REFERENCES na začiatku každého riadku (obr 16_1).
Menu → Konkordancia → Sort → Shuffle
SORT → SHUFFLE utriedi konkordančný výstup náhodne.
18
Menu → Konkordancia → Sample
Po kliknutí na položku SAMPLE sa zobrazí možnosť náhodného výberu z konkordančného
zoznamu (obr 16_3).
Po políčka za NUMBER OF LINES IN THE SAMPLE vpíše používateľ počet riadkov, z ktorých
chce urobiť náhodný výber. Prednastavený je počet 250 riadkov. Po kliknutí na CREATE SAMPLE
sa zobrazí náhodný výber konkordancie (obr. 18).
Menu → Konkordancia → Filter
Po kliknutí na položku FILTER má používateľ možnosť nastaviť požadované hodnoty na pozitívne
alebo negatívne filtrovanie konkordančného výstupu (obr. 19).
19
Vedľa označenia FILTER vyberie požívateľ možnosť pozitívneho alebo negatívneho filtra.
Pozitívny filter je ten, pri ktorom nástroj odoberie všetky tie výsledky, ktoré nespĺňajú zadané
kritériá z vyhľadanej konkordancie („slovenský“).
Negatívny filter je ten, pri ktorom nástroj odoberie všetky tie výsledky, ktoré spĺňajú zadané kritériá
z vyhľadanej konkordancie („slovenský“).
Položká SELECTED TOKEN je dôležitá pri viacslovnom hľadanom výraze. Pri výbere možnosti
FIRST sa filter aplikuje od prvého vyhľadaného slova vo viacslovnom spojení, pri výbere možnosti
LAST sa bude filter aplikovať od posledného slova v hľadanom spojení.
V riadku SEARCH SPAN sa určuje rozsah hľadaného ďalšieho výrazu v aktuálne vyhľadanej
konkordancii. Záporná hodnota predstavuje počet tokenov vľavo od vyhľadaného výrazu, kladná
hodnota je počet tokenov vpravo od vyhľadaného výrazu. Pod ním je riadok QUERY TYPE a
samotný riadok QUERY, ktoré už boli opísané vyššie (AKÝ BOD PRESNE). Do riadku QUERY
TYPE je potrebné vpísať výraz podľa zadaného parametra (QUERY TYPE), ktorý má byť použitý
na filtrovanie (pozitívne alebo negatívne).
Na obr 20 vidieť definovanie pozitívneho filtra slova „hráč“ (SIMPLE) v rozsahu od -3 do 3
tokenov na oboch stranách zobrazenej konkordancie slova „slovenský“.
Po potvrdení FILTER CONCORDANCE sa zobrazí požadovaný filtrovaný materiál (obr 21).
20
Dominantným je vyhľadané slovo („slovenský“) zvýraznené červenou farbou. Červenou farbou a
kurzívou je zvýraznený pozitívne filtrovaný hľadaný výraz („hráč“).
Menu → Konkordancia → Frequency
Po kliknutí na hlavnú položku FREQUENCY sa zobrazia dve možnosti (obr. 21_1)
MULTILEVEL FREQUENCY DISTRIBUTION umožňuje počítanie frekvencie okolitých atribútov
(WORD, LEMMA, TAG, PREC) až na troch úrovniach podobne ako pri funkcii triedenia (SORT).
Používateľ môže nastaviť frekvenčný limit výskytu ýrazu v korpuse, s ktorým má nástroj počítať
frekvenciu.
Druhou možnosťou frekvenčnej distribúcie je TEXT TYPE FREQUENCY DISTRIBUTION, ktorá
umožňuje počítanie na základe položiek štýlovo-žánrovej anotácie (REFERENCES).
Položky MULTILEVEL FREQUENCY DISTRIBUTION a TEXT TYPE FREQUENCY
DISTRIBUTION nie je možné použiť súčasne.
Menu → Konkordancia → Frequency → Node Tags
NODE TAGS spočíta frekvenciu morfologických tagov a zoradí ich od najvyššej po najnižšiu. Na
21
obr. 22 je vidieť frekvenciu morfologických tagov všetkých vyhľadaných tvarov hľadaného výraz
„slovenský“.
Menu → Konkordancia → Frequency → Node Forms
NODE FORMS spočíta frekvenciu tvarov vyhľadaného výrazu a zoradí ich od najvyššej po
najnižšiu. Do kolonky vedľa FREQUENCY LIMIT je možné zadať číslo, ktoré obmedzí zobrazenie
nežiadúcich výskytov (všetky nižšie ako uvedené číslo). Na obr. 22_1 vidno zoznam
najfrekventovanejších tvarov paradigmy slova „slovenský“ s obmedzením frekventovanejšie ako
7000 výskytov.
22
Na začiatku každého riadku zobrazenej frekvencie sú k dispozícii skratky P (pozitívny filter) a N
(negatívny filter). Po kliknutí napr. na pozitívny filter sa zobrazia len tie výskyty, ktoré zodpovedajú
pozitívnemu filtru. Po kliknutí na pozitívny filter (p) pred posledným zobrazeným riadkom sa
zobrazia v konkordančnom zozname len výskyty tvaru „Slovenskú“ vo veľkosti 7715 výskytov
(obr. 23).
Po kliknutí na negatívny filter tom istom riadku (n) sa zobrazia všetky ostatné výskyty lemy
23
„slovenský“ okrem tvaru „Slovenskú“ (obr. 25).
Menu → Konkordancia → Frequency → Doc IDs
DOC IDs spočíta výskyty všetkých identifikačných údajov, ktorými sú označené texty v korpuse, z
ktorých pochádzajú jednotlivé výskyty (obr 25_1).
24
Menu → Konkordancia →Collocations
Položka Collocations v ľavom menu umožňuje vyhľadávanie kolokácií k hľadanému výrazu (obr.
26).
Vedľa položky ATTRIBUTE používateľ zvolí, či má záujem o kolokáciu tvaru slova (WORD),
lemy (LEMMA), tagu (TAG) alebo PREC. V riadku IN THE RANGE FROM je možnosť voľby
rozsahu kolokácie podobne ako pri pozitívnom a negatívnom filtri. MINIMUM FREQUENCY IN
CORPUS stanovuje
MINIMUM FREQUENCY IN GIVEN RANGE
Show functions: T-score, MI,...
Sort by:
Po kliknutí na MAKE CANDIDATE LIST sa zobrazí kolokačný zoznam zoradený podľa zvolenej
hodnoty. Po kliknutí na SAVE OPTIONS sa nastavené hodnoty uložia a budú prednastavené pri
ďalšom počítaní.
Menu → Konkordancia → ConcDesc
V položke CONCDESC zobrazí zápis vyhľadávaného výrazu v regulárnom výraze spolu s
informáciou o počte výskytov hľadaného výrazu (obr. 27).
Poslednou položkou menu vľavo je možnosť zmeniť umiestnenie celého menu (SWITCH MENU
POSITION). Po výbere je menu umiestnené v záhlaví stránky (obr. 28).
25
??? Korpusový manažér ponúka ku každej zo zvolených položiek v ľavom menu pomocnú stránku
v angličtine so základnými informáciami.???
Menu → Word List
Položka WORD LIST umožňuje získať zoznamy viacerých atribútov zo zvoleného korpusu s
definovaním konkrétnej špecifikácie. V položke CORPUS používateľ vyberie požadovaný korpus,
v ktorom sa má hľadať. Vytvorenie vlastného subkorpusu (SUBCORPUS → CREATE NEW) nie je
v SNK povolené. V položke SEARCH ATTRIBUTE používateľ vyberá medzi slovom (WORD),
lemou (LEMMA), tagom (TAG), XXX (PREC) a položkami zo štýlovo-žánrovej anotácie, napr.
dátum vydania textu (DOC.DATE) a pod.
Vedľa položky FILTER WORDLIST BY je potrebné vpísať niekoľko podmienok:
Regulárny výraz (RE PATTERN), ktorý používateľ hľadá
Minimálna frekvencia (MINIMUM FREQUENCY) hľadaného výrazu v korpuse
WHITELIST umožňuje nahrať do korpusového nástroja zo svojho PC dokument so
zoznamom slov (textový dokument vo formáte txt, ktorý obsahuje v jednom riadku len jedno
slovo), ktoré chce používateľ v korpuse vyhľadať.
BLACKLIST umožňuje nahrať do korpusového nástroja zo svojho PC dokument so
zoznamom slov (textový dokument vo formáte txt, ktorý obsahuje v jednom riadku len jedno
slovo), ktoré chce používateľ pri vyhľadávaní zo zoznamu odfiltrovať.
Vyplnenie WHITELIST a BLACKLIST nie je povinné.
WORD COUNTS zobrazí frekvenciu vyhľadaného výrazu.
DOCUMENT COUNTS zobrazí frekvenciu dokumentov, v ktorých sa hľadaný výraz
nachádza. Táto možnosť v súčasnosti v korpusovom kliente Bonito II nie je dostupná spolu s
možnosťou
štatistického
ukazovateľa
AFR
https://trac.sketchengine.co.uk/wiki/SkE/Help/JargonBuster).
26
(pozri
viac
na
Možnosti výstupu vyhľadaného výrazu je možné zvoliť v časti OUTPUT TYPE:
SIMPLE – jednoduché zobrazenie hľadaného výrazu s frekvenčnou hodnotou
KEYWORDS – potrebné je zadať aj parametre týkajúce sa referenčného subkorpusu
(REFERENCE SUBCORPUS) a hodnoty SIMPLEMATH PARAMETER N (viac informácii o
SIMPLEMATH
PARAMETER
N
nájdete
na
http://trac.sketchengine.co.uk/attachment/wiki/SkE/SimpleMaths/liverpool%5B1%5D.txt ), pričom
výstupným zobrazením je frekvenčný ukazovateľ, koľkokrát sa hľadaný výraz vyskytuje častejšie v
hľadanom korpuse ako v referenčnom subkorpuse (REFERENCE SUBCORPUS).
MULTILEVEL ponúka možnosť zobrazenia viacerých atribútov (WORD, LEMMA, TAG,
PREC) vedľa seba.
Na obrázku 7_1 bol na vyhľadávanie zvolený korpus prim-5.0-public-sane, hľadanie lemy a slov
zakončených na koncovku „-ený“ s obmedzením výskytu v korpuse aspoň 5-krát s jednoduchým
výstupom (WORD COUNTS, SIMPLE).
Na obr. 7_02 je vidieť výstup časti takéhoto zoznamu slov.
27
Na obrázku 7_3 sú zobrazené nastavenia MULTILEVEL zobrazenia tvaru slova (WORD), lema
(LEMMA) a PREC – vyhľadanie všetkých lem končiacich na „.*ený“ s rozsahom aspoň 7000
výskytov v zvolenom korpuse prim-public-5.0-sane.
Výstup z vyššie definovaného hľadania je na obrázku 7_4.
28
Literatúra
KILGARRIFF Adam – HUSÁK Miloš – McADAM Katy – RUNDELL Michael –
RYCHLÝ Pavel: GDEX: Automatically finding good dictionary examples in a corpus. In:
Proceedings of the XIII EURALEX International Congress 2008. Ed. E. Bernal – J. DeCesaris.
Barcelona: Universitat Pompeu Fabra 2008, s. 425 – 433.
29
Po úspešnom stiahnutí súboru BONITO.ZIP zo stránky Slovenského národného korpusu do svojho
počítača a po jeho nainštalovaní (extrahovanie súborov z tohto súboru do jedného adresára
kliknutím na zazipovaný súbor BONITO.ZIP, doplniť celý priebeh inštalácie ) .
Pre spustení programu Bonito (červená ikonka) sa zobrazí dialogové okno Login.
OBRÁZOK!
V ňom je preddefinovaná adresa servera (KORPUS_JULS_SAVBA_SK). Políčka uzivatel (user) a
a heslo (password) sú prázdne. Tie vyplníme údajmi, ktoré sme dostali e-mailom po zaregistovaní
sa ako používatelia Slovenského národného korpusu. Následne stlačíme ENTER alebo DOBRE. Po
úspešnom prihlásení sa do programu Bonito môžeme vidieť v ľavom hornom rohu meno korpusu.
V prípade neúspešného pripojenia pokus opakujeme.
OBRÁZOK!
Program Bonito komunikuje so serverom Slovenského národného korpusu prostredníctvom portu
5016. Ten môže byť vaším poskytovateľom internetových služieb blokovaný. V prípade
pretrvávajúcich problémov s pripojením si u poskytovateľa internetových služieb overte, či nie je
port 5016 blokovaný.
V položke Manažér – Zmena hesla si môžeme zmeniť aktuálne heslo vygenerované systémom ako
zhluk číslic a písmen na iné vhodnejšie heslo.
OBRÁZOK!
30
Download

Manuál na používanie Bonita Na získanie plného prístupu do