Témata této a předchozí
přednášky
Důležité pojmy











 Organizace informací a znalostí
 Sémantická a lingvistická
problematika zpracování informací
a znalostí
 Indexování
 Selekční jazyky
 Pojmový model
VOŠIS – ZIZ 10
1
pojem, pojmový model
d l
kategorie
kritérium členění, faseta
paradigmatické − syntagmatické vztahy
ekvivalence − hierarchie − asociace
j
reference (sémiotický
(
ý trojúhelník)
j
)
trojúhelník
synonymie − homonymie
index, indexování
lexikální jednotka
selekční jazyk
řízený slovník
VOŠIS – ZIZ 10
2
Typy systémů organizace znalostí
klíčová slova, tagy
nabídkový seznam (menu, pick list, vyjmenovaná
slova)
slovník
seznamy
termínů
sémiotika
sémantika
seznam autorit (authority list/file)
lingvistika
seznam synonym
seznam morfologických (gramatických) tvarů
negativní slovník (stopwords/stop slova,
zakázaná slova)
předmětový heslář (subject headings)
seznam kategorií (nomenklatury, číselníky)
hierarchický sezam (klasifikace, taxonomie)
tezaurus
pojmová mapa, mapa námětů (topic map)
fonetika
lineární
lexikologie
klasifikace,
kategorizace
hierarchické
seznamy
vztahů
síťové
morfologie
jazykové plány
syntax
matematická
lingvistika
sémantická síť
ontologie
pravopis
3
VOŠIS – ZIZ 10
4
1
Systémové pojetí jazyka
prvky
vztahy
Korpus
lexikální subsystém (slovník)
„přirozený jazyk v počítači“
pravidla (gramatika, syntaxe)
paradigmatické
Český národní korpus
http://www korpus cz/
http://www.korpus.cz/
syntagmatické
poznávací
funkce
komunikační
referenční
jazyk = skutečnost myšlenky
emotivní
5
VOŠIS – ZIZ 10
přirozené
formální
(umělé)
podle
slovníku
informační
technická
(ICT)
selekční
jazyky pro
definici dat
volné
řízené
dotazovací
VOŠIS – ZIZ 10
6
Lingvistická kategorizace jazyků
přirozený jazyk – formální jazyk
Kategorizace jazyků
lingvistická
VOŠIS – ZIZ 10
jjazyky
y yp
pro
manipulaci
s daty
jazyky pro
řízení dat
7
Kteří sportovci získali
zlaté olympijské medaile
na olympiádě v roce 1992?
SELECT (sportovci OR
sportovec) AND zlatá medaile
AND olympiáda AND 1992
VOŠIS – ZIZ 10
8
2
Lingvistická kategorizace jazyků
přirozený jazyk – formální jazyk
 přirozený jazyk
jazyk, který se vyvíjí a jehož pravidla vyplývají
z jeho používání, takže nemusí být explicitně
předepsaná (národní jazyky, např. čeština)
 umělý (formální) jazyk
jazyk vytvořený nebo řízený pomocí souboru
pravidel předem stanovených s ohledem na
jeho použití (jazyk logiky, matematiky,
programovací jazyky, esperanto apod.)
9
Problémy s přirozeným jazykem
ženou
substantivum
hnát
 smskovat
 čanit
 email
VOŠIS – ZIZ 10
10
Lexikální jednotka
(lexém, lexical unit, token)
obecně
 sekvence písmen, číslic a dalších specifických znaků
používaná pro označení určitého pojmu
 jednotka jazyka, která je nositelem významu nebo
funkce
 z hlediska významového tvoří jeden nedělitelný celek
verbum
?
Systém
S
té
univerzální (neomezený obsahem
sdělení)
otevřený, neustále se měnící
Vývoj přirozeného jazyka
VOŠIS – ZIZ 10
žena
Přirozený jazyk
?
v selekčním jazyce
VOŠIS – ZIZ 10
11
 slovo nebo slovní spojení ve formě buď
 výrazu přirozeného jazyka, nejčastěji substantiva
nebo substantivního spojení
 klasifikačního znaku
VOŠIS – ZIZ 10
12
3
Slovní spojení
Ferdinand de Saussure
též sousloví, sdružené pojmenování, fráze
(phrase)
1857 – 1913
Jan Neruda, stavební úřad, postavení mimo hru
Kurs obecné lingvistiky. 1916
 ustálené pojmenování ze dvou nebo více slov,
které označuje jednu skutečnost a vstupuje do
věty jako hotový celek
 lexikální jednotka, kterou lze rozčlenit na
oddělené složky, přičemž každá z těchto složek
může být vyjádřena substantivem a nezahrnuje
sloveso ve tvaru určitém
VOŠIS – ZIZ 10
 langage (řeč)
langue (jazyk)
parole (promluva nebo mluva)
 označující – označované
13
VOŠIS – ZIZ 10
Trojúhelník reference
(sémiotický trojúhelník)
Ivor Armstrong Richards
1893 – 1979
Richards,
R
h d I. A.
A a Ogden,
O d
Ch.
Ch K.
The meaning of meaning. 1923
J znak
k
(jazykový výraz) – lexikální jednotka
označení
(denotace)
vyjádření
 referent
 reference
 symbol
smysl S
(koncept, pojem)
VOŠIS – ZIZ 10
14
15
odraz
VOŠIS – ZIZ 10
D denotát
(skutečnost, objekt)
16
4
Vztah označující (J)
– označované (D)
jazykový
jazykový
výraz
jazykový
výraz
výraz
jazykový
výraz
VOŠIS – ZIZ 10
17
Vzájemně jednoznačná
korespondence znak – smysl –
denotát
synonymie
homonymie
VOŠIS – ZIZ 10
denotát
denotát
denotát
18
Synonymie
kyselina sírová
pondělí
J1
J2
S1
S2
S
D1
D2
D
VOŠIS – ZIZ 10
denotát
fotbal – kopaná
J1
19
J2
VOŠIS – ZIZ 10
20
5
Kvazisynonymie
fotbalista – Jan Kovář
J1
J2
S1
a) lexikální (věcná)
tvrdý – měkký
J1
S2
Typy synonymie
S1
D
 "pravá" synonymie (ekvivalence)
cesta – silnice – dálnice – vozovka – stezka – pěšina
J2
 hierarchická nadřazenost – podřazenost
domácí zvíře – kočka – Macek
S2
 asociace
nevolnost – nemoc
D
b) gramatická (morfologická)
1 slovo ve více tvarech – cesta, cesty, cestě, cestu...
VOŠIS – ZIZ 10
21
Rekapitulace
Hodnocení výsledků vyhledávání




22
Problém synonymie
snižuje úplnost (recall):
hrozí, že nenajdeme všechny relevantní informace
relevance
informační šum
úplnost (recall)
přesnost (precision)
VOŠIS – ZIZ 10
VOŠIS – ZIZ 10
řešení:
tvorba seznamů synonymních termínů, které se
automaticky berou v úvahu při použití jednoho
z nich
23
a) věcná (lexikální) synonymie:
seznamy synonym – např. tezaury, autority
b) gramatická synonymie:
lematizátor, derivátor
c) „nouzové řešení“ – zkracování
/ maskování koncovek24
VOŠIS – ZIZ 10
6
Řešení problému synonymie
– báze autorit
Řešení problému synonymie
– Jyxo
Zpracování dotazu vyhledávacím serverem
jyxo.cz – zadán termín lingvistika
VOŠIS – ZIZ 10
25
Homonymie –
mnohovýznamovost (polysémie)
VOŠIS – ZIZ 10
26
Homonymie – mnohoznačnost
jazyk – jazyk
to je pěkné – to je pěkné
J
J
S1
S2
D1
D2
VOŠIS – ZIZ 10
S
D1
27
D2
VOŠIS – ZIZ 10
28
7
Problém homonymie
Typy homonymie
snižuje přesnost (precision):
hrozí, že najdeme nerelevantní informace
a) lexikální
stát – stát – stát – stát


zvuková (mít – mýt)
grafická (email – email)
b) syntaktická
vhazování domácích
c) sémantická – ironie, metafora
to se ti povedlo
VOŠIS – ZIZ 10
29
Kontextové řešení problému
s homonymy v dotazech
zámek AND šlechta
volně stojící obytná a reprezentativní budova
zámek AND dveře
zařízení k dočasnému uzavírání, zajišťování a spojování
pohyblivých částí
zámek AND puška
spouštěcí a odpalovací mechanismus ručních palných
zbraní
zámek AND třetina
uzavření bránícího mužstva v jeho vlastní obranné zóně
(např. v hokeji)
VOŠIS – ZIZ 10
31
řešení:
1. kontext – buňka v ČNK
2 ří
2.
řízený
ený slovník
slo ník
a) homonyma vyloučíme z používání
balón viz míč
b) jednotlivé významy upřesníme poznámkami
balón (míč)
30
VOŠIS – ZIZ 10
Kategorizace jazyků podle
slovníku
 volný jazyk / slovník
(free language, natural language)
úplnost a specifičnost, přesnost (respektuje se
jazyk tvůrce i uživatele)
 řízený jazyk / slovník
(controlled vocabulary/language, vocabulary control)
jednoznačná interpretace významu slov
vyznačení příbuznosti (vztahů) slov
VOŠIS – ZIZ 10
32
8
Co „řídí“ řízený slovník?
Použití řízeného slovníku
 Zahrnuté / nezahrnuté lexikální jednotky
 Význam lexikálních jednotek
2 P
2.
Popis
i obsahu
b h shromažďovaných
h
žď
ý h
informací
 Formát
F
át lexikálních
l ikál í h jjednotek
d t k
 Vztahy mezi lexikálními jednotkami
(paradigmatické)
VOŠIS – ZIZ 10
3. Vyjádření obsahu dotazů
33
Index může znamenat:
VOŠIS – ZIZ 10
34
Indexování může znamenat:
latinsky: ukazovatel, ukazatel, udavatel, udavač,
oznamovatel, nápis
digitus index = ukazováček (ang. index finger)
 tvorbu indexu (indexového souboru)
 pořádání (organizaci) informací
 vyzvědač, zrádce, prozrazující něco
 seznam, obsah,
b h k
katalog,
l
rejstřík
j řík
 ukazatel poměru dvou nebo více hodnot
 rozlišující, identifikační znak
VOŠIS – ZIZ 10
1. Organizace shromažďovaných
informací (třídění informačních
objektů)
 vyjadřování obsahu
(věcný popis / zpracování) informací
35
VOŠIS – ZIZ 10
36
9
Proces indexování
Typy indexování
 přidělování indexačních termínů
výběr a přiřazení indexačních termínů
(bez ohledu na to, zda se vyskytují v
textu) tak, aby reprezentovaly informační
zdroje podle určitých pravidel
vystižení obsahu dokumentu
nebo informačního dotazu
prostřednictvím slov přirozeného
jazyka nebo znaků umělého
jazyka
VOŠIS – ZIZ 10
 výběr termínů
postup vybírání indexačních termínů
z indexovaného zdroje
37
Selekční jazyk
(indexing language)
38
Selekční jazyk
jazyk určený k vyjádření obsahu
a formy informačního zdroje a dotazu
v širším slova smyslu – přístupové
body (slovník termínů, podle kterých
lze vyhledávat)
účel:
pořádání (indexování) informací
vyhledávání informací (výrazy
selekčního jazyka slouží jako
přístupové body)
VOŠIS – ZIZ 10
VOŠIS – ZIZ 10
v užším slova smyslu – řízený slovník
39
VOŠIS – ZIZ 10
40
10
Charakteristiky selekčního
jazyka




Obecná struktura selekčního
jazyka
formalizace
zvláštní syntaktická pravidla
řízená slovní zásoba: řízený slovník
používání symbolů (notace)
Ale: I přirozený jazyk může plnit funkci
selekčního jazyka
VOŠIS – ZIZ 10
 lexikální jednotky
 paradigmatické vztahy mezi
lexikálními jednotkami
lexikální
subsystém
 nástroje
á
j pro vyjádření
jádř í
(syntagmatických) vztahů
mezi více lexikálními
jednotkami – koordinace
syntaktický
subsystém
41
Příklady lexikálních jednotek
selekčního jazyka
VOŠIS – ZIZ 10
Co vyjadřuje lexikální
jednotka selekčního jazyka?
 klíčové slovo,
slovo tag
nejdůležitější, nejvýznamnější slova a slovní
spojení
 konkrétní entity
 deskriptor
lexikální jednotka tezauru
 abstraktní entity




 předmětové heslo (subject heading)
heslo v předmětovém katalogu
 třídník (znak) MDT
např. 666.155 Vrstvené bezpečnostní sklo
VOŠIS – ZIZ 10
42


předměty, věci a jejich fyzické části
materiály
činnosti a události
vlastnosti (věcí,
(věcí materiálů,
materiálů činností)
obory nebo vědní disciplíny
měřicí jednotky
 individuální entity

43
„jednotkové třídy“ vyjádřené vlastními jmény
VOŠIS – ZIZ 10
44
11
Typy selekčních jazyků
Selekčních jazyků je hodně…
paradigmatické vztahy
abecední
(předmětové)
http://www.webarchiv.cz/generator/dc.php
synta
agmatické
v
vztahy
http://info.sks.cz/users/ku/ZIZ/sjazyky.htm
VOŠIS – ZIZ 10
45
Tezaurus
prekoordinované
tezaurus
číselník
fasetová
klasifikace
monohierarchická
klasifikace
VOŠIS – ZIZ 10
46
Roget's Thesaurus
Řízený
Ří
ý slovník
l
ík uspořádaný
řád ý ttak,
k žže explicitně
li it ě
zachycuje sémantické vztahy mezi lexikálními
jednotkami.
Deskriptor (preferovaný termín)
Lexikální jednotka tezauru užívaná k označení
určitého
čitéh pojmu.
j
Vyjadřuje
V j dř j sémantickou
é
ti k
dominantu zastupující celou třídu podmíněné
ekvivalence: ostatní podmíněně ekvivalentní
slova a slovní spojení se považují za
nedeskriptory a jsou odkázána na deskriptory.
VOŠIS – ZIZ 10
postkoordinované
hierarchické
(systematické)
47
Main Entry: cat
Part of Speech: noun
Definition: feline animal, sometimes a pet
Synonyms: bobcat, cheetah, cougar, grimalkin,
jaguar, kitten, kitty, leopard, lion, lynx, malkin,
mouser ocelot,
mouser,
ocelot panther,
panther puma,
puma puss
puss, pussy
pussy,
tabby, tiger, tomcat
Zdroj: Roget's New Millennium™ Thesaurus, First Edition (v 1.3.1)
Copyright © 2006 by Lexico Publishing Group, LLC. All rights reserved.
VOŠIS – ZIZ 10
48
12
Peter Mark Roget
Ukázky tezaurů
1779 – 1869
Anglický polyhistor:
lékař, lexikograf, autor četných
publikací z oboru medicíny a optiky,
přispěvatel do encyklopedií,
vynálezce logaritmického pravítka…
Thesaurus of English Words and
Phrases. 1. vydání 1852
slovník synonym a antonym
kategorizace slov
VOŠIS – ZIZ 10
a) Tezaurus jazyka českého
b) Český zemědělský
tezaurus AGROTERM
49
VOŠIS – ZIZ 10
50
Vyjádření paradigmatických vztahů
v tezaurech
ekviv
valence
odkaz (vztah) nedeskriptor
viz
USE
deskriptor
hierarrchie
asociace
odkaz (vztah) deskriptor
nedeskriptor
ekv
UF
use / used for
odkaz na nadřazený deskriptor
nd
BT
B
broader term
odkaz na podřazený deskriptor
pd
NT
N
narrower term
odkaz na asociovaný deskriptor
ad
RT
R
related term
VOŠIS – ZIZ 10
51
13
Download

Témata této a předchozí přednášky Důležité pojmy