Přednáška doc. Vladimíra Petkeviče
Datum konání: 26. října 2012
Místo konání: zasedací místnost děkanátu Filozofické fakulty Masarykovy univerzity
Název přednášky: Lingvistické značkování korpusů češtiny
Přednášející: doc. RNDr. Vladimír Petkevič, CSc.
Počet účastníků: 45
Zpracovali: Eva Hlavizňová, Pavlína Sedlářová, Richard Věžník, Michal Zlatkovský
Lingvistické značkování korpusů češtiny
Druhá přednáška z cyklu přednášek externích expertů, který je pořádán v rámci kurzu
Odborná přednáška a exkurze I, byla tentokrát pod taktovkou doc. Vladimíra Petkeviče,
jenž si pro své posluchače připravil prezentaci na téma „Lingvistické značkování korpusů
češtiny“. V zasedací místnosti děkanátu Filozofické fakulty Masarykovy univerzity se sešlo
přes 40 posluchačů z řad studentů, kantorů i pracovníků laboratoře Zpracování
přirozeného jazyka spadající pod Fakultu informatiky Masarykovy univerzity. Účastníci se
mohli dozvědět řadu zajímavých informací o morfologickém a syntaktickém značkování,
o problémech souvisejících s touto prací, o metodách značkování a v neposlední řadě také
o dosažené úspěšnosti v této oblasti.
Medailonek přednášejícího
Doc. RNDr. Vladimír Petkevič, CSc. je docent české jazykovědy na Filozofické fakultě
Karlovy univerzity v Praze. Jeho specializací je matematická a počítačová lingvistika. Na FF
UK je ředitelem Ústavu teoretické a komputační lingvistiky a spolupracuje i s Ústavem
Českého národního korpusu. V oboru počítačové lingvistiky se podílel i na mnoha
publikacích, byl hlavním editorem sborníku Studie z korpusové lingvistiky či spoluautorem
knihy Jak využívat Český národní korpus. Pracoval také na Frekvenčním slovníku češtiny
a Encyklopedickém slovníku češtiny. Je mimo jiné členem Pražského lingvistického
kroužku a světové Association of Computational Linguistics.
Mimo své hlavní zaměření je Vladimír Petkevič také překladatelem z angličtiny, němčiny či
ruštiny. Překládá náboženskou literaturu, např. Pojednání Fadlulláha Chajrího Islám nebo
křesťanský filozofický spis Edity Steinové Myšlenky a meditace, i populárně-naučné
publikace jako Role Československa v sovětské strategii Josefa Kalvody. Bez zajímavosti
není ani jeho rodinná spřízněnost s významnou postavou světové literatury: je
prasynovcem ruského spisovatele Vladimira Nabokova.
Co je korpus a k čemu slouží?
Elektronický jazykový korpus je v podstatě elektronická databáze přirozeně vytvořených
textů. Ty se do korpusu ukládají ve své přirozené kontextové podobě, čímž umožňují
všestranné studium jazyka. Z korpusu lze kromě vlastních
textů získat i „metadata“, např. lingvistické či bibliografické
údaje, jež mohou pomoci při vytváření rozličných statistik
a provádění výzkumů. Aby byly takové výstupy relevantní, je
nutné mít k dispozici dostatečně velký korpus. V opačném
případě totiž může nastat situace, že okrajové a zvláštní jevy
převáží ty základní a běžně užívané. V korpusu lze mimo
jiné provádět zpracování hromadných jazykových dat, a to
zejména pořizování konkordancí (KWIC – Key Word in
Context), které jsou základním zdrojem při zkoumání jak
syntagmatiky, tak paradigmatiky jazyka) a statistických
údajů (pro zjištění centrálních či periferních jevů). Práce lingvistů probíhá díky
elektronickým korpusům mnohonásobně rychleji než kdy dřív. Korpusy jsou díky
počítačovému zpracování obrovské a data do nich lze přidávat i průběžně, nelze se tedy
divit, že již dávno předčily všechny ručně vybudované kartotéky a archivy. Primárním
důvodem pro budování korpusu bylo získání dostatečného množství podkladů pro tvorbu
obecných a specializovaných slovníků. Provádění lingvistických výzkumů pak bylo
logickým krokem. U matematické lingvistiky se jedná zejména o analýzu a syntézu jak
psaného, tak mluveného jazyka. Největšího pokroku v oblasti mluveného jazyka se
dosahuje v jeho syntéze. Konkrétními příklady aplikace v praxi mohou být mimo jiné
počítačové nástroje na zpracování přirozeného jazyka, spelling checker, korektor
gramatiky, morfologická disambiguace, automatický strojový překlad, převod psaného
jazyka do mluvené podoby a opačně, komunikační systémy apod.
Klasifikace korpusů
Dle velikosti můžeme korpusy rozdělit na malé (stovky tisíc slov), střední (miliony až
desítky milionů slov) a velké (stovky milionů slov). Korpusy lze dělit také podle časové osy,
a to na synchronní, diachronní a časově vázané neboli monitorovací (zachycují přírůstky
a evidují tak změny v čase). Korpusy existují psané, které mohou být synchronní
i diachronní, a mluvené, jež vznikají přepisováním mluveného jazyka do psané podoby
a u nichž vzniká problém s velikostí a reprezentativností. Dalším kritériem může být např.
geografické rozmístění, obsah, reprezentativnost, dostupnost apod. Při práci s korpusy je
však většinou nejdůležitější to, zda je daný korpus lingvisticky označkován (anotován), či
nikoliv. Při počítačovém zpracování je anotace velmi důležitým aspektem, někteří lingvisté
však berou značkování jako znečišťování surových dat a jsou proti němu (za všechny např.
John Sinclair, zakladatel korpusové lingvistiky).
Český národní korpus
Výsledkem projektu Český národní korpus je velká řada korpusů, a to jak mluvených, tak
psaných. Hlavním korpusem psané češtiny je korpus SYN obsahující 1 300 milionů slov. Je
tvořen texty z let 1990–2010 a sdružuje korpusy SYN2010 (100 milionů slov, 2005–2009),
SYN2009PUB (700 milionů slov, publicistika, 1995–2007), SYN2006PUB (300 milionů
slov, publicistika, 1989–2004), SYN2005 (100 milionů slov, 2000–2004), SYN200 (100
milionů slov, 1990–1999), FSC2000 (100 milionů slov, zdroj Frekvenčního slovníku
češtiny, 2004), ORWELL (100 tisíc slov, ručně označkovaný korpus Orwellova románu
1984), KSK-DOPISY (800 tisíc slov, ručně přepsaná korespondence z let 1990–2004).
Všechny z výše uvedených korpusů (kromě KSK-DOPISY) jsou lemmatizovány. Mezi
korpusy mluveného jazyka patří mimo jiné ORAL2008 (1 milion slov), ORAL2006
(1 milion slov), PMK (Pražský mluvený korpus, 675 tisíc slov), BMK (Brněnský mluvený
korpus, 490 tisíc slov). ČNK spravuje také diachronní korpus DIAKORP (1,95 milionů slov,
z roku 2005) a InterCorp (92 milionů slov, 25 jazyků, překlady k češtině). Vedle ČNK
existují další projekty zaměřené na budování korpusů, a to Pražský závislostní korpus (The
Prague Dependency Treebank 2.0) na Ústavu formální a aplikované lingvistiky MFF UK,
a brněnské korpusy na FI MU.
Značkování jazykových korpusů
Značkování (anotace) je proces přidávání explicitních informací k surovým datům. Probíhá
buď ručně, nebo automaticky. Velké korpusy nelze značkovat jinak než automaticky.
Anotace se dělí na lingvistickou a nelingvistickou. Nelingvistická zahrnuje identifikaci
textu v korpusu a následné přiřazení bibliografických údajů apod. Lingvistické značkování
existuje dvojí, a to vnější (segmentace) a vnitřní (lingvistické informace na různých
úrovních popisu jazyka). Jedná se zejména o značkování fonetické, fonologické, gramatické
a sémantické. Gramatické značkování zahrnuje dva druhy anotace, a to syntaktickou
anotaci a morfologickou a slovnědruhovou anotaci, která řeší tokenizaci, větnou
segmentaci, morfologickou analýzu, morfologickou disambiguaci. Celý tento proces
doprovázejí problémy, např. tokenizace slov typu „chceš-li“, „abys“, „křížem krážem“,
„česko-německý“, větná segmentace vět obsahujících tečku, která však neukončuje větu
(např. zkratky) či morfologická analýza homonym. Syntaktické značkování spočívá ve
vytváření syntaktických struktur přiřazených větám – a ani to se neobejde bez obtíží (např.
rozvíjení substantiv infinitivem). Značkování na úrovni sémantiky je pravděpodobně tím
nejtěžším úkolem, který musí lingvisté řešit.
Morfologická analýza
Prvním krokem při morfologické analýze je lemmatizace (přiřazení všech základních tvarů
k danému slovnímu tvaru v textu). Následuje přiřazení všech morfologických interpretací
každému slovnímu tvaru v textu, a to formou tagů (značek) ze zvoleného repertoáru značek
(tagsetu) bez ohledu na kontext. Při tomto procesu se užívá morfologický slovník, jenž
obsahuje všechny české tvary a jejich příslušnou morfologickou informaci. Následně je
nutné provést morfologickou disambiguaci, tedy vybrat na základě kontextu správnou
interpretaci (odstranit homonymii). Jedná se o velmi problematickou část budování
značkovaného korpusu, často se totiž stává, že správných interpretací může být více (např.
věta „Muži se zdáli zdraví.“, slovo „růst“ apod.).
Podstatou anotačního systému je soubor značek (tagset), soubor definic (tag definitions)
a soubor anotačních pravidel pro značkování. Správnost morfologické analýzy je klíčovým
faktorem v analýze syntaktické, proto je nutné pracovat svědomitě. Často je však práce
ztěžována okolnostmi, které vyplývají přímo z jazyka. Jednou z nich je např. vysoká
flektivnost češtiny, kvůli níž je třeba mít mnohem větší soubor značek, než jaký má např.
angličtina.
Morfologická analýza se provádí pomocí morfologického analyzátoru, který zpracovává
vždy pouze jeden token textu nezávisle na kontextu. Morfologická disambiguace
s kontextem pracuje a je realizována disambiguačním programem (taggerem). Metody
morfologické disambiguace jsou dvě, respektive tři, a to statistická (na základě strojového
učení), pravidlová (lingvistická pravidla ručně vyvinuta nebo automaticky vyvozena z dat)
a kombinující oba předchozí přístupy. Nejpoužívanější metodou je metoda statistická,
která dosahuje vysoké úspěšnosti; např. korpus SYN2005, jenž využívá program MorČe
(Morfologie Češtiny), dosáhl zatím 95% úspěšnosti. Vedle statistického taggeru MorČe
existuje i tagger LanGr, který se opírá o ručně psaná pravidla (asi 2600 pravidel). LanGr
každému tokenu přiřadí všechna lemmata a tagy, čímž dosáhne 100% pokrytí (recall).
S tím však jde ruku v ruce to, že víceznačné tokeny mají rovněž přiřazeno nejvíce
nesprávných tagů. Přesnost je tedy nejnižší možná. Následná disambiguace je prováděna
kolokačním / frazémovým modulem Phras, který určuje jak gramatické, tak negramatické
kolokace a je založen na ručně psaných pravidlech a slovníku kolokací. Optimální strategie
morfologické analýzy je tedy rozdělena na čtyři fáze, kdy se v první řadě výstup analýzy
zpracovává bezpečnými pravidly, dokud neklesne počet nesprávných tagů na nejnižší
možnou hranici. Poté se zavolá kolokační modul Phras, následně se použijí bezpečná
a heuristická pravidla taggeru LanGr a zbývající nesprávné tagy se odstraní taggerem
MorČe. Úspěšnost tohoto postupu je cca 95 %. V doplňkové fázi se přiřazují vidy ke
slovesům.
Syntaktická analýza
Výše popsané problémy se zdaleka netýkají pouze morfologické analýzy. Víceznačnost
jazyka (konkrétně češtiny) je obrovskou překážkou především na poli syntaktické analýzy.
Dobře lze problematiku ukázat např. na větách „Koupil dům v Londýně.“ (strukturní
víceznačnost), „Výsledek se rovná pěti.“ (tvarová víceznačnost), „Rozsudek vynesl soud.“
(určení syntaktické funkce) apod. Metody syntaktické analýzy jsou založeny na stejných
principech jako metody analýzy morfologické. Můžeme tedy využít strojové učení
(stochastické parsery natrénované na ručně označkovaných datech), nebo použít
syntaktická pravidla, která se buď vyvodí z dat, nebo je někdo ručně vytvoří. Podmínkou
správné (morfo)syntaktické analýzy je opět mimo jiné i správně provedená disambiguace.
Problémy, které s sebou však disambiguace nese, jsou zdrojem nových otázek (a často
i odpovědí), které si lingvisté začínají klást.
Diskuze
V diskuzi po přednášce bylo nejvíce pozornosti věnováno problémům spojeným
s reflexivem „se“. Jedná se o nejfrekventovanější české homonymní slovo. V jazyce se
slovo
„se“
vyskytuje
v 95 % jako reflexivum,
ve
zbylých
5%
jde
o předložku. Nastává tedy
„morální“ problém. Pokud
totiž o každém slově „se“
vyskytujícím
řekneme,
reflexivum,
95%
se
že
v textu
je
to
dosáhneme
úspěšnosti,
kterou
klasickým značkováním rozhodně nepokoříme. Je takový přístup správný? Někdy je
pravděpodobně jednodušší využívat taková triviální fakta. A co problémy se dvěma „se“
za sebou? Lidé mají tendenci jedno vynechat, čímž však vzniká problém, který při
analýze nelze jednoduše řešit. Jedno reflexivum nemůže syntakticky patřit ke dvěma
slovům (slovesům) zároveň (příklad „Snažil se smějící dívce pomoci.“). Kromě
problematického „se“ byl diskutován i obecně známý problém neznalosti některých
gramatických pravidel. Lidé tím vytvářejí spoustu chyb v mluveném, ale hlavně
v psaném jazyce, které nepříznivě ovlivňují výsledky jazykových analýz. I tyto problémy
je nutné při práci s jazykem řešit.
Zdroje
MACH, Jakub, 2005. PETKEVIČ, Vladimír, Doc. RNDr. CSc. KDO JE KDO v české
slavistice
[online].
SLAVISTÉ
2005
[cit.
8.12.2012].
Dostupné
z
http://www.slaviste.cz/index.php?page=detail&id=381-petkevic-vladimir-doc-rndr-csc.
PETKEVIČ,
Vladimír,
2012.
Lingvistické
značkování
korpusů
češtiny
[online].
INFORMAČNÍ SYSTÉM MASARYKOVY UNIVERZITY 2012 [cit. 8.12.2012]. Dostupné z
https://is.muni.cz/auth/do/phil/Pracoviste/plin/petkevic_brno_2012.pdf?studium=5355
56.
KOCEK, Jan, 2012. Dostupné korpusy [online]. KARLOVA UNIVERZITA 2012 [cit.
8.12.2012]. Dostupné z http://ucnk.ff.cuni.cz/struktura.php.
Download

Přednáška doc. RNDr. Vladimíra Petkeviče, CSc.