Fonologický lexikální korpus češtiny a jeho analýza1
Aleš Bičan, [email protected]
Ústav pro jazyk český AV ČR, Veveří 97, Brno
Abstrakt: The paper describes the Phonological Lexical Corpus of Czech
(http://www.ujc.cas.cz/phword) and presents its analysis. The corpus consists of
257,962 lexemes phonologically transcribed. Every lexeme contains information
about its length (in terms of phonemes and syllables), its syllabification, and
phonological properties of the constituent phonemes. Included is also
information about the lexeme’s part of speech and its record in various
dictionaries. An analysis of the corpus is offered with a focus on the distribution
of vocalic quantity. It is demonstrated that previous claims about the distribution
of long vowels are not supported by the corpus. For example, their number per
word is limited to the maximum of four. Finally, the structure of Czech words in
terms of syllables is discussed. It is shown that Czech prefers open syllables and
that the frequency of lexemes decreases with the number of closed syllables in
them.
Klíčová slova: fonologický korpus, fonologické slovo, fonotaktika, vokalická
kvantita, slabika
Cílem následujícího příspěvku je představit Fonologický lexikální korpus (FLK)
a naznačit možnosti, jak jej lze využít pro zkoumání fonologie současné češtiny.
Korpus podává nejen přesné údaje o frekvenci jednotlivých fonémů a jejich
kombinací v českých lexémech (jako celku či v konkrétních slovních druzích),
ale zároveň poskytuje nové poznatky o fonologické struktuře českých slov.
V tomto příspěvku se zaměříme na výskyt krátkých a dlouhých vokálů uvnitř
českých slov a na strukturu slov podle typu slabik.
1
Příspěvek vznikl za podpory grantu 13-15361P Problémy ve fonologii slova v češtině (GAČR).
1
Struktura korpusu
FLK je lexikální slovní zásoba moderní češtiny převedená do fonologické
transkripce. Korpus vychází ze seznamu lexémů v Databázi heslářů,2 jež čítá více
než 830 000 položek, avšak pro FLK byla prozatím vybrána jen slovní zásoba ze
tří hlavních slovníků češtiny,3 obohacena o další publikované slovníky.4 Celkově
korpus obsahuje 257 962 slov (počítáno jako typy, nikoliv tokeny). Jeho
samostatnou součástí je několik subkorpusů se seznamem názvů českých obcí a
jejich částí, seznamem nejčastějších křestních jmen a jejich domácích variant.
Dalšími plánovanými subkorpusy budou české názvy živočichů a rostlin.
Ke každému lexému je ve FLK přiřazena fonologická interpretace jeho fonetické
realizace, která vychází z předpokládané ortoepické výslovnosti (viz VSČ).
Fonologická transkripce byla v první fázi získána automatickým převodem z
ortografické podoby slova. Český pravopis takový převod dovoluje, jelikož do
značné míry odráží předpokládanou výslovnost. V další fázi bylo nutné výsledek
ručně překontrolovat a opravit. Některé sekvence písmen totiž ve slovech
domácího původu odpovídají jiné výslovnosti než ve slovech původu cizího
(např. spojení t, d, n + i, srov. diktát × divák). Jiné sekvence či jednotlivá
písmena mohou odpovídat různé výslovnosti podle významu (např. x, srov.
existence × praxe), popř. podle morfologické struktury slova (např. kombinace
ou na morfémových hranicích vs. uvnitř morfémů, srov. poučit × louka). Tímto
jsme získali daleko přesnější transkripci než autoři knihy Statistiky češtiny, kteří
takové rozlišení a kontrolu při transkribování ČNK neprovedli (Václav Cvrček,
osobní komunikace) a např. transkribovali ou vždy stejným způsobem.
2
http://lexiko.ujc.cas.cz/heslare/
3
Slovník spisovné češtiny pro školu a veřejnost (2003), Slovník spisovného jazyka českého I–IV
(1960–1971), Příruční slovník jazyka českého I–VIII (1935–1957).
4
Co v slovnících nenajdete: novinky v současné slovní zásobě (1994), Slovesa pro praxi.
Valenční slovník nejčastějších českých sloves (1997), Nová slova v češtině. Slovník neologizmů
1 (1998), Nová slova v češtině. Slovník neologizmů 2 (2004), Slovník slovesných, substantivních
a adjektivních vazeb a spojení (2005), Frekvenční slovník češtiny (2010).
2
Data jsou uložena ve standardu Unicode ve formátu CSV (Comma-Separated
Value). Takové soubory lze lehce zpracovat různými editory (např. Microsoft
Excel či CSV Easy), které umožňují data třídit, vyhledávat v nich a
vyhodnocovat. Každá položka, odpovídající jednomu řádku v tabulce, obsahuje
ortografickou
podobu
lexému,
jeho
fonologickou
transkripci,
soubor
fonologických vlastností a informaci o slovním druhu a výskytu ve slovnících.
Jak již bylo řečeno, fonologická podoba lexému vychází z jeho pravopisného
zápisu. Mnoho slov, především cizího původu, má ovšem různé způsoby zápisu,
např. filosofie × filozofie. Proto korpus obsahuje ve fonologické transkripci
mnoho duplicit, avšak při jeho vyhodnocování je to řešeno rozlišováním mezi
tokeny a typy. Jako token se /filozofije/ objevuje dvakrát, jako typ jen jednou.
Fonologická transkripce hesla existuje ve dvou podobách. Základní podobou je
posloupnost fonémů, která je rozdělena do fonologických slov, 5 popř. i
přízvukových taktů, pokud heslo odpovídá více slovům. Fonologická transkripce
je vizualizace fonologické analýzy daných jazykových faktů a jako každá analýza
se řídí principy a metodologií vycházející z určité teorie. Tou je pro FLK teorie
funkční fonologie formulovaná členy Pražského lingvistického kroužku a dále
rozvinutá André Martinetem (Martinet, 2011) a Janem Mulderem (Mulder,
1989). Detaily jsou podrobně popsány v Bičan (2013).
Samostatný sloupec u každého hesla představuje fonologická transkripce, v níž je
naznačeno, jak slova slabikovat. Poněvadž neexistuje shoda na univerzálním
slabikování slov, slabikování se řídí pravidly, která jsou uložena v externím
souboru a která je možné měnit. Prozatím byla s jistými modifikacemi využita
pravidla navržená Kučerou a Monroem (1968). Jsou to stejná pravidla, kterými
se řídili pozdější lingvisté (např. Ludvíková, 1985).
5
K pojmu fonologické slovo v češtině viz Bičan, 2014.
3
Z fonologické transkripce jsou odvozeny fonologické vlastnosti, které lze chápat
jako analogii gramatické anotace v nefonologických korpusech. Kromě
informace o délce slova podle fonémů a slabik je u každého hesla naznačen tzv.
konsonanticko-vokalický vzorec.6 Každý foném je totiž buď neslabičný (tj.
konsonant, C), nebo slabičný (tj. vokál nebo slabičná sonanta /r/ a /l/, V), takže
např. tvary /voda/ a /vlna/ mají oba vzorec CVCV. Dále heslo obsahuje
informace o distinktivních rysech fonémů, z nichž se skládá. U konsonantů je to
místo a způsob artikulace a znělost, u vokálů pak horizontální a vertikální poloha
a kvantita. Podle uvedených vlastností je možné ve FLK vyhledávat nebo jej
třídit, takže lze např. zjistit, zda existují slova o pěti slabikách obsahující znělou
velární okluzívu, slabičné /r/ a vysoké přední vokály.
Dalším oddílem u každého hesla je i informace o slovních druzích konkrétních
hesel. Prozatím tuto informaci obsahují jen hesla ze SSČ, dalším heslům je
postupně přidávána. I podle ní lze korpus třídit a zjišťovat, zda se fonologická
struktura slovních druhů navzájem liší. Z důvodu omezeného prostoru se touto
otázkou nebudeme dále zabývat, avšak poznamenejme, že rozdíly mezi slovními
druhy skutečně existují, kupř. ve slabičné struktuře či celkové struktuře slova
(více viz Bičan, ms. 1). Konečně posledním oddílem každého hesla je informace
o slovnících, ve kterých se dané heslo objevuje, což nabízí další možnost, jak
slova srovnávat. Tak lze např. zjistit, zda se fonologická struktura apelativ liší od
struktury proprií (srov. Bičan, ms. 2).
FLK vzniká v rámci grantu, v současnosti stále řešeného, a bude v celé své šíři
zveřejněn po jeho skončení v roce 2016. Pro potřeby ostatních lingvistů je však
prozatím nabídnuta část korpusu se slovní zásobou ze Slovníku spisovné češtiny,
jež čítá něco málo přes 45 000 položek.7
6
S konsonanticko-vokalickými vzorci pracovali také Bartoň et al. (2009), avšak jejich
transkripce byla fonetická, tudíž všechna slova začínala na konsonant. Ráz, který se vyskytuje
na začátku slov před vokálem, je také konsonant. Fonologicky však ráz status fonému nemá.
7
Viz http://www.ujc.cas.cz/phword/ . Tam i detailní analýza této slovní zásoby.
4
Analýza korpusu
O užitečnosti korpusů pro analýzu a pochopení jazyka nelze pochybovat. Ačkoliv
je lingvisté využívají především pro gramatickou analýzu, korpusy mají své
opodstatnění i pro zkoumání zvukové stránky jazyka. Svědčí o tom četné
fonetické korpusy (Durand et al., 2014), pro češtinu např. Pražský fonetický
korpus (Skarnitzl, 2010), nebo korpusy mluveného jazyka (pro češtinu jich
existuje několik). Na rozdíl od fonetických korpusů, které se využívají pro popis
skutečných zvukových realizací, je záměrem fonologických korpusů podat
informaci o využití zvukových prostředků v daném jazyce a o jeho zvukové
stavbě. Fonologické korpusy jsou vzácnější a pro češtinu nebyl dosud žádný
zveřejněn, ačkoliv jich předchozí lingvisté zřejmě využívali (Mathesius, 1929,
Vachek, 1940, Kučera – Monroe, 1968, Trnka, 1966, Ludvíková, 1985). Tyto
popisy byly pochopitelně omezeny technickými možnostmi dané doby, a tudíž
vycházely jen z omezeného množství dat. Navíc jejich zdrojem byly zpravidla
skutečné texty, nikoliv celková slovní zásoba. Fonologické struktuře české slovní
zásoby se dosud nikdo nevěnoval, přestože pro jiné jazyky existují fonologické
lexikální korpusy (srpv- např. Frisch, 2012) a stejně tak vznikají i práce, které
srovnávají fonologické vlastnosti lexikální slovní zásoby různých jazyků (např.
Rousset, 2004).
V prvé řadě lze z FLK získat informaci o zastoupení jednotlivých fonémů a jejich
tříd, a to jak v celkovém korpusu, tak v jeho částech (např. u čtyřslabičných slov
či substantiv, popř. proprií, viz výše). Výsledky se shodují s předchozími
statistickými výzkumy (viz Ludvíková, 1985). Znamená to, že distribuce fonémů
v konkrétních textech je shodná s distribucí fonémů v lexikonu a jedná se tedy o
stabilní vlastnosti češtiny. Z konsonantických tříd jsou podle způsobu artikulace
nejčastější okluzívy, pak frikativy, sonanty a nejméně časté jsou nazály. Podle
místa artikulace jsou nejčastější alveoláry, pak labiály, pak izolované fonémy /ř/,
/j/, /r/ a /l/, dále palatály a nejméně časté jsou veláry. Neznělé konsonanty
5
převažují nad znělými. U vokálů jsou podle horizontální polohy nejčastější
přední vokály, pak zadní vokály a nejméně časté jsou vokály střední. Podle
vertikální polohy jsou nejčastější středové, pak vysoké a nejméně časté jsou
nízké vokály. Zřetelně převažují krátké vokály nad dlouhými (viz dále). Poměr
mezi neslabičnými a slabičnými fonémy je 60,1 % ku 39,9 %.
Maximální fonémická délka slov je 27 fonémů a maximální slabičná délka je 11
slabik. Obě tyto délky má slovo pseudokonstitucionalismus, což je spíše výjimka
než pravidlo. Průměrná fonémická délka slov je totiž 9,24 fonémů a průměrná
slabičná délka je 3,69 slabik. Ačkoliv z matematického hlediska neplatí, že by
slova o uvedených průměrných délkách musela být nejčastější, v češtině tomu
tak skutečně je. Graf 1 uvádí rozložení počtu slov, která obsahují určitý počet
fonémů. Je zjevné, že čím je ve slově více nebo méně fonémů než 9, tím jsou
taková slova méně častá. Četnost slov se zmenšuje pravidelně, tj. nejčastější jsou
slova s devíti fonémy a slov, která jsou o jeden foném kratší, je srovnatelný počet
jako slov, která jsou o jeden foném delší. Graf 2 potom uvádí rozložení výskytu
slov podle počtu slabik. Nejčastější jsou slova o čtyřech slabikách, avšak slova o
třech slabikách jsou také hodně zastoupena. 80 % všech slov obsahuje tři až pět
slabik. Opět platí, že se zvyšujícím se nebo snižujícím se počtem slabik klesá i
četnost takových slov.
6
Graf 1: Rozložení výskytu slov podle počtu fonémů
Graf 2: Rozložení výskytu slov podle počtu slabik
Pravděpodobně to nejužitečnější, co FLK nabízí, jsou údaje o kombinovatelnosti
fonémů. Získáme nejen přesný seznam všech doložených kombinací různých
7
druhů (např. kombinace dvou konsonantů, dvou vokálů či kombinace vokálů
s konsonanty), ale též jejich procentuální zastoupení. Takto podrobné údaje
nejsou součástí žádného předchozího popisu češtiny, ačkoliv kombinace na
začátku a konci slov jsme popsali již v Bičan (2013).
Podívejme se podrobněji na jeden typ kombinací, a to kombinací krátkých a
dlouhých vokálů uvnitř slova. V minulosti někteří lingvisté přednesli myšlenku,
že distribuce vokalické délky není v češtině náhodná, ale že se naopak řídí
určitými pravidly. Trnka (1966) kupříkladu tvrdil, že dlouhé vokály nejsou
dovoleny před některými konsonantickými kombinacemi. Jiní naopak tvrdili, že
výskyt dlouhých vokálů není v českých slovech nijak omezen, tj. že česká slova
mohou obsahovat jakýkoliv počet dlouhých vokálů (např. Horálek, 1986, s. 128–
129). Stejný názor se traduje ve versologii (např. Ibrahim et al., 2013, s. 14).
Tyto a podobné hypotézy lze testovat pomocí FLK.
Vokály se mohou objevovat mezi mediálními a finálními konsonantickými
kombinacemi, tj. uprostřed a na konci slov. Z důvodu omezeného místa se
zaměříme jen na mediální kombinace, ačkoliv podobné závěry platí i pro finální
kombinace. Mediálních kombinací je doloženo 1 646 různých typů.8 Před 38
z nich (tj. 2,25 %) se neobjevuje žádný krátký vokál. Téměř polovina kombinací,
před nimiž nejsou krátké vokály doloženy, je ve FLK zastoupena jen jednou.
Můžeme proto téměř z jistotou tvrdit, že se krátké vokály mohou kombinovat
s jakoukoliv konsonantickou kombinací uprostřed slova.
Oproti tomu dlouhé vokály9 nenajdeme před 1 187 mediálními konsonantickými
kombinacemi (tj. 72,11 %). Mohli bychom tedy usuzovat, že je výskyt dlouhých
vokálů před konsonantickými kombinacemi skutečně nějak systematicky
omezen. Nicméně podrobnějším zkoumáním FLK se nám nepodařilo zjistit, že
8
Typem myslíme kombinaci stejných konsonantů, tzn. že slova postrašit a beztrestně obsahují
stejný typ kombinace, tj. /Str/ (/S/ je archifoném).
9
Zde a v dalším výkladu budeme pod dlouhé vokály zahrnovat i diftongy.
8
by to byly právě konsonantické kombinace, které by výskyt dlouhých vokálů
omezovaly. Nezjistili jsme žádnou zjevnou korelaci ani mezi vokalickou délkou
a počtem konsonantů v kombinaci, ani mezi vokalickou délkou a kvalitou a
uspořádáním konsonantů v kombinaci. Znamená to, že na výskyt dlouhých
vokálů nemá vliv, zda stojí před dvěma nebo více konsonanty, a stejně tak na ně
nemá výraznější vliv, zda stojí před kombinacemi dvou obstruentů (např. /St/,
/Pk/) či kombinacemi sonanty a obstruentu (např. /nd/, /rt/).
Důvod absence dlouhých vokálů před mnohými konsonantickými kombinacemi
musíme hledat jinde a zdá se, že tato absence je prostě důsledkem omezeného
výskytu dlouhých vokálů oproti vokálům krátkým. Celkově je ve FLK 80,3 %
krátkých vokálů a 19,7 % dlouhých vokálů. Před konsonantickými kombinacemi
je procentuální poměr mezi nimi 85,76 % ku 14,24 %, což je srovnatelné
s poměrem před jednoduchým konsonantem uprostřed slov (86,72 % ku 13,28
%).10
Přesto ale nelze tvrdit, že by distribuce vokalické délky byla zcela libovolná, jak
se v popisech češtiny tvrdí (viz výše). Rozhodně neplatí tradovaná představa, že
české slovo může obsahovat jakýkoliv počet dlouhých vokálů. Data z FLK
ukazují, že jejich počet je omezen. Zatímco česká slova mohou obsahovat tolik
krátkých vokálů, kolik je ve slově slabik (a navíc se zvyšujícím se počtem slabik
se zvyšuje i jejich procentuální zastoupení), dlouhé vokály nikdy nepřesahují
počtu čtyř bez ohledu na počet slabik ve slově. Tab. 1 tento fakt dokládá.
Hodnoty jsou uvedeny v procentech;11 první řádek (S2–S11) označuje počet
slabik ve slově a první sloupec (D0–D5+) počet dlouhých vokálů ve slově (D0 =
žádný dlouhý,12 D5+ slovo obsahuje pět a více dlouhých vokálů).
Celkové vyšší procentuální zastoupení dlouhých vokálů je dáno jejich větším výskytem
10
v koncových slabikách slov. Tam je poměr mezi krátkými a dlouhými vokály 63,9 % ku 36,1
%.
11
Pro počty jednotlivých slov podle počtu slabik viz graf 2.
12
Tj. slovo obsahuje buď jen krátké vokály, nebo krátké vokály a slabičné sonanty /r/ a /l/.
9
S2
S3
S4
S5
S6
S7
S8
S9
S10
S11
53,71 41,94 38,64 41,59 42,62 44,98 42,97 34,23 29,41
100
D0
42,31 45,73 45,06 41,07 40,82 37,19 37,97 38,26 29,41
0
D1
3,98 11,86 15,07 15,40 14,44 15,29 16,25 22,82 35,29
0
D2
– 0,47 1,20 1,87 1,98 2,47 2,66 4,70 5,88
0
D3
–
– 0,02 0,06 0,13 0,08 0,16
0
0
0
D4
–
–
–
0
0
0
0
0
0
0
D5+
Tab. 1: Výskyt dlouhých vokálů ve slově podle počtu slabik (v procentech)
Z tabulky je patrno několik skutečností. Za prvé, nejsou doložena slova s pěti a
více dlouhými vokály. Za druhé, nejčastější jsou slova s žádným nebo jedním
krátkým vokálem. Za třetí, se vzrůstajícím počtem dlouhým vokálů klesá i
četnost takových slov. Za čtvrté, bez ohledu na počet slabik ve slově je poměr
mezi slovy o určitém množství dlouhých vokálů stabilní. Průměrně je slov se
všemi krátkými vokály 45,61 %, slov s jedním dlouhým vokálem 36,14 %, slov
se dvěma dlouhými vokály 15,89 %, slov se třemi dlouhými vokály 2,55 % a
konečně slov s čtyřmi dlouhými vokály 0,09 %.
Z právě řečeného vyplývá, že se čeština brání shlukům dlouhých vokálů ve
slovech. Důvody mohou být jak historické, tak fonetické. Jak poznamenává
Sukač (2011), na češtinu v minulosti zřejmě působil podobný rytmický zákon
jako ve slovenštině, byť nikoliv v takovém rozsahu a tak pravidelně.
Z fonetického hlediska jsou dlouhé vokály náročnější na výslovnost (a čas) a
v delších slovech může být obtížnější je rozlišit od krátkých, poněvadž se
výslovnost často redukuje.
Jelikož FLK obsahuje informace o slabikování slov, zmiňme se na závěr o
struktuře slov podle typů slabik. Nejdříve se podívejme na četnost různých
slabičných typů. Jak dokládá tab. 2 (kde C = konsonant a V = vokál či slabičná
sonanta), čeština preferuje otevřené slabiky a slabiky začínající na jeden
konsonant. Průsečíkem obou možností je CV, což je nejčastěji doložený slabičný
typ v češtině. Zde se data z FLK shodují s předcházejícími výzkumy (Ludvíková,
10
1985), které zároveň doplňují. Výsledky totiž jasně ukazují, že ačkoliv čeština
dovoluje až pět konsonantů na začátku slabiky (srov. /FSkvjeT/ vzkvět) a až tři
konsonanty na konci slabiky (srov. /zāPST/ zábst), nejsou doloženy slabiky,
v nichž by bylo více než šest konsonantů (FLK obsahuje 951 377 slabik).
Začátek slabiky
Konec slabiky
Celkem
-Ø
-C
-CC
-CCC
V
VC
VCC
VCCC
3,78
Ø2,50
1,21
0,07
0,002
CV
CVC
CVCC
CVCCC
72,53
C55,01
13,89
3,55
0,07
CCV
CCVC
CCVCC
CCVCCC
22,04
CC16,88
4,33
0,81
0,02
CCCV
CCCVC
CCCVCC CCCVCCC
1,60
CCC1,22
0,33
0,05
0,002
CCCCV
CCCCVC CCCCVCC
0,06
CCCC0,05
0,02
< 0,001
CCCCCV CCCCCVC
< 0,002
CCCCC< 0,001
< 0,001
75,66
19,77
4,48
0,09
100
Celkem
Tab. 2: Doložené typy slabik v češtině a jejich procentuální zastoupení
Z korpusu je ovšem patrná další tendence, která také dosud ušla pozornosti
lingvistů: Bez ohledu na počet slabik ve slově jsou nejčastější ta slova, která
obsahují jednu zavřenou slabiku. Na druhém místě jsou pak slova, která
neobsahují žádnou zavřenou slabiku a dále platí, že se vzrůstajícím počtem
zavřených slabik klesá i frekvence takových slov. Jak ilustruje tab. 3, tato
hierarchie je stabilní bez ohledu na počet slabik ve slově. Čísla opět odpovídají
procentům, S2–S11 označuje počet slabik ve slově a Z0–Z6+ označuje počet
zavřených slabik ve slově. Kromě uvedené tendence je z tabulky zřejmé, že není
doloženo slovo, v němž by bylo šest a více zavřených slabik.
Z0
Z1
Z2
Z3
S2
S3
S4
S5
S6
S7
S8
S9
S10 S11
20,29 27,31 37,16 39,62 32,30 30,65 26,41 26,85 17,65
0
60,65 52,31 44,61 41,73 42,81 38,48 38,13 34,23 52,94
0
19,07 19,02 16,00 15,42 19,54 22,02 24,53 29,53 29,41 100
1,36 2,16 2,99 4,71 7,19 8,91 6,71
0
0
11
0,08 0,23 0,60 1,52 1,56 2,01
0
Z4
0,01 0,04 0,15 0,47 0,67
0
Z5
0
0
0
0
0
Z6+
Tab. 3: Výskyt zavřených slabik ve slově podle počtu slabik (v procentech)
0
0
0
V omezeném prostoru jsme mohli naznačit jen některé možnosti, které FLK
nabízí. Jelikož obsahuje velké množství dat, které lze poměrně jednoduše
kvantitativně vyhodnotit, jeho následná podrobná analýza umožní podat
podrobný obraz o fonologické struktuře češtiny. Dílčí výsledky již existují (Bičan
ms. 1, ms. 2). Musíme samozřejmě mít na paměti, že FLK nabízí jen jednu část
obrazu, a to jen fonologickou strukturu lexémů. Neříká už nic o struktuře slov
v konkrétních textech, kde se objevují různé morfologické tvary slov, jež
v našem korpusu zaznamenané nejsou. Proto je v budoucnu nutné tento korpus
doplnit fonologickým korpusem skutečných textů češtiny, a to nejlépe podle
textů různého stylu.
Literatura
BARTOŇ, T. et al. (2009): Statistiky češtiny. Praha: Nakladatelství Lidové noviny
– Ústav Českého národního korpusu.
BIČAN, A. (2013): Phonotactics of Czech. Frankfurt am Main: Peter Lang.
BIČAN, A. (2014): K pojmu fonologické slovo v češtině. In V. Boček – B.
Vykypěl (eds.), Sophia Slavica. Brno: Tribun, s. 13–23.
BIČAN, A. (ms. 1): Corpus-based Analysis of the Czech Syllable. Pre-print k
dispozici zde: <http://www.ujc.cas.cz/phword>.
BIČAN, A. (ms. 2): Kvantitativní fonologická analýza názvů českých obcí a jejich
částí. Pre-print k dispozici zde: <http://www.ujc.cas.cz/phword>.
DATABÁZE
HESLÁŘŮ.
Ústav
pro
jazyk
český
AV
ČR,
<http://lexiko.ujc.cas.cz/heslare/>.
DURAND, J. et al. (eds.) (2014): The Oxford Handbook of Corpus Phonology.
Oxford University Press.
FLK = Fonologický lexikální korpus. Ústav pro jazyk český AV ČR,
<http://www.ujc.cas.cz/phword>.
12
FRISCH, S. A. (2012): Phonotactic Patterns in Lexical Corpora. In: A. C. COHN et
al. (eds.), The Oxford Handbook of Laboratory Phonology. Oxford, s. 458–470.
HORÁLEK, K. (1986): Fonologie spisovné češtiny. In Mluvnice češtiny 1. Praha:
Academia, s. 122–156.
IBRAHIM, R. et al. (2013): Úvod do teorie verše. Praha: Akropolis.
KUČERA, H. – MONROE, G. K. (1968): A Comparative Quantitative Phonology of
Russian, Czech, and German. New York: Elsevier.
LUDVÍKOVÁ, M. (1995): Kvantitativní charakteristiky českých fonémů. In: M.
TĚŠITELOVÁ (ed.), Kvantitativní charakteristiky současné češtiny. Praha,
Academia, s. 11–28.
MARTINET, A. (2011): Éléments de linguistique générale. 5. vydání. Paris:
Armand Colin.
MATHESIUS, V. (1929): La structure phonologique du lexique du tchèque
moderne. Travaux du Cercle Linguistique de Prague, 1, s. 67–84.
MULDER, J. (1989): Foundations of Axiomatic Linguistics. Berlin – New York:
Mouton de Gruyter.
ROUSSET, I. (2004): Structures syllabiques et lexicales des langues du monde
(Ph.D. práce), <https://tel.archives-ouvertes.fr/tel-00250154>.
SKARNITZL, R. (2010): Prague Phonetic Corpus: Status Report. Phonetica
Pragensia, 12, s. 65–67.
SUKAČ, R. (2013): Fish and its Fisherman. Paradigmatic and Derivative Length
in Czech. Zeitschrift für Slawistik, 58, 72–101.
TRNKA, B. (1966): The Distribution of Vowel Length and its Frequency in
Czech. Prague Studies in Mathematical Linguistics, 1, s. 11–16.
VACHEK, J. (1940): Poznámky k fonologii českého lexika. Listy filologické, 67, s.
395–402.
VSČ = Výslovnost spisovné češtiny. Praha: Academia, 1968,
13
Download

Fonologický lexikální korpus češtiny a jeho analýza1 Aleš Bičan