1 Statistická data a jejich prezentace
1.1 Co je to statistika
S pojmem »statistika« se můžete v praxi setkat hned ve čtyřech různých významech, které
spolu souvisí:
1. Statistika jako údaj nebo souhrn údajů, který byl získán sběrem nebo dalším
zpracováním.
2. Statistika jako praktická činnost spočívající ve sběru, zpracování a vyhodnocování
statistických údajů.
3. Statistika jako vědní disciplína, která se zabývá metodami sběru, zpracování
a vyhodnocování statistických údajů.
4. Statistika jako úřad nebo instituce, která provádí praktickou statistickou činnost nebo
tuto činnost zastřešuje.
Statistickou činnost provádí člověk odpradávna, i když vlastní termín „statistika“ vznikl
mnohem později. První historické zmínky jsou zřejmě záznamy o sčítání obyvatelstva
a majetku starých Babylóňanů, které pocházejí z období před rokem 3 800 př. n. l. Obdobné
průzkumy, obvykle pro vojenské a daňové účely, byly prováděny ve většině starověkých
civilizací – od Egypta, přes Čínu, Mezopotámii, Palestinu až po Řecko a Řím.
Vlastní termín »statistika« (lat. status = stav, také stát) se začal používat až v 18. století
v Německu pro označení nauky o státu. Tato vědecká disciplína se začala rozvíjet v 16. století
na univerzitách v Itálii a později také právě v Německu, proto se jí říká univerzitní statistika.
Tehdejší statistické studie obsahovaly především údaje o evropských státech – geografické,
politické, ekonomické a další. Na rozdíl od dnešní statistiky neobsahovaly mnoho čísel,
většina zaznamenaných údajů byla popisných, slovních.
Jiný typ statistického zkoumání se vyvinul v 17. století v Anglii pod názvem »politická
aritmetika«. Tyto průzkumy vycházely z údajů tehdejších církevních matrik a na jejich
základě se snažily odvodit některé obecně platné zákonitosti (např. že se rodí obecně více
chlapců než děvčat).
V 18. století se tento typ statistik začal prosazovat i v Německu a obě statistické školy se
začaly vzájemně ovlivňovat a postupně sbližovat. Statistika začala ve větší míře používat čísla
a přestala se zabývat pouze popisem státních pozoruhodností.
Nezávisle na statistice se od 16. století začala rozvíjet jiná teoretická disciplína, která vznikla
jako součást matematiky – teorie pravděpodobnosti. Pravděpodobnost je chápána jako šance,
zda daný jev nastane nebo nikoliv.
2
Ve skutečnosti však statistika a teorie pravděpodobnosti představují dva pohledy na stejný
problém. Každý hromadný jev je tvořen jednotlivými jevy individuálními a naopak
opakováním individuálního jevu získáme jev hromadný. V současné době nelze teorii
pravděpodobnosti a statistiku od sebe oddělit – teorie pravděpodobnosti je považována za
součást moderní statistiky a tvoří její teoretický základ.
Postupným splýváním univerzitní statistiky, politické aritmetiky a teorie pravděpodobnosti
v 18. a 19. století vznikla statistika jako samostatná vědní disciplína, která popisovala
hromadné jevy v nově vznikajících vědách – přírodních, technických i ekonomických. Proto
se také nazývá popisná (neboli deskriptivní) statistika. Cílem statistických průzkumů byla
vyčerpávající šetření podle zásady: čím více údajů získáme, tím přesnější budou závěry. Toto
pravidlo ve statistice převládalo až do počátku 20. století.
Na přelomu 19. a 20. století však dochází ve vývoji statistiky k zásadní změně. Začala éra
matematické statistiky, která na základě teorie pravděpodobnosti umožňuje získat
kvalifikované závěry (odhady) o sledovaném jevu i z malého dostupného vzorku údajů. Nové
statistické postupy otevřely možnosti pro průzkumy veřejného mínění, namátkové testy
a další postupy, ve kterých z vlastností části usuzujeme na chování celku.
Současná moderní statistika využívá všech postupů a metod, které během svého dlouhého
vývoje vytvořila nebo osvojila. Používá tedy jak prvky klasické popisné statistiky, založené
na analýze hromadných dat, tak prvky moderní statistiky matematické, postavené na teorii
pravděpodobnosti. Proto statistiku chápeme a využíváme jako nástroj poznání stejně jako
nástroj rozhodování v neurčitosti.
Velký význam pro rozvoj a využití statistických metod měl nástup výpočetní techniky,
zejména osobních počítačů. Počítač vítězí nad člověkem především v těch úkonech, které jsou
pro člověka tradičně nejzdlouhavější – při třídění, vyhledávání a výpočtech s velkým
množstvím dat.
Na trhu se softwarovými produkty existuje celá nabídka specializovaných statistických
programů, např. SPSS, STATISTICA a další. Jejich nevýhodou je obvykle vysoká cena,
základní statistické výpočty však nabízí i tabulkový kalkulátor MICROSOFT EXCEL, který
patří k základní výbavě většiny osobních počítačů.
V posledních letech zaznamenává statistika úspěch také v oborech a vědních disciplínách
zejména humanitního charakteru, které se dlouho vstupu obdobných exaktních metod bránily:
například v psychologii, sociologii, ale třeba i v historii. Tím spíše to platí také pro ekonomii,
která původně vznikla také jako věda sociální, ale během svého vývoje se svými metodami
přiblížila spíše vědám přírodním. Ukazuje se tedy, že statistika jako soubor nástrojů poznání
a rozhodování může mít poměrně univerzální využití, jde spíše pouze o to, zda tyto nástroje
známe a dokážeme využít.
3
1.2 S jakými daty statistika pracuje
Jak již bylo uvedeno, úkolem statistiky je sledovat a popisovat hromadné jevy. Statistickým
ukazatelem se nazývá číselné zobrazení takového jevu, případně některé jeho stránky.
Jednotlivé subjekty nebo objekty, které jsou při statistickém zkoumání sledovány, se nazývají
statistické jednotky. Statistickými jednotkami mohou být například:
•
•
•
•
osoby (např. pracovníci firmy, studenti, voliči);
organizace (např. podniky, obce, školy);
věci (např. stroje, výrobky, budovy);
události (např. úrazy, meteorologické jevy, závady).
Souhrn statistických jednotek (prvků) stejného typu a vymezení tvoří statistický soubor. Ve
statistickém zjišťování rozlišujeme dva typy souborů:
•
•
základní soubor (populace) – obsahuje všechny vymezené statistické jednotky;
výběrový soubor (vzorek) – vybraná část populace, která se podrobuje statistickému
šetření.
Počet prvků základního souboru je obvykle velmi vysoký. Cílem statistiky bylo původně
vyčerpávající šetření těchto souborů neboli census (slovo cenzor pochází ze starověkého Říma
a znamenalo původně sčítacího úředníka). Matematická statistika však přinesla možnost
provádět pouze výběrová šetření, kdy se namísto celé populace zkoumá pouze daný vzorek.
Výběrové šetření samozřejmě nemůže být tak přesné jako zkoumání celého základního
souboru, neboť vzorek nikdy nemůže nahradit celek. Přesto mu obvykle dáváme přednost
před šetřením vyčerpávajícím:
•
•
•
výběrové šetření je méně náročné na čas i finanční prostředky;
základní soubor nemusí být vždy celý dostupný;
některé průzkumy mohou testované jednotky znehodnotit (např. degustace).
Z uvedených důvodů dnes výběrová šetření převažují. Mezi výběrová šetření patří například
marketingové průzkumy, dotazníková šetření, ankety a podobně. Sestavit výběrový soubor
tak, aby co nejlépe kopíroval vlastnosti souboru základního, není nijak jednoduché.
S metodami pořizování výběrového souboru se seznámíte později.
Údaje, které u statistických jednotek zjišťujeme a sledujeme, nazýváme statistické znaky
(proměnné). Jednotlivé hodnoty, kterých může statistický znak nabývat, nazýváme obměny
neboli varianty znaku. Seznam všech navzájem různých obměn statistického znaku nazýváme
obor statistického znaku (proměnné).
Například statistický znak „počet dětí v rodině“ může nabývat obměn 0, 1, 2, atd., oborem
tohoto znaku jsou tedy nezáporná celá čísla.
4
Podle způsobu zobrazení hodnot dělíme statistické znaky na:
•
•
znaky kvalitativní – jsou vyjádřeny slovně a obvykle představují určitou vlastnost
(např. pohlaví, typ podnikání, apod.);
znaky kvantitativní – jsou vyjádřeny číselně a obvykle představují množství nebo
velikost (např. počet studentů v ročníku, cena výrobku, apod.).
Některé znaky mohou mít kvalitativní i kvantitativní reprezentaci – například známka ze
zkoušky (1 = výborně).
Podle způsobu zpracování se obvykle rozlišují tři skupiny statistických znaků:
•
•
•
znaky nominální – obvykle jsou vyjádřeny kvalitativně, jejich obměny jsou
rovnocenné, tj. nelze je navzájem porovnávat ani seřadit do hodnotové stupnice (např.
rodinný stav nebo typ podnikání);
znaky ordinální – bývají rovněž vyjádřeny kvalitativně, ale jednotlivým obměnám lze
přiřadit pořadí a navzájem je porovnávat nebo seřadit (např. dosažené vzdělání nebo
jakostní třída výrobku);
znaky metrické – jsou vyjádřeny výhradně kvantitativně, jejich obměny jsou
plnohodnotná čísla, se kterými lze dále počítat (např. výška osoby nebo počet
prodaných výrobků za týden).
Speciální skupinu kvalitativních znaků tvoří statistické znaky alternativní (neboli
dichotomické), které mohou nabývat pouze dvou různých obměn (např. muž – žena, ano –
ne). I když se tyto znaky řadí obvykle mezi nominální, mají i vlastnosti, které jinak nacházíme
u znaků ordinálních (např. můžeme obě hodnoty znaku porovnávat).
1.3 Prezentace statistických dat
Jedním z cílů statistiky je jednoduše a srozumitelně prezentovat statistická data a ukazatele.
Před statistikem stojí úkol, jak výstižně charakterizovat a prezentovat statistická data, aby
poskytla důležité informace o zkoumané problematice a také aby zaujala a upoutala
potenciálního čtenáře.
Popisná statistika používá čtyři základní formy prezentace statistických dat (ukazatelů):
•
•
•
•
textová prezentace;
tabelární prezentace (tabulky);
grafická prezentace (grafy, diagramy);
číselné charakteristiky (statistiky).
Použití jednotlivých forem prezentace a jejich variant (kombinací) závisí především na
povaze a druhu popisovaných statistických dat.
5
Nejjednodušší forma prezentace statistických dat je jejich uvedení v rámci textu. Tímto
způsobem jsou prezentovány mnohé statistiky například v novinách nebo v různých zprávách.
Nevýhodou textové prezentace je malá přehlednost, a proto se tato forma hodí pouze
k uvedení malého počtu jednoduchých informací. Chceme-li prezentovat větší množství
strukturovaných údajů, je vhodnější jiný způsob – pomocí tabulek nebo grafů.
Výsledkem statistického šetření (sběru dat) je statistický soubor, základní nebo výběrový. Ten
se obvykle zobrazuje ve formě jednoduché datové tabulky (matice), ve které řádky představují
jednotky souboru (například jednotlivé dotazníky), zatímco jednotlivé znaky (proměnné) jsou
umístěny ve sloupcích.
První řádek tabulky (hlavička) obvykle obsahuje názvy jednotlivých proměnných (popisky
sloupců). Obdobně může první sloupec obsahovat legendu, tedy popisky jednotlivých
statistických jednotek.
JMÉNO
STUDENTA
ZNÁMKA
ZNÁMKA
MATEMATIKA STATISTIKA
…
Jiří Adámek
2
1
…
Petr Bubeník
3
2
…
David Cihlář
2
3
…
…
…
…
Obr. 1.1 Jednoduchá datová tabulka jako zobrazení statistického souboru
Pokud jsou řádky v tabulce jednoznačně identifikovány (tedy pojmenovány), jde o tzv.
pojmenovaný statistický soubor. V opačném případě, kdy nejsou řádky matice dat nijak
označeny a rozlišeny, jedná se o soubor anonymní (nepojmenovaný). U anonymního souboru
je možné charakterizovat soubor pouze jako celek, zatímco u pojmenovaného souboru lze
charakteristiky souboru porovnávat s hodnotami u jednotlivých jednotek a například
identifikovat, které jednotky mají v rámci souboru extrémní postavení (například je možné
určit, kteří konkrétní studenti jsou lepší v matematice než ve statistice nebo které státy
Evropské unie mají nejvyšší inflaci).
Zvláštním případem pojmenovaného souboru jsou takzvané časové řady, které popisují
závislost sledovaného statistického znaku na čase (například počet obyvatel v České republice
nebo vývoj kursu koruny vůči americkému dolaru), a to obvykle v pravidelných intervalech.
Rozlišujícím identifikačním znakem je v tomto případě časový údaj.
Časové řady zobrazujeme obvykle ve formě tabulky, ve které jeden řádek (nebo sloupec)
odpovídá časové proměnné, druhý (popř. další) slouží k prezentaci sledovaného znaku
(znaků).
6
ROK
1991
1992
1993
1994
1995
1996
1997
1998
počet
10 309 10 318 10 331 10 336 10 331 10 315 10 304 10 295
(tisíce)
Obr. 1.2 Časová řada – počet obyvatel v České republice (1991 – 1998)
Zatímco jednoduché datové tabulky slouží především k zobrazení vstupních údajů
statistických šetření, ve výstupních zprávách se spíše objevují tabulky, které již reprezentují
výsledky výpočtů. Většinou v nich najdete hodnoty souhrnné, čili agregované, například:
•
•
•
•
počty jednotek (četnosti);
součty hodnot (úhrny);
percentuální podíly (relativní četnosti);
průměry.
Příklad tabulky s agregovanými údaji představuje obrázek 1.3. Uvádí průměrné příjmy
a výdaje v České republice agregované podle typu domácností.
TYP DOMÁCNOSTI
PRŮMĚR
NA 1 ČLENA [KČ]
PRŮMĚRNÝ
POČET
POČET
ČLENŮ
DOMÁCNOSTÍ
[V TIS.]
roční
příjmy
roční
výdaje
zaměstnanců
100 544
96 067
2,81
1 370
zaměstnanců s dětmi
85 791
82 282
3,58
799
samostatně činných
87 077
88 807
3,17
342
zemědělců
80 363
78 879
3,11
327
důchodců
70 152
71 076
1,49
522
Obr. 1.3 Agregovaná tabulka – průměrné příjmy a výdaje na jednoho člena
domácnosti v České republice (1998) - Zdroj: Český statistický úřad
S rozvojem výpočetní techniky se stále více prosazuje možnost prezentace statistických dat
pomocí grafů. Grafické zobrazení dává rychlou a názornou představu o prezentovaných
hodnotách, je tedy názornou alternativou tabulky, resp. prezentace určitého znaku v tabulce.
Grafy mají významný popularizační efekt, proto jsou oblíbeným doplňkem různých
statistických studií (zejména ve sdělovacích prostředcích).
Co se týká přehlednosti, jsou grafy mnohem názornější než čísla v tabulce – například při
porovnávání jednotlivých hodnot znaku. Naopak zřejmou nevýhodou grafu je omezená
schopnost vyjadřovat přesné hodnoty – zatímco v textu nebo v tabulce můžeme prezentovat
číselné údaje prakticky s libovolnou přesností, možnost odečítat hodnoty z grafu je limitována
7
jeho kvalitou a rozlišením stupnic. Uvedené nevýhody však lze však vzájemně kompenzovat
– například současnou prezentací tabulky i grafu.
Pro zobrazení statistických údajů se nejčastěji používají tři základní typy grafů:
•
•
•
sloupcový graf (bar chart);
spojnicový graf (line chart);
výsečový graf (pie chart).
Zřejmě nejčastěji používaný typ grafu pro prezentaci statistických údajů je sloupcový graf
(bar chart), ve kterém jsou jednotlivé hodnoty (obměny) zobrazeny jako sloupce různých
velikostí. Velikost sloupce je úměrná prezentované hodnotě, kterou lze (zhruba) odečíst
s pomocí svislé stupnice.
Spojnicový graf (line chart) používá k vyjádření hodnot (četností obměn) body navzájem
spojené úsečkami. Tento charakter grafu (lomená čára) jej předurčuje pro znázornění vývoje,
proto je vhodný například pro znázorňování časových řad.
K vyjádření procentního podílu (relativní četnosti) jednotlivých obměn znaku se často
využívá výsečový neboli koláčový graf (pie chart). Zastoupení jednotlivých obměn je
prezentováno rozdělením kruhu (100%) na kruhové výseče, přičemž plochy těchto výsečí jsou
úměrné reprezentovaným relativním hodnotám.
Všechny tři základní typy grafů četností představuje obrázek 1.4.
E
6%
F
3%
A
14%
D
17%
B
23%
C
37%
Obr. 1.4 Ukázky základních typů grafů – sloupcový, spojnicový, výsečový
1.4 Proč se říká, že statistiky lžou
V předcházejících odstavcích jsme si ukázali, jak lze prezentovat statistické ukazatele pomocí
tabulek a grafů. Umíme však tyto tabulky a grafy správně číst? Člověk snadno uvěří
prezentovaným číslům, zejména jsou-li zabalena do úhledných tabulek a grafů, přičemž již
nepřemýšlí, zda jsou tyto údaje věrohodné. Navíc někdy hraje roli i použitá formulace
prezentovaných dat: doběhne-li v závodě atlet jako druhý ze tří, byl stejně tak »stříbrný« jako
»předposlední«. Šikovný novinář nebo politik dokáže zneužít statistiku k prosazení svých
8
názorů nebo k manipulaci veřejným míněním. Proto je nutné uveřejněné statistiky vždy
vnímat v kontextu ostatních dat a závěrů, nikoliv izolovaně.
Na obrázku 1.5 vlevo vidíte graf vývoje zisku firmy za posledních 5 let. Je zřejmé, že firma je
stále ještě v zisku, ale ten pomalu klesá a hrozí brzký propad do ztráty (tedy do „červených
čísel“). Pravý graf znázorňuje tutéž situaci, tentokrát ale jako celkový úhrnný zisk firmy. Pak
již stačí tento graf doplnit nic neříkajícím nadpisem „Vývoj ekonomiky firmy za posledních
5 let“ a lživá statistika je na světě.
Obr. 1.5 Jak lze zmýlit čtenáře pomocí volby grafu
Následující schéma ukazuje přehledně, jakým způsobem je možné v jednotlivých fázích
statistického zkoumání dojít k chybným nebo mylným závěrům.
Obr. 1.6 Možné zdroje chyb ve statistice
9
Download

Statistické metody_1.pdf