ZÁKLADY APLIKOVANEJ ŠTATISTIKY
1. Čím sa zaoberá štatistika
1.1 Postavenie štatistiky medzi vedami
Štatistika je veda zaoberajúca sa zberom, analýzou, interpretáciou a prezentáciou dát.
Používa sa v širokej škále vedeckých disciplín od techniky a prírodných vied až po sociálne
a humanitné vedy. Štatistika sa úspešne využíva pri tvorbe rozhodnutí vo všetkých oblastiach
ľudského života vrátane medicíny, ekonómie či politiky.
Štatistika sa rozdeľuje na matematickú a aplikovanú. Matematická štatistika sa
zaoberá teoretickými základmi štatistiky (všeobecne sa štatistika nechápe ako súčasť
matematiky, ale ako samostatný, hoci jej príbuzný odbor). Aplikovaná štatistika sa rozdeľuje
na deskriptívnu (opisnú) štatistiku a induktívna (inferenčnú) štatistiku. Deskriptívna štatistika
sa používa na opísanie zozbieraných dát. Indikatívna štatistika sa používa na analýzu vzťahov
medzi premennými (testovanie hypotéz).
Štatistika patrí medzi metodologicky integrujúce vedy, ktoré dávajú iným vedám
spoločné metodologické nástroje. Štatistické metódy pomáhajú identifikovať, študovať
a riešiť mnohé závažné problémy vo všetkých oblastiach života. Štatistika sa niekedy nazýva
aj vedou vied. Vedecká metóda pozostáva z formulácie teórie alebo setu hypotéz, určenia ich
dôsledkov a porovnania týchto dôsledkov s (už dostupnými alebo získanými) faktami. Keď
sa získajú fakty, ktoré odporujú teórii, musí byť teória modifikovaná. Štatistika sa používa
v oboch fázach vedeckej metódy.
1.2 Oblasti využitia štatistiky
Štatistické metódy sa používajú vo všetkých vedných odboroch. Ekonómovia
používajú štatistiku na modelovanie ekonomiky, predpovedanie ekonomického vývoja a pri
rozhodovaní v hospodárskej politike. V bankovníctve sa štatistické metódy používajú pri
rozhodovaní o poskytnutí úverov. V poisťovníctve sa štatistika používa pri výpočtoch výšky
poistného a odhaľovaní poistných podvodov. Meteorológovia používajú štatistiku pri
predpovedi počasia. Inžinieri využívajú štatistiku na meranie kvality výrobkov a jej
zlepšovanie. Športovcom používajú štatistické metódy zlepšovať ich výkony. Psychológom
umožňuje štatistika konštruovať dokonalejšie testy. V medicíne sa štatistické metódy
používajú na včasné odhaľovanie rozličných ochorení, určovanie správnej liečby a pri vývoji
nových liekov. Poľnohospodárom štatistické metódy uľahčujú určiť optimálne dávky hnojiva
a závlahy. Pracovníci v doprave využívajú služby štatistikov pri nastavovaní signalizačných
zariadení v preplnených veľkomestách.
Dôležitosť štatistiky možno demonštrovať aj existenciou štatistického úradu v každom
štáte. Jeho úlohou je zhromažďovať a poskytovať údaje o stave štátu a vývoji štátu, napríklad
demografické údaje charakterizujúce počet obyvateľov, ich štruktúru a pod. Štatistický úrad
sa zaoberá aj výskumom verejnej mienky.
1.3 Vývoj štatistiky
Pojem štatistika pochádza z latinského výrazu „statisticum collegium“ (rada štátu)
a talianskeho „statista“ (štátnik alebo politik). Nemecký výraz „statistik“, ktorý v roku 1749
zaviedol Gottfried Achenwall, sa týkal výhradne analýzy dát o štáte a predstavoval vedu
o štáte. Všeobecný význam „zberu a analýzy dát“ získal pojem štatistika až začiatkom 19.
storočia.
Vzhľadom na pôvod svojho názvu bola štatistika celé storočia spojená so zberom
faktov o ekonomike, demografii a politike. Už v Biblii nachádzame viaceré zmienky o sčítaní
ľudu. V stredoveku politickí a náboženskí vodcovia systematicky zbierali informácie
o ľuďoch a majetku.
V minulosti bola štatistika chápaná ako náuka založená na vyčerpávajúcich
zisťovaniach, uskutočňovaných na každom prvku posudzovaného súboru (tzv. cenzus).
Moderná štatistika má induktívny charakter. Je to vedná disciplína, ktorej úlohou je určiť
postupy zberu údajov a na základe zozbieraných dát urobiť závery. Pri určení postupov zberu
údajov, ako i pri ich vyhodnocovaní, sa opiera o teóriou pravdepodobnosti.
Napriek dlhej histórii štatistiky bola väčšina štatistických metód a analytických
postupov vynájdená až koncom 19. storočia a hlavne začiatkom 20. storočia. Medzi
najvýznamnejších štatistikov patrili: Sir Francis Galton, Francis Ysidro Edgeworth, Karl
Pearson, George Udny Yule, William Sealy Gosset, Sir Ronald Aylmer Fisher, Jerzy
Neyman, Egon Sharpe Pearson a Andrej Nikolajevič Kolmogorov. Počas druhej svetovej
vojny sa najmä v USA a Veľkej Británii rozvinuli mnohé štatistické a analytické techniky,
ktorých použitie sa po vojne rozšírilo do mnohých ďalších oblastí.
1.4 Základné štatistické pojmy
Štatistika skúma vždy viac udalostí, procesov alebo objektov súčasne. Štatistika sa
teda zaoberá skúmaním hromadných javov. Množina skúmaných objektov sa v štatistike
nazýva štatistický súbor. Predmetom skúmania v štatistike sú prvky štatistického súboru – tzv.
štatistické jednotky, nazývané aj objekty.
Štatistický súbor a jeho jednotky musíme vždy presne časovo, priestorovo a vecne
vymedziť. Pri časovom vymedzení musíme špecifikovať časový okamih, ku ktorému súbor
definujeme – napr. pacienti, ktorí boli hospitalizovaní v zdravotnom zariadení v roku 2013.
V rámci priestorového vymedzenia súboru definujeme územie, na ktorom sa štatistické
jednotky patriace do súboru nachádzajú – napr. pacienti všetkých oddelení FNsP v Košiciach.
Vecné vymedzenie špecifikuje kto (čo) je štatistickou jednotkou – napr. za štatistickú
jednotku budeme pokladať každého pacienta, ktorý bol prijatý na lôžko (za štatistické
jednotky teda nebudeme považovať pacientov, ktorí boli liečení ambulantne). Štatistické
jednotky môžu byť nielen ľudia, ale i zvieratá, iné živé organizmy, javy, procesy, veci a pod.
V humanitných a sociálnych vedách sú to najčastejšie ľudia, no môžu to byť aj spoločenské
útvary (zdravotnícke zariadenia, oddelenia nemocníc), predmety (zdravotnícke pomôcky)
a pod.
Výsledkom definície súboru a jeho jednotiek má byť jednoznačný predpis, ktorý
umožňuje urobiť pre každú štatistickú jednotku záver, či do súboru v rámci tohto predpisu
patrí alebo nie. Počet jednotiek, ktoré patria do súboru, sa nazýva veľkosť súboru alebo rozsah
súboru.
Každá štatistická jednotka je nositeľom mnohých vlastností, ktoré možno skúmať.
Tieto vlastnosti sa nazývajú premenné, atribúty alebo štatistické znaky. Premenná nadobúda
u každej štatistickej jednotky hodnotu, ktorá môže byť iná ako u inej štatistickej jednotky.
Základným znakom premennej je to, že u jednej štatistickej jednotky v jednom časovom
okamihu nadobúda práve jednu hodnotu. Premenné sú teda tie otázky, na ktoré existuje pre
každého respondenta iba jedna odpoveď.
Skúmané premenné môžu mať rôzny charakter. Charakter premennej je jedným
z faktorov, ktorý determinuje výber správnej štatistickej metódy. Použitie nesprávnej metódy
pre daný typ údajov môže viesť k nesprávnym záverom.
Príklady štatistických jednotiek, premenných a ich hodnôt
Štatistická jednotka
Premenná
Hodnota premennej
Novorodenec
Pohlavie
Mužské
Učiteľ
Výška (cm)
186
Študent
Farba očí
Hnedá
Pacient
Trvalé bydlisko
Košice
Žiak
Priemerný prospech
1,3
Zdravotnícke zariadenie
Počet lôžok
150
Osobný automobil
Značka
Peugeot
Stolička
Hlavný materiál
Kov
Základné členenie premenných rozlišuje kvantitatívne a kvalitatívne premenné.
Kvantitatívne premenné sa ďalej rozdeľujú na intervalové (kardinálne) a poradové (ordinálne)
premenné. Kvalitatívne premenné sa ďalej rozdeľujú na nominálne a binárne (dichotomické)
premenné.
Intervalová premenná umožňuje zoradenie štatistických jednotiek podľa hodnôt
premennej a kvantifikáciu veľkosti rozdielov medzi hodnotami. Napríklad pri veku vieme, že
30-ročná žena je staršia ako 20-ročná, ale aj to, že je o 10 rokov staršia ako 20-ročná. Ďalšími
príkladmi sú vek, výška, hmotnosť, mesačný príjem, teplota, skóre v teste.
Poradová premenná umožňuje zoradiť štatistické jednotky podľa hodnôt premennej,
no na rozdiel od intervalovej neumožňuje kvantifikovať rozdiely. Ak poznáme iba poradie
pretekárov, vieme, kto bol lepší a kto horší, nevieme však určiť rozdiely medzi pretekármi.
Typickými príkladmi poradovej premennej sú prospech v škole, hodnotenie zdravotného
stavu pacienta, hodnotenie spokojnosti, vzdelanie, miera súhlasu s určitým výrokom.
Nominálna premenná umožňuje zaradiť štatistickú jednotku do jednej z viacerých
možných skupín, pričom určovanie poradia skupín nemá zmysel. Klasickými príkladmi
nominálnej premennej sú farba, národnosť, krvná skupina, vierovyznanie, kraj.
Binárna premenná predstavuje špecifický prípad nominálnej premennej, kde štatistická
jednotka patrí vždy iba do jednej z dvoch možných kategórií. Modelovým príkladom je
pohlavie.
Uvedené premenné sú zoradené od najnižšej po najnižšiu. Pri mnohých premenných si
možno vybrať škálu, prostredníctvom ktorej ju budeme merať. Napríklad vzdelanie je:
nominálna premenná, ak nadobúda hodnoty – súkromná / verejná / cirkevná škola, poradová
premenná, ak vyjadruje najvyššie dosiahnuté vzdelanie – základné / stredoškolské /
vysokoškolské, intervalová premenná, ak sa meria ako počet rokov vzdelávania – 0, 1, 2, 3
atď. Premennú treba vždy merať na najvyššej zmysluplnej škále. Napr. vzdelanie sa takmer
vždy meria na poradovej škále.
2. Fázy výskumu
Každý výskum pozostáva z viacerých krokov vykonaných v úzkej nadväznosti. Ak sa
čo len jeden z krokov neurobí správne, prípadne jednotlivé kroky nie sú koordinované,
vedecká hodnota celého, často zdĺhavého a veľmi namáhavého výskumu sa výrazne zníži.
Realizáciu výskumu možno rozdeliť do piatich fáz:
1. Špecifikácia problému a stanovenie cieľov výskumu
2. Zostavenie plánu výskumu
3. Zber údajov
4. Analýza údajov
5. Prezentácia výsledkov
2.1 Špecifikácia problému a stanovenie cieľov výskumu
Presné, jasné, ale pritom stručné vymedzenie problému, ktorému sa vo výskume
chceme venovať, predstavuje prvý predpoklad jeho úspešnej realizácie. Cieľ výskumu
musíme mať v priebehu realizácie celého výskumu na zreteli. Nezriedka sa stáva, že ciele
výskumu, ktoré si samotní výskumníci stanovili, jednoducho nemožno z údajov, ktoré
v skutočnosti zozbierali, naplniť.
Pri formulácii cieľa výskumu je potrebné presne časovo, priestorovo a vecne vymedziť
štatistický súbor. Napríklad musí byť jasné, akých pacientov chceme skúmať, či chceme
skúmať pacientov jedného oddelenia, zariadenia, zariadení v jednom meste, kraji alebo celého
štátu. Rovnako musíme presne vedieť, aké premenné budeme skúmať, akým spôsobom a na
akých škálach ich budeme merať.
Charakter problému a stanovené ciele determinujú typ výskumu, ktorý budeme
realizovať. Každý empirický výskum patrí jednoznačne do jednej z dvoch skupín.
V pozorovacom (korelačnom) výskume neovplyvňujeme premenné, iba ich meriame
a hľadáme vzťahy medzi premennými (korelácie). Príkladom korelačného výskumu je
dotazníkové
zisťovanie.
V experimentálnom
výskume
s niektorými
premennými
manipulujeme, a pritom meriame dopad týchto manipulácií na ďalšie premenné. Okrem
laboratórnych experimentov možno ako príklad uviesť experimenty, v ktorých sa skúma
dopad zmeny stravovacích návykov (napr. určitých diét) na zdravie pacientov. Aj v prípade
experimentálnych výskumov skúmame korelácie medzi manipulovanými premennými
(strava) a premennými ovplyvnenými manipuláciou (zdravie), experimenty však môžu
poskytnúť informácie vyššej kvality. Iba experimentálne údaje môžu nezvratne demonštrovať
kauzálny vzťah. Napríklad ak zistíme, že vždy keď zmeníme premennú A, zmení sa premenná
B, môžeme tvrdiť, že A ovplyvňuje B. Údaje z korelačného výskumu môžu byť
interpretované v kauzálnej podobe iba na základe nejakých teórií, ktoré máme. Nemôžu však
nezvratne a jednoznačne dokazovať kauzalitu.
Výskum môže byť tiež exploratívny alebo konfirmatívny. Exploratívne (prieskumné)
analýzy slúžia na to, aby sa zistilo o čom zhromaždené údaje vypovedajú. Napr. Ako je naše
zdravotnícke zariadenie vnímané pacientmi? Líši sa vnímanie kvality starostlivosti u mužov
a žien?
Konfirmatívne
(potvrdzovacie)
výskumy
slúžia
na
potvrdzovanie
vopred
formulovaných hypotéz. Napr. Zníženie spotreby tukov spôsobí zlepšenie celkového
zdravotného stavu pacienta.
2.2 Zostavenie plánu výskumu
Pri každom výskume musíme vytvoriť jeho plán.
Populácia a vzorka: Prvá otázka, na ktorú si musíme odpovedať, je, či budeme skúmať
každú jednotku štatistického súboru, ktorý je predmetom nášho záujmu alebo iba jeho časť.
Štatistický súbor, ktorý je vymedzený cieľom výskumu a pre ktorý vyvodzujeme závery
z výskumného zisťovania, sa nazýva populácia alebo základný súbor. V štatistike sa pod
pojmom populácia nemusí myslieť iba množina ľudí, ale môže to byť množina ľubovoľných
štatistických jednotiek. Na druhej strane vzorka alebo výberový súbor je množina
štatistických jednotiek, ktoré boli z populácie vybrané podľa vopred stanovených pravidiel.
Pre výberový súbor máme k dispozícii údaje. Ak sú pravidlá výberu zvolené v súlade
s teóriou pravdepodobnosti, môžeme výsledky zistené vo výberovom súbore zovšeobecniť na
základný súbor.
Ak je veľkosť základného súboru taká, že si môže dovoliť analyzovať každú jeho
štatistickú jednotku, urobíme to. Analyzovanie celého základného súboru sa nazýva cenzus.
Takýto vyčerpávajúci výskum je však často neekonomický či technicky neuskutočniteľný.
Preto sa výskumu väčšinou podrobuje iba časť základného súboru – vzorka.
Techniky výberu respondentov zo základného do výberového súboru
- pravdepodobnostné výbery
- nepravdepodobnostné výbery
Pravdepodobnostný výber
- je to náhodný typ výberu
- každá osoba z populácie má rovnakú pravdepodobnosť, že bude vybraná do vzorky
- reprezentuje všetky známe i neznáme vlastnosti populácie
- umožňuje odhadnúť, do akej miery sa vzorka odlišuje od populácie
- musíme mať k dispozícii zoznam všetkých členov základného súboru (zoznam všetkých
študentov univerzity, zamestnancov organizácie a pod.), z ktorého si stanovíme rozsah
výberového súboru
- jednoduchý náhodný výber
a) s vracaním: každý vybraný respondent, symbolizovaný napr. číslom v osudí, sa znovu do
osudia vracia
- je to vhodný postup najmä pri výskume malých základných súborov
b) bez vracania: vybraný respondent sa do osudia nevracia
- možno pri ňom použiť tabuľku náhodných čísel
- je založený na predpoklade, že respondenti sú v populácii určitým spôsobom usporiadaní
(napr. zoznam pracovníkov organizácie podľa abecedy, telefónny zoznam, kartotéka
obyvateľstva, volebný zoznam a pod.)
- systematický náhodný výber: do vzorky je zahrnutá každá N-tá jednotka zo zoznamu:
veľkosť kroku (N) dostaneme tak, že veľkosť populácie vydelíme veľkosťou požadovanej
vzorky – dôležité je, aby bol prvý respondent vybraný náhodne a až od tohto východiskového
bodu budeme vyberať každú N-tú jednotku
- napr. výskum trávenia voľného času mládeže v obci
- stratifikovaný náhodný výber: populácia je rozdelená do skupín (oblastí, strát) podľa
určitého kritéria a respondenti sú do vzorky z týchto skupín vyberaní náhodne
- napr. výskum armády: populácia dôstojníkov – populácia poddôstojníkov – populácia
vojakov základnej služby
- viacstupňový náhodný výber: spočíva v dvoch alebo viacerých krokoch – najskôr sú
náhodne vybrané určité prirodzené zoskupenia a z nich sú potom vyberaní respondenti
- uplatňuje sa pri rozsiahlych základných súboroch
- je technicky, časovo i finančne náročný
- napr. výskum vysokoškolákov: univerzity – fakulty – katedry – ročníky – zoznam študentov
- napr. výskum politických preferencií: kraj – okres – volebný obvod – zoznam voličov
Nepravdepodobnostný výber
- kvótny výber
- imituje v štruktúre vzorky známe vlastnosti populácie
- je založený na logickom úsudku
- môže byť použitý iba pri výskume populácie, o ktorej sme dobre informovaní
- používa sa pri výskumoch veľkých sociálnych celkov – napr. vo výskume verejnej mienky
- umožňuje reprezentatívnosť výsledkov a poskytuje všestranné a detailné poznatky
- kvóty: pohlavie, vek, vzdelanie, kraj, veľkostná kategória obce a národnosť
- účelový (zámerný) výber je založený na úsudku výskumníka o tom, čo by malo byť
pozorované a o tom, čo je možné pozorovať
- pri použití účelového výberu musí výskumník jasne, presne a otvorene definovať populáciu,
ktorú jeho vzorka naozaj reprezentuje
- napr. výskumy etnických minorít (zistilo sa, že Chorváti žijúci v USA a Kanade majú
tendenciu neklásť dôraz na finančné a pracovné úspechy – ako si Američania univerzálne
myslia)
- v ankete je výber respondentov založený na rozhodnutí jednotlivca zodpovedať otázky
uverejnené v masovokomunikačných prostriedkoch
- technika snehovej gule spočíva vo výbere jednotlivcov, pri ktorom nás nejaký pôvodný
informátor vedie k iným členom našej cieľovej skupiny
- respondenti sa postupne nabaľujú ako snehová guľa
- napr. výskum mocenskej štruktúry obce, účastníkov demonštrácie či svedkov katastrofy
- vyčerpávajúci výber je tvorený základným súborom (všetky osoby zo základného súboru sú
podrobené sociologickému skúmaniu)
Konštrukcia dotazníkov alebo plán experimentu: Úspešné zvládnutie predchádzajúcich
krokov môže byť čiastočne alebo aj úplne znehodnotené nevhodnými formuláciami otázok
v dotazníku (rovnako aj zlým plánom experimentu). Otázky musia byť naformulované tak,
aby získané informácie boli čo najkvalitnejšie. Otázky musia spĺňať viacero kritérií. Nesmú
byť dlhé, musia byť jednoznačné, jedna otázka sa musí týkať iba jednej veci. Taktiež otázok
nesmie byť príliš veľa, pretože ochota ľudí odovzdať vyplnený dotazník klesá s dĺžkou
dotazníka. Dotazník musí preto obsahovať iba tie otázky, ktoré budeme chcieť analyzovať.
V praxi sa, žiaľ, veľmi často stáva, že z množstva otázok, ktorými boli respondenti
zaťažovaní, sa pri analýze využije iba malá časť.
2.3 Zber údajov
Údaje treba zbierať najefektívnejším spôsobom, aký daná situácia umožňuje. Ak sa
využijú papierové dotazníky, je dôležitý spôsob ako údaje čo najefektívnejšie a s minimálnym
rizikom vzniku chýb prepísať do počítača. Údaje je vhodné prepisovať do tabuliek programu
MS Excel, ktorý sa nachádza v takmer každom osobnom počítači.
V programe Excel treba vkladať údaje do tabuliek tak, aby jednotlivé stĺpce
predstavovali premenné (resp. otázky v dotazníku) a riadky respondentov.
Prepisovanie údajov do programu Excel
A
B
C
D
E
1
Respondent
Pohlavie
Vek
Výška
Hmotnosť
2
1
2
74
158
65
3
2
1
69
159
80
4
3
1
68
162
80
Prvý stĺpec obsahuje číslo respondenta. Respondentov je potrebné očíslovať pre
prípad, nezrovnalostí, ku ktorým môže dôjsť v priebehu analýzy údajov. V prvom riadku
tabuľky sú ďalej uvedené názvy jednotlivých premenných (napr. pohlavie, vek, výška a
hmotnosť). Premenná pohlavie je kódovaná, pričom 1 znamená muž a 2 žena. Hodnoty
číselných premenných treba zapisovať bez jednotiek (roky, cm, kg a pod.). V prípade, že
dotazník bol zostavený tak, že umožňoval respondentovi na jednu otázku viac odpovedí (napr.
Aký druh alkoholických nápojov pijete?), musia sa takéto otázky „rozobrať“ na čiastkové,
ktoré by predstavovali premenné (napr. pije víno: áno/nie, pije pivo: áno/nie a pod.).
Často sa stáva, že respondent neodpovie na nejakú otázku, čo sa nazýva chýbajúca
hodnota. Ak narazíme na chýbajúcu odpoveď, treba miesto v tabuľke nechať prázdne (netreba
tam písať 0, ani nič podobné). Prepisovanie zhromaždených údajov do počítača je veľmi
monotónna a únavná práca. Jej bezchybné zvládnutie je však nutným predpokladom
správnosti a hodnoty celého výskumu. Niektoré chyby vzniknuté pri zápise sa dajú pri čistení
údajov odhaliť (ak má napr. otázka len dve možné odpovede a u niekoho sa zistí štvrtá
odpoveď), no neplatí to všeobecne.
2.4 Analýza údajov
Pred samotnou analýzou je teda potrebné zozbierané údaje dôkladne očistiť, inak
môžu byť výsledky skreslené a teda znehodnotené. Samotné očistené údaje predstavujú iba
neprehľadnú zmes čísel. Transformácia surových údajov na hodnotné informácie sa robí
pomocou metód deskriptívnej a induktívnej štatistiky. Konečným cieľom takmer každého
výskumu alebo vedeckej analýzy je skúmanie vzťahov medzi premennými. Medzi
premennými existuje vzťah, ak ich hodnoty systematicky korešpondujú.
Pri hodnotení vzťahov medzi premennými sa premenné často delia na závislé
(vysvetľované – Y) a nezávislé (vysvetľujúce – X). Výrazy závislý a nezávislý pochádzajú
z oblasti experimentálneho výskumu. Nezávislé premenné sú tie, ktorými sa manipuluje,
a potom meriame dopad týchto manipulácií na závislé premenné. Tieto výrazy sa však
používajú aj v korelačných výskumoch, v ktorých nezávislými premennými nemanipulujeme,
ale iba priraďujeme štatistické jednotky do skupín podľa ich určitej, vopred existujúcej
vlastnosti. Napríklad, ak vo výskume porovnávame mesačný príjem u mužov a žien, pohlavie
sa bude nazývať nezávislá premenná a mesačný príjem závislá premenná.
2.5 Prezentácia výsledkov
Záverečným krokom každého výskumu je vypracovanie správy, v ktorej sa detailne
vysvetlia použité metódy a interpretujú výsledky, ku ktorým sa dospelo. Pri prezentácii
výsledkov si treba dávať veľký pozor na to, aby sme netvrdili niečo, čo sme samotným
výskumom nezistili. Rovnako nie je prípustné zovšeobecňovať platnosť výsledkov nad rámec
skúmanej vzorky alebo populácie, ktorú sme analyzovali.
3. Základy pravdepodobnosti
S teóriou pravdepodobnosti je úzko spojená induktívna štatistika. Kým teória
pravdepodobnosti
predstavuje
matematickú
disciplínu
modelujúcu
náhodné
javy
a pravdepodobnosti ich nastatia, štatistické metódy sú určené hlavne k analýze konkrétnych
empirických údajov, pričom teória pravdepodobnosti je matematickým základom pre
odvodzovanie týchto štatistických metód. K základným pojmom teórie pravdepodobnosti
patria náhoda, náhodný jav, náhodná premenná a pravdepodobnosť.
3.1 Náhoda, náhodný jav a náhodný pokus
Náhodu možno charakterizovať ako súhrn drobných, nie celkom zistiteľných alebo
dokonca nezistiteľných vplyvov, ktoré spôsobujú, že výsledky činnosti sa v jednotlivých
prípadoch menia. Náhoda je príčinou toho, že výsledky nie sme schopní s istotou
predpovedať. Javy, ktoré za určitých podmienok, v závislosti od náhody môžu, ale nemusia
nastať, sa nazývajú náhodné javy. Zvyčajne ich označujeme veľkými písmenami A, B, C, ...
Realizácia určitých podmienok, výsledok ktorých je neistý, nazývame náhodný pokus.
Náhodným pokusom je napríklad hádzanie kockou, pričom možnými náhodnými javmi pri
jednom hode kockou sú 1, 2, 3, 4, 5 a 6. Takéto najjednoduchšie výsledky náhodného pokusu,
ktoré sa vzájomne vylučujú (ak padne jednotka, nemôže padnúť šestka) sa nazývajú
elementárne javy. Elementárne javy pri daných podmienkach nemožno rozložiť na menšie
javy (napr. jav, že padne jednotka, nemožno nijako rozložiť na menšie javy). Náhodné javy
však môžu byť aj zložitejšie (napr. párne číslo, aspoň tri, najviac dva a pod.). takéto javy,
ktoré možno rozložiť na podrobnejšie javy, sa nazývajú zložené javy (napr. jav, že padne
párne číslo, možno rozložiť na javy: padne dvojka, padne štvorka a padne šestka). Iným
náhodným pokusom je počasie budúceho dňa, pričom náhodnými javmi môže byť slnečno,
dážď, zamračené, polojasno, sneženie a pod. Náhodným pokusom je ale aj pohlavie
narodeného dieťaťa s náhodnými javmi mužské a ženské.
3.2 Pravdepodobnosť
Náhodné javy môžeme hodnotiť podľa toho, akú veľkú majú nádej, že pri náhodnom
pokuse nastanú. Posudzujeme ich teda podľa veľkosti pravdepodobnosti výskytu.
Pravdepodobnosť náhodného javu je číslo, ktoré udáva mieru, možnosti výskytu náhodného
javu.
Základy teórie pravdepodobnosti položili v roku 1654 Blaise Pascal a Pierre Fermat.
Matematickú definíciu pravdepodobnosti ako miery možného výskytu náhodného javu
sformuloval Pierre Simon de Laplace. Ak môže náhodný pokus vykázať konečný počet n
rôznych výsledkov, ktoré sú rovnako možné a ak m z týchto výsledkov má za následok
nastatie javu A, pričom zostávajúcich n – m výsledkov ho vylučuje, potom pravdepodobnosť
nastatia javu A sa vypočíta nasledovne: P (A) = m / n.
Pravdepodobnosť javu A je teda pomer výsledkov priaznivých javu A (za priaznivý sa
považuje ten výsledok, keď nastal jav A) k počtu všetkých možných výsledkov.
Príklady:
Aká je pravdepodobnosť, že pri jednom hode kockou padne číslo 4? Celkový počet
javov, ktoré sú rovnako pravdepodobné, je 6 (vždy padne 1, 2, 3, 4, 5 alebo 6). Počet
priaznivých javov, teda keď padne číslo 4, je 1. Pravdepodobnosť nastatia javu A, že padne
číslo 4, je: P (A) = 1 / 6.
Aká je pravdepodobnosť, že padne párne číslo? Celkový počet javov, ktoré sú rovnako
pravdepodobné, je opäť 6. Priaznivé javy, teda padnutie párneho čísla, sú ale 3 (môže
padnúť číslo 2, 4 alebo 6). Pravdepodobnosť nastatia javu A, že padne párne číslo, je P
(A) = 3 / 6 = 1 / 2.
Predpoklad konečného počtu výsledkov náhodného javu a rovnaká možnosť ich
nastatia je v praxi často nesplnená. V takýchto prípadoch číselnú hodnotu pravdepodobnosti
odhadujeme podľa výsledkov skutočne realizovaného pokusu. Vychádzame zo štatistickej
definície pravdepodobnosti, ktorej podstatou je, že sa pravdepodobnosť javu A odhaduje
relatívnou početnosťou nastatia javu A v skutočne realizovanom náhodnom pokuse.
Moderná teória pravdepodobnosti sa opiera o práce A. N. Kolmogorov z tridsiatych
rokov 20. storočia. Jednou zo základných vlastností pravdepodobnosti je to, že vždy
nadobúda, hodnoty od 0 po 1, pričom 0 nadobúda v prípade nemožného javu (napr. padnutie
čísla 7 na klasickej hracej kocke) a 1 v prípade istého javu (napr. padnutie čísla od 1 po 6).
3.3 Náhodná premenná a rozdelenie pravdepodobnosti
Náhodná premenná je jedným zo základných pojmov štatistiky. Jednoducho povedané,
náhodná premenná, je premenná, ktorej hodnotu určuje výsledok náhodného pokusu.
Matematicky je náhodná premenná funkcia definovaná na množine všetkých elementárnych
javov. Náhodná premenná číselne charakterizuje, výsledok pokusu. Náhodné premenné
označujeme veľkými písmenami z konca abecedy (X, Y, Z, ...), ich hodnoty označujeme
príslušnými malými písmenami (x1, x2, x3, ...).
Náhodné premenné sa delia na diskrétne a spojité:
Diskrétna náhodná premenná môže nadobúdať len niektoré izolované hodnoty
z určitého intervalu. Napr. počet obyvateľov ústavu môže byť 0, 1, 2, 3 ... n. medzi jedným
a dvoma obyvateľmi však nemôžeme „nájsť“ jeden a pol obyvateľa.
Spojitá náhodná premenná môže nadobúdať všetky hodnoty z konečného alebo
nekonečného intervalu, to znamená, že môže nadobúdať nekonečný počet hodnôt. Napr.
hmotnosť pacienta môže byť 70 kg, 80 kg, ale aj hodnota medzi nimi, teda napr. aj 72,5 kg
atď.
Dôsledkom obmedzenej presnosti meracích nástrojov a zaokrúhľovania sú hodnoty
všetkých premenných diskrétne. Prakticky sa za spojité premenné považujú tie, ktoré
nadobúdajú veľa hodnôt a za diskrétne tie, ktoré nadobúdajú málo hodnôt.
Na to, aby sme náhodnú premennú plne charakterizovali, musíme určiť množinu jej
možných hodnôt a pravdepodobnosti, s ktorými nastávajú možné hodnoty. Takýto úplný opis
náhodnej premennej, kde je každej možnej hodnote priradená pravdepodobnosť jej nastatia, sa
nazýva rozdelenie pravdepodobnosti.
Rozdelenie pravdepodobnosti diskrétnej náhodnej premennej môže byť vyjadrené
v tabuľke:
Rozdelenie pravdepodobnosti hodu kockou
Hodnota
1
Pravdepodobnosť 1 / 6
2
3
4
5
6
1/6
1/6
1/6
1/6
1/6
Rozdelenie pravdepodobnosti spojitej náhodnej premennej nemôže byť definované
pomocou tabuľky, pretože spojitá premenná nadobúda nekonečný počet hodnôt, čo by
znamenalo nekončený počet stĺpcov v tabuľke.
3.4 Normálne rozdelenie pravdepodobnosti
Normálne rozdelenie pravdepodobnosti, hoci sa niekedy nazýva Gaussovo, ako prvý
opísal De Moivre v roku 1733. Normálne rozdelenie je definované dvomi parametrami:
strednou hodnotou a rozptylom a má funkciu hustoty. Stredná hodnota udáva, kde na osi x má
krivka normálneho rozdelenia maximum a rozptyl udáva šírku rozdelenia. Normálne
rozdelenie s priemerom 0 a rozptylom 1 sa nazýva normované normálne rozdelenia.
Normálne rozdelenie pravdepodobnosti má nasledovné dôležité vlastnosti: 1. priemer, medián
a modus sa rovnajú a 2. rozdelenie je symetrické – pravá polovica krivky je zrkadlovým
obrazom ľavej polovice.
3.5 Centrálna limitná veta
Prvú verziu tejto mimoriadne dôležitej vety sformuloval Pierre Simon Laplace v roku
1810. Mnoho vynikajúcich matematikov ako P. L. Chebyshev a jeho žiaci A. A. Markov a M.
Lyapunov pracovalo na jej dôkazoch a zovšeobecneniach. Centrálna limitná veta v podstate
hovorí, že súčet (a teda aj priemer) veľkého počtu nezávislých náhodných premenných
s rovnakým rozdelením má normálne rozdelenie. Táto veta vysvetľuje, prečo sa s normálnym
rozdelením tak často stretávame v prírode, ale aj v ľudskej spoločnosti (napr. výška IQ či
hmotnosť sú ovplyvňované mnohými faktormi, a tak majú rozdelenie blízke normálnemu).
Dôsledkom platnosti centrálnej limitnej vety má normálne rozdelenie v induktívnej
štatistike dominantné postavenie. Ak zo základného súboru s ľubovoľným rozdelením
budeme vyberať dostatočne veľké náhodné vzorky, výberové rozdelenie priemeru (rozdelenie
priemerov vzoriek) bude normálne.
Význam normálneho rozdelenia v štatistike potvrdzuje aj to, že od normovaného
normálneho rozdelenia je odvodených viacero dôležitých rozdelení – napr. Chí kvadrát,
Studentovo t rozdelenie či Fisherovo F rozdelenie, ktoré sa používajú v štatistickej indukcii.
4. Príprava dátového súboru k štatistickej analýze
Od chvíle, keď sa dáta dostanú z terénu na výskumníkov stôl, prebieha jednak proces
formalizácie a systematizácie obsahu týchto informácií a jednak selekcia a vylučovanie
nekvalitných informácií (tzv. „čistenie dát“)
4.1 Štruktúra dát
Pri príprave dátového súboru na štatistickú analýzu musíme dáta transformovať do
symbolickej reči kódov (pretože je efektívnejšie na magnetické médium ukladať symboly
alebo čísla než rozsiahle texty). V tejto fáze vypracujeme kódovací kľúč (t.j. masku). Na
kódovací kľúč zaznamenávame označenia (label) premenných a varianty jednotlivých
odpovedí (čím priraďujeme jednotlivým empirickým informáciám príslušné kódy).
Informácie z nominálnych a ordinálnych premenných označujeme v kódmi (pohlavie: 1=muž,
2=žena; vzdelanie: 1=ZŠ, 2=SŠ bez M, 3=SŠ s M, 4=VŠ, atď.), kým kardinálne premenné
majú podobu prirodzených čísel (25 rokov, 1000 EUR). Pre potreby analýzy je možné získané
empirické dáta ďalej transformovať – napr. rekódovaním (veľkostné kategórie sídel zmeníme
na dedinu a mesto) a pod.
4.2 Chýbajúce hodnoty
V etape prípravy dátového súboru na analýzu je prvou dôležitou operáciou kontrola dát.
Pri kontrole obsahu dokumentu (dotazníka, záznamového hárku a pod.), prostredníctvom
ktorého sa výskum realizuje, spravidla kontrolujeme, či niektoré údaje nechýbajú. Chýbajúce
dáta sú osobitným prípadom tzv. vynechávaných dát (respondent má vždy právo na príslušnú
otázku neodpovedať), čiže údajov, ktorých skutočnú hodnotu nevieme alebo nemôžeme určiť.
Pre výskumníka chýbajúci údaj znamená stratu informácie
4.3 Čistenie dát
Prvým krokom pri čistení dát je tvorba frekvenčných tabuliek zo všetkých
premenných. Chyby spôsobené prepisom dát z dotazníka (záznamového hárku a pod.) do PC
(MS Excel) možno rozdeliť na nezistiteľné a zistiteľné. Príklady nezistiteľných chýb:
Namiesto 37 rokov sme zaznačili respondentovi 73 rokov; namiesto kódu 1 (úplne súhlasím)
sme zaznačili kód 2 (vcelku súhlasím). Zistiteľné chyby odhaľujeme pomocou kódov
premenných. Príklady zistiteľných chýb: Pohlavie 60 x Muž (1) 40 x Žena (2) 1 x ? (3); Miera
súhlasu s XY 10 x Úplne súhlasím (1) 20 x Vcelku súhlasím (2) 30 x Skôr nesúhlasím (2) 40
x Vôbec nesúhlasím (4) 1 x ? (9). Takéto chyby opravujeme vzostupným (ascending) alebo
zostupným (descending) zoradením premennej, u ktorej sme chybu našli a nájdením čísla
príslušného respondenta (v prípade rozsiahlejších výskumov i anketára). Hodnotu správneho
údaju zistíme z jeho dotazníka.
4.4 Záznam dát na magnetické médium
Dáta, ktoré prešli procesmi formalizácie, systematizácie a čistenia uložíme na
magnetické médium. Tieto dáta tvoria maticu, v ktorej riadky predstavujú skúmané osoby
(respondentov) a stĺpce jednotlivé premenné. Vlastný obsah buniek tvoria kódy hodnôt
premenných. Takto pripravené dáta môžeme začať analyzovať.
5. Deskriptívna štatistika
Deskriptívna štatistika (založená na univariačnej analýze) predstavuje poznávací
postup, ktorého cieľom je odkryť niektoré čiastkové tendencie, umožňujúce sledovať sociálne
skutočnosti už na základe prvostupňového rozdelenia súboru do variantov všetkých
sledovaných znakov. Východiskom univariačnej analýzy je teda prvostupňové triedenie dát.
Univariačná analýza slúži ako nástroj verifikácie faktuálnych hypotéz.
V univariačnej analýze narábame s jednou premennou (znakom).
Nominálna – modus (najpočetnejšia hodnota)
Ordinálna – modus a medián (stredná hodnota)
Kardinálna – modus, medián a priemer (súčet všetkých hodnôt znaku vydelený ich počtom).
Príklad: Študent dostal známky 1, 2, 3, 3, 3, 4, 5.
Modus: 3 (tri trojky)
Medián 3 (štvrté číslo v poradí)
Priemer: 3 (21 / 7)
5.1 Grafická prezentácia výsledkov
Výsledky analýz dát môžu byť prezentované v číselnej podobe (tabuľky) alebo vo
vizuálnej podobe (grafy). V tabuľke sú jednotlivé údaje prezentované presne, kým v grafoch
sa časť presnosti stráca a je nahradená globálnosťou pohľadu na získané dáta. Hlavnou úlohou
grafu je názorne prezentovať podstatu skúmanej skutočnosti. Grafická prezentácia dát sa
využíva najmä v marketingových výskumoch, no nielen v nich.
1. Stĺpcový graf: Stĺpcový graf je vhodný na prezentáciu absolútnych početností
frekvenčnej tabuľky (vytvorenej z nominálnej alebo ordinálnej premennej). Horizontálna os je
osou kategórií a výška stĺpca vyjadruje zastúpenie jednotlivých kategórií. Medzery medzi
stĺpcami vyjadrujú oddelenosť kategórií.
2. Koláčový (kruhový) graf: Koláčový graf je vhodný na prezentáciu percent (relatívnych
početností) frekvenčnej tabuľky (vytvorenej z nominálnej alebo ordinálnej premennej).
Umožňuje vysunúť a tým zdôrazniť jednotlivé kruhové výseky, čím je možné vnímať pomer
celku a jednotlivej kategórie alebo pomer medzi dvojicou (dvojicami) kategórií.
3. Pruhový graf: Pruhový graf je vhodný na prezentáciu percent (relatívnych početností)
frekvenčnej tabuľky vytvorenej zo setu ordinálnych premenných.
5.2 Kontingenčné tabuľky
Kontingenčná tabuľka (nazývaná aj krížová tabuľka) je metódou organizovania a
analýzy údajov podľa 2 premenných, ktorá umožňuje ich porovnávanie. KT je rozšírením
jednoduchej frekvenčnej tabuľky a zovšeobecnením tzv. tetrachorickej tabuľky (2x2 muži
a ženy vs. praváci ľaváci). Číslo v bunke KT predstavuje absolútny počet alebo percentuálny
podiel kombinácie príslušnej riadkovej a stĺpcovej premennej. Z KT obsahujúcej absolútne
početnosti je veľmi ťažké robiť závery o vzťahoch medzi premennými. Z takejto tabuľky však
možno ľahko zostrojiť tabuľku, ktorá obsahuje riadkové alebo stĺpcové percentá (profily).
Čím je rozdiel v riadkových (stĺpcových) profiloch väčší, tým je vzťah medzi premennými
silnejší a naopak.
6. Induktívna (inferenčná) štatistika
Korelácia: Korelačný koeficient meria silu štatistickej závislosti medzi
2
kvantitatívnymi premennými (2 ordinálnymi premennými, 1 ordinálnou premennou a 1
kardinálnou premennou alebo 2 kardinálnymi premennými).
Korelačná analýza nevyjadruje príčinno-následný vzťah. Ten však niekedy dokážeme
určiť logicky: napr. vek vs. postoj k zvyšovaniu odchodu do dôchodku. No inokedy zase nie:
napr. postoj k HAK vs. postoj k UPT.
Korelačné koeficienty: Spearmanov koeficient poradovej korelácie (rho) je mierou
súvislosti medzi 2 ordinálnymi premennými alebo 1 ordinálnou a 1 kardinálnou premennou a
Pearsonov korelačný koeficient (r) je mierou súvislosti medzi 2 kardinálnymi premennými.
Koeficient nadobúda hodnoty v intervale od -1 po 1.
Hodnota 1 predstavuje dokonalý pozitívny vzťah (s rastúcou hodnotou jednej
premennej rastie aj hodnota druhej premennej).
Hodnota -1 predstavuje dokonalý negatívny vzťah (s rastúcou hodnotou jednej
premennej klesá hodnota druhej premennej).
Hodnota 0 predstavuje nezávislosť medzi skúmanými javmi. Interpretácia hodnôt
korelačných koeficientov: Menej ako 0,1 triviálna závislosť, 0,1 – 0,3 nízka závislosť, 0,3 –
0,5 stredne vysoká závislosť, Viac ako 0,5 vysoká závislosť medzi premennými.
Download

ZÁKLADY APLIKOVANEJ ŠTATISTIKY