ICT A VÝZKUM
MAGDALENA CHMELAŘOVÁ
ČÍSLO OPERAČNÍHO PROGRAMU: CZ. 1.07
NÁZEV OPERAČNÍHO PROGRAMU:
OP VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST
ČÍSLO OBLASTI PODPORY:
ZVYŠOVÁNÍ ODBORNÝCH KOMPETENCÍ
AKADEMICKÝCH PRACOVNÍKŮ OSTRAVSKÉ
UNIVERZITY V OSTRAVĚ A SLEZSKÉ UNIVERZITY
V OPAVĚ
REGISTRAČNÍ ČÍSLO PROJEKTU: CZ.1.07/2.2.00/15.0026
OSTRAVA 2012
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem
České republiky
Recenzent:
Doc. PhDr. Anna Václavíková, CSc.
Název:
Autor:
Vydání:
Počet stran:
ICT a výzkum
Magdalena Chmelařová
první, 2012
63
Studijní materiály pro distanční kurz: ICT a výzkum
Jazyková korektura nebyla provedena, za jazykovou stránku odpovídá autor.
© Magdalena Chmelařová
© Ostravská univerzita v Ostravě
Obsah
ÚVODNÍ INFORMACE.............................................................................................. 5
ÚVOD DO STATISTIKY A TYPY DAT ............................................................... 6
Statistika a statistická data...................................................................................... 11
Populace a výběr dat .......................................................................................... 12
Typy dat v SPSS podle měřítka.......................................................................... 13
Formy statistických zjišťování ............................................................................... 14
Příprava dotazníkového šetření pro kvantitativní výzkum ..................................... 14
Příprava otázek pro dotazníkové šetření ............................................................ 16
Shrnutí základních pojmů....................................................................................... 19
Literatura .................................................................................................................... 19
APLIKACE PRO DOTAZNÍKOVÉ ŠETŘENÍ ........................................................ 20
Co nabízí aplikace Google Formuláře? .................................................................. 22
Typy otázek v aplikaci ....................................................................................... 22
Tvorba dotazníku v aplikaci Google Formulář .................................................. 22
Sdílení dotazníků a sběr dat ............................................................................... 26
Shrnutí základních pojmů....................................................................................... 28
Popisná statistika v programu EXCEL................................................................... 29
Opakování – sešity a listy v aplikaci .................................................................. 29
Řešení praktických úloh ..................................................................................... 30
Statistické funkce v Excelu ................................................................................ 32
Přehled jednotlivých funkcí v tabulkovém procesoru EXCEL 2010 ................. 32
Procvičování základních charakteristik dat ........................................................ 36
Kontingenční tabulky v programu Excel ........................................................... 39
Postup pro vytvoření kontingenční tabulky ....................................................... 40
Testování hypotéz .............................................................................................. 41
Testování statistických hypotéz ......................................................................... 41
Shrnutí základních pojmů....................................................................................... 43
ÚVOD DO STATISTICKÉ APLIKACE SPSS..................................................... 44
Popis aplikace ..................................................................................................... 44
Práce s datovými soubory .................................................................................. 45
Nabídka data ................................................................................................... 46
Hromadná data ................................................................................................... 49
Hromadná data ................................................................................................... 49
Soubory a způsoby výběru jednotek .............................................................. 49
Práce se soubory v aplikaci ............................................................................ 49
Analýza dat – třídění prvního stupně v aplikaci SPSS ....................................... 50
Využití procedury Fraquencies pro třídění ..................................................... 54
Základy dvourozměrné analýzy (třídění druhého stupně – tabulky).................. 57
Testování hypotéz - neparametrické testy .......................................................... 60
Shrnutí základních pojmů....................................................................................... 62
Literatura .................................................................................................................... 62
Závěr....................................................................................................................... 63
4
ÚVODNÍ INFORMACE
Anotace
Text „ICT a výzkum“ a s ním související e-learningový kurz v prostředí aplikace
Moodle slouží ke zkvalitnění výuky v prezenční a kombinované formě studia a také
ke zkvalitnění výstupů vědecko-výzkumné a publikační činnosti akademických
pracovníků, kteří využívají kvantitativních metod v oblasti svých výzkumných
aktivit. Moderní informační technologie lze využívat nejenom pro sběr dat, ale také
pro jejich následnou analýzu ve statistických aplikacích. K těmto účelům lze
využívat aplikace na portálu Google, dále libovolný tabulkový procesor z dostupných
kancelářských aplikací nebo profesní software IBM SPSS Statistic. Proto tento
studijní text je určen zájemcům o problematiku využívání aplikací ke statistickému
zpracování dat. Nabízí možnost pochopení využití jednotlivých aplikací od vytváření
elektronického dotazníkového šetření až po analýzu dat ve statistických aplikacích.
U frekventantů kurzu se předpokládají základní znalosti práce s počítačem a odborná
znalost publikovaná v knize „Jak se vyrábí sociologická znalost“ od Miroslava
Dismana.
Výukový text v úvodu obsahuje základní informace o statistice, následují informace
o aplikacích Dokumenty Google, kde lze pomocí formuláře snadno shromažďovat
data pro statistické zpracování, analýza dat v tabulkovém procesoru a stručné
seznámení s programem SPSS. Jednotlivé kapitoly jsou věnovány přípravě datového
souboru, práci se soubory, logice kvantitativního výzkumu, testování statistických
hypotéz a grafickému zobrazování. Celý výklad je veden formou tvorby zadaných
úloh a příkladů, na kterých je vysvětlena příslušná problematika.
Klíčová slova:
statistika, typy dat, aplikace Google, aplikace Excel, testy
hypotéz, aplikace SPSS
5
ÚVOD DO STATISTIKY A TYPY DAT
Cíl:
Po nastudování této kapitoly byste měli umět:
- vysvětlit pojem statistika a pracovat s tabulkami publikovanými na webovém
portálu Českého statistického úřadu
- základní statistické funkce a práce v tabulkovém procesoru
- naučíme se, co znamená kvantitativní hodnocení vlastností
- seznámíme se s typy dat
Klíčová slova:
Statistika, Český statistický úřad, kvantitativní výzkum, kvantitativní hodnocení
vlastností, typy dat, dotazníkové šetření, statistický soubor, statistická jednotka,
statistický znak
Průvodce studiem:
Na webovém portálu Českého statistického úřadu jsou publikovány statistiky
z různých oblastí. Nás budou zajímat regionální dat a veřejné databáze, které
využijeme pro vlastní analýzy. Kapitola obsahuje teoretický výklad učiva, který je
rozšířen o příklady a samostatná cvičení. Na konci každé kapitoly jsou kontrolní
otázky, myšlenková mapa pro zopakování důležitých pojmů a také je uveden seznam
literatury, podle které byla sepsána teoretická část a také literatura, která rozšíří
znalosti v dané problematice v rámci distanční výuky. Studium této kapitoly zabere
10 hodin.
Teoretická část kapitoly
Původní význam slova statistika souvisel se sběrem informací o státu (latinský výraz
status – stát), kdy nás zajímal počet obyvatel, sídel nebo výběr daní. V České
republice existuje Český statistický úřad, který se zabývá sběrem dat o obcích,
průmyslu, ekonomice, o demografickém rozvoji státu apod. Jsou tady publikovány
analýzy, časové řady, historické údaje, metodické informace, mezinárodní srovnání,
nejaktuálnější údaje, publikace, regionální data, veřejné databáze, databáze
zahraničního obchodu a ostatní databáze.
Proto data, která získáme jakýmkoliv statistickým šetřením, se musí zaznamenat a
zpracovat. Nejvhodnější je od začátku využívat specializované programy, které nám
usnadní práci s datovými soubory. Rozšířené jsou tabulkové procesory (s placenou
licencí Microsoft Excel nebo OpenOffice.org Calc, který je k dispozici zdarma.
Profesní statistická šetření se pak provádí ve specializovaných statistických
aplikacích, kde určitě patří aplikace IBM SPSS.
Český statistický úřad (ČSÚ) je ústředním orgánem státní správy České republiky.
Byl zřízen dne 8. ledna 1969 zákonem č. 2/1969 Sb., o zřízení ministerstev a jiných
ústředních orgánů státní správy.
Ve statistických tématech na tomto portálu najdeme různé typy údajů a informací, od
statistických dat (údaje v tabulkách a grafech), metodiky (informace o sběru a
zpracování dat, definice ukazatelů, revize apod.), analýzy a další užitečné informace
a odkazy.
6
Obrázek 1
Statistická šetření na Českém statistickém úřadě - http://www.czso.cz/
Samostatné cvičení 1
Práce s tabulkami na ČSÚ
Na webových stránkách Českého statistického úřadu najděte tabulku „Uživatelé
Facebooku – mezinárodní srovnání“ a postupujte podle zadaných úkolů:
1. Vytvořte si na disku adresář s názvem „Prace_s_tabulkami“ a podadresář
s názvem „Statisticky_urad“ a do tohoto podadresáře tabulku uložte.
2. Srovnejte pouze země Evropské unie v roce v lednu 2012 pomocí grafů:
sloupcový a spojnicový. Zajímá nás srovnání v jednotlivých zemích a podle
pohlaví.
3. Práce s regionálními statistikami:
a) Nezaměstnanost v krajích od roku 2008
b) Informace získáte z tabulek na webu ČSÚ a z nich pak vytvořte strom
života – podíl seniorů mužů a žen v Moravskoslezském kraji podle
zvolených kritérií
c) Zjistěte zaměstnanost a nezaměstnanost osob 55+
d) Zjistěte počet invalidních důchodců ve skupině 55 – 60
2. Souhrnná data o České republice:
a) Města a kraje v České republice
b) Mezinárodní srovnání zemí EU
c) Ukázka práce s daty – „Jak zpracovat strom života“
7
Obrázek 2
Ukázka stromu života – věková struktura obyvatel Prahy 2001 až 2010
Statistiku v dnešní době už definujeme jako vědu, která se zabývá metodami
kvantitativního hodnocení vlastností jednotlivých hromadných jevů. Jednoduše lze
konstatovat, že je to kvantifikace postojů nebo názorů lidí. Zkoumáme, jak se bude
něco vyvíjet, její praktické uplatnění je například ve finančnictví, zkoumáme úvěry
v bankách, rizika splácení úvěru nebo jenom tak názory respondentů na jednotlivé
sociální problémy ve společnosti.
Zopakujeme si, co znamená pojem věda. Vysvětlení čtenář najde v první kapitole
knihy „Jak se vyrábí sociologická znalost“ od autora Miroslava Dismana. Pro nás
zopakuji tyto důležité informace z knihy. Cituji ze strany 12: „Kuhn uvedl do teorie
vědy dva důležité koncepty: koncept paradigmatu a koncept „normální vědy“.
Normální věda znamená pro Kuhna „výzkum pevně zakotvený v jednom či více
minulých vědeckých výdobytcích, které určitá vědecká komunita přijímá jako základ
pro budoucí praxi (Kuhn 1962, str. 10). Jinými slovy, normální věda je takový vědní
obor, ve kterém komunita vědců přijímá shodné paradigma“.
„ … Jenom to, co odpovídá paradigmatu je vědou. O tom, co je přijatelné
paradigma, rozhoduje komunita vědců. Definice vědy má tedy sociální charakter:
věda je to, co za vědu považují vědci v daném oboru.
Ve všech příkladech budeme postupovat podle této knihy, budeme využívat teorie,
které jsou uznávané pro kvantitativní výzkum.
Celý analytický proces (postupy), které využijeme při řešení zadaných úloh, se dají
rozdělit do jednotlivých fází: nejdříve zahájíme plánování sběru dat, pak následuje
vlastní sběr dat (ukládání), analýza přístupy k datům, analýza dat a zobrazení
výsledků.
8
Naše zkoumání a směr budeme orientovat do poznání postupů moderní statistické
analýzy v sociálních vědách. Pokusíme se příklady orientovat tak, abychom se
naučili popsat a vysvětlit zvolené sociální jevy a k tomu využijeme modelovací
techniky. Sociálně vědní data jsou velmi často data kategorizována a pro analýzu
těchto dat využijeme moduly pro analýzu kategorizovaných dat, které jsou
k dispozici v aplikaci SPSS. V kvantitativním výzkumu pracujeme s hromadnými
daty. Data získáváme na základě našeho výzkumu, kde jsme si určili, co budeme
sledovat. V sociologii tato hromadná standardizovaná data získáváme většinou
dotazníkovým šetřením.
Podíváme-li se blíže na vývoj statistiky, tak můžeme definovat tři důležité etapy:
popisná statistika (zjišťuji vše například o konkrétním státě), politická aritmetika
(zajímá mě například vývoj obyvatelstva nebo úplný popis obyvatelstva) a moderní
analytická statistika (provádíme marketingové výzkumy nebo výzkumy veřejného
mínění). Předmětem našeho zkoumání je vždy hromadný jev, který se skládá
z individuálních jevů. Základním prvkem je statistická jednotka, na které zkoumáme
konkrétní projev určitého hromadného jevu. Zajímá nás například názor obyvatel na
využívání informačních a komunikačních technologií. Musíme si, ale uvědomit, že
statistická jednotka musí být přesně definovaná: z pohledu prostoru (zajímá nás
názor obyvatel Moravskoslezského kraje, názor studentů), důležitý je i pohled
časový (vymezíme přesně období například v roce 2012), nesmíme zapomenout také
na věcné hledisko (zajímají nás domácnosti s čistým příjmem nad 15 000,- Kč;
studenti, kteří mají své vlastní příjmy). Množina statistických jednotek pak vytváří
statistický soubor.
Příklad pro pochopení. Základní soubor bude soubor, který obsahuje data o všech
studentech studujících na FVP SU v Opavě (obecně je to soubor všech statistických
jednotek, které z pohledu věcného, časového a prostorového do souboru patří). Ale
nás zajímají pouze studenti, kteří mají společné vlastnosti: jsou v 2. ročníku
navazujícího studia v akademickém roce 2012/2013 a mají nárok na prospěchové
stipendium. Toto se stává předmětem našeho zkoumání. Takže získáváme nový
výběrový soubor, kde jsou uložené pouze ty informace, které nás zajímají.
Statistické třídění nám umožní v první fázi zpracovat údaje podle určitých kritérií.
Statistický znak, který je kritériem pro třídění nazýváme třídícím znakem. Základní
kritéria pro třídění je zásada úplnosti (třídy tvoříme tak, aby každá jednotka se mohla
do nějaké třídy zařadit) a zásada jednoznačnosti (třídy se tvoří tak, aby o každé
jednotce se dalo jednoznačně rozhodnout, do které z třídy patří). Podle druhu
třídícího znaku můžeme klasifikovat třídění z pohledu časového (vytváříme časové
řady), z pohledu věcného (kvalitativní nebo kvantitativní) a také z pohledu
prostorového (zajímají mě názory v regionech). Podle počtu třídících znaků dělíme
třídění na jednostupňové nebo vícestupňové.
Př. 1
Vysvětlení základních pojmů na příkladech
Statistický soubor (je množina zkoumaných jevů), například množina voličů
v České republice, množina seniorů v Moravskoslezském kraji, studijní obory na
vysoké škole apod.
Statistická jednotka je pak jeden konkrétní prvek statistického souboru (volička
Chmelařová z Opavy, seniorka Bílá z Opavy, obor Statistika).
9
Statistický znak je to, co nás zajímá, to co zjišťujeme (preference politické strany,
umí pracovat s počítačem, do kdy je obor akreditován). Znaky dělíme na
kvantitativní, kde se hodnoty liší velikostí (výška, příjem, hmotnost, počet dětí) nebo
kvalitativní, kde se hodnoty liší kvalitou (vzdělání, druh nemoci).
Př. 2
Třídění podle kvalitativních znaků (asociační třídění)
Třída – určitá skupina statistických jednotek. Máme například 158 zaměstnanců a
u každého evidujeme pohlaví, vzdělání, funkce. Každý znak má jenom pro začátek
dvě hodnoty: pohlaví (muži, ženy), vzdělání (vysoká škola, bez vysoké školy),
funkce (má funkci, nemá funkci).
a1 – muži (58); a2 – ženy (100), kde a1 (třídní symbol) a 58 (třídní početnost)
b1 – VŠ (78); b2 – bez VŠ (80); c1 – ve funkci (18); c2 – bez funkce (140).
Začneme-li kombinovat dva třídící znaky současně, tak získáme buď asociační
tabulky (oba znaky jsou alternativní) nebo kontingenční tabulku, kde jeden ze znaků
má více než dvě varianty.
Př. 3
Asociační tabulka – třídění podle pohlaví a funkce
pohlaví
a1
a2
dohromady
funkce
c1
c2
a1c1 (10)
a1c2 (48)
a2c2 (8)
a2c2 (92)
18
140
dohromady
58
100
148
Asociační tabulka vždy umožňuje analyzovat souvislosti mezi znaky. Například je
rovnoměrné zastoupení žen a mužů ve funkcích?
Opakování základních pojmů ze statistiky, práce s tabulkami a grafy, kontingenční
tabulky si procvičíme v aplikaci tabulkového procesoru Excel na prezenčním
tutoriálu.
Samostatné cvičení 2
Opakování tabulkového procesoru Excel
Procvičování zobrazení informací o sestavách kontingenčních tabulek a grafů pro
shrnutí, analýzu, průzkum a zobrazení souhrnných dat.
Pro cvičení využijeme datové soubory jednak publikované na Českém statistickém
úřadě a také datové soubory, které jsme získala z průzkumu konaného v rámci
projektu SGS v roce 2012. Vzorek respondentů tvořili senioři z Moravskoslezského
kraje a zajímal nás například zájem o služby, které poskytuje internet a zda tyto
služby znají a vidí v nich zlepšení kvality života. Respondentům jsme položili
otázku: „Ve kterých oblastech byste uvítal/a přístup k novým technologiím pro
zlepšení kvality života?“. Respondenti měli tabulku s připravenými službami a
křížkem označili, o které služby mají zájem a také označili, kterou službu vnímají
jako nejdůležitější.
10
Oblast
Informace o zdraví, komunikace s lékařem
Komunikace s veřejnou správou
Komunikace s rodinou a přáteli
Bydlení a sledování životního prostředí,
ovzduší
Vzdělávání - kurzy
Zábava – hry, filmy, hudba
Informace o dopravě a cestování
Tabulka 1
označte zájem
vyberte nejdůležitější
Otázka z dotazníkového šetření v rámci SGS v roce 2012
Ukázku práce s kontingenční tabulkou a s grafickými výstupy v aplikaci Excel
vidíme na obrázku s názvem „Analýza dat v aplikaci Excel“.
Obrázek 3
Analýza dat v aplikaci Excel
Statistika a statistická data
Statistika podle Jan Hendla je naukou, jak získat informace z numerických dat.
Statistika potřebuje kvalitní a relevantní data, které můžeme získat například
dotazníkovým šetřením, kde nás zajímají názory respondentů. Tato data spadají do
kategorie měkkých dat. Důležitý je zvolený vzorek respondentů.
Tvrdá data získáváme z dostupných databází (databáze studentů FVP SU v Opavě,
databáze zákazníků). Tato data jsou kvalitnější, protože zkoumáme na zvoleném
vzorku jejich chování, například jak splácejí úvěry. Ideální je propojení měkkých a
tvrdých dat, to znamená, že informace doplňujeme dotazníkovým šetřením.
Výzkumné šetření může být kvalitativní (vedeme přesnější rozhovory na menším
vzorku respondentů) nebo kvantitativní, kde musíme přesně propočíst výběr vzorků
respondentů pro výzkum podle zvolených kritérií (pohlaví, věk, vzdělání, místo
bydliště) k dané populaci. Proto šetření mohou být úplná (všichni obyvatelé ČR,
11
velice ekonomicky nákladné, takové průzkumy Český statistický úřad) nebo na
vybraném vzorku, kde se ptáme určité skupiny respondentů, u kterých zjišťujeme
postoje a názory. V dotazníkovém šetření klademe otázky a nabízíme odpovědi
(spokojenost například vyjadřujeme škálou od 1 do 7).
Příklad 1
Pohlaví
Příklady otázek pro dotazníkové šetření
muž
žena
Ve kterém regionu bydlíte?
Karviná
Ostrava
Nový Jičín
Frýdek-Místek
Opava
Bruntál
Řekněte o každé z nabízené skutečnosti, jak je pro Vás v životě důležitá.
Velmi
Dost
Ne příliš Vůbec ne Nevím
Neodpovídá
důležité
důležité
důležité
důležité
Práce
Rodina
Přátelé a
známí
Volný čas
Náboženství
Populace a výběr dat
Základní populaci můžeme definovat jako množinu objektů (jedinců), které
potřebuje k našemu statistickému zkoumání. Například volby do krajů, tady nás
zajímají pouze jedinci, kteří mají právo volit nebo zkoumáme počítačovou a
internetovou gramotnost seniorů v Moravskoslezském kraji, tady naši množinu
objektů tvoří senioři žijící na území kraje. Ne vždy můžeme si populaci představit,
například zkoumáme vývoj porodnosti od roku 2012 v regionu Opava do roku 2020.
Tady má vzorek populace hypotetický význam. Musíme vycházek ze statistických
šetření v daném regionu, které jsou dostupné, ale bude záležet na volbě kritérií, podle
kterých budeme vytvářet model vývoje populace v daném regionu. V praxi obvykle
nepracujeme s množinou všech objektů, které patří do populace, ale hledáme
podmnožinu základní populace, hledáme výběr nebo vzorek. Například nezajímají
nás všichni senioři žijící v Moravskoslezském kraji, ale vzorek populace, který
oslovíme a na základě zkoumání tohoto vzorku statisticky usuzujeme o vzorku
chování celé populace.
Spojitá proměnná může obecně nabývat libovolných hodnot z určitého intervalu
reálných čísel, ale diskrétní proměnná (jinak také kategoriální) nabývají konečného
počtu hodnot. Obecně ve statistice proměnné dělíme na kvalitativní a intenzivní.
Kvalitativní proměnné můžeme dále dělit na typ: dichotomický (nabývá pouze dvě
hodnoty, pohlaví: muž, žena) a polytomický (vícekategoriální, provozovaný sport,
rodinný stav). Intenzivní proměnné dělíme na ordinální (prospěch) a metrické, které
dále dělíme na intervalové (věk) a poměrové.
Nás ale zajímá dělení dat v aplikacích, které budeme využívat pro analýzy a
statistické šetření.
12
Typy dat v SPSS podle měřítka
Data jsou hodnoty přiřazené určitým pozorováním nebo získané určitým měřením
(dotazováním) na soubory objektů (například respondentů). Podle typu vztahů mezi
hodnotami (podle měřítka) dělíme data:
 Nominální proměnné. Nominální data jsou data, u kterých lze konstatovat,
zda jsou stejné či nikoliv (například pohlaví, barva očí, národnost). Speciální
případem jsou dichotomická data, která mají pouze dvě hodnoty (booleovská
data) a to hodnoty Ano/Ne nebo 0/1.
 Ordinální proměnné. Ordinální data jsou data, u kterých můžeme navíc určit
pořadí (například dosažené vzdělání, stupeň invalidity, různá skóre, škály
spokojenosti či souhlasu). Pro statistické analýzy (s výjimkou zjišťování
četností) je třeba texty převést na čísla.
 Metrická data, u kterých můžeme pro dvě hodnoty navíc vypočíst, o kolik,
případně kolikrát je jedna hodnota větší (menší) než druhá (teplota, věk,
koncentrace škodlivin v ovzduší).
Nominální a ordinální proměnné jsou souhrnně označovány jako kvalitativní,
metrická data se často nazývají kvantitativní (spojitá data). Kvalitativní data bývají
kódována pomocí přirozených nebo celých čísel.
Kvantitativní proměnnou lze jinak dělit:
 diskrétní, které nabývají pouze celočíselných hodnot (počet válců
automobilu),
 spojité (metrické), které mohou nabývat libovolných hodnot z určitého
intervalu (věk respondenta, cena výrobku, roční příjem domácnosti).
Nominální, ordinální a kvalitativní diskrétní proměnné můžeme souhrnně označit
jako kategoriální (obměny těchto proměnných nazýváme kategoriemi). Podle jiného
hlediska je můžeme dělit: dichotomické (alternativní – dvě kategorie, ekonomicky
aktivní a neaktivní obyvatelstvo, kuřák a nekuřák) nebo vícekategoriální (množné,
rodinný stav, obor). U dichotomických proměnných se při výpočtech předpokládá, že
jde o proměnné binární (hodnoty 0 a 1).
Shrnutí:
Nominální a ordinální data budeme souhrnně označovat jako kvalitativní data,
metrická data bude označovat jako data kvantitativní (spojitá). Kvalitativní data jsou
v programu kódována pomocí přirozených nebo celých čísel. Kódovací tabulku
vytvoříme tak, že definujeme a pojmenováváme každou proměnnou a přiřazujeme
číselný kód každé možné hodnotě. Pro názvy proměnných platí syntaktická pravidla.
Uvedeme si například pravidla pro názvy proměnných v aplikaci SPSS:





musí být jedinečné,
nesmí začínat číslicí,
nesmí obsahovat tečku, mezeru, symboly typu ?, !, *, „
nesmí to být vyhrazená slova používána jako příkazy SPSS,
nesmí být delší než 64 znaků.
13
Formy statistických zjišťování
Primární data můžeme získat dotazováním a pozorováním. Pro dotazování jsou
typické tři formy: výkaz, dotazník a rozhovor. Výkaz je specifickou formou pro
státní statistiku, je určen ke sledování činnosti ekonomických subjektů. Dotazník se
liší od výkazu tím, že jeho podstatou jsou podrobně formulované otázky (ve státní
statistice je zaměřen na malé podniky, které nemají vyčleněného pracovníka na
vyplňování výkazů). Rozhovor (interview) je používán při výběrových šetřeních
zaměřených například na statistiku domácností. Kromě dotazování se ve státní
statistice uplatňuje též pozorování (zjišťování cen v obchodech).
V sociologii a průzkumech trhu jsou specifickými formami pořizování primárních
dat dotazník a rozhovor. Ve druhém případě může jít buď o rozhovor přímý (tváří
v tvář) nebo telefonický. Nejčastější formou je rozhovor standardizovaný, kdy tazatel
postupuje při komunikaci s respondentem podle záznamového archu (v současné
době může jít o obrazovkový formulář na počítači), který obsahuje přesně
formulované otázky, podobně jako dotazník.
Populární jsou metody CAPI (Computer Assisted Personal Interviewing), CATI
(Computer Aided Telephone Interviewing) a AVL (Audio/Video-Likeability). Při
použití metody CAPI je tazatel vybaven počítačem s elektronickým dotazníkem,
pomocí něhož zaznamenává odpovědi respondentů. Jestliže je tento způsob
dotazování modifikován v tom směru, že tazatel vede rozhovor telefonický, nazývá
se metoda CATI. Metoda AVL spočívá v hodnocení zvukových, obrazových a
multimediálních ukázek vybranou cílovou skupinou prostřednictvím výpočetní
techniky. Používá se například k vyhodnocování efektivnosti reklamy či k testování
obalů. Respondent hodnotí ukázky prezentované na počítači a komunikuje přitom
s elektronickým dotazníkem.
V poslední době začínají být využívány i speciální formy pozorování, jakými jsou
peoplemetry. Ty slouží při výzkumech sledovanosti televize, určených zejména pro
potřeby reklamního trhu. Data z peoplemetrů mohou být spojena s výsledky
výzkumů spotřeby.
Příprava dotazníkového šetření pro kvantitativní výzkum
V kvantitativním výzkumu pracujeme s hromadnými daty. Data získáváme na
základě našeho výzkumu, kde jsme si určili, co chceme sledovat.
Př. 4
Vlastnosti jedince a jeho popis
V případě jedince zjišťujeme jeho stav, identifikujeme jeho měřitelné vlastnosti (muž
nebo žena; jaké má vzdělání – základní, střední škola bez maturity, střední škola
s maturitou, vysokoškolské, doktorské; jakou stranu volí; do jaké míry souhlasí
s nějakým názorem atd.) Podle zjištěných skutečností, pak můžeme jedince zařadit
do obecnějších kategorií (je liberál, je ateista, volí pravici apod.)
Jedinec obecně se dá popsat:
– rysy osobnosti, inteligence, emoční ladění,
– demografické charakteristiky (pohlaví, věk, počet dětí),
– zařazením do sociální struktury (sociální třída, profese, velikost místa bydliště)
14
– jeho postoje a preference (volební preference, hodnotové orientace, míra
xenofobie či rasismu, obliba určitých TV programů, náboženství, způsob trávení
dovolené atd.)
Pro sociologii nejsou ani tak zajímavé údaje o jedinci, ale jde nám o získání
informací o ucelených sociálních útvarech (skupiny, instituce apod.), kde tito jedinci
patří.
Př. 5
Kvantitativní výzkum, příklady našeho zkoumání, soubory jednotek
Je více nezaměstnaných žen v Moravskoslezském kraji než mužů? Jaký je průměrný
plat v Opavě? Jak se mění výše příjmu v závislosti na vzdělání? Jaké moderní
technologie ovládají studenti FVP SU v Opavě?
Kvantitativní výzkum se soustřeďuje na to, jaký podíl něčeho ve společnosti existuje
a jak něco s něčím souvisí, pracujeme s hromadnými daty. Každý výzkum vyžaduje
určení okruhu zkoumaných jednotek (osob). Určujeme cílovou populaci (general
universum/population), je to soubor jednotek, pro který chceme vyslovit závěry.
Populaci mohou tvořit všichni studenti, kteří navštěvují přednášku; počet žen, které
v roce 2011 byly nezaměstnané v Opavě; příjemci sociálních dávek s bydlištěm
v konkrétním kraji; obyvatelé ČR apod.
Určení populace (nebo základního souboru) závisí na našem výzkumném problému,
na našich otázkách a také na hypotézách. Vždycky je dobré vědět odpovědi na
základní otázky ve výběru vzorku: zajímají mě všichni studenti FVP SU v Opavě
nebo jenom studenti magisterských oborů? Fyzicky nemůžeme zkoumat celou
cílovou populaci, vždy si volíme výběrový vzorek respondentů.
V rámci samostudia si studenti zopakují informace publikované v knize „Jak se
vyrábí sociologická znalost“, autor Miroslav Disman.
Nesmíme zapomenout, že dotazníkové šetření je široký pojem (standardizované
rozhovory, dotazník pro vyplnění – ručně nebo elektronicky, telefonické dotazování
apod.) Dotazníkové šetření provádíme až tehdy, když nemůžeme požadované
informace získat jinak například pozorováním.
Příprava dotazníkového šetření má své fáze řešení:
1. Formulace východisek výzkumu (výzkumná otázka, cíle výzkumu a rámcové
hypotézy) znáte z předmětu „Sociologie“, takže si tyto teoretické poznatky
zopakujete.
2. Musíme se rozhodnout o designu a metodě výzkumu (v tomto předmětu se
budeme učit elektronické zpracování a vyhodnocování dotazníkového šetření
v aplikacích volně dostupných a také si ukážeme práci v komerčních
aplikacích).
3. Než začneme tvořit otázky pro dotazníkové šetření, tak si vždy nastudujeme
relevantní literaturu k danému problému, inspiraci budeme čerpat z dříve
uskutečněného výzkumů, který je publikován na internetu nebo v odborné
literatuře. Vlastní tvorba dotazníků s návrhem výzkumných hypotéz.
Hypotéza je výrok o vztahu mezi dvěma proměnnými, například zkoumáme:
„Studenti technických a přírodovědných oborů mají lepší počítačové a
internetové dovednosti než studenti humanitních oborů“. Obvykle součásti
každého dotazníkového šetření je: motivační zpráva (včetně kontaktů), zadání
tazatelského úkolu, pokyny pro vyplňování dotazníku. Strukturu dotazníku
15
volíme tak, aby na začátku v úvodu bylo jasné co je cílem šetření, kdo ho
provádí a prosba o pomoc při šetření, pak následují otázky pro tazatele. Vždy
bereme na zřetel, pro koho je dotazník určen, otázky by měly být jasné a
srozumitelné. Nedoporučuji se otázky sugestivní, otázky „vícehlavňové“
(neptáme se na více různých věcí najednou), dáváme si pozor na genderové
vztahy (užíváme přechýlené tvary například četl/la), vyhýbáme se obecných
otázek a v případech, kdy víme, že respondent nebude chtít odpovědět, tak
mu dáme možnost „nechci odpovídat“. Také je důležité, aby se nabízené
možnosti odpovědí nepřekrývaly (věk: 30-40 let; 40-50 let), nabízíme škálu
odpovědi (určitě ano, spíše ano, ani-ani, spíše ne, vůbec ne), snažíme se také
udělat graficky příjemný dotazník a otázky, které na sebe navazují, dáváme
do bloku a na začátek a na konec dáváme lehčí otázky. Důležitá je také doba
vyplňování dotazníků, neměla by překročit 45 minut.
4. Pilotní šetření nám simuluje podmínky hlavní vlny sběru dat na menším
vzorku cílové populace tak 30 respondentů. Zjišťujeme a ověřujeme, zda jsou
otázky a podmínky sběru dat vhodné pro hlavní šetření. Otázky tady můžeme
rozšířit o otázky, kde zjišťujeme, jak respondenti rozumí jednotlivým
otázkám. Po vyhodnocení pilotního šetření zjistíme, zda můžeme spustit
hlavní vlnu sběru dat (opravíme dílčí chyby – gramatické chyby, číslování
otázek). Pokud by se objevily vážnější chyby po pilotním šetření
(nesrozumitelné otázky, náročný dotazník), pak musíme přepracovat dotazník
a znovu spustit pilotní šetření.
5. Hlavní vlna sběru dat na zvolené cílové populaci. Protože využijeme
elektronické dotazování, tak aplikace nám zaznamená výsledky dat do
formátu tabulkového kalkulátoru a s tímto typem můžeme dále pracovat
v jednotlivých statistických aplikacích.
6. Následuje statistické vyhodnocení dat a interpretace výsledků, které zahrnuje
na začátku čistění dat (obsahují odpovědi pouze přípustné hodnoty, chybí
někde odpověď?). Čištění dat je časově náročná operace. Statistická analýza
se dělí:
a) Třídění 1. stupně – jedna proměnná (četnosti, míry polohy a rozložení)
b) Třídění 2. stupně – dvě proměnné (kontingenční tabulky, t-testy)
c) Třídění 3. stupně – více proměnných (analýza rozptylu, regresní
analýza)
7. Interpretace výsledků je součást statistické analýzy, využijeme statistických
programů: komerční (SPSS, SAS) nebo nekomerční (OpenStat).
Příprava otázek pro dotazníkové šetření
V zemích Evropské unie od roku 2005 zkoumá počítačová a internetová dovednosti
u lidí (věková kategorie 16 až 74).
Co se naučíme v praktických cvičeních? Formulovat otázky pro dotazníkové šetření,
jak se dělají průzkumy webových stránek a jak se pak odpovědi z dotazníkových
šetření mění na data.
1.
Dotazníkové šetření – počítačová a internetová dovednost studentů
magisterského studia na Fakultě veřejných politik v Opavě. Příprava otázek
pro průzkum:
16
a) Kopírování / přesouvání souborů / složek
b) Kopírování / vkládání dat v rámci dokumentu
c) Základní výpočty v tabulkových procesorech (matematické a statistické
funkce, grafy, relativní a absolutní adresace)
d) Komprimace a dekomprimace souborů a složek (zippování)
e) Připojování / instalace nových zařízení (tiskárna, digitální fotoaparát,
kamera)
f) Používání programovacího jazyka k tvorbě programů
g) Tvorba webové prezentace v XHTL a formátování pomocí kaskádových
stylů
h) Posílání / přijímání e-mailu s přílohou
i) Telefonování přes internet (včetně videohovorů)
j) Používání vyhledavače k nalezení informací (o zboží a službách; o zdraví;
o cestování, ubytování a spoje; čtení on-line zpráv, novin a časopisů;
hledání brigád nebo zaměstnání; zábava a hraní her; poslech rádia a
sledování televize; nakupování přes internet; vyhledávání informací na
webových stránkách úřadů; on-line vyplňování formulářů na webu úřadu)
k) Chatování, zasílání příspěvků do diskusního fóra
l) Práce v sociálních sítích
m) Používání sítí k výměně souborů (například Dropbox)
n) Tvorba vlastních webových stránek
o) Stahování a instalování počítačových programů / her / filmů
Dotazníkové šetření o ICT v domácnostech a jejich využívání
v domácnostech nebo u jedinců. Příprava otázek pro průzkum:
a) Zajímá nás, zda jednotlivci používají mobil
b) Používají počítač
c) Jsou uživatelé internetu
d) Zda nakupují přes internet (oblečení a obuv; vstupenky; kosmetiku a
zdravotní potřeby; sportovní potřeby+ knihy a časopisy; elektroniku;
bílou techniku; mobilní telefony; filmy a hudbu; počítače)
e) Používají internet k vybraným činnostem (komunikace – posílání /
přijímání emailu, telefonování přes internet, video hovory pomocí
webové kamery, účast na sociálních sítích, psaní na chatu;
vyhledávání informací – o zboží a službách, týkající se cestování a
ubytování, z oblasti kultury, týkající se zdraví, vyhledávání na
Wikipedii; zábava a volný čas – čtení zpráv, novin a časopisů,
přehrávání a stahování filmů a videa, hraní a stahování her,
poslouchání rádia, sledování televize; internetové služby – internetové
bankovnictví, stahování počítačových programů, prodej zboží, hledání
práce.
Zvolíme se tato kritéria pro zkoumání: podle pohlaví (muž a žena); podle věkových
skupin (16-24 let, 25-34 let, 35-44 let, 45-54 let, 55-64 let, 65+); podle dokončeného
vzdělání u tazatelů, kteří mají 25+ nebo dotazem, zda ještě studují (základní, střední
bez maturity, střední s maturitou, vysokoškolské); podle specifické skupiny populace
2.
17
(studenti 16+, ženy nebo muži na rodičovské dovolené, starobní důchodci); velikost
místa bydliště (počet obyvatel v místě bydliště).
3.
Průzkum webových stránek. Data sbíráme přímo z webových stránek.
Cílem je zjistit, jaké informace a služby nabízejí veřejnosti například úřady
veřejné správy, nemocnice nebo knihovny na svých webových stránkách.
a) Ukazatel – hlavní informace. Informace o odborech; personální
obsazení; povinné informace dle standardu ISVS; informace pro
občana, jak má žádat o informace; zveřejnění důležitých dokumentů
dané organizace; úřední deska apod.
b) Ukazatel – nabízené služby. Jako například fultextové vyhledávání (je
vyhledávání informací v textu pomocí klíčového slova nebo spojení
několika slov, vyhledávání probíhá tak, že klíčové slovo je
porovnáváno se slovy, které jsou publikovány na webových
stránkách, stránka kde se slovo nachází, je pak předložena jako
výsledek vyhledávání); přístupnost stránek pro zrakově postižené
uživatelé (Blind Friendly - odstraněním grafiky, změnou velikosti
písma, změnou kontrastu)); cizojazyčné verze stránek; elektronická
podatelna; odkazy na další stránky například na ústřední státní správu;
on-line kontakt; otázky a odpovědi; diskuse a ankety.
c) Ukazatele – ostatní. Například webové kamery; historie; strategické
plány; možnost registrace na stránkách; zasílání informací na email
nebo mobil; odkazy na příbuzné stránky.
4.
Nové trendy – statistika na webu. Prozkoumáme a zjistíme možnosti, které
nám nabízejí:
a) Blogstat – místo, kde odborníci z různých institucí sdílejí své
zkušenosti, nové trendy a získávají informace ze statistických šetření
(http://blogstats.wordpress.com/).
b) Gapminder zveřejňuje animované grafy vývoje lidské společnosti
(http://www.gapminder.org/).
c) GeoHive: Global Statistics publikuje geopolitická data z celého světa
(http://www.geohive.com/).
d) Many Eyes je nástroj pro vizualizaci dat od firmy IBM, nahrajeme si
tam vlastní data a vytvoříme z nich grafické prezentace (http://www958.ibm.com/software/data/cognos/manyeyes/).
e) Souhrn odkazů na nejzajímavější zobrazení statistik na internetu
(http://www.czso.cz/csu/redakce.nsf/i/svetove_statistiky_v_animovan
ych_grafech_a_mapach).
f) Databáze EUROSTATU (http://apl.czso.cz/pll/eutab/html.h). Eurostat
na http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/).
g) Odvětví ICT a nová ekonomika na webu ČSÚ na
http://www.czso.cz/csu/2012edicniplan.nsf/publ/1169-12-n_2012).
Rozbor otázek a odpovědi a přepis do formy dat pro aplikaci.
5.
Samostatné cvičení 3
Příprava dotazníkového šetření podle zadání závěrečné práce
Studenti si připraví vlastní otázky pro dotazníkové šetření, které využijí při
zpracování závěrečné práce.
18
Kontrolní otázky:
1. Vysvětli, co je to statistika?
2. Jaké informace jsou publikovány na portálu Českého statistického úřadu?
3. Vysvětli co je to statistický soubor, statistická jednotka a znak?
4. Třídění podle kvalitativních znaků?
5. Data ve statistickém programu SPSS?
6. Formy statistických zjišťování?
7. Kvantitativní výzkum a kvalitativní výzkum?
8. Příprava otázek pro dotazníkové šetření a volba kritérii pro vlastní průzkum?
9. Popiš průzkumy webových stránek?
10. Co nabízí webový portál Eurostatu?
Shrnutí základních pojmů
Obrázek 4
Opakování formou myšlenkové mapy
Literatura
[1]
[2]
[3]
[4]
[5]
[6]
HINDLS, R., HRONOVÁ, S., SEGER, J. Statistika pro ekonomy. 6. vyd. Praha:
Professional Publishing, 2006. 415 s. ISBN 80-86419-99-1
BABBIE, E. The Practice o Social Research. Belmont: Wadsworth
Publishing Company, 2001
DISMAN, M. Jak se vyrábí sociologická znalost. Praha: Karolinum, 1993
Webové stránky ČSÚ na http://www.czso.sz
JEŘÁBEK, H. Úvod do sociologického výzkumu. Praha: Karolinum, 1993
HENDL, J. Přehled statistických metod. Portál, s.r.o., Praha 2006, 2009
19
APLIKACE PRO DOTAZNÍKOVÉ ŠETŘENÍ
Cíl:
Po nastudování této kapitoly byste měli umět:
- využívat jednotlivé aplikace pro dotazníkové šetření
- naučíme se význam nabídek jednotlivých aplikací
- seznámíme se s importy a exporty dat
- naučíme se elektronické zpracování dotazníkových šetření
Klíčová slova:
Aplikace, dotazníkové šetření, otevřené a uzavřené otázky, import a export dat,
elekronické zpracování, webové rozhraní, e-mailová komunikace
Průvodce studiem:
V této kapitole se naučíme využívat OpenSource aplikace dostupné na portálu
Google. Aplikace Formulař umožňuje vytvořit otázky pro elektronické zpracování
dat. Kapitola obsahuje teoretický výklad učiva, který je rozšířen o příklady a
samostatná cvičení. Na konci každé kapitoly jsou kontrolní otázky, myšlenková
mapa pro zopakování důležitých pojmů a také je uveden seznam literatury, podle
které byla sepsána teoretická část a také literatura, která rozšíří znalosti v dané
problematice v rámci distanční výuky. Studium této kapitoly zabere 15 hodin.
Teoretická část kapitoly
Formulář pro elektronické vyhodnocení můžeme vytvořit například v aplikaci
Dokumenty Google. Máme tady k dispozici až 7 otázek a odpovědi budou
automaticky přidány do tabulky spojené s daným průzkumem. K dispozici máme
otevřené a uzavřené otázky.
Otevřené otázky jsou dvojího druhu (text a text odstavce). Uzavřené otázky jsou
výběrové, zaškrtávací, měřítko nebo mřížka.
Zájemce o tuto službu se musí nejdříve zaregistrovat na portálu Google a jako
registrovaný uživatel může využívat aplikace dostupné na webu na adrese
http://www.google.cz/intl/cs/about/products/. Pro dotazníkové šetření aplikace
Formulář je dostupná v kapitole „Domácnost a kancelář“. Klikem na nabídku
„Dokumenty“ se uživatel přesune na registraci nebo se může přímo přihlásit do této
služby.
20
Obrázek 5
Aplikace na portálu http://www.google.com
Pomocí aplikace „Formuláře“ zajistíme elektronickou formu zpracování
dotazníkového šetření. Tato aplikace nám umožní na začátek elektronického
dotazníkového šetření vložit instrukce pro vyplňování dotazníku. Nezapomínejme, že
zkoumáme subjektivní názor respondentů na důležité oblasti života ovlivňující jejich
kvalitu nebo můžeme klást otázky například studentům – co ovlivňuje jejich studium
(zajímá nás výuka cizích jazyků, odbornost studia, moderní ICT ve výuce, kvalita
knihovny, kvalita kolejí, studentský život, mobility apod.).
Sběr dat při použití aplikace budeme probíhat elektronicky přes webové rozhraní
dotazníkového šetření. Aplikace je jednoduchá a také intuitivní, nabízí šablony
dotazníků a umí export dat do tabulky, s kterou se dá dále pracovat.
Výhodou práce na portálu Google je, že všechny aplikace, které nám nabízí,
nemusíme instalovat na svém počítači a že vždy jsou nám k dispozici nejnovější
verze. Pro práci s těmito aplikacemi nám stačí středně výkonný počítač (nebo tablet)
připojený k internetu a vhodný prohlížeč, protože veškeré programy běží na
serverech, které nám tyto služby poskytují (toto řešení se nazývá „cloud
computing“).
Dnešní „cloud computing“ to jsou technologie používané pro přístup ke službám na
Internetu – možnosti informačních systémů a technologií jsou nabízeny jako služba,
kterou uživatelé mohou používat kdykoliv, odkudkoliv a (skoro) na libovolném
zařízení.
Př. 6
Příklad instrukce pro vyplňování dotazníku
Rádi bychom Vás požádali o vyplnění dotazníku, který je součástí vědeckého
výzkumu. Jeho cílem je získat data v základních otázkách, které zjistí počítačovou a
internetovou dovednost studentů FVP SU v Opavě v akademickém roce 2012/2013.
Výsledky výzkumu budou sloužit ke zpracování závěrečných prací a k porovnání
výsledků se stejnými průzkumy v zemích Evropské unie.
21
Věříme, že podpoříte šetření, které pomůže získat data pro další zpracování, a
vyplníte tento dotazník. Vyplnění dotazníků trvá 15 minut. Děkuji Vám. Magdalena
Chmelařová, akademický pracovník na fakultě.
Co nabízí aplikace Google Formuláře?
Tato aplikace je součástí aplikací Google Dokumenty. Díky ní můžeme vytvářet a
publikovat na internetu naše otázky dotazníkového šetření. Otázky jsou tady otevřené
a uzavřené a ve cvičení si je podrobněji rozebereme. V rámci služeb jsou nám
nabízeny také různé grafické motivy. Po sběru dat máme možnost automatického
vyhodnocení dotazníkového šetření nebo uložení dat do tabulky, kterou si můžeme
kdykoliv exportovat do libovolného statistického programu.
Typy otázek v aplikaci
Aplikace nabízí tyto typy otázek:
1. Otevřená otázka typu „Text“ (například dotaz kde bydlíte?)
2. Otevřená otázka typu „Text odstavce“ (souvislý text odpovědi, zajímá mě
názor například na výuku ICT na vysoké škole)
3. Otázka typu „Výběr z více možností“ (standardizovaná podoba otázek
z dotazníku, například míra souhlasu s daným výrokem – 6 variant odpovědí
– zcela souhlasím, souhlasím, spíše souhlasím, spíše nesouhlasím,
nesouhlasím, zcela nesouhlasím)
4. Otázka typu „Zaškrtávací políčka“ (z nabízených možností mohu vybrat více)
5. Otázka typu „Vyberte se seznamu“
6. Otázka typu „Měřítko“
7. Otázka typu „Mřížka“
Tvorba dotazníku v aplikaci Google Formulář
Využijeme otázky z dotazníkového šetření na Českém statistickém úřadě, kde
probíhá průzkum – počítačová a internetová dovednost. My toto budeme zjišťovat
tyto dovednosti u studentů magisterského studia na Fakultě veřejných politik
v Opavě. Příprava otázek pro průzkum:
a) Kopírování / přesouvání souborů / složek
b) Kopírování / vkládání dat v rámci dokumentu
c) Základní výpočty v tabulkových procesorech (matematické a statistické
funkce, grafy, relativní a absolutní adresace)
d) Komprimace a dekomprimace souborů a složek (zippování)
e) Připojování / instalace nových zařízení (tiskárna, digitální fotoaparát,
kamera)
f) Používání programovacího jazyka k tvorbě programů
g) Tvorba webové prezentace v XHTL a formátování pomocí kaskádových
stylů
h) Posílání / přijímání e-mailu s přílohou
i) Telefonování přes internet (včetně videohovorů)
j) Používání vyhledavače k nalezení informací (o zboží a službách; o zdraví;
o cestování, ubytování a spoje; čtení on-line zpráv, novin a časopisů;
hledání brigád nebo zaměstnání; zábava a hraní her; poslech rádia a
22
k)
l)
m)
n)
o)
Obrázek 6
sledování televize; nakupování přes internet; vyhledávání informací na
webových stránkách úřadů; on-line vyplňování formulářů na webu úřadu)
Chatování, zasílání příspěvků do diskusního fóra
Práce v sociálních sítích
Používání sítí k výměně souborů (například Dropbox)
Tvorba vlastních webových stránek
Stahování a instalování počítačových programů / her / filmů
Služby na portálu Google a přihlašovací údaje
Po přihlášení klikneme na tlačítko VYTVOŘIT / a vybereme Formulář s nabídkou
tvorby otázek.
Otázky typu „Text“ nebo „text odstavce“ použijeme, když chceme vložit do
dotazníku otevřené otázky, které pak musíme ručně vyhodnotit. Praktické využití je,
když nás zajímají názory, připomínky a náměty od respondentů.
Obrázek 7
Otázky typu „Text“ nebo „Text odstavce“
Máme-li otázky, kde můžeme nastavit varianty odpovědi, pak volíme z nabídky
„více možností“. Například dáváme respondentům možnost výběru ústavu, na kterém
studuji nebo otázky typu: muž / žena; věkové skupiny; nejvyšší vzdělání; podle
specifické skupiny populace; velikost místa bydliště; místo bydliště apod.
23
Obrázek 8
Otázky typu „Více možností“
Další možností jsou „zaškrtávací tlačítka“, kde zase jako tvůrci dotazníkového
šetření nastavíme otázku a varianty pro odpovědi, ale rozdíl je v tom, že respondent
si může vybrat více možností odpovědi. Tato varianta se nám hodí pro zjišťování
počítačové a internetové gramotnosti. Respondenti mohou umět více nabízených
vatiant.
Obrázek 9
Otázky typu „Zaškrtávací tlačítka“
Nabídka „Vyberte se seznamu“ se používá pro stejný typ otázek jako nabídka „více
možností“. Jenom tady se nám zobrazí rozevírací seznam a my si vybíráme z něho.
Takže i tady můžeme dát na výběr otázky typu: muž / žena; věkové skupiny; nejvyšší
vzdělání; podle specifické skupiny populace; velikost místa bydliště; místo bydliště
apod.
24
Obrázek 10
Otázky typu „Vyberte se seznamu“
Použijeme-li typ „měřítko“, pak dotazovaný má možnost si zvolit s předem
definované škály jednu z odpovědi a v případě že použijeme typ „mřížka“, pak lze
vybírat u více položek z různých možností.
Obrázek 11
Otázky typu „Měřítko“ nebo „Mřížka“
Nyní si vysvětlíme základní význam ikonek nabízených v aplikaci. První ikonka
nám umožní kdykoliv před publikováním dotazníku znovu editovat jednotlivé
otázky. Ikonka uprostřed provádí kopii typu otázky. A poslední
ikonka vybranou otázku z dotazníku odstraní.
Přes tlačítko „Přidat položku“ přidáváme libovolné otázky a
25
přes tlačítko „Motiv“ si vybíráme grafické rozhraní dotazníkového šetření.
Pro distribuci dotazníku máme tyto možností. Můžeme je rozeslat na e-mailové
adresy respondentů nebo můžeme jej nasdílet na našich webových stránkách.
Nastavení sdílení a odeslání formuláře responentům není složité. Budeme-li chtít
zjistit, jak se formulář zobrazí respondentům, pak si ho můžeme přes tlačítko
„Odeslat“ zobrazit . Výsledky dotazníkového šetření jsou nám k dipozici v Google
ve formě tabulky, kde můžeme třídit údaje podle našich kritérií a také můžeme
získat grafickou vizualizaci dat formou různých grafů.
Sdílení dotazníků a sběr dat
Na výběr máme k dispozici několik možností distribuce dotazníku. Často se využívá
e-mailová korespondence, další možnost je dotazník publikovat na webových
stránkách.
Obrázek 12
Rozeslání dotazníku e-mailem
Do políčka „Komu“ vyplníme e-mailové adresy respondentů, můžeme také využít
kontakty v naší e-mailové schránce na portálu Google nebo si vytvoříme svůj
mailový list napříkad [email protected], který bude obsahovat e-maily
respondentů. Dotazník lze zahrnout do těla e-mailu v případě, že zaškrtneme
políčeko „Zahrnout formulář do e-mailu“. Tato možnost umožní respondentům
vyplnit dotazník přímo v těle e-mailu a nemusí se jim otevírat v novém okně.
Respondent po odpovězení otázek klikne na tlačítko „Odeslat“ a nám přichází
informační e-mail, vekterém máme odkazy na výsledek šetření. Při kliknutí na
odkaz se dostaneme k přehledné tabulce vyplněných odpovědí.
Obrázek 13
Tabulka s výsledky
26
První dva sloupce v tabulce s výsledky nesou informaci o přesném času odeslání
formuláře a e-mail respondenta. Data v tabulce můžeme
třídit, prezentovat v podobě grafu, přes nabídku „Zobrazit
souhrn odpovědí“ můžeme získat přehledný výsledek našeho
šetření. Nabídka „Formulář“ nám umožní kdykoliv navržený
formulář upravovat, odesílat nebo také smazat.
Nabídka „Upravit formulář“ slouží k přepnutí do editačního
režimu dotazníků v případě, že chceme přidat nebo odebrat
otázky. Nabídka „Odeslat dotazník“ umožňuje opětovné
rozeslání dotazníku. Nabídka „Vložit formulář do webové
stránky“ nám umožní vyplnit odkaz naší stránky, kde
chceme tento formulář publikovat. Volba „Přijímání odpovědí“ nám umožní
aktivovat nebo deaktivovat možnost odpovídat či neodpovídat na otázky.
Ukázka grafického ztvárnění výsledku šetření.
Obrázek 14
Grafické ztvárnění dat z tabulky
Aplikace na portálu Google nám umožnuje také vytvořit formulář s upravenou
grafikou klikem na tlačítko „Motiv: Plain“.
Možnost větvení dotazníku na základě odpovědi umožňuje typ otázky „Více
možností“. Například na otázku: Máte doma počítač (ANO/NE), respondent, který
odpovídá ANO pokračuje v dalších otázkách, respondent, který odpověděl NE
27
přeskočí varianty otázek pro odpověď ANO. Tento typ otázky nám umožňuje zvolit
cestu, kterou se má dotazník dále uvírat.
Chceme-li v dotazníku vytvořit novou stránku, pak využijeme volbu „Konec
stránky“ nebo ve volbě „Více možností“ zaškrtneme políčko „Přejít na stránku
podle odpovědi“ a například u volby NE vybereme možnost „Pokračovat na další
stránce“. Na druhé stránce vytváříme otázky pro tuto volbu.
Kontrolní otázky:
1. Co znamená otevřená otázka typu „Text“?
2. Co znamená otevřená otázka typu „Text odstavce“?
3. Co znamená otázka typu „Výběr z více možností“?
4. Co znamená otázka typu „Zaškrtávací políčka“?
5. Co znamená otázka „Vyberte se seznamu“?
6. Co znamená otázka typu „Měřítko“?
7. Co znamená otázka typu „Mřížka“?
Shrnutí základních pojmů
Obrázek 15
Opakování formou myšlenkové mapy
Literatura
[1]
Manuál k aplikaci na webu http://edutraining.googleapps.com/TrainingHome/module-4-docs/module-4-chapter-6
28
Popisná statistika v programu EXCEL
Cíl:
Po nastudování této kapitoly byste měli umět:
- ovládat aplikaci Excel, umět pracovat s relativní a absolutní adresaci,
- orientovat se ve statistických funkcích a umět vysvětlit základní funkce
v Excelu vázané k popisné statistice
- aktivovat doplněk aplikace „Analýza dat“
- umět pracovat s kontingenčními tabulkami
- umět pracovat s grafy
Klíčová slova:
Excel, relativní a absolutní adresace, funkce a grafy, kontingenční tabulky, doplňky
k aplikaci
Teoretická část kapitoly
Žádný výzkum se neobejde bez statistického zpracování získaných dat. Je jedno, zda
se jedná o ekonomické obory, lékařské obory
nebo o sociologické šetření. V této kapitole se
naučíme využívat k těmto účelů tabulkový
procesor EXCEL.
Pro lepší práci se statistickými funkcemi
v aplikaci doporučuji aktivovat doplněk „Analýza
dat“, který je pak k dispozici v nabídce „Data“.
Postup: Soubor/Možnosti/Dopňky/ kliknout na
Přejít a zobrazí se nám karta „Dopňky“, kde
zaškrtneme
volbu
„Analytické
nástroje“a
v anbídce „Data“ se nám zobrazí ikona „Analýza
dat“. Kromě tohoto doplňku tabulkový procesor Excel disponuje řadou statistických
funkcí.
Opakování – sešity a listy v aplikaci
Jedním z nejběžnějších objektů v tabulkovém procesoru Excel je sešit (workbook),
který se ukládá jakou soubor s příponou xls. Sešit obsahuje listy. Existují čtyři typy
listů – pracovní listy, grafické listy, listy maker a dialogové listy. My se naučíme
pracovat s pracovními listy, které mají 256 sloupců a 65 536 řádků. Uživatelské
rozhraní aplikace obsahuje názorný pás karet, které obsahují tlačítka a příkazy.
Naučíme se s tímto pásem karet pracovat.
Karta Soubor
Tato karta umožňuje sešit (soubor) uložit pomocí dvou nabídek. Jednak podle
nabídky Uložit a pak podle nabídky Uložit jako. Rozdíl mezi nimi je, že druhá
varianta spustí dialogové okno ve kterém si uživatel vybírá místo, název a typ
souboru. Toto dialogové okno se spustí také u první varianty a to jen v případě, že
pracujeme s novým sešitem, který nebyl ještě nikdy uložen na disku. Na této kartě
máme také volbu Otevřít pro otevření již uloženého souboru na disku, dále volbu
Zavřít, který umožní ukončit práci s rozpracovaným sešitem. Volba Informace nám
umožní zjistit o souboru veškeré informace, které se vážou k vzniku sešitu. Klikem
na volbu Nový si můžeme otevřít nový sešit nebo vybrat si z dostupných šablon nebo
29
si vytvořit vlastní šablonu souboru. Volba Tisk nám spustí průvodce tiskem, který je
stejný ve všech aplikacích, které jsou instalované pod operačním systémem
Windows. Volba Uložit a odeslat umožní publikovat soubor na webu nebo odeslat emailem. Volba Možnosti nám umožní nastavit rozhraní aplikace podle našich
představ. Tam doporučuji hned na začátku si zapnout Doplňky k aplikaci. Postup:
Možnosti/Doplňky/Přejít a zapnout Analytické nástroje, které nám umožní
efektivně a jednoduše zapnout nástroje pro statistické šetření v datovém souboru.
I v této aplikaci si můžeme přizpůsobit pás karet podle našich představ.
Řešení praktických úloh
V této kapitole si vysvětlíme postupy pro řešení základních úloh, které budeme
potřebovat pro praktické cvičení v předmětech ekonomie, management a sociologie.
Zadávání dat do buněk aplikace je velice jednoduché. Buňka je identifikována
řádkem a sloupcem (A3 – sloupec A, řádek 3). Souvislá oblast je identifikována
A3:E12, kde A3 je horní levý okraj a E12 je dolní pravý okraj oblasti. Nesouvislá
oblast buněk je množina buněk a souvislých oblastí, například A3; B3:D10; E12.
Do buňky můžeme vložit hodnoty typu číslo, typu datum nebo čas, dále libovolný
text, vzorce a funkce.
Tipy pro zadávání dat
 Klikneme na buňku, kde chceme vložit hodnotu a po vložení hodnoty se
přesuneme do jiné buňky Enter nebo kurzorovými šipkami nebo pomocí
myši. Pomocí SHIFT/Enter se přesuneme nahoru, doprava pak pomocí stisku
tlačítka TAB a doleva pomocí SHIFT/TAB.
 Chceme-li zadávat do všech buněk stejná data, vybereme oblast, napíšeme
údaj do levé horní buňky a stiskneme CTRL/Enter.
 Chceme-li oblast vyplnit přírůstky dané hodnoty, pak stiskneme CTRL a
táhneme úchyt na rohu výběru.
 Vlastní řady pak vytvoříme pomocí Možnosti/Upřesnit a kliknout Upravit
vlastní seznamy.
Formátování buněk
Tabulkový procesor Excel umožňuje dva druhy formátování buněk. Jedná se
o číselné formátování a stylistické formátování. Číselné formátování určuje, jak se
hodnota v buňce zobrazí. Stylistické formátování se vztahuje na formátování
vzhledu, barvy, písma a okrajů, které nám vytváří atraktivnější vzhled buněk.
Zadání:
 Vytvořte sešit s názvem Seznam studentů.
 Na prvním listu, který má název seznamy, vytvořte tabulku, kde záhlaví
sloupců bude jméno a příjmení studentů, počet bodů ze zkoušky Management
a rozvoj lidských zdrojů, počet bodů z předmětů Moderní ICT a počet bodů
z předmětů Strukturální fondy EU.
 Zopakujte si základní výpočty – součty souvislé a nesouvislé oblasti dat
(SUMA), průměry (PRUMER), extrémní hodnoty (MIN, MAX), výpočet
procent ze součtu dat, počet výskytu nějaké hodnoty (COUNTIF).
 Vysvětlete pojem relativní adresace a prostudujte různé typy grafů, kterými
můžete zobrazit grafické výstupy z tabulky dat.
30
Vzorce a funkce v Excelu vždy začínají tlačítkem =.
Karta Domů
Tato karta obsahuje skupiny Schránka, Písmo, Zarovnání, Číslo, Styly, Buňky,
Úpravy. Kde skupina nabídky Schránka nám umožní vybraná data kopírovat,
přesouvat nebo vkládat. Výhodou je, že data můžeme přenášet také z jiných aplikací
na místo kurzoru.
Skupina nabídky Písmo nám umožní volit font písma, řez a velikost písma, dále
různé typy podtržení, barvu a jiné efekty.
Objekty na kreslící vrstvě
Na každý pracovní list můžeme vložit obrazce, grafy, mapy, obrázky a také ovládací
prvky uživatelských formulářů. Pomocí panelu Kreslení můžeme vkládat libovolné
automatické tvary. Jakmile obrazec umístíme na pracovní list, můžeme ho upravovat
tím, že ho vybereme, kopírujeme nebo přesouváme.
Karta Vložení
31
Tato karta obsahuje seznamy Tabulky, Ilustrace, Grafy, Minigrafy, Filtr, Odkazy,
Text a Symboly.
Grafy v Excelu
Statistické funkce v Excelu
Statistické funkce implementované v Excelu lze rozdělit do několika kategorií:
1. funkce počítající popisnou statistiku – průměr, směrodatnou odchylku,
rozptyl, špičatost atd.,
2. funkce pro jednotlivé statistické testy – t-testy, chí-kvadrát test,
3. funkce počítající kvantily různých statistických rozdělení - např. normálního,
t-rozdělení, F-rozdělení, chí-kvadrát apod. a
4. funkce pro regresní a korelační analýzu.
Obecně lze napsat, že při zkoumání používáme dva základní druhy statistiky,
popisnou a interferenční.
 Popisná statistika zjišťuje a sumarizuje informace, zpracovává je ve formě
grafů a tabulek a vypočítává jejich číselné charakteristiky jako průměr,
rozptyl percentily, rozpětí a pod.
 Interferenční statistika činí závěry základě dat získaných z šetření
provedených pro vybraný soubor respondentů. Analyzujeme tyto závěry a
predikuje z nich závěr pro celý soubor (volební průzkum, průzkum trhu
apod.)
Přehled jednotlivých funkcí v tabulkovém procesoru EXCEL 20101
Funkce PRŮMODCHYLKA
Vrátí průměrnou hodnotu absolutních odchylek
datových bodů od jejich střední hodnoty
1
Zdroj informací a popis přebrán z portálu http://office.microsoft.com/cs-cz/excel-help/funkceaplikace-excel-podle-kategorie-HP010342656.aspx?CTT=3#BMstatistical_functions
32
Funkce PRŮMODCHYLKA
Funkce PRŮMĚR
Funkce AVERAGEA
Funkce AVERAGEIF
Funkce AVERAGEIFS
Funkce BETA.DIST
Funkce BETA.INV
Funkce BINOM.DIST
Funkce BINOM.INV
Funkce CHISQ.DIST
Funkce CHISQ.DIST.RT
Funkce CHISQ.INV
Funkce CHISQ.INV.RT
Funkce CHISQ.TEST
Funkce CONFIDENCE.NORM
Funkce CONFIDENCE.T
Funkce CORREL
Funkce POČET
Funkce POČET2
Funkce COUNTBLANK
Funkce COUNTIF
Funkce COUNTIFS
Funkce COVARIANCE.P
Vrátí průměrnou hodnotu absolutních odchylek
datových bodů od jejich střední hodnoty.
Vrátí průměrnou hodnotu argumentů
Vrátí průměrnou hodnotu argumentů včetně
čísel, textu a logických hodnot
Vrátí průměrnou hodnotu (aritmetický průměr)
všech buněk v oblasti, které vyhovují příslušné
podmínce
Vrátí průměrnou hodnotu (aritmetický průměr)
všech buněk vyhovujících několika podmínkám
Vrátí kumulativní distribuční funkci beta
rozdělení
Vrátí inverzní funkci ke kumulativní distribuční
funkci pro zadané beta rozdělení
Vrátí
hodnotu
binomického
rozdělení
pravděpodobnosti jednotlivých veličin
Vrátí nejmenší hodnotu, pro kterou má
kumulativní binomické rozdělení hodnotu větší
nebo rovnu hodnotě kritéria
Vrátí hodnotu kumulativní funkce hustoty
pravděpodobnosti beta rozdělení
Vrátí jednostrannou pravděpodobnost rozdělení
chí-kvadrát
Vrátí hodnotu kumulativní funkce hustoty
pravděpodobnosti beta rozdělení
Vrátí hodnotu funkce inverzní k distribuční
funkci jednostranné pravděpodobnosti rozdělení
chí-kvadrát
Vrátí test nezávislosti
Vrátí interval spolehlivosti pro střední hodnotu
základního souboru
Vrátí interval spolehlivosti pro střední hodnotu
základního souboru pomocí Studentova trozdělení
Vrátí korelační koeficient mezi dvěma
množinami dat
Vrátí počet čísel v seznamu argumentů
Vrátí počet hodnot v seznamu argumentů
Spočítá počet prázdných buněk v oblasti
Spočítá buňky v oblasti, které odpovídají
zadaným kritériím
Spočítá buňky v oblasti, které odpovídají více
kritériím
Vrátí hodnotu kovariance, průměrnou hodnotu
součinů párových odchylek
33
Funkce COVARIANCE.S
Funkce DEVSQ
Funkce EXPON.DIST
Funkce F.DIST
Funkce F.DIST.RT
Funkce F.INV
Funkce F.INV.RT
Funkce F. TEST
Funkce FISHER
Funkce FISHERINV
Funkce FORECAST
Funkce ČETNOSTI
Funkce GAMMA.DIST
Funkce GAMMA.INV
Funkce GAMMALN
Funkce GAMMALN.PRECISE
Funkce GEOMEAN
Funkce LOGLINTREND
Funkce HARMEAN
Funkce HYPGEOM.DIST
Funkce INTERCEPT
Funkce KURT
Funkce LARGE
Funkce LINREGRESE
Funkce LOGLINREGRESE
Funkce LOGNORM.DIST
Funkce LOGNORM.INV
Funkce MAX
Funkce MAXA
Funkce MEDIAN
Funkce MIN
Funkce MINA
Funkce MODE.MULT
Vrátí hodnotu kovariance výběru, tedy průměr
součinů odchylek pro každou dvojici datových
bodů ve dvou množinách dat
Vrátí součet druhých mocnin odchylek
Vrátí hodnotu exponenciálního rozdělení
Vrátí hodnotu rozdělení pravděpodobnosti F
Vrátí hodnotu rozdělení pravděpodobnosti F
Vrátí hodnotu inverzní funkce k distribuční
funkci rozdělení F
Vrátí hodnotu inverzní funkce k distribuční
funkci rozdělení F
Vrátí výsledek F-testu
Vrátí hodnotu Fisherovy transformace
Vrátí hodnotu inverzní funkce k Fisherově
transformaci
Vrátí hodnotu lineárního trendu
Vrátí četnost rozdělení jako svislou matici
Vrátí hodnotu gama rozdělení
Vrátí inverzní funkci ke kumulativnímu gama
rozdělení
Vrátí přirozený logaritmus funkce gama Γ(x)
Vrátí přirozený logaritmus funkce gama Γ(x)
Vrátí geometrický průměr
Vrátí hodnoty exponenciálního trendu
Vrátí harmonický průměr
Vrátí hodnotu hypergeometrického rozdělení
Vrátí úsek lineární regresní čáry
Vrátí hodnotu excesu množiny dat
Vrátí k-tou největší hodnotu množiny dat
Vrátí parametry lineárního trendu
Vrátí parametry exponenciálního trendu
Vrátí hodnotu kumulativního logaritmickonormálního rozdělení
Vrátí inverzní funkci ke kumulativnímu
logaritmicko-normálnímu rozdělení
Vrátí maximální hodnotu seznamu argumentů
Vrátí maximální hodnotu seznamu argumentů
včetně čísel, textu a logických hodnot
Vrátí střední hodnotu zadaných čísel
Vrátí minimální hodnotu seznamu argumentů.
Vrátí nejmenší hodnotu v seznamu argumentů
včetně čísel, textu a logických hodnot
Vrátí svislou matici nejčastěji se vyskytujících
nebo opakujících hodnot v matici nebo oblasti
dat
34
Funkce MODE.SNGL
Funkce NEGBINOM.DIST
Funkce NORM.DIST
Funkce NORM.INV
Funkce NORM.S.DIST
Funkce NORM.S.INV
Funkce PEARSON
Funkce PERCENTIL.EXC
Funkce PERCENTIL.INC
Funkce PERCENTRANK.EXC
Funkce PERCENTRANK.INC
Funkce PERMUTACE
Funkce POISSON.DIST
Funkce PROB
Funkce QUARTIL.EXC
Funkce QUARTIL.INC
Funkce RANK.AVG
Funkce RANK.EQ
Funkce RKQ
Funkce SKEW
Funkce SLOPE
Funkce SMALL
Funkce STANDARDIZE
Funkce SMODCH.P
Funkce SMODCH.VÝBĚR.S
Funkce STDEVA
Funkce STDEVPA
Vrátí hodnotu, která se v množině dat vyskytuje
nejčastěji
Vrátí hodnotu negativního binomického
rozdělení
Vrátí hodnotu normálního kumulativního
rozdělení
Vrátí
inverzní
funkci
k
normálnímu
kumulativnímu rozdělení
Vrátí hodnotu standardního normálního
kumulativního rozdělení
Vrátí inverzní funkci ke standardnímu
normálnímu kumulativnímu rozdělení
Vrátí Pearsonův výsledný momentový korelační
koeficient
Vrátí hodnotu k-tého percentilu hodnot
v oblasti, kde k je hodnota ležící mezi 0 a 1
Vrátí hodnotu k-tého percentilu hodnot v oblasti
Vrátí pořadí hodnoty v množině dat vyjádřené
procentuální částí (mezi 0 a 1) množiny dat
Vrátí pořadí hodnoty v množině dat vyjádřené
procentuální částí množiny dat
Vrátí počet permutací pro zadaný počet objektů
Vrátí hodnotu distribuční funkce Poissonova
rozdělení
Vrátí pravděpodobnost výskytu hodnot v oblasti
mezi dvěma mezními hodnotami
Vrátí hodnotu kvartilu množiny dat na základě
hodnot percentilu z oblasti 0..1 (s vyloučením
hodnot 0 a 1)
Vrátí hodnotu kvartilu množiny dat
Vrátí pořadí čísla v seznamu čísel
Vrátí pořadí čísla v seznamu čísel
Vrátí druhou mocninu Pearsonova výsledného
momentového korelačního koeficientu
Vrátí zešikmení rozdělení
Vrátí směrnici lineární regresní čáry
Vrátí k-tou nejmenší hodnotu množiny dat
Vrátí normalizovanou hodnotu
Vypočte směrodatnou odchylku základního
souboru
Vypočte směrodatnou odchylku výběru
Vypočte směrodatnou odchylku výběru včetně
čísel, textu a logických hodnot
Vypočte směrodatnou odchylku základního
souboru včetně čísel, textu a logických hodnot
35
Vrátí standardní chybu předpovězené hodnoty y
pro každou hodnotu x v regresi
Funkce T.DIST
Vrátí procentuální body (pravděpodobnost) pro
distribuční funkci Studentova t-rozdělení
Funkce T.DIST.2T
Vrátí procentuální body (pravděpodobnost) pro
distribuční funkci Studentova t-rozdělení
Funkce T.DIST.RT
Vrátí hodnotu Studentova t-rozdělení
Funkce T.INV
Vrátí hodnotu t distribuční funkce Studentova trozdělení jako funkci pravděpodobnosti
a stupňů volnosti
Funkce T.INV.2T
Vrátí inverzní funkci k distribuční funkci
Studentova t-rozdělení
Funkce LINTREND
Vrátí hodnoty lineárního trendu
Funkce TRIMMEAN
Vrátí střední hodnotu vnitřní části množiny dat
Funkce T.TEST
Vrátí
pravděpodobnost
spojenou
se Studentovým t-testem
Funkce VAR.P
Vypočte rozptyl základního souboru
Funkce VAR.S
Vypočte rozptyl výběru
Funkce VARA
Vypočte rozptyl výběru včetně čísel, textu
a logických hodnot
Funkce VARPA
Vypočte rozptyl základního souboru včetně
čísel, textu a logických hodnot
Funkce WEIBULL.DIST
Vrátí hodnotu Weibullova rozdělení
Funkce
Z.TEST
Vrátí
jednostrannou
hodnotu
pravděpodobnosti z-testu.
Všechny funkce v tabulkovém procesoru se zapisují ve tvaru =FUNKCE (proměnná
1 až proměnná N). Postupně se naučíme se základními funkcemi pracovat.
Přestavme si, že máme velký rozsah číselných dat. A na těchto datech si vyzkoušíme
metodu rozdělení četnosti a zobrazíme si je graficky podle sloupcového grafu –
histogram četnosti.
Funkce STEYX
Procvičování základních charakteristik dat
Číselné charakteristiky jsou numerickým vyjádřením nezákladnějších vlastností
statistického souboru. Dělíme je na charakteristiky polohy, kde například patří
modus, medián a průměr a na charakteristiky variability, kde například patří rozptyl,
směrodatná odchylka, šikmost nebo špičatost.
V kurzu v adresáři „Cvičení“ je uložen soubor s názvem „ Vstupni_soubor“, kde jsou
uložená data, s kterými budeme pracovat.
Modus představuje hodnotu, která se v souboru vyskytuje nejčastěji. V případě, že je
v souboru více modů (multimodální soubor), tak tako funkce zobrazí první
(nejmenší) modus v pořadí.
V Excelu je to funkce = MODE.SNGL(číslo1; číslo 2; …).
Medián představuje prostřední hodnotu v souboru hodnot, je to hodnota, kdy se dá
říci, že existuje stejný počet menších (nebo stejných) a stejný počet větších (nebo
stejných) hodnot. Při sudém počtu hodnot se medián definuje jako aritmetický
36
průměr z nejvyšší dolní poloviny a nejnižší horní poloviny hodnot uspořádaných
podle velikosti.
V Excelu je to funkce = MEDIAN(číslo1; číslo 2; …).
Aritmetický průměr je součet jednotlivých výsledků měření nebo zjišťování
vydělený celkovým počtem výsledků. Průměr můžeme vypočíst ze všech údajů
v souboru (z celé populace) nebo si můžeme zvolit pouze určitý vzorek dat, z kterého
vypočteme průměr.
V Excelu je to funkce = PRŮMĚR(číslo1; číslo 2; …).
V ekonomických disciplínách často pracujeme s různými indexy (cenové indexy).
Pro výpočet průměrného indexu se používá za určité období geometrický průměr.
V Excelu je to funkce = GEOMEAN(číslo1; číslo 2; …).
Rozptyl je aritmetickým průměrem kvadrátů odchylek od aritmetického průměru.
Rozptyl můžeme vypočíst z celého vzorku dat ze souboru nebo jenom zase z jistého
vzorku dat (vybíráme si z populace). Populační a výběrový rozptyl.
V Excelu je pro populační rozptyl funkce = VAR.P(číslo1; číslo 2; …).
V Excelu je pro výběrový rozptyl funkce = VAR.S(číslo1; číslo 2; …).
Směrodatná odchylka je druhou mocninou z rozptylu. Zase rozlišujeme populační
směrodatnou odchylku a výběrovou.
V Excelu je pro populační směrodatnou odchylku funkce = SMODCH.P(číslo1; číslo
2; …).
V Excelu je pro výběrovou směrodatnou odchylku funkce = SMODCH.VÝBĚR.
P(číslo1; číslo 2; …).
Šikmost
popisuje
symetrii
pravděpodobnostního
rozdělení
vzhledem
k aritmetickému průměru. Nulová šikmost znamená, že hodnoty souboru jsou
rovnoměrně rozděleny vlevo a vpravo od průměru. Kladná šikmost značí, že vpravo
od průměru se vyskytují odlehlejší hodnoty nežli vlevo a většina hodnot se nachází
vlevo od průměru. Záporná šikmost je naopak.
V Excelu je to funkce = SKEW(číslo1; číslo 2; …).
Špičatost je charakteristika pro rozdělení hodnot souboru, kde se porovnává dané
rozdělení s tzv. normálním rozdělením. Hodnoty s tzv. normovaným normálním
rozdělením (průměr je zde roven nule a směrodatná odchylka je rovná jedné) mají
koeficient špičatosti roven nule. Rozdělení s kladným koeficientem jsou špičatější
než normované normální rozdělení (hodnoty jsou více koncentrované u průměru).
Naopak záporná špičatost jsou pak plošší než normované normální rozdělení.
V Excelu je to funkce = KURT(číslo1; číslo 2; …).
37
Př. 7 Výpočet jednotlivých funkcí
55
48
56
78
32
57
38
37
100
0
45,325
23
46
739,6096
27,19576
721,1194
26,85367
0,215737
-0,8683
78
23
47
23
45
36
23
59
74
70
0
3
23
88
78
23
2
24
67
11
48
36
68
17
99
48
20
78
67
23
11
100
max
min
průměr
modus
medián
výběrový rozptyl
výběrová směrodatná odchylka
populační rozptyl souboru
populační směrodatná odchylka
šikmost souboru
špičatost souboru
Zdroj 1 Vlastní zpracování
Statistické funkce nejsou v Excelu jedinou možností jak provést výpočet. A nabídce
Data po nainstalování doplňku máme k dispozici „Analýzu dat“ a tady je nástroj
„Popisná statistika“. Data musí být v jednom sloupci nebo v jednom řádku. Protože
tento nástroj pro každý sloupec nebo pro každý řádek počítá funkce zvlášť.
Obrázek 16
Popisná statistika
Výsledná tabulka obsahuje všechny funkce a shodné výsledky z našeho řešení.
Sloupec1
Stř. hodnota
Chyba stř. hodnoty
Medián
Modus
Směr. odchylka
Rozptyl výběru
45,325
4,300027952
46
23
27,19576466
739,6096154
38
Špičatost
Šikmost
Minimum
Maximum
Součet
Počet
-0,868301223
0,215736537
0
100
1813
40
Kontrolní otázky:
1.
2.
Jak v tabulkovém procesoru Excel po zadání 50 číselných hodnot se vypočte:
průměr, modus, medián?
Jak v tabulkovém procesoru Excel po zadání 50 číselných hodnot se vypočte:
směrodatná odchylka, rozptyl, špičatost a šikmost?
Kontingenční tabulky v programu Excel
Po nastudování této kapitoly byste měli umět pomocí kontingenční tabulky
analyzovat dat, vytvářet analýzy a různé pohledy a porovnávat data a umět z analýz
vytvářet grafické výstupy
Teoretická část kapitoly
Pomocí kontingenční tabulky můžete shrnout, analyzovat, zkoumat a prezentovat
souhrn dat na listu nebo pracovat s externím zdrojem dat. Kontingenční tabulka je
zvlášť užitečná, máte-li dlouhý seznam čísel k sečtení a agregované údaje či
mezisoučty by nám pomohly získat různé pohledy na tato data a porovnat výsledky
podobných dat.
Příprava dat pro kontingenční tabulku v Excelu. Data musí být uspořádána formou
standardního databázového seznamu:
1.
V prvním řádku jsou názvy polí
2.
Druhý a další řádky obsahují data
3.
Seznam dat nesmí obsahovat prázdné řádky
Př. 8
Využití kontingenční tabulky pro analýzy dat
Ukázka datového souboru
ID
1
2
3
4
5
6
7
8
9
10
11
12
POHLAVÍ VZDĚLÁNÍ BYDLIŠTĚ VĚK VÝŠKA HMOTNOST
Z
Z
M
M
M
M
M
Z
Z
Z
Z
M
VS
VS
VS
ZS
ZS
VS
SS
SS
SS
SS
SS
VS
město
město
město
město
vesnice
vesnice
město
město
město
vesnice
vesnice
vesnice
18
18
18
18
20
19
20
19
18
19
19
18
39
158
169
185
184
174
191
185
164
173
154
178
176
50
60
80
75
72
89
77
47
65
52
78
74
POČET ČLENŮ
RODINY
4
3
3
4
3
3
4
3
4
2
2
2
Co budeme zjišťovat? Kolik mužů má VŠ? Kolik žen má SŠ? Kolik osob má pouze
ZŠ? Kolik je žen? Kolik žen a mužů je spolu?
Postup pro vytvoření kontingenční tabulky
1.
2.
Označte některou buňku v datovém listě
Klikněte na kartě „Vložení“ na nabídku „Kontingenční tabulka“ a zobrazí se
Vám příslušné dialogové okno, kde se bude zadávat umístění tabulky a zdroj
dat.
3.
Po vytvoření nástrojů pro vytvoření kontingenční tabulky začneme tažením
polí do oblastí vytvářet strukturu kontingenční tabulky.
Zdroj 2 Vlastní zpracování
Seznam polí kontingenční tabulky obsahuje pole, s kterými chceme pracovat.
Tažením polí se seznamu polí kontingenční tabulky do filtru seznamu dostaneme
odpovědi na položené otázky. V řádku máme „pohlaví“ a ve sloupci „vzdělání.
Hodnoty, které nás zajímají je pak počty vzdělání u mužů a žen.
Nyní si vysvětlíme možnosti pro jednotlivá pole. Klepnutím na rozevírací seznam
v poli ∑ Hodnoty dostaneme nabídku (Přejít k filtru sestavy, Přejít k popiskům
řádků, Přejít k popiskům sloupců, Odstranit pole, Nastavení polí hodnot…).
Vybereme si „Nastavení polí hodnot …“ a zobrazí se nám dialogové okno, které nám
umožní měnit typ výpočtu pro data a také nám umožní zobrazit hodnoty dat v jiném
formátu (například jako procenta)
40
Kontingenční
tabulku
můžeme zobrazit také ve
formě tabulky nebo ve formě
osnovy. Postup je takový, že
musíme
mít
kurzor
v kontingenční tabulce a na
kartě „Návrh“ vybereme
tlačítko /Rozložení sestavy a
volbu „Zobrazit ve formě
tabulky“.
V případě, že přidáme do
původní tabulky nová data,
tak
musíme
data
v kontingenční
tabulce
aktualizovat. A to pomocí karty „Možnosti“ ve skupině „Data“ a klikem na
„Aktualizovat“ nebo „Aktualizovat vše“. Kontingenční tabulku můžeme vytvořit
také z dat z jiného sešitu, kde se data nacházejí zadáváme v první oblasti.
Testování hypotéz
Populační vzorky mohou obsahovat neomezeně velký počet hodnot (mohou být
spočetné a nespočetné). Například počet návštěvníků kina nebo divadla není
omezený a ani přesně známý. Proto byl statistický soubor rozšířen o případy
s nekonečným počtem prvků a byl zaveden pojem „náhodné veličiny“, který může
zahrnovat jak soubory s konečným, tak i nekonečným počtem prvků. Náhodná
veličina také obsahuje informaci o pravděpodobnosti, se kterou se daná hodnota
v souboru vyskytuje, odborně to je rozdělení pravděpodobnosti. U klasického
souboru s konečným počtem prvků tato pravděpodobnost odpovídá relativní četnosti
výskytu dané hodnoty v souboru. Má smysl se také ptát, jaká je „průměrná“ hodnota
(případně rozptyl) takovéto veličiny. Díky této otázky má smysl zavést pojem střední
hodnota a populační rozptyl. Tyto pojmy rozšiřují již známé pojmy jako je
aritmetický průměr a rozptyl a souhrnně je nazýváme parametry.
Statistická hypotéza je tvrzení o hodnotách parametrů náhodných veličin (nejčastěji
je tímto parametrem střední hodnota). Testování hypotéz je založeno na ověřování,
zda statistická hypotéza platí s jistou pravděpodobností nebo ne.
Testování statistických hypotéz2
Testování statistických hypotéz je rozhodovací problém, v němž proti sobě stavíme
dvě hypotézy: H0 (nulovou hypotézu) a HA (alternativní hypotézu). NeymanPearsonův princip testování je založen na ověřování modelu H0 proti modelu HA.
Výsledkem může být jedno ze dvou rozhodnutí:
 není důvod zamítnout H0,
 data nulové hypotéze odporují, H0 teda neplatí, přijímáme HA.
O tom, zda data nulové hypotéze odpovídají, či zda indikují alternativní hypotézu,
vypovídá vždy vhodně zvolená statistická funkce dat (testová statistika), která
charakterizuje stupeň vzdálenosti dat od H0 směrem k HA a tím také stupeň platnosti
H0.
2
Text je přebrán z manuálu „Základy statistiky pro výzkum a marketing“ školení k SPSS
41
Test je vždy statistické rozhodovací pravidlo, které stanoví, zda testovací statistika
nabývá takové hodnoty, aby nulová hypotéza, ze které vycházíme, byla zamítnuta.
Možné chyby při testování statistických hypotéz. Například chyby se můžeme
dopustit již při samotné formulaci statistické hypotézy, to znamená, že nulová nebo
alternativní hypotéza neodpovídá řešenému problému. Při samotném rozhodování se
lze dopustit dalších chyb: statistické chyby rozhodování: nesprávně zvolená testovací
statistika a nesprávně určené rozhodovací pravidlo.



Pravděpodobnost chyby 1. druhu α je pravděpodobnost, že se rozhodneme
pro alternativní hypotézu a ve skutečnosti platí nulová. Odborně je to riziko
zamítnutí nulové hypotézy.
Pravděpodobnost chyby 2. druhu β je pravděpodobnost, že se rozhodneme
pro nulovou hypotézu a ve skutečnosti platí alternativní.
Rozhodovací pravidlo určujeme tak, abychom nepřekročili zvolené riziko
neoprávněného zamítnutí nulové hypotézy a zároveň pokud možno
minimalizovali její chybné přijetí.
Obecně lze shrnout postup testování hypotézy do těchto kroků:





Formulujeme nulovou a alternativní hypotézu
Zvolíme hladinu významnosti α (0,05 nebo 0,01)
Vybereme si vhodný test a příslušná testovací statistika zvolí rozhodovací
funkce dat
Do testové statistiky se dosadí hodnoty z dat
Provedeme vlastní test hypotézy (počítačově se zjistí dosažená hladina
významnosti, která znamená vypočtené empirické riziko odmítnutí nulové
hypotézy za předpokladu, že nulová hypotéza platí (je to odhad chyby
1. druhu); je-li toto riziko menší než předem zvolená hranice α, rozhodneme
se pro alternativní hypotézu v opačném případě, nezamítáme nulovou
hypotézu.
Kontrolní otázky:
1. K čemu slouží kontingenční tabulka v aplikaci Excel?
2. Jak se vytvoří grafy z dat z kontingenční tabulky?
3. Jak testujeme hypotézy?
42
Shrnutí základních pojmů
Obrázek 17
Opakování formou myšlenkové mapy
Literatura
[1]
Manuál k aplikaci na webu http://office.microsoft.com/cs-cz/training/.
43
ÚVOD DO STATISTICKÉ APLIKACE SPSS
Cíl:
Po nastudování této kapitoly byste měli umět:
- pracovat s daty v aplikaci
- využívat statistické procedury
- analyzovat výstupy
Klíčová slova:
SPSS, datové soubory, moduly
Teoretická část kapitoly
Aplikace SPSS (Statistical Package for the Social Sciences) je komerční aplikace
podléhající licenční politice. Systém vyvíjí firma IBM SPSS (USA), která má
v České republice zastoupení a veškeré informace jsou dostupné na webu firmy na
http://www.acrea.cz/.
Systém obsahuje různé datové soubory a moduly. Nabídkový režim aplikace je
přizpůsoben stylu Windows. Při spuštění aplikace se objeví okna.
Popis aplikace
Datové soubory načteme do aplikace klikem na File/Open/Data. Základní soubory
mají příponu .sav anebo . spv.
Obrázek 18
Základní okno aplikace
Při spuštění aplikace se postupně zobrazují dvě základní okna. První okno je okno
„DataSet“, které slouží pro prohlížení a úpravu dat. Druhé okno je okno „Output“,
toto okno je rozdělené na dvě části: pořadač výstupů a textový editor výstupů, na
které navazují speciální okna: editor grafů a editor tabulek.
Vstup dat je umožněn těmito způsoby:

vkládáním dat prostřednictvím tabulkového editoru,
44
 otevřením datového souboru ve formátu SPSS,
 importem datového souboru z jiných formátů (Excel, dBase),
 výběrem dat prostřednictvím rozhraní ODBC (Open DataBase Connectivity),
které se využívá pro přístup k datovým souborům databázových systémů.
Statistické procedury jsou ovládány dialogovými panely, pomocí nichž můžeme
kromě proměnných zpravidla nastavit také požadované výpočty (tlačítko
„Analysis“), grafy (tlačítko „Graphs“) a doplňující volby (tlačítko „Options“).
Výstupy jsou zobrazeny v okně „Output“ a jsou organizované jako objektově
orientované dokumenty, které obsahují text a dva typy speciálních objektů: tabulky a
grafy. Zajímavým objektem je tady tabulka, lze u ní definovat její vzhled a barvu,
měnit její vlastnosti. V rámci režimu „Pivot Tables“ můžeme u tabulky zaměňovat
řádky a sloupce. Grafy lze tady upravovat obdobně jako v tabulkových procesorech.
Práce s datovými soubory
Každá statistická analýza vyžaduje vstupní data, tzv. datový soubor, obsahující
hodnoty „Values“ proměnných „Variables“, které obsahují číselné, slovní či jiné
označení napozorovaných vlastnosti objektů. Datové soubory se ukládají formátem
.sav.
DataSet obsahuje dva listy. List „Data View“, kde řádky představují případy a
sloupce představují proměnné. List „Variable View“, kde každý řádek je jedna
proměnná a každá sloupec je atribut asociovaný s proměnnou.
Output má také dvě části. Navigační, kde je seznam všech analýz, které provádíme a
také část, kde se zobrazují výsledky analýz. Doporučuji ukládat Output s vhodným
názvem nebo využít, že je zde možný export do různých
formátů.
Můžeme si také určit, jak chceme data a výstup zobrazovat.
Toto lze přes funkci Edit / Options / jednotlivé karty
(General, Data, Output Labels, Chart, Pivot Tables).
Interaktivní nápověda k jednotlivým kartám je na
http://127.0.0.1:55582/help/index.jsp?topic=/com.ibm.spss.st
atistics.help/idh_pref_general.htm.
Nyní si probereme základní procedury aplikace SPSS, které
slouží pro přípravu práce s daty (jde o nabídku Data a
Transform).
45
Nabídka data
Tato nabídka je určena pro práci s daty a její struktura je na obrázku.
Funkce „Define Variable“ se používá ve dvou
případech: definování nové proměnné nebo pro změnu
již existující proměnné.
Definování proměnných:
 Název proměnné (Variable name). Názvy
proměnných lze kdykoliv přejmenovat, protože
nezahrnují určitou informací o obsahu
proměnné, jméno nesmí být delší než
8 alfanumerických znaků a nesmí obsahovat
mezery, speciální znaky a každá proměnná má
své jedinečné jméno.
 Typ proměnné (Type). Standardně se předpokládá numerická proměnná.
Další přípustné hodnoty jsou: číselná v exponenciálním tvaru, datum,
znaková nebo vyjadřující měrnou jednotku.
 Popis proměnné a hodnota návěští (Value Label) slouží k delšímu popisu
proměnné (maximálně 256 znaků) a k popisu jednotlivých hodnot proměnné.
 Měřítko proměnné (Measurement) slouží k specifikaci způsobu měření:
nominální, ordinální nebo spojité.
Nabídka Data/Define Dates umožní definování časové proměnné, kterou lze
zobrazit v různém tvaru.
Nabídka Data/Sort Cases (Řazení dat) vyvolá proceduru pro seřazení dat v tabulce
podle zadané proměnné sestupně či vzestupně.
Nabídka Data/Transpose (Transpozice) vytvoří nový datový soubor, ve kterém jsou
prohozené řádky a sloupce.
Nabídka Data/Merge Files (Sloučení souborů) vyvolá proceduru pro sloučení
souborů do délky (přidání případů) nebo do šířky (přidání proměnných).
Nabídka Data/Aggregate (Souhrn) spustí agregaci dat a vytváří se z nich nový
soubor.
Nabídka Data/Ortogonal Design generuje se datový soubor, pro případné statistické
testování několika různých faktorů.
Nabídka Data/Split File (ozdělení souboru) rozdělí soubor podle zadaných kritérií.
Používá se pro opakování analýz pro podsoubory.
Nabídka Data/Select Cases (Výběr případů) tato procedura umožňuje následující
způsoby výběru pozorování:




Za podmínky … (IF)
Náhodný výběr z případů (Random sample)
Výběr podle rozpětí (Based on time or…)
Použití filtrační proměnné (User filter variable)
Nabídka Data/Weight Cases (Přiřazení váhy) tato procedura přiřadí váhy určitým
případům.
46
Př. 9
Práce s datovými soubory v aplikaci SPSS
Podle obrázku 18 vytvořte návrh proměnných v aplikaci.
Obrázek 19
Typy proměnných
Nabídka Transform nám umožní transformovat původní data. Jedná se o složitější
procedury, které často mění obsah datového souboru, např. vytváření nových
proměnných ze stávajících proměnných.
Nabídka Transform/Compute (Výpočet) má proceduru, která slouží k výpočtu
hodnot proměnné, která vychází z numerické transformace ostatních proměnných.
Procedura umožňuje:
 Výpočet hodnot numerických nebo alfanumerických proměnných
 Vytvořit nové proměnné nebo nahradit hodnoty existujících proměnných
 Výpočet selektivně pro podmnožiny dat prostřednictvím logických podmínek
 Využít přes 70 funkcí (aritmetické, statistické, distribuční a alfanumerické)
Základní použití procedury se skládá z následujících kroků:




Z nabídky Transform zvolíme Compute
Pojmenování proměnné (Target Variable)
Popsání nové proměnné (Type&Label)
Zapsání do výpočetního pole „Numeric Expression“ početní operaci pomocí
kalkulačky nebo zvolíme funkci (Functions) a převedeme již existující
proměnnou pomocí šipky. Alfanumerické konstanty musí být v apostrofech,
numerické konstanty se uvádí s desetinnou tečkou.
 Lze vybrat podmínku „IF“ – pokud nebude splněna, nevytvoří se nová
proměnná, kliknutím na „Continue“ ukončíme proceduru.
Random Number Seed (Náhodná čísla) tato procedura slouží k nastavení počáteční
hodnoty generátoru pseudonáhodných čísel.
Count (Počítání) tato procedura vytváří novou proměnnou (Target Variable). Použití
procedury se skládá z následujících kroků:
 Zvolení názvu proměnné, jejíž hodnoty budou vyjadřovat výskyt určité
hodnoty pozorování.
47


Výběr proměnné, ze které se bude dále počítat a její převedení šipkou do
oblasti „Numeric variables“
Definovaní hodnot, jejichž výskyt chceme zjistit (Define Values) viz.Obr. 5.7.
Můžeme zvolit jednotlivé hodnoty a přidat je tlačítkem „Add“ nebo zvolit
intervaly hodnot (Range), lze také zadat vynechané hodnoty (Missing Value).
Recode (Nahrazení) tady se jedná o nahrazení určité hodnoty dané proměnné
hodnotou jinou.
Rank Cases (Pořadí hodnot) tato procedura počítá pořadí hodnot. Vytváří novou
proměnnou s názvem r+stará proměnná, kde r je pořadové číslo proměnné.
Automatic Recode (Automatické převedení) tato procedura převádí znakovou nebo
numerickou proměnnou na posloupnost přirozených čísel.
Create Time Series (Vytvoření časové řady) tato procedura se používá pro
transformace časových řad – diferencování, sezónní diferencování, klouzavé
průměry, klouzavé mediány.
Replace Missing Values (Nahrazení chybějících hodnot) tato nabídka určuje, jakým
způsobem budou nahrazena chybějící pozorování – např. aritmetickým průměrem,
průměrem ze sousedních hodnot, lineární interpolací.
Typy proměnných: číselné (spojité, počty, poměrové indexy); kategorizované
(nominální, dichotomické, ordinální a kardinální); textové; datum a čas.
Příklady pro proměnné:
 země (textová proměnná)
 region (nominální kategorizovaná proměnná), kde 1 = západní a severní
Evropa; 2 = jižní Evropa; 3 = střední Evropa; 4 = Balkán
 kojenecká úmrtnost (spojitá číselná proměnná poměrového typu – procento)
 vzdělání – ordinální kategorizovaná proměnná (1 = základní vzdělání; 2 = bez
maturity atd.)
 věkové kategorie (kategorizovaná kardinální proměnná)
Samostatné cvičení 4
Vytvořte v aplikaci SPSS následující proměnné: Student, Pohlaví (žena=1; muž=2),
Věk, Hodnocení.
Name
Student
Pohlavi
Typ
Numeric
Numeric
Width
8
8
Vek
Hodnocení
Numeric
Numeric
8
8
Values
Missing
1, žena
2, muž
Colums
Align
Measure
Scale
Nominal
Scale
Scale
Pro další cvičení v aplikaci využijeme data pořízená v rámci realizace projektu SGS
v roce 2012, kde jsme zkoumali názory seniorů v Moravskoslezském kraji.
48
Hromadná data
Kvantitativní výzkum pracuje s hromadnými daty. Tato data se zpracovávají
statistickou procedurou, jejíž obsah můžeme shrnout následujícím způsobem:










Výběr jednotek pro sledování
Zjišťování údajů
Kontrola údajů (formální a také logická)
Získávání informací o struktuře souboru z pohledu sledovaných vlastností
Třídění údajů (prvního a vyššího stupně)
Výpočet funkcí popisné statistiky, testování významných rozdílů a shody,
sledování časových řad
Vyjádření rozložení jevů (charakteristik) v tabulkách a grafech
Relační nebo vztahová analýza
Statistická verifikace hypotéz
Interferenční statistika
Soubory a způsoby výběru jednotek
Data, která chceme statisticky zpracovat, musíme dát do standardní podoby a
zaznamenat jako čísla (kardinální proměnné) nebo číslice (ordinální a nominální
proměnné). Musíme je uložit do souborů. Každý výzkum vždy vyžaduje určit okruh
zkoumaných osob (jednotek). Určujeme cílovou populaci, která pro nás znamená
soubor jednotek, pro který chceme vyslovit závěry. Vymezení si určujeme sami
podle povahy výzkumu.
Naši cílovou populaci může tvořit 100 studentů, kteří navštěvují určitou přednášku;
3500 mužů, kteří jsou příjemci sociálních dávek; 1500 žen, které porodily svoje
první dítě atd.
Určení základního souboru (cílové populace) je dáno především našimi výzkumnými
problémy, otázkami a také hypotézami. Přitom je vždy dobré si odpovědět na otázky:
 Zajímají nás volební preference stran a tady je důležité si uvědomit, zda nás
zajímá názor těch, kteří nemohou volit?
 Nebo zajímá nás názor čtenářů na jednotlivé časopisy a tady si musíme
uvědomit, pro koho jsou jednotlivé časopisy určené a koho budeme
oslovovat?
 Zajímá nás životní styl studentů, životní styl matek na mateřské dovolené,
životní styl obyvatel města a vesnice???
Výběrový soubor má strukturu analogickou struktuře základního souboru a proto
musíme zajistit jen jejich náhodný výběr (nastudovat v knize Dismana).
Práce se soubory v aplikaci
Vytvoříme si soubor, kde budeme zaznamenávat výsledky testů studentů ze dvou
předmětů, které se vyučují v různých studijních oborech
49
Obrázek 20
Práce s proměnnými a soubory v aplikaci
U každého studenta si budeme zaznamenávat jedinečný identifikační kód, program a
obor, který studuje a jeho výsledky z uvedených předmětů.
Program {Values Label; 1 – Ekonomie a management; 2 – Veřejná správa a
regionální politika}
Statistics
N
Valid
Missing
Mean
Median
Mode
Std. Deviation
Minimum
Maximum
Sum
Studijní obor
191
0
1,36
1,00
1
,482
1
2
260
Počet bodů z
Matematiky
191
0
61,24
62,00
64
16,260
23
98
11696
Analýza dat – třídění prvního stupně v aplikaci SPSS
Prvním krokem, který musíme udělat před jakoukoliv analýzou dat je tzv. čistění dat.
Je to kontrola dat ve dvou krocích: kontrola chybných dat a nalezení chyby a její
oprava.
Kontrola chybných dat má dva kroky:
 První krok, který se týká kontroly chybných dat, spočívá v tom, že
pozorujeme, zdali jednotlivé hodnoty proměnných odpovídají variantám,
které máme v dotazníku. Data kontrolujeme tak, že si necháme udělat
rozložení četností jednotlivých proměnných. K tomuto využijeme proceduru:
Analyze/Descriptive Statistics/Frequencies a v rámci této funkce si necháme
vytisknout minimální a maximální hodnotu. Využijeme data a budeme
sledovat proměnnou „Jste_obyvatel“ a „Pohlavi“. V nabídce Statistics
zvolíme nalezení minimální a maximální hodnoty.
50
Pro nás bude důležitý výstup z tabulky. A tady vidíme chybu u kontroly celkového
počtu, protože u každé námi zvolené proměnné je uveden jiný počet: 649 a 660.
Protože celkový počet respondentů byl 660, tak vidíme, že 11 respondentů
neodpovědělo na otázku: „Jste obyvatel“. Pokud najdeme otázky, kde chybí hodně
odpovědí, tak je to pro nás důležitá informace, že něco není v pořádku.
Uvedeme si výstupy po aplikování této procedury na naši volbu. První tabulka je
celková statistika, druhá tabulka je kontrola dat – pohlaví a třetí tabulka je kontrola
dat „Jste obyvatel“.
Statistics
N
Valid
Jste_obyvatel
Pohlaví
649
660
11
0
Pohlaví
Valid
Missing
muž
žena
Total
Frequency
320
340
660
Percent
48,5
51,5
100,0
Valid Percent
48,5
51,5
100,0
Cumulative
Percent
48,5
100,0
Jste_obyvatel
Valid
Missing
sídlo do 5 000 obyvatel
sídlo 5 000 - 20 000 obyvatel
sídlo 20 000 až 50 000
obyvatel
sídlo nad 50 000 obyvatel
Total
Frequency
149
158
109
Percent
22,6
23,9
16,5
Valid Percent
23,0
24,3
16,8
233
649
35,3
98,3
35,9
100,0
11
1,7
žádné údaje
51
Cumulative
Percent
23,0
47,3
64,1
100,0
Statistics
N
Total
Valid
Jste_obyvatel
649
Pohlaví
660
660
Statistics
Pohlaví
N
Valid
Missing
Minimum
Maximum
100,0
474
0
1
2
Proto je také vhodné pohlaví zadávat tak, že 1 znamená muž a 2 žena. Pak podle
minima a maxima zjistíme, že data jsou v pořádku, protože hodnoty této proměnné se
pohybují od <1;2>
 Druhý krok je kontrola kategorizovaných dat. Kontrola nekategorizovaných
dat s velkým rozsahem hodnot za využití této procedury nemá cenu. Dostali
bychom hodně řádků. Namísto procedury Frequencies použijeme proceduru
Analyze/Descriptive Statistics/Descriptive. V dialogovém okně zvolíme
tlačítko Options a vybereme požadavek na zvolení minimální, maximální
hodnoty a také průměru (Mean).
Descriptive Statistics
N
Současný plat
Nástupní plat
Valid N (listwise)
Minimum
474 $15,750
474 $9,000
474
Maximum
$135,000
$79,980
Mean
$34,419.57
$17,016.09
Std. Deviation
$17,075.661
$7,870.638
Tímto jsme skončili čištění dat a musíme postoupit k nalezení chyb a zajistit jejich
opravu.
Postup při nalezení chyb a jejich následná oprava:
 Víme, že v našem datovém souboru jsou chyby, které musíme opravit. Máme
na to dvě možnosti. Pokud máme dosti velký soubor (například 3 000
respondentů), můžeme si dovolit těch 11 chybných případů obětovat. Mámeli relativně malý vzorek (do čtyř pěti stovek), musíme chyby opravit.
Nejdříve vyhledáme chybu a to přímo v datech (Data View)
52
Postup je tento: v datovém souboru klikneme na proměnnou, v níž hledáme chyby a
pak klikneme na „Edit/Fine“ a do příslušného okna vepíšeme chybnou hodnotu,
kterou hledáme. Najdeme chybné záznamy, které pak kontrolujeme s příslušným
dotazníkem a provedeme opravy. U nekategorizovaných dat nevíme přesně, co
hledáme. Proto tady používáme proceduru „Explore“.
Postup: Analyze/Descriptive Statistics/Explore. Jako „Dependent List“ zvolíme
proměnnou, kterou chceme kontrolovat a do okna „Label Cases by“ napíšeme
identifikační proměnnou. Klikneme na tlačítko „Statistics“ a zvolíme „Outliers“.
Obrázek 21
Explore: Statistics
Extreme Values
% pro ČSSD
Highest
Lowest
1
2
3
4
5
1
2
3
4
5
Case Number
69
67
77
73
68
1
11
46
10
48
53
Kraj
S. M.
S. M.
S. M.
S. M.
S. M.
Praha
Stř. Č.
V. Č.
Stř. Č.
V. Č.
Value
46,90
43,18
40,41
40,06
39,90
23,44
25,94
26,74
26,99
27,46
Ve výstupu jsou pro nás důležité dva sloupce nadepsané Value a ID. Sloupec
„Value“ udává pět nejvyšších hodnot proměnné (Highest) a pět nejnižších hodnot
proměnné (Lowest), které se v souboru vyskytují. Pokud budeme detekovat chyby,
pak jejich opravu provedeme stejným způsobem jako u kategorizovaných dat, ale
tady už nemusíme identifikovat data, protože to za nás udělala procedura Explore.
Využití procedury Fraquencies pro třídění
Až po zkontrolování dat můžeme přistoupit k analýze dat. Jednorozměrná analýza je
třídění podle jedné proměnné (třídění prvního stupně). Třídění prvního stupně
nominálních proměnných a proměnných ordinálních a intervalových s malým
počtem variant se v aplikaci provádí tímto postupem: Analyze/Descriptive
Statistics/Frequencies.
Co nejlépe vystihuje Vaše postavení?
Valid
pracující
nezaměstnaný
pracující důchodce
důchodce
důchodce vykonávající brigády
Total
Missing
žádné údaje
Total
Frequency
132
16
68
389
47
652
Percent
20,0
2,4
10,3
58,9
7,1
98,8
8
1,2
660
100,0
Valid Percent
20,2
2,5
10,4
59,7
7,2
100,0
Cumulative
Percent
20,2
22,7
33,1
92,8
100,0
Z tabulky vyčteme, že na tuto otázku odpovědělo z celkového počtu dotázaných
celkem 98, 8 % dotázaných a 1,2 % dotázaných neodpovědělo. Statistický program
umí také grafické ztvárnění tabulek. Toto si procvičíte v samostatném cvičení.
Př. 10
Grafické ztvárnění v aplikaci SPSS
Základním kamenem každé analýzy je zvolení vhodného způsobu prezentace dat
(volíme typ grafu, tabulku). První jednoduché výstupy v aplikaci SPSS můžeme
získat využitím procedury Fraquencies.
54
Obrázek 22
Procedura Frequencies
V dialogovém okně dané procedury máme možnost výběru proměnných, které
chceme analyzovat. Záleží na typu prezentovaných dat, podle kterých vybíráme
způsob zobrazení. V dotazníkovém šetření jsme položili respondentům otázku, zda
používají ve svém životě počítač a internet a kde mají k těmto technologiím přístup.
Po zpracování dotazu jsem získala výsledek ve formě tabulek a grafů.
Obrázek 23
Třídění prvního stupně – analýza dat
55
Je dobré vždy mít na paměti, že musíme dbát na přehlednost, názornost a uměřenost
výstupu.
Procedura „Frequencies“ a další (Descriptives a Explorer) umožní výstupy popisné
statistiky.
Studenti mohli s testů ze statistiky získat 0 až 100 bodů. Tuto informaci nevyčteme
z níže uvedené tabulky. Je to dáno našim kritériem při písemném testu. Ve spodní
části tabulky najdeme odpovědi na minimum, maximum a celkovou sumu a
percentily. Průměrné skóre je 67,62 bodů. Nejčastějším bodovým ziskem (mode)
bylo 67 a údaje o percentilech říkají, že 25 %, kteří psali test, získali body mezi
<30;59>. Dalších 25 % získalo body mezi <59;67> a hodnota 50 tady znamená (je to
i medián), že 50 % těch, co psali text, získalo méně než 67 bodů a dalších 50 %
získalo více než 67 bodů. Rozptyl má hodnotu 154,101 (variance), ale lepší
informaci nám sdělí hodnota směrodatné odchylky (Std. Deviation), která je 12,414 a
naznačuje, že bodový zisk byl vyrovnaný, protože čím je její hodnota nižší, tím jsou
data homogennější a rozptyl v datech není příliš velký a také hodnota průměru je
v takovém případě údajem, který dobře charakterizuje data. Proto je dobré srovnat
průměr, medián a modus. Pokud se hodnota průměru a mediánu podstatně liší, je to
signál, že v datech se vyskytuje odlehlá hodnota – outliers.
56
Statistics
Počet bodů ze Statistiky
N
Valid
Missing
Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Sum
Percentiles
25
50
75
Samostatné cvičení 5
191
0
67,62
,898
67,00
67
12,414
154,101
,077
,176
-,037
,350
70
30
100
12915
59,00
67,00
77,00
Procedura Descriptives a Explore a její výstupy
Základy dvourozměrné analýzy (třídění druhého stupně – tabulky)
U tohoto typu třídění hledáme vzájemné souvislosti proměnných. Porovnáváme
distribuci dat závislé proměnné na základě kategorií nezávislých proměnných.
Klasickými nezávislými proměnný jsou proměnné typu: pohlaví, věk, vzdělání,
region, příjem, počet obyvatel). V aplikaci SPSS získáme výstupy pomocí procedur:
General Tables, Tables of Frequencis, Crosstabs. Toto třídění by mělo korespondovat
s našimi hypotézami a mělo by nám umožnit prezentovat zajímavosti z našeho
šetření.
Pohlaví * Kategorie zaměstnání Crosstabulation
Count
Pohlaví
Total
žena
muž
Kategorie zaměstnání
administrativní
zaměstnanec
úředník
manažer
205
0
10
156
27
74
361
27
84
Total
215
257
472
Co to znamená, že hledáme vztahy mezi dvěma proměnnými? Nic jiného, než že se
ptáme, do jaké míry jedna proměnná ovlivňuje druhou proměnnou. Například při
hledání mezi pohlavím respondenta a tím, zda preferuje práci s počítačem a
internetem. Zda se liší názory mužů a žen, zda se liší názory lidí žijících ve městě
nebo na vesnici, názory lidí podle věků nebo vzdělání.
57
Obrázek 24
Crosstabs pro třídění druhého stupně
Víme už, že v dvourozměrné analýze hledáme vztahy mezi dvěma proměnnými. To
znamená, že se ptáme, do jaké míry jedna proměnná ovlivňuje druhou proměnnou.
Pro kontingenční tabulky dodržujeme určitá pravidla. Například to, že při proceduře
Crosstabs nemá smysl pracovat jen s absolutními četnostmi (count), ale je dobré ji
doplnit ještě o výpočet procent (řádková, sloupcová a celková).
Řádková procenta (Row %) se počítají tak, že absolutní četnost v políčku tabulky se
dělí celkových počtem případů příslušného řádku.
58
Sloupcová procenta (Column %) se počítají analogicky, jen s tím rozdílem, že
absolutní četnost v políčku se dělí celkovým počtem případů ve sloupcové kategorii.
Celková procenta (Total %) pak získáme tak, že absolutní četnost v políčku dělíme
celkovým počtem případů v souboru.
Nebo když umístíme nezávislé proměnnou do řádků kontingenční tabulky (Rows),
pak použijeme v analýze údaje z řádkových relativních četností. Umístíme-li ji do
sloupců (Columns), pak pracujeme s četnostmi sloupcovými.
Kontrolní otázky:
1.
2.
3.
4.
5.
6.
7.
Který modul se používá pro základní statistickou analýzu a který pro analýzu
časových řad?
Jak se jmenuje základní okno, do kterého zadáváme data a editujeme je?
Jak se jmenuje procedura, která slouží k výpočtu hodnot proměnné?
Definuj data nominální, ordinální a metrická?
Jak se označují nominální a ordinální data?
Uveďte příklady proměnných?
Vysvětlete, k čemu využijete procedury Frequencies a Crosstabs
59
Testování hypotéz - neparametrické testy
Tato kapitola obsahuje přehled základních neparametrických testů, které najdeme
v nabídce Analyze/Nonparametric Tests
Chi-Square Test zařazuje proměnnou do kategorií a počítá statistiku chí-kvadrát, která
je založená na rozdílech mezi pozorovanými a očekávanými četnostmi.
Obrázek 25
Nabídka procedur v Analyze
Binomial Test porovnává četnosti pozorování v každé kategorii u dichotomické
proměnné s očekávanou četností binomického rozdělení.
Runs Test testuje, zda pořadí výskytu dvou hodnot veličiny je náhodné.
One-Sample Kolmogorov-Smirnov Test porovnává empirickou distribuční funkci
náhodné veličiny s uvedeným teoretickým rozdělením, které může být normální,
rovnoměrné, exponenciální, nebo Poissonovo.
Two-Independent-Samples Tests oveřují shodnou úroveň veličiny ve dvou populacích
na základě dvou nezávislých výběrů. K dispozici jsou Mann-Whitney U test,
Kolmogorov-Smirnov test, Moses test of extreme reactions, Wald-Wolfowitz runs test.
Tests for Several Independent Samples ověřují shodnou úroveň veličiny
v  populacích na základě  nezávislých výběrů. K dispozici jsou Kruskal-Wallis test,
Median test, Jonc-kheere-Terpstra test.
Two-Related-Samples Tests porovnávají rozdělení dvou proměnných. K dispozici jsou
Wilcoxon signed-rank test, Sign test, McNemar test, Marginal homogeneity test.
Tests for Several Related Samples porovnávají rozdělení dvou nebo více proměnných.
K dispozici jsou Friedman’s test, Kendall’s W, Cochran’s Q.
Př. 11
Chi-Square Test
Pociťujete ve svém věku nedostatek peněz
rozhodně ano
spíše ano
spíše ne
rozhodně ne
Total
Observed N
154
226
182
27
589
Expected N
147,3
147,3
147,3
147,3
Residual
6,8
78,8
34,8
-120,3
60
Test Statistics
Pociťujete_ve_vě Pociťujete_ve_vě
Pociťujete_ve_vě ku_aktuálně_oba ku_aktuálně_oba Pociťujete_ve_vě
ku_aktuálně_oba vy_nedostatek_re vy_nedostatek_lá ku_aktuálně_oba
vy_osamocenost
spektu
sky
vy_kriminalita
Chi-Square
69,025a
190,297b
146,204c
71,669d
df
3
3
3
3
Asymp. Sig.
,000
,000
,000
,000
a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is
142,3.
b. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is
135,8.
c. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is
137,0.
d. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is
139,0.
Př. 12 Ukázka neparametrického testu
One-Sample Kolmogorov-Smirnov Test
N
Normal Parametersa,b
Most Extreme Differences
Počet bodů z
Matematiky
191
61,24
16,260
,039
,029
-,039
,538
,934
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a. Test distribution is Normal.
b. Calculated from data.
61
Shrnutí základních pojmů
Literatura
[1]
[2]
[3]
BABBIE, E. The Practice o Social Research. Belmont: Wadsworth
Publishing Company, 2001
HENDL, J. Přehled statistických metod. Portál, s.r.o., Praha 2006, 2009
Tutoriál k aplikaci IBM SPSS Statistics Data Editor dostupný na adrese
http://127.0.0.1:50553/help/index.jsp?topic=/com.ibm.spss.statistics.cs/casest
udies_intro.htm
62
Závěr
Studijní text „ICT a výzkum“ a prezenční kurz v aplikaci Moodle slouží pro
distanční vzdělávání cílové skupiny. Tento text bude sloužit zájemcům o využití
aplikací pro sběr dat a pak pro jejich zpracování pomocí aplikací pro statistické
zpracování. Naučíme se využívat OpenSource aplikace pro sběr dat publikovaných
na portálu Google. Pro statistické analýzy využijeme jednak komerční aplikaci Excel
a také aplikaci SPSS. Statistické funkce v Excelu tvoří významnou součást této
aplikace, kde základní funkce lze nalézt přímo v seznamu statistických funkcí,
standardně je však dodáván i dodatek Excelu – Analýza dat, která soubor
standardních funkcí významně rozšiřuje. Pro oblast ekonomických nebo sociálních
věd je také vhodný program SPSS (Statistical Package for Social Sciences) dodávaný
firmou IBM.
Celý studijní text kromě teorie obsahuje příklady, samostatná cvičení, kontrolní
otázky a shrnutí základních poznatků z probírané látky. U každé kapitoly je uvedena
další studijní literatura pro detailnější pochopení dané problematiky.
63
Příloha č. 1: Vysvětlivky k používaným symbolům
Průvodce studiem – vstup autora do textu, specifický způsob, kterým
se studentem komunikuje, povzbuzuje jej, doplňuje text o další
informace
Příklad – objasnění nebo konkretizování problematiky na příkladu ze
života, z praxe, ze společenské reality, apod.
Pojmy k zapamatování.
Shrnutí – shrnutí předcházející látky, shrnutí kapitoly.
Literatura – použitá ve studijním materiálu, pro doplnění a rozšíření
poznatků.
Kontrolní otázky a úkoly – prověřují, do jaké míry studující text a
problematiku pochopil, zapamatoval si podstatné a důležité informace a
zda je dokáže aplikovat při řešení problémů.
Úkoly k textu – je potřeba je splnit neprodleně, neboť pomáhají
dobrému zvládnutí následující látky.
Korespondenční úkoly – při jejich plnění postupuje studující podle
pokynů s notnou dávkou vlastní iniciativy. Úkoly se průběžně evidují a
hodnotí v průběhu celého kurzu.
Úkoly k zamyšlení.
Část pro zájemce – přináší látku a úkoly rozšiřující úroveň základního
kurzu. Pasáže a úkoly jsou dobrovolné.
Testy a otázky – ke kterým řešení, odpovědi a výsledky studující
najdou v rámci studijní opory.
Řešení a odpovědi – vážou se na konkrétní úkoly, zadání a testy.
64
Download

ostravská univerzita v ostravě