Vysoká škola ekonomická v Praze
Fakulta managementu v Jindřichově Hradci
Katedra exaktních metod
Diplomová práce
2013
Bc. Pavel Stejskal
Vysoká škola ekonomická v Praze
Fakulta managementu v Jindřichově Hradci
Katedra exaktních metod
Znalostní nadstavba BI platformy ERP
systému: principy a implementace
Vypracoval:
Vedoucí práce:
Rok vypracování:
Bc. Pavel Stejskal
doc. Ing. Dr. Jan Voráček, CSc.
2013
Čestné prohlášení
Prohlašuji, že jsem tuto diplomovou práci vypracoval samostatně. Veškeré použité podklady,
ze kterých jsem čerpal informace, jsou uvedeny v seznamu použité literatury a citovány
v textu podle normy ČSN ISO 690.
V Jindřichově Hradci dne ……………………
Podpis: …………………………………
Poděkování
Touto cestou bych rád poděkoval vedoucímu mé diplomové práce doc. Ing. Dr. Janu
Voráčkovi, CSc., za motivaci k tématu, náměty, cenné odborné rady a připomínky, které mi
ochotně poskytl v průběhu zpracování této práce.
Abstrakt
Tato práce se zabývá otázkou rozšíření provozních ERP systémů o znalostní nadstavbu,
kterou lze implementovat do existujícího Business Intelligence řešení. Cílem je uvést nástroje
a metody znalostního managementu v kontextu s tradičními prostředky Business Intelligence.
Dále je navržen koncept obchodní strategie a implementační filozofie pro poskytovatele
znalostní vrstvy. Koncept je ilustrován na modelové situaci mezi výrobní firmou a
dodavatelem znalostního nástroje. Koncept zahrnuje fáze typické pro softwarový projekt:
prototyp modelu, rozšíření modelu, validaci a integraci do zákazníkova BI řešení.
Klíčová slova: Business Intelligence, Data Mining, znalostní management, analytické
nástroje, procesní management, diskrétní události, systémová dynamika, agentově
orientované modelování, deskriptivní analytika, prediktivní analytika, preskriptivní analytika
Abstract
The thesis is focused on extending standard ERP systems with Knowledge Management layer
and its integration into existing Business Intelligence solution. The main goal is to explain
possibilities of Knowledge Management tools and methods in contrast of traditional Business
Intelligence analytical tools. Furthermore is designed concept of business strategy and
implementation philosophy for provider of Knowledge layer. This concept is illustrated on
model situation between manufacturer (customer) and Knowledge layer provider. Concept is
involving standard phases such as Knowledge model prototype, model extending, model
validation and its integration into customer’s BI analytical layer.
Keywords: Business Intelligence, Data Mining, Knowledge Management, Analytical tools,
Process Management, Discrete Event, System Dynamics, Agent Based Modeling, Descriptive
Analytics, Predictive Analytics, Prescriptive Analytics
Obsah
Úvod ...........................................................................................................................................1
1
Business Intelligence ..................................................................................................3
1.1
Definice Business Intelligence..............................................................................3
1.2
Postavení Business Intelligence v rámci IS/ICT ..................................................4
1.3
Business Intelligence architektura ........................................................................5
1.3.1
Zdroje dat ......................................................................................................6
1.3.2
Data Warehouse ............................................................................................7
1.3.3
Business Intelligence – analytická vrstva ....................................................12
1.3.4
BI dashboard ...............................................................................................17
2
Data Mining ..............................................................................................................20
2.1
Metodologie Data Mining ...................................................................................22
2.1.1
Pochopení obchodní činnosti (Business Understanding) ............................23
2.1.2
Pochopení dat (Data Understanding) .........................................................23
2.1.3
Příprava dat (Data Preparation) ................................................................24
2.1.4
Modelování (Modeling) ...............................................................................24
2.1.5
Vyhodnocení (Evaluation) ...........................................................................25
2.1.6
Nasazení (Deployment) ...............................................................................25
2.2
Techniky Data Mining ........................................................................................26
2.2.1
Analýza asociací ..........................................................................................26
2.2.2
Klasifikace a prediktivní modelování ..........................................................26
2.2.3
Regrese ........................................................................................................27
2.2.4
Neuronová síť ..............................................................................................29
2.2.5
Rozhodovací strom ......................................................................................31
2.2.6
Shluková analýza (clustering) .....................................................................32
Data Mining – hodnocení modelů ......................................................................33
2.3
2.3.1
Matice záměn ...............................................................................................33
2.3.2
ROC křivka ..................................................................................................35
2.3.3
Křivka navýšení (lift chart) ..........................................................................37
2.3.4
Occamova břitva .........................................................................................38
2.4
3
Zhodnocení datově orientované analytiky ..........................................................38
Knowledge management ..........................................................................................40
3.1
Koncept znalostí .................................................................................................40
3.1.1
Typy znalostí ................................................................................................41
3.2
Definice pojmu Knowledge Management ..........................................................45
3.3
Systémové myšlení a znalostní management......................................................46
3.4
Dynamické řízení organizace..............................................................................47
3.5
Transformace k procesnímu řízení .....................................................................47
3.6
Nástroje znalostního managementu ....................................................................49
3.6.1
Tvorba znalostí (Knowledge Engineering) ..................................................50
3.6.2
Základní modelovací jazyky učící se organizace .........................................52
3.6.3
Validace a verifikace modelu ......................................................................59
Aplikační část – implementace znalostního modulu do BI...................................61
4
4.1
4.1.1
Výrobní společnost ABC stroj, s. r. o. (klient) ...................................................61
Potřeba řešení situace ve společnosti ABC stroj, s. r. o..............................62
4.2
Softwarová společnost Data XYZ, s. r. o. (dodavatel) .......................................62
4.3
Představení nástrojů znalostního managementu zákazníkovi .............................63
4.4
Interaktivní prototyp modelu diskrétních událostí ..............................................64
4.4.1
Nástroj pro tvorbu prototypu modelu ..........................................................65
4.4.2
Vývoj prototypu modelu ...............................................................................66
4.4.3
Ovládání simulačního modelu .....................................................................70
4.5
Úprava a zdokonalení modelu pro reálné nasazení ............................................71
4.6
Validace a verifikace znalostního modelu ..........................................................72
4.6.1
Verifikace znalostního modelu pomocí Data Mining modelu .....................72
4.6.2
Dostupné nástroje pro Data mining ............................................................74
4.7
4.7.1
Integrace znalostního modelu do existujícího BI řešení .....................................75
Další existující nástroje pro sestavení modelu ............................................80
4.8
Rozšíření znalostního modelu .............................................................................81
4.9
Náklady řešení projektu ......................................................................................83
4.10
Posouzení efektivnosti ....................................................................................85
Závěr ........................................................................................................................................87
Použitá literatura a další zdroje ............................................................................................90
Seznam obrázků a schémat ....................................................................................................94
Seznam tabulek .......................................................................................................................95
Seznam použitých zkratek .....................................................................................................96
Úvod
Oblast Business Intelligence je v současné době velmi aktuální téma. Každá společnost a
organizace generuje svou činností obrovské množství dat a informací, které lze využít
k procesu měření vlastní obchodní činnosti, optimalizace procesů či hledání nových
příležitostí pro organizaci. Ne vždy ale dochází ke smysluplnému využití těchto informací.
Navíc s postupným nárůstem zařízení a platforem dále roste množství vyprodukovaných dat a
jsme svědky příchodu éry velkých dat1.
Výzkum společnosti IDC ukazuje, že i ve složitém ekonomickém období (globální
finanční krize) je oblast Business Intelligence jedna z mála oblastní informační technologií,
která není zasažena krácením rozpočtu a snižováním nákladů. Důvod je v uvědomění si, že BI
dokáže nabídnout odpovědi na otázky z mnoha klíčových obchodních a ekonomických
oblastí. Například růst cash-flow, zlepšování schopnosti reakce na vývoj trhu, zvyšování
spokojenosti a loajality zákazníka, snižování provozních nákladů a zvyšování produktivity
zaměstnanců. Řešení Business Intelligence je hlavně určeno manažerům a ti by měli z tohoto
zdroje primárně těžit. Díky tomu musí být zapojeni do BI procesu, nejedná se o jednorázové
řešení.
Pokud není BI pojato jako proces, který roste společně s potřebami organizace, nastává
zde problém. Manažeři, jako hlavní beneficienti BI, musí být do projektu zapojeni hned od
začátku, zaštiťovat jej a zajišťovat jeho realizaci, aby přinesl praktický užitek. BI nikdy není a
nebude jednorázovým konečným řešením. (VAVRA ‚ 2012)
Účelem je tedy vytvořit takové prostředí, které pomůže manažerům sledovat procesy,
dozvídat se více informací o vlastím provozu, dokázat předvídat případná rizika. Na základě
těchto informací by měl být schopen manažer modifikovat nevyhovující proces, případně
upravit a přizpůsobit celý business model. Už z tohoto předpokladu vyplývá, že Business
Intelligence je potřeba budovat postupně s potřebami organizace a zároveň se snažit
informace zasadit do širšího kontextu.
Analytická a konzultační společnost Gartner uvádí jako jeden z deseti klíčových trendů
pro rok 2012 novou generaci analytických nástrojů. Dle současné praxe využívá v organizaci
analytické nástroje pouze úzký okruh pracovníků. Ti, kdo analytické výstupy potřebují,
typicky nerozumějí analytickým aplikacím a procesům a jsou závislí na specialistech. Těch se
však v organizaci vyskytuje jen málo a bývají přetíženi požadavky, jejichž řešení však
představuje jen z malé části kvalifikovanou práci.
Hlavním cílem rozvoje analytiky v organizaci je rozšířit okruh těch, kdo mají analytické
výstupy k dispozici. Mezi další cíle patří snaha přeorientovat analytiku z pouhého
poskytování informací v nástroj, který přímo podporuje business aktivity – strategické
1
Velká data (Big Data) – společnost Gartner za big data označuje soubory dat, jejichž velikost je mimo
schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném
čase
1
plánování, operativní rozhodování nebo optimalizaci v dodavatelském řetězci. K tomuto účelu
je potřeba využívat nové okruhy dat. (PŘÍKLENK ‚ 2012, s. 20)
V kontextu se znalostní ekonomikou je potřeba pracovat se znalostmi jako s možnou
konkurenční výhodou. Problémem je ovšem formalizace a případné modelování znalostí.
"Znalost je informace, která je organizována a analyzována, aby se stala srozumitelnou
a použitelnou k řešení problému nebo k rozhodování." (BUREŠ‚ 2007, s. 27)
Cílem práce je ukázat nástroje a metody znalostního managementu (KM) v kontextu
stávajících prostředků Business Intellingece. Dále provést analýzu obchodní politiky a
implementační filozofie poskytovatele znalostní vrstvy v souvislosti s existující BI
infrastrukturou.
Dílčí témata:






rychlé vytvoření prototypu modelu řešené úlohy pomocí jazyka Discrete Event, s
následnou horizontální a vertikální expanzí. Základním požadavkem je agilita,
atraktivita a podpora ze strany dodavatele Knowledge Management vrstvy,
opakované využití výstupů analýzy stávajících ERP/BI řešení pro pevně daný
„back-end“, tvořený pomocí Agent based (AB), System Dynamics (SD) a Discrete
Event (DE) modelování,
role dat a výstupů datových analýz (statistických i Data Mining) při tvorbě a validaci
znalostní vrstvy,
role expertů a týmů při validaci prototypu modelu i jeho následně rozšířené varianty,
problematika interaktivního dynamického uživatelského rozhraní,
zhodnocení účelnosti a účinnosti implementace znalostní vrstvy včetně orientační
analýzy nákladů.
Struktura práce se skládá z teoretické části, kde je v základním rozsahu vysvětlena
problematika oblastí Business Intelligence, Data Mining a znalostního managementu.
Následná aplikační část řeší jednotlivá dílčí témata. Tato témata jsou ilustrována na ucelené
modelové situaci, která představuje řešení projektu dodávky znalostní vrstvy do prostředí
výrobní firmy. Tento úkol je řešen pomocí modelu diskrétních událostí a následně je
provedena integrace do existujícího Business Intellingece řešení, kterým zákazník disponuje.
2
1 Business Intelligence
Tato část popíše v základní míře oblast Business Intelligence, která tvoří nadstavbu
provozních systémů ve firmách. V jednotlivých kapitolách bude vysvětlena celá architektura
BI řešení. Tato oblast představuje výchozí situaci pro pozdější integraci znalostní vrstvy.
1.1 Definice Business Intelligence
Termín Business Intelligence (BI) poprvé v roce 1989 definoval Howard Dresner ze
společnosti Gartner Group jako „množinu konceptů a metodik, které zlepšují rozhodovací
proces za použití metrik nebo systémů založených na metrikách“. Je to proces transformace
dat na informace a převod těchto informací na poznatky prostřednictvím objevování. Účelem
procesu je konvertovat velké objemy dat na poznatky, které jsou potřebné pro koncového
uživatele. Tyto poznatky můžeme potom efektivně využít například v procesu rozhodování.
(LACKO‚ 2009)
Cílem moderního Business Intelligence systému je poskytnout informace pro lepší
rozhodování manažerů, proto jej lze nazvat systémem pro podporu rozhodování (Decision
Support System – DSS). Nelze jej však zaměňovat s pojmem Competitive Intelligence,
přestože také patří mezi systémy podpory rozhodování. Úkolem Competitive Intelligence je
definování, shromažďování a analyzování dat o produktech, zákaznících a konkurenci. Na
základě těchto informací tvoří manažeři strategická rozhodnutí. Je nutné však dodat, že
Competitive Intelligence stojí na etických a legálních principech, na rozdíl od průmyslové
špionáže, která je ilegální. Competitive Intelligence je tedy zaměřeno hlavně na analýzu
externích dat, naopak Business Intelligence je zaměřeno na analyzování dat interních.
V současné době není definice Business Intelligence zcela sjednocená. BI řešení většinou
využívá shromážděná data z datového skladu (Data warehouse – DW), nicméně není to
podmínkou. Stejně tak Data warehouse nemusí vždy nutně sloužit pro aplikace Business
Intelligence. Na rozdělení konceptu Business Intelligence a Data warehouse používá
společnost Forrester Research dvě definice. První široká definice zní: "Business Intelligence
je sada metodologií, procesů, architektur a technologií, které transformují surová (primární)
data do smysluplných a užitečných informací, za účelem získat lepší přehled a zajistit
efektivnější strategická, taktická a operativní rozhodnutí." (EVELSON‚ 2008)
Při použití této definice BI řešení zahrnuje mimo jiné datovou integraci (Data
Integration), kvalitu dat (Data Quality), skladování dat (Data Warehousing), řízení
kmenových dat (Master Data Management), analitiku textu a obsahu (Text and Content
Analytics) a mnoho dalších technologií, které lze zahrnout do segmentu informačního
managementu. Z tohoto důvodu Forrester Research uvádí přípravu dat a využití dat jako dva
oddělené, přesto těsně spjaté segmenty Business Intelligence architektury.
Na zákládě tohoto rozdělení později Forrester Research uvedl užší definici BI trhu,
kterou odkazuje pouze na vrchní vrstvu BI architektury, tedy analytiku, reporty a dashboardy.
(EVELSON‚ 2010)
3
Pro účely této práce bude využita širší definice, tak jak ji definuje Česká společnost pro
systémovou integraci.
Business Intelligence je sada procesů, aplikací a technologií, jejichž cílem je účinně a
účelně podporovat rozhodovací procesy ve firmě. Podporují analytické a plánovací činnosti
podniků a organizací a jsou postaveny na principech multidimenzionálních pohledů na
podniková data.
Aplikace BI pokrývají analytické a plánovací funkce většiny oblastí podnikového řízení,
tj. prodeje, nákupu, marketingu, finančního řízení, controllingu, majetku, řízení lidských
zdrojů, výroby, IS/ICT apod.
Do nástrojů a aplikací Business Intelligence se zahrnují:














produkční, zdrojové systémy,
dočasná úložiště dat (DSA - Data Staging Area),
operativní úložiště dat (ODS - Operational Data Store),
transformační nástroje (ETL - Extraction Transformation Loading),
integrační nástroje (EAI - Enterpreis Application Integration),
datové sklady (DWH - Data Warehouse),
datová tržiště (DMA - Data Marts),
OLAP,
reporting,
manažerské aplikace (EIS - Executive Information Systems),
dolování dat (Data Mining),
nástroje pro zajištění kvality dat,
nástroje pro správu metadat,
ostatní.
(NOVOTNÝ et. al.‚ 2005, s. 19)
1.2 Postavení Business Intelligence v rámci IS/ICT
Každý podnik a organizace tvoří množství dat. Většinou jsou tato data zachycena formou
transakcí a jedná se o strukturovaná data. Kromě strukturovaných dat produkuje podnik také
data nestrukturovaná, mezi které patří například dokumenty v binární formě, hudební obsah
(mp3) a videa. Tato data jsou pro své obtížné zpracování a využití většinou doplněna o data
strukturovaná, nicméně v rámci této práce se budeme zabývat pouze daty strukturovanými.
Data, která podnik generuje, vznikají jednak činností pracovníků a dále
automatizovaným provozem různých systémů. Tento fakt je důležitý zejména v oblasti
zpracování dat z primárních systémů, kdy mohou nastat problémy s chybovostí nebo
konzistencí dat. Tento problém bude blíže probrán v příslušné kapitole BI architektury.
Vygenerovaná data transakční povahy jsou většinou zaznamenána v různých systémech.
Může se jednat o různé legacy systémy, které jsou zastaralé technologicky a nejsou dále
využívány. Přesto mohou mít důležitý vliv z pohledu BI. Dále se může jednat o systémy,
4
které mají za úkol sběr dat z různých oblastí a zároveň fungují na různých platformách.
V ideálním případě se však jedná o ERP systém2, který typicky funguje ve spojení s relačním
databázovým systémem. ERP systém tedy zaznamenává data s běžného provozu, musí být
rychlý a stabilní. Nasazením relačního databázového systému přináší výhody v ohledu na
rychlost a spolehlivost, ale pro složitější analýzy se nehodí. Jedním ze základních argumentů
proč na ERP systém nasadit Business Intelligence řešení je právě analytika. Pokud by se
prováděla analytika přímo na ERP v relační databázi, docházelo by k vysokému zatížení
systému a koncový uživatel by se potýkal s velmi dlouho dobou odezvy systému. Nehledě na
to, že v některých případech může ERP systém vytěžovat výpočetní jednotku svým provozem
téměř k 100 % výkonu, tím by jakýkoliv pokus a analytický dotaz systém přetížil. Právě
z tohoto důvodu přichází na řadu BI řešení, které nabízí řešení všech výše zmíněných
problémů a možností. Úlohu BI řešení v rámci IS/ITC podniku dobře vystihuje obrázek 1.
Obr. 1 Postavení BI v aplikační architektuře IS/ICT (NOVOTNÝ et. al.‚ 2005, s. 20)
1.3 Business Intelligence architektura
Tato část se zaměří na popis jednotlivých nástrojů a technologií patřících pod Business
Intelligence. Je důležité popsat jednotlivé komponenty, aby bylo možné tyto části BI řešení
2
ERP systém – Enterprise Resource Planning je informační systém, který svým rozsahem pokrývá většinu
procesů souvisejících s provozem organizace. Typicky integruje oblasti výroby, logistiky, distribuce, správy
majetku, prodej, fakturace, účetnictví. V současné době někteří výrobci účetních systémů označují svoje nejvyšší
verze programů jako ERP systém. Jedná se však o hotová řešení, proto je nutné vybírat podle možnosti úpravy
podnikovým procesům na míru – není účelem, aby se podnik přizpůsoboval ERP systému.
5
efektivně propojit s nástroji znalostního managementu. Architekturu BI řešení prezentuje
obrázek 2.
Obr. 2 Architektura Business Intelligence (autor podle Pentaho)
V dalších kapitolách budou popsána jednotlivá patra Business Intelligence, od spodní
části směrem nahoru. Některé části budou popsány jen v nezbytně nutné míře, větší důraz
bude kladem na analytickou část.
1.3.1 Zdroje dat
Jak již bylo zmíněno výše, každý podnik a organizace generuje množství dat. Podle povahy
své činnosti se tato data vyskytují v různých systémech. Data se mohou vyskytovat
v samostatně fungujících systémech (např. docházkový proprietární systém3), dále ve formě
dat ze starších legacy systémů, lokální data (např. CSV4 soubory s kontakty klientů). Další
zajímavou možností jak získat data je OLAP5, zdrojový systém v tomto případě tvoří další
3
Proprietární systém – jedná se o systém, který nemusí mít dostupné zdrojové kódy, z čehož plyne
omezená možnost úpravy zápisu dat tam, kam potřebujeme.
4
CSV – Comma separated values, hodnoty odděleny čárkami, jednoduchý souborový formát určený pro
výměnu tabulkových dat.
5
OLAP – Online Analytical Processing, technologie uložení dat, viz samostatná kapitola dále
6
analytický systém. V organizaci by teoreticky samotné BI mohlo vracet zpracovaná data zpět
do jiných systémů (transformovaná, přepočítaná aj.).
Ideálním stavem z pohledu dat je ERP systém (OLTP) integrující veškeré procesy a
aktivity. Mezi nejznámější dodavatele ERP systémů patří SAP (SAP AG – Německo),
Microsoft (USA), Oracle (USA), Epicor (USA), Infor (USA) a UFIDA (Čína). Všichni
výrobci působí globálně, UFIDA oznámila expanzi na evropský i americký trh na konci roku
2011 a v současné době dotahuje nejsilnější SAP.
1.3.2 Data Warehouse
Data z různých zdrojových systémů je nutné pro potřeby analytiky někde uchovat,
zkontrolovat, očistit a případně upravit (transformovat). K těmto operacím slouží systém
zvaný Data Warehouse. Definice pojmu Data Warehouse (DW či DWH) zní následovně.
Data Warehouse je systém, který periodicky načítá a konsoliduje data ze zdrojových
systémů a ukládá je do dimenzionálního nebo normalizovaného datového úložiště. DW
většinou udržuje historická data v řádu let a je využíván jako zdroj dat pro Business
Intelligence či jiné analytické činnosti. Typicky je aktualizován v dávkách, ne při každé
provedené transakci ve zdrojovém systému. (RAINARDI‚ 2008)
Koncept datového skladu vzniká v roce 1988 a pod názvem Information Warehouse jej
zavedli vědci z IBM Barry Devlin a Paul Murphy. V roce 1992 se konceptu chopil W. H.
“Bill“ Inmon a vydal publikaci Building the Data Warehouse. (HAYES‚ 2002)
V roce 1996 publikoval Ralp Kimball knihu The Data Warehouse Toolkit. Tato dvě
jména jsou v oboru DW nejznámější a dělí přístup k datovému skladu na dva tábory. Inmon je
zastáncem uchování dat v normalizované formě (3NF6), naopak Kimball je zastáncem
úložiště v dimenzionální formě.
V praxi se můžeme častěji setkat právě s dimenzionálním modelem. Jak uvádí
V. Rainardi (2008), pokud budeme mít datové úložiště v normalizované formě, stále jej bude
nutné pro potřeby analytiky převést do dimenzionální formy. Normalizovaná forma má
výhodu ve snadnější integraci z více zdrojových systémů. Aktuální trend in-memory
computing7 se snaží potřebu dimenzionální formy zmírnit, viz poslední verze Microsoft SQL
Server 2012 (xVelocity) a SAP HANA. Společnost Gartner uvádí tento trend in-memory
computing jako velmi důležitý a předpokládá masivní změny v IT, zejména v architektuře
databázových systémů. (PŘÍKLENK ‚ 2012, s. 20)
Architekturu datového skladu dobře ilustruje následující obrázek 3.
6
3NF – třetí normální forma je struktura databáze, která je optimální pro OLTP systémy a minimalizuje
redundanci dat.
7
In-memory computing – data jsou ukládána do paměti RAM pod vysokou kompresí, odpadá nutnost
multidimenzionálního modelu. U Microsoftu existuje jako self-service BI pro ad-hoc analýzy v MS Excel
(PowerPivot rozšíření) či v korporátním BI jako Analysis Services tabular mode.
7
Obr. 3 Diagram Data Warehouse systému (RAINARDI‚ 2008)
1.3.2.1 Transformační nástroje (ETL)
Získávání dat ze zdrojového systému je známé jako ETL (Extract Transform Load) systém.
Tento systém tvoří sada procesů, které získávají data ze zdrojového systému, transformují je a
nahrávají do cílového systému. Transformace může být použita pro přizpůsobení formátu a
kritériím cílového systému, pro odvození nových hodnot (např. kalkulace), nebo pro
validování dat ze zdrojového systému. ETL nemusí sloužit pouze pro pumpování dat do
datového skladu, používá se všeobecně pro jakékoliv přesuny dat. Dle schematického obrázku
3 je zřejmé, že ETL se vypořádá i s chybně zadanými údaji. Pokud například pracovník splete
zadané údaje či je vůbec nevyplní, dochází při procesu ETL k auditu dat. Následně pokud data
neprojdou auditem, přenese je proces do Data Quality úložiště, chyby se následně reportují a
po nutné korekci ve zdrojovém systému budou připravena k novému načítání pomocí ETL.
Kontrola a audit se zapisují do úložiště meta dat, což jsou jednoduše řečeno data o datech.
Příkladem meta dat je zmíněná kontrola dat. Původně vyřazená transakce dostane příznak
nevalidní, na což reaguje ETL proces novým pokusem o načtení (a audit). Meta data se
používají často i pro interní údaje všech procesů týkajících se ETL, při dávkovém zpracování
se může vyskytnout chyba a dávka není kompletně zpracována. Proto na základě meta dat
proces zná poslední dávku, která byla v pořádku načtena do datového skladu a nenastane
problém s duplicitou dat. Meta data mohou nést jakýkoliv další doplňující údaj o datech, jako
mají strukturu apod.
8
1.3.2.2 Dočasná úložiště dat (DSA)
Dočasné úložiště slouží pro transformaci a přípravu získaných dat ze zdrojového systému.
Jedná se o pracovní úložiště, které je před každou dávkou prázdné. Na základě úspěšně
provedených operací se může dále načíst do datového skladu. Dočasné úložiště je užitečné
z hlediska co nejkratšího vytížení zdrojového systém. V případě velkých objemů dat může
pouze samotné načítání dat ze zdrojového systému zabrat desítky minut, pokud by se ještě při
tomto procesu zároveň prováděly další operace (modifikace, hledání duplicit apod.), tak by
spojení mezi zdrojovým systémem a datovým skladem trvalo mnohem déle.
1.3.2.3 Dimenzionální datové úložiště (DDS)
Data Warehouse systém načítá zdrojová data z transakčních systémů a vkládá je do
dimenzionálního úložiště. Kromě dimenzionálního úložiště je může ukládat i do
normalizovaného, což by bylo v souladu s Inmonem. Dle jeho argumentů datový sklad slouží
celé organizaci a existuje mnoho potenciálních uživatelů, kteří budou data z DW potřebovat.
Pokud se data v datovém skladu udržují v normalizované formě, přináší to větší flexibilitu
v rámci úprav datového modelu. Podle Inmona je Kimballův přístup dimenzionálního úložiště
nevhodný z toho důvodu, že vzniklý dimenzionální model konkrétního datového tržiště vznikl
dle požadavků konkrétní skupiny (oddělení) a není flexibilně použitelný pro jinou skupinu
v organizaci. Inmonův koncept přistupuje k datovým tržištím jako k vzájemně závislým, při
tvorbě modelu je tedy nutné plánovat v dlouhodobé perspektivě a pokročilejším způsobem.
Tento přístup vyžaduje vyšší investice, globální analýzu a kooperaci všech oddělení
v organizaci. (INMON‚ 2005, s. 127)
Z teoretického hlediska se zdá Inmonův přístup lepší, v praxi je ale více zastoupen
Kimballův přístup konglomerátu nezávislých tržišť. Je to dáno inkrementálním přístupem při
tvorbě datového skladu, kdy datová tržiště vznikala jako odpověď na informační problém
konkrétního oddělení. Při postupu dle Kimballa zákazník dostane první výsledky velmi brzy a
náklady na vytvoření takového DW jsou nižší v porovnání s přístupem Inmona.
Dimenzionální datové úložiště je tedy databáze, která obsahuje datová tržiště (Data
Marts) v dimenzionální podobě. Dimenzionální datové tržiště je skupina souvisejících
faktových tabulek a jím korespondujících dimenzí. Obsahuje měřené hodnoty business
událostí a tyto hodnoty jsou kategorizovány jejich dimenzemi.
Dimenzionální úložiště je v denormalizované formě a dimenze jsou konformní. To
znamená, že dimenze jsou ve stejné dimenzionální tabulce, nebo jedna je podmnožinou druhé.
Dimenze A je podmnožinou dimenze B, pokud všechny sloupce dimenze A existují v dimenzi
B a všechny řádky dimenze A existují v dimenzi B. (RAINARDI‚ 2008, s. 7)
Dimenzionální úložiště může být fyzicky implementováno několika schématy:



hvězda (star)
vločka (snowflake)
galaxie (galaxy), také známé pod pojmem fact constellation schema
9
Schéma hvězdy ilustruje obrázek 4. Jedná se o nejjednodušší schéma a má výhodu ve
snadnějším zpracování pomocí ETL procesu. Navíc z pohledu databázového systému
nejrychlejší, minimalizuje se počet spojování tabulek (JOIN).
Obr. 4 Schéma hvězdy v dimenzionálním úložišti (RAINARDI‚ 2008, s. 8)
Toto schéma dobře vysvětluje, jakým způsobem jsou data fyzicky uložena. Hvězda se
skládá z faktové tabulky, která obsahuje v tomto případě atributy order_id, line_order_id,
unit_price, quantity, cost, margin. Faktová tabulka fact_sales_order_item tedy obsahuje
záznamy sledovaných hodnot (míry) a zároveň obsahuje cizí klíče (FK) dimenzionálních
tabulek (s prefixem dim).
Schéma vločky je podobné hvězdě s tím rozdílem, že samotná dimenze obsahuje další
cizí klíč další tabulky. Toto schéma ilustruje obrázek 5.
10
Obr. 5 Schéma vločky v dimenzionálním úložišti (Babu‚ 2010)
U schématu vločky může být dimenze propojena se subdimenzí, účelem je
minimalizovat redundanci dat. Dimenze tedy může být v normalizované (3NF) formě.
Některé analytické aplikace mohou se schématem vločky pracovat lépe než s hvězdicovým.
Poslední schéma galaxie představuje dvě a více faktových tabulek, které sdílejí dimenze.
Výhodou tohoto schématu je, že díky využití více faktových tabulek můžeme lépe zachytit
konkrétní proces v podniku.
Kontrast popisovaného dimenzionálního úložiště je patrný z obrázku 6, který představuje
klasický normalizovaný model. Jeho předností je minimální redundance dat. Tento model
používají většinou primární systémy ERP.
11
Obr. 6 Normalizované datové úložiště (RAINARDI‚ 2008, s. 9)
Ve výše zmíněných kapitolách byla stručně popsána celá základní datová vrstva. Tento
základní prvek, na kterém BI stojí, je velmi důležitý pro poskytování správných dat
analytickým nástrojům. Jeho úkolem je tedy mít data konzistentní, pravdivá a pokud možno
co nejrychleji. Integrita datového skladu je považována za samozřejmost. Tyto systémy jsou
koncipovány jako read-only, přesněji řečeno se do nich dají data pouze přidávat, nikoliv
mazat nebo upravovat. Tím se liší od OLTP systémů, kde se běžně data editují nebo mažou.
Zdrojové systémy mohou udržovat data po krátký časový úsek, například 2-3 roky. Starší data
se poté mohou smazat. Naproti tomu úkolem datového skladu je držet historii pokud možno
kompletní.
1.3.3 Business Intelligence – analytická vrstva
Účelem BI řešení je získat z dostupných dat maximum relevantních informací pro podporu
rozhodování. Tento záměr naplňuje analytická vrstva Business Intelligence. Díky nástrojům
analytiky a následné prezentace lze datům přiřadit informační hodnotu, kterou konkrétní
uživatelé či oddělení potřebují.
Mezi typické požadavky lze zařadit potřebu důkladné analýzy prodejů. Obchodní
společnost může mít kromě hlavního sídla ještě mnoho dalších poboček v rámci své země či
v zahraničí. Taková situace představuje potřebu komunikace jednotlivých poboček
s manažery, je potřeba data analyzovat a vyhodnocovat. Jedním z možných řešení je takové,
12
že každá pobočka zpracovává za svou činnost měsíční report a odesílá je do centrály, kde se
data vyhodnocují. Plánování na operativní úrovni je v tu chvíli prakticky v rukou samotné
pobočky, centrála nemá přehled o provozu v jakýkoliv časový okamžik. Na základě takového
reportingu může centrála reagovat a plánovat na taktické úrovni a strategické. Pobočka
funguje relativně autonomně, pokud není přehled nad provozem kdykoliv dostupný. Takovýto
scénář by se pravděpodobně v dnešní době vůbec nevyskytoval, protože odpovědní manažeři
a vedení společnosti si uvědomuje důležitost informační provázanosti. Právě pro tento účel se
velmi dobře hodí Business Intelligence. Největší výhodou je datová konsolidace poboček, tak
jak byla popsána v předchozí kapitole. Na základě takto získaných dat je tedy možné provádět
různé typy analýz. Od jednoduchých reportů až po sofistikovanější metody Data Miningu.
Následující kapitola se bude zabývat jednotlivými metodami dostupných analýz na
získaných a zpracovaných datech.
1.3.3.1 Reporty
V rámci datového skladu existují různé typy reportů podle cílové skupiny, jednak pro
administrátorské účely a dále pro koncové uživatele. Koncovému uživateli je většinou
předkládán report v podobě kontingenční tabulky. Podle typu reportů se může jednat o:

Data quality reports: report obsahuje statistiku kvality dat podle DQ mechanizmu.
Tento report čerpá data hlavně z úložiště meta-dat,
Audit reports: tyto reporty získávají data z event logu8, obsahují údaje o procesu ETL,
tvorby tržišť, bezpečnostní záznamy, záznam o výmazu dat, údržba databáze apod.,
DDS single dimension reports: nejjednodušší typ reportu, který obsahuje pouze data
z jedné dimenze. Například seznam zboží na skladě, struktura podniku a další,
DDS drill-across dimensional reports: reporty tohoto typu mohou spojovat několik
faktových tabulek, například fakta prodejů, fakta komunikace a fakta kampaní pro
zjištění efektivity konkrétní kampaně na tržby. (RAINARDI‚ 2008, s. 332)



Reporty jsou většinou předpřipravené sestavy, které jsou učeny konkrétním potřebám a
konkrétním lidem. Z tohoto důvodu nejsou příliš flexibilní. Některé snadné dotazy je
snadnější provést v OLTP systému, protože potřebujeme velmi aktuální údaj, například kolik
bylo prodáno produktů
v dnešní den, jaká je adresa konkrétního zákazníka apod.
Předpřipravené reporty mohou pokrývat dost běžných činností, ale pokud nastane požadavek
na úpravu reportů a zvýší se potřeba analytiky, přestanou reporty stačit. Právě pro rigidnost
reportů je často důvodem organizací nasadit BI řešení, pro které je kriticky důležité OLAP,
viz následující kapitola.
1.3.3.2 OLAP
Reporty pro operativní úroveň rozhodování lze poměrně snadno získat pomocí SQL9 dotazu
v OLTP systému. Pro potřeby analytiky je ale tento přístup naprosto nevhodný. Pokud
bychom pokládali složitější dotaz na zdrojový systém, díky optimalizaci pro transakce by
docházelo k velké zátěží tohoto systému. Na OLTP systém je jedním z hlavních požadavků
8
9
Event log – soubor událostí databázového či jiného systému.
SQL – Structured Query Language, standardizovaný dotazovací jazyk pro práci s daty v relační databázi.
13
vysoký výkon a dostupnost, mohou na něj být napojeny například pokladny, digitální váhy
apod. Tyto systémy musí dostat okamžitě data o položce a například vystavit doklad. Proto je
pro analytické dotazy určena technologie Online Analytical Processing – OLAP.
OLAP je aktivita interaktivního analyzování dat vzniklých obchodními aktivitami a
činnostmi, která jsou uložena nejčastěji v dimenzionálním úložišti datového skladu. Tato
aktivita slouží pro podporu rozhodnutí na taktické a strategické úrovni. Typickou skupinou,
která OLAP využívá, je obchodní manažer, podnikový analytik a vedoucí pracovníci. OLAP
obsahuje funckionalitu pro operace typu:



Agregace (totaling)
Navigace hierarchií, přechod do detailu (drilling down)
Krájení a kostkování (slice and dice)
Pro zpřístupnění těchto operací je možné použít relační
multidimenzionální. Podle typu použité databáze se OLAP dále dělí na:


databázi
nebo
Relational online analytical processing (ROLAP) – ve spojení s relační databází,
Multidimensional online analytical processing (MOLAP) – spojení s dimens. databází.
(RAINARDI‚ 2008, s. 14)
Online analytical processing tedy využívá jako zdroj multidimenzionální databázi
(MDB), známe také pod pojmem OLAP cube (OLAP kostka). Termíny OLAP a OLAP cube
se tedy od sebe liší tím, že OLAP cube je multidimenzionální databáze a OLAP je aktivita,
která tuto databázi analyzuje. (RAINARDI‚ 2008, s. 379)
Pro lepší pochopení jak OLAP kostka funguje, poslouží následující obrázek 7.
Obr. 7 Multidimenzionální DB se dvěma dimenzemi (RAINARDI‚ 2008, s. 378)
14
Na schématu je multidimenzionální databáze se dvěma dimenzemi, zákazník a produkt.
Kombinace těchto dvou dimenzí udává jednu nebo více sledovaných hodnot, nebo může
obsahovat prázdnou hodnotu. Průsečík tedy představuje obchodní událost. Pokud tato událost
nastane, je zapsána hodnota. Vzniklá událost je vytvořena zákazníkem
a produktem .
V praxi je mnohem častější využití více dimenzí. Pokud bychom chtěli zobrazit tři
dimenze, vnikne zmiňovaná kostka. V případě čtyř a více dimenzí se takový objekt nazývá
hyper kostka (hypercube). Pro pochopení základních operací na kostce je dobré zobrazit
standartní kostku se třemi dimenzemi, viz obrázek 8.
Obr. 8 Multidimenzionální databáze se třemi dimenzemi (RAINARDI‚ 2008, s. 379)
Pokud rozšíříme předešlou kombinaci zákazník/produkt o další dimenzi (osu), vznikne
objekt ve tvaru kostky.
Na obrázku je zobrazena obchodní událost , rozšířená o další rozměr. Z praktického
hlediska této události přidáme další informační hodnotu, jsme schopni identifikovat čas této
události. Samotná událost dle schématu nese sledované hodnoty příjem, náklad a zisk.
Takto vytvořená OLAP kostka může být analyzována uvedenými operacemi nebo
pomocí Data Miningu. Důvod pro použití OLAP kostky místo relační databáze je ten, že
hodnoty kostky jsou vypočítány dopředu a fyzicky je kostka uložena jako komprimované
multidimenzionální pole. To minimalizuje počet I/O10 operací v porovnání s tabulkami
v relační databázi. (RAINARDI‚ 2008, s. 378)
Na druhou stranu kalkulace kostky zabere určitý čas, navíc v případě změny ve
zdrojovém systému se musí kostka znovu přepočítat. Tento fakt, že kostka není vypočítána
okamžitě, nehraje důležitou roli díky zaměření požadované informace. Tyto analýzy slouží
pro hodnocení historických dat.
10
I/O – input output operace, například čtení a zápis na disk
15
Základní operace s OLAP kostkou
Nad sestavenou a vypočítanou kostkou můžeme pomocí OLAP provádět různé operace, díky
kterým dostaneme pohled na data přesně z takové perspektivy, jakou potřebujeme. Pomocí
kostky můžeme snadno odpovídat na otázky typu: kolik se prodalo v prvním kvartálu roku
2012 položek zboží konkrétní kategorie a pouze určité barvy, a to při marži mezi 5-10 %.
Prakticky pomocí základních operací a s využitím filtrů jsme schopni definovat jakýkoliv
požadovaný pohled.
Krájení kostky a kostkování (slice and dice)
První základní operací, kterou můžeme s kostkou provádět je krájení (slice). Jedná se o
proces, díky kterému získáme blok dat filtrovaný podle jedné dimenze, viz obrázek 9.
Obr. 9 Krájení kostky (RAINARDI‚ 2008, s. 413)
Pokud budeme kostku omezovat pomocí více dimenzí, jedná se o operaci kostkování
(dice). Tuto operaci představuje schéma na obrázku 10.
Obr. 10 Kostkování (RAINARDI‚ 2008, s. 414)
16
V praxi může krájení kostky představovat vícenásobné filtry, například pokud
zpracováváme kostku pomocí MS Excel 2010, dovolí nám přidávání řezu pomocí
komponenty Slicer (průřezy) filtrovat data přesně podle požadavků. Tato komponenta je
v podobě tlačítek, takže je na první pohled zřejmé, pomocí jakých parametrů se data filtrují.
Modifikace tohoto filtru je potom velice jednoduchá.
Další ze základních operací nad kostkou je posun v hierarchii do většího/menšího
detailu. Dimenze může být složena z více atributů v hierarchické podobě. Takovou hierarchii
představuje obrázek 11.
Obr. 11 Hierarchie dimenze, drill up a drill down (RAINARDI‚ 2008, s. 414)
Operace drill up představuje prezentaci dat na vyšší úrovni (z detailu do souhrnné
úrovně). Drill down naopak rozbalí údaj do většího detailu – zobrazí agregované úrovně.
V obrázku 11 představuje Amadeus Entertainment nejvyšší možnou úroveň, které by
odpovídala například agregovaná hodnota tržeb. Pokud chceme zjistit, jaký podíl na tržbách
měl Store 1, provede se drill down až na úroveň největšího detailu.
Občas se můžeme setkat ještě s další operací, která se nazývá pivoting. Tato operace
dovolí s kostkou rotovat a měnit tak perspektivu pohledu na data. Z našeho pohledu se ale
jedná prakticky jen o jiný výběr dimenzí a řez podle jiné dimenze.
Analýza pomocí OLAP je velmi flexibilní nástroj, díky kterému můžeme vytvářet grafy,
what-if analýzy a mnohé další výpočty. Můžeme snadno zjistit top produkty z pohledu
prodeje, nejhorší produkty, snadno analyzujeme ziskovost na konkrétním zákazníkovi a
mnoho dalších úloh v obchodní činnosti. Další zajímavou a využívanou analýzou jsou trendy
a porovnání mezi různými časy. Důležité je v tomto směru mít znalosti o tom, co chceme
analyzovat.
1.3.4 BI dashboard
Palubní desky, nejčastěji v Business Intelligence známé jako dashboards, představují
obrazovku se základním přehledem klíčových ukazatelů. Pro manažera na strategické úrovni
přináší informaci, v jaké kondici je podnik nebo organizace. Tato obrazovka většinou
obsahuje grafické prvky ve stylu budíků, grafů, semaforů nebo jiných indikátorů. Tyto prvky
zobrazují nejčastěji výkonnost v konkrétních aspektech (např. prodej), měří pouze jejich
hodnoty, případně porovnává s požadovaným stavem (semafor). Dashboard má za úkol
17
poskytnout manažerovi informaci, zda je vše v pořádku, v opačném případě se může podle
daného indikátoru ponořit do analýzy, proč k problému došlo. Důležité je zmínit, že
dashboard nemá vypovídací schopnost ke zvolené strategii. K tomu jsou určeny například
Balanced Scorecards.
Dashboard by měl být přizpůsoben požadavkům konkrétního uživatele. Pro ředitele bude
dashboard přizpůsoben jinak než dashboard pro manažera, pracujícího na taktické úrovni.
1.3.4.1 Metriky
Metrika by se dala charakterizovat jako míra čehokoliv, co má vliv na chod podniku. Volba
sledovaných metrik záleží na každém oddělení, které bude sledovat své vlastní specifické
míry. Například pro servisní centrum bude důležitý počet nespokojených zákazníků, pro
oddělení lidských zdrojů bude důležitá metrika fluktuace zaměstnanců.
Správně zvolené metriky a KPI jsou velmi důležité. Proto je nutné mít v teamu
specialistu, který vytvoří skupinu lidí zabývající se metrikami. Klíčové je dát dohromady lidi,
kteří vědí vše o podniku a věcech s podnikem souvisejících. Jsou zde klíčové vlastnosti jako:
kvalifikace, znalosti a vyváženost. V praxi probíhá definice takto:
1. skupina musí být sestavena z kvalifikovaných lidí,
2. znalosti jsou nezbytné pro určení metrik – všichni ve skupině musí vědět jaká je
strategie podniku a jaké jsou jeho cíle,
3. je nutná vyváženost a nezaměřovat se striktně na určité aspekty, aby nedošlo
k opomenutí jiných.
Před začátkem práce skupiny je nutné si ujasnit, zda všichni členové se strategií podniku
souhlasí a hlavně zda jí věří. (BI DASHBOARDS)
1.3.4.2 KPI - Key performance indicator
Klíčové ukazatele výkonnosti (KPI) jsou základním prvkem systémů pro měření výkonnosti a
pomáhají organizacím dosahovat stanovených cílů. Jedná se o konkrétní měřitelnou hodnotu
při vykonávání daného procesu. (INTER-INFORMATICS)
Každé oddělení bude mít, stejně jako v případě metrik, jiné požadavky na KPIs. Pro
jejich stanovení platí obdobný způsob jako u metrik, tedy navrhovat ve skupině. Vliv
klíčových ukazatelů výkonnosti na řízení podniku je patrný z obrázku 12.
18
Obr. 12 Klíčové ukazatele jako zpětná vazba pro vedení (INTER-INFORMATICS)
1.3.4.3 Výstrahy - Alerts
Pomocí výstrah může BI řešení informovat uživatele o nastalé situaci dle zvolených pravidel.
V praxi se může stát, že dochází určitá zásoba, klesá požadovaná výkonnost určitého úseku
k hraniční mezi a další podobné situace, které vyžadují rychlou reakci. Tato informace může
být doručena jakýmkoliv komunikačním kanálem (e-mail, SMS, blikající upozornění na
obrazovce). Díky implementaci výstrah dostane manažer informaci včas. Toto platí zejména
pro operativní úroveň. V případě vyššího managementu tato funkcionalita nemá příliš smysl,
řediteli stačí přehledy v dashboardu. Tato aplikace alertů se v Business Intelligence nazývá
proaktivní přístup.
19
2 Data Mining
Pojem Data Mining lze charakterizovat jako metodologii získávání netriviálních skrytých a
potenciálně užitečných informací z dat. Někdy se chápe jako analytická součást dobývání
znalostí z databází (KDD – Knowledge Discovery in Databases). (BERKA‚ 2003, s. 366)
Metoda DM má počátky v šedesátých letech dvacátého století, kdy statistici využívali
pro tuto metodu termíny Data Fishing nebo Data Dredging. Tyto termíny vystihovaly z jejich
pohledu chybnou praxi, kdy nebyla z počátku stanovena hypotéza. Termín Data Mining se
objevil okolo roku 1990 v komunitě zabývající se databázemi. (MENA‚ 2011)
Data mining je zaměřen mnohem více na praktickou stránku, než statistika. Je to dáno i
jeho původem. Pro statistiky je doporučováno zapojit se do Data Miningu, protože jejich
znalost statistickým metod jim dává dobrý základ pro tento obor. DM se zaměřuje na témata,
která nejsou cílem statistického výzkumu. Pro Data Mining je typické:

Data Mining pracuje s heterogenními daty, někdy dokonce s komplexními interními
strukturami (obrázky, video, text nebo signály),
Data Mining předpokládá, že surová data nejsou v dostatečné kvalitě, aby mohly být
použity přímo statistické metody. Nutná příprava dat ke statistickým metodám poté
může mít i zásadní vliv na finální výsledky,
Data Mining používá flexibilní prediktivní techniky, které jsou často založeny na silně
algoritmických základech. Díky tomu mohou mít slabší formální statistické
zdůvodnění (například neuronové sítě),
Data Mining často využívá skrytých (přechodných) proměnných, jako nástroje pro
provedení komprese zdrojových dat a prezentace v abstraktnější podobě, což pomáhá
v sestavování modelů pro různé úkoly,
Data Mining se nepokouší najít pouze obecný, globální model založený na datech, ale
hledá také lokální vzory (lokální modely) ve velkých datových prostorech. Toto je
velmi užitečné zejména v obrovských souborech dat a počtu dimenzí, kde by hledání
globálního (obecného) vzoru bylo příliš nákladné a neúčelné,
Data Mining klade silný důraz na algoritmický přístup a věnuje pozornost problémům
škálovatelnosti (tj. zda přístup bude pracovat s rozumnou efektivitou ve velkých
datových souborech). Přístupy, které nejsou praktické, jsou odmítány.





Data Mining se zaměřuje na data management a optimalizaci hledání v datech (klade
důraz na problémy spojené s přípravou dat, čištěním dat, algoritmickou otázkou a datovými
strukturami).
Statistika je více zaměřena na formální stránku reprezentace finálního modelu a na
formalizaci odhadové funkce v datovém prostoru k inferenci11 (se zaměřením na problémy
modelů a principů statistické inference). V ten samý moment se Data Mining zaměřuje na
odhad a obecně ignoruje inferenční modely. Data Mining obvykle zahrnuje velké datové
soubory.
11
Inference – usuzování, odvozování určitých výroků z jiných
20
Jedním z důležitých aspektů datové analýzy je zdraví a kvalita dat. Aby bylo možné data
analyzovat statisticky, musí být nejprve ve správném formátu, který umíme analyzovat. Podle
Fergusona (1997) se většina organizací topí v datech a zároveň se jim nedostává pravých
hodnotných informací. Jak uvedl Lambert (2002), mnoho manažerů jednoduše předpokládá,
že kvalita jejich dat je dobrá. Bohužel se zdá, že špatná kvalita je více standardem než
výjimkou a statistici tento problém do značné míry ignorovali. Špatná kvalita dat může
způsobit mnoho bezprostředních škod a má mnoho dalších nepřímých efektů, jak uvádí
Lambert (2002). Proto musí statistici brát v úvahu kondici dat a aplikovatelnost statistických
modelů. Práce s komplexními daty poskytuje obrovskou příležitost pro statistiky, kteří
ovládají techniky Data Miningu. (CERRITO‚ 2006, s. 1-3)
Tabulka 1 stručně porovnává statistiku a Data Mining ve specifických problémech a
použitých nástrojích.
Tabulka 1Porovnání statistických metod vůči Data Mining technikám (CERRITO‚ 2006)
Problém
Statistické
metody
DM metody
Podobnosti
Rozdílnosti
Klasifikace
Diskriminační
analýza
a
logistická
regrese
Umělá
neuronová síť,
indukce pravidel
a
klasifikační
stromy
Analýza rozptylu
(ANOVA)
Obecný lineární
model (GLM),
smíšené
modely
Data
Mining
rozděluje data na
tréninkovou,
testovací a validační
část.
Statistika
závisí
více
na
křížové
validaci.
Výstižnost se určuje
pomocí míry chybné
klasifikace.
DM nástroje jsou
určeny pro odhad
Odhad rozdělení
pravděpodobnosti
Jádrový odhad
hustoty,
empirické
distribuční
funkce
Umělá
neuronová síť,
indukce pravidel
a rozhodovací
stromy
Žádné snadno
dostupné
Jádrový odhad hustoty nebo
k-nejbližší
soused
je
ekvivalent
k pravděpodobnostní
neuronové
síti.
Většina
lepších
DM
nástrojů
obsahuje logistickou regresi.
Výstižnost
závisí
na
statistických veličinách jako
12
korelace a odds ratio .
Oba
směry
posuzují
přesnost predikce
Není
přímo
dostupné
v programu
SAS
Enterprise Miner.
Extrakce textu
Žádná běžně
dostupná, stále
musí spoléhat
na
manuální
abstrakci.
Jádrový odhad hustoty je
dostupný
v programu
SAS/STAT. Nicméně většina
statistických programů jej
neobsahuje jako techniku
odhadu. Proto jádrový odhad
hustoty není dosud běžně
používán jako statistická
metoda.
Primární dostupná metoda je
frekvence výskytu.
12
Nástroje
pro
Text
Mining
používají
singulární
rozklad matice a
text
analyzují
v kombinaci
s klasifikací pro
vytěžení
informací.
Odds ratio – poměr šancí/rizik výskytu
21
Clustering
a
klasifikace je běžně
dostupným
nástrojem pro práci
s textovými
informacemi.
Statistické metody jsou založeny na dedukci – dochází k procesu od obecných
předpokladů (hypotéz), přes pravidla k závěrům. Tyto závěry z předpokladů vyplývají,
přičemž odvozování je jisté, nikoliv jen pravděpodobné. Jedná se tedy o základní postup při
dokazování (hypotéz, obecných předpokladů).
Data Mining využívá opačného postupu, tedy indukce. Na základě pozorovaných dat
dokáže vytvářet obecné předpoklady, hypotézy.
Z praktického hlediska má DM velkou výhodu ve snadném využití oproti statistice, kde
je nutné mít mnohem hlubší fundamentální znalosti. Na druhou stranu statistik, který přejde
k DM, má díky svým znalostem velkou výhodu.
2.1 Metodologie Data Mining
Úkolem Data Miningu je hledání skrytých vzorů v datech, které nám nejsou na první pohled
zřejmé. Toto hledání potenciálně významných informací se dá označit jako objevování
zlatých nuggetů. Vlastní proces je zaměřen na automatické nebo poloautomatické vyhledávání
a objevování skrytých vzorů - hidden patterns. Proces může fungovat nad velkými úložišti
(big data), nad operativní databází v Data Warehouse (ODS), na OLAP kostce, nebo jen na
lokálním souboru CSV.
Řešení každého projektu vyžaduje určité postupy. V oblasti Data Mining existuje mnoho
možných metod a je těžké popsat jeden konkrétní postup. V současné době existuje prakticky
jediná metodologie a to CRISP-DM, nyní ve verzi 2.0. Metodologie CRISP-DM začínala
v roce 1996 jako koncept. Později vznikl požadavek Evropské komise na sjednocení DM
postupů při řešení DM projektů. Samotný projekt vytvoření metodologie vznikl v konsorciu
čtyř firem: SPSS, Teradata, Daimler AG a OHRA v roce 1997. Tehdy druhý hráč na trhu,
SPSS, je od roku 2009 ve vlastnictví společnosti IBM. V některých zdrojích se uvádí jako
další metodologie SEMMA od společnosti SAS, ale akronym SEMMA využívá SAS pouze
jako logickou strukturu funkcionálních nástrojů v programu SAS Enterprise Miner – na svých
webových stránkách uvádí toto časté nedorozumění na pravou míru. (SAS Institute Inc.)
Z čeho se metodologie CRISP-DM skládá a jak probíhá životní cyklus DM projektu je
znázorněno na obrázku 13.
22
Obr. 13 Fáze projektu podle metodologie CRISP-DM (IBM)
2.1.1 Pochopení obchodní činnosti (Business Understanding)
Ještě před začátkem práce je nutné prozkoumat, co organizace očekává od Data Miningu.
Důležité je zahrnout co nejvíce lidí do diskuze a zadokumentovat výsledek. Toto zjišťování
důvodů a očekávání od DM projektu je důležité. Všechny zainteresované osoby by měly být
na jedné lodi, než se začnou vynakládat zdroje a úsilí. Dalšími kroky v této fázi je sehnat
dostupné informace o současné obchodní situaci, dokumentovat specifické obchodní cíle, o
kterých rozhodují klíčové osoby a dohodnout se na kritériích pro měření úspěšnosti Data
Mining projektu z obchodního hlediska.
2.1.2 Pochopení dat (Data Understanding)
Další krok zahrnuje důkladné prozkoumání dostupných dat pro dolování znalostí. Fáze
pochopení dat je kritická pro úspěšné překonání následující fáze přípravy dat, která je typicky
nejdelší z fází projektu. Tato činnost zahrnuje přístup k datům, jejich prozkoumávání
v tabulkové formě i v grafech. To umožní určit kvalitu dat a popsat výsledky těchto kroků do
projektové dokumentace. Důležité jsou tedy následující kroky:




sběr výchozích dat,
popis těchto získaných dat,
prozkoumání datového souboru,
ověření kvality dat.
23
2.1.3 Příprava dat (Data Preparation)
Příprava dat je jednou z nejdůležitějších fází a často tvoří časově velmi náročný prvek Data
Miningu. Na tuto fázi je reálně odhadováno mezi 50 – 70 % času projektu a úsilí. Důkladným
zpracováním dvou předchozích fází minimalizujeme riziko skluzu v projektu, ale stále je
potřeba věnovat dostatek času této přípravě dat pro dolování. V tomto kroku jsou typicky
zahrnuty tyto činnosti:







slučování datových souborů,
výběr vzorkových dat,
agregování záznamů,
odvozování atributů,
třídění dat pro modelování,
odstraňování nebo nahrazování prázdných či chybějících hodnot,
rozdělení na tréninkovou a testovací množinu dat.
2.1.4 Modelování (Modeling)
V této části procesu se využívají připravená data a výsledky začnou vrhat světlo na obchodní
problém, který se definoval ve fázi porozumění obchodní činnosti. Modelování se obvykle
provádí v několika iteracích, analytik DM otestuje několik modelů za použití základního
nastavení a poté ladí jejich parametry. V případě nutnosti se vrací do předchozí fáze přípravy
dat, pokud zvolený model vyžaduje speciální datovou manipulaci. Jen vzácně se podaří
v jedné iteraci připravit data a zároveň vybrat správný model, který uspokojivě odpoví na
řešený problém. To je to, co tvoří Data Mining zajímavým. Existuje mnoho pohledů na řešení
konkrétního problému. Záleží na zkušenostech DM analytika, jaké techniky a nástroje vybere
pro řešení konkrétního problému. V této fázi se určují kritéria modelu a vytváří se testovací
schéma. Toto schéma zahrnuje specifikaci:





jaká data budou použita k testování modelu,
jejich rozdělení do tréninkové a testovací množiny,
jak vyjádřit míru úspěchu modelů s učitelem (např. C5.013),
jak vyjádřit míru úspěchu modelů bez učitele (např. Kohonenovy sítě),
kolikrát se chceme vracet k adjustaci konkrétního modelu, než dojde k výměně a
testování jiného modelu.
Na tomto místě jsme již připraveni k vytvoření modelu, který se zdá být na základě
předchozí kroků nejvhodnější. Ideální je ještě před finálním výběrem provést řadu
experimentů dle zvolených kritérií, že se vybere finální model. Většina DM analytiků typicky
vytvoří několik modelů a porovnává jejich výsledky, než je nasadí. Při vybírání vhodného
modelu je velmi důležité udržovat si poznámky o nastavení parametrů modelu, pomůže to
v diskuzi s ostatními a lze se k modelům vracet s návrhem lepšího nastavení. Na konci tohoto
procesu sestavování modelu bychom měli mít tři informace:
13
C 5.0 – algoritmus pro vytváření rozhodovacího stromu
24



seznam parametrů modelu a poznámky, které vedly k nejlepšímu výsledku mezi
modely,
vlastní proceduru modelů,
popis výsledku každého modelu, včetně výkonnosti (rychlosti), případně datových
problémů.
2.1.5 Vyhodnocení (Evaluation)
Ve fázi vyhodnocení máme většinu z Data Mining projektu za sebou. Zde by mělo být jasné,
zda model vytvořený v předchozím kroku je techniky správný a efektivní vůči kritériím
úspěšnosti DM projektu, který byl definován dříve. Dále je nutné vyhodnotit výsledky
v kontextu s obchodními cíli, které byly definovány v první fázi. Tato činnost slouží k tomu,
aby organizace mohla využít zde získaných výsledků. Výstupem z této fáze by měl být:


finální model, vybraný v předešlých fázích CRISP-DM,
Jakékoliv závěry nebo úsudky z modelů samotných a nálezy, které vznikly při Data
Dining procesu.
2.1.6 Nasazení (Deployment)
Fáze nasazení je proces využití nových poznatků ke zlepšení v rámci organizace. To může
znamenat formální integraci získaného modelu. Model může například generovat skóre podle
sklonu k odchodu zákazníka (churn propensity). Tyto údaje může dále posílat zpět do
datového skladu.
Alternativně může nasazení znamenat, že poznatky budou využity ke změně
v organizaci. Z našich dat mohl vyplynout alarmující vzor, který znamená změnu chování
zákazníků ve věku nad 30 let. Tyto znalosti nemusejí být přímo integrovány do informačních
systémů, ale nepochybně budou velmi důležité v marketingovém oddělení při plánování
kampaní.
Obecně tato fáze zahrnuje dva typy činností:


plánování a monitorování výsledků nasazení,
dokončení balíků úkolů, jako je závěrečná zpráva a report vedení projektu.
(IBM CORP.‚ 2011)
25
2.2 Techniky Data Mining
Techniky dolování dat lze rozdělit na dvě základní skupiny:


predikce,
deskripce.
Cílem predikce je určit hodnotu atributu na základě znalosti atributů jiných. Její využití
je velice široké a lze jej aplikovat prakticky ve všech oborech.
Deskriptivní metody mají za cíl odhalit nové zákonitosti (znalosti), které by přispěly
k rozvoji lidského poznání v předmětné oblasti.
Někteří autoři uvádějí ještě třetí skupinu a to indikace, která spojuje metody pro detekci
neobvyklých vzorů v chování daného systému. Příkladem může být včasná identifikace
poruchy technologického systému a vyslání alarmu obsluze. (POSPÍŠIL et. al.‚ 2006)
2.2.1 Analýza asociací
Asociační pravidlo, nebo také analýza nákupního košíku, je jedna z nejvýznamnějších a
nejčastěji používaných DM technik. Tato technika hledá zajímavé asociace a korelace uvnitř
velkého souboru datových položek, kde přítomnost položky (nebo skupiny) v transakci
vyvolává přítomnost položky jiné (případně více položek). Například v obchodě
s potravinami je důležité vědět, zda zákazník kupující hovězí maso zároveň kupuje i marinádu
na hovězí. Na základě této analýzy se poté přizpůsobí umístění těchto položek blízko k sobě.
Asociační pravidlo zkoumá sílu nákupu kombinace, lze ho zapsat jako
, a znamená to,
že nákup implikuje nákup . Asociační pravidlo je určeno pomocí relevance. Relevance
zahrnuje základní míry:

podporu (support):

spolehlivost (confidence):
Poznámka: pravidlo
stejnou podporu.
a
může mít rozdílnou spolehlivost, ale bude mít

očekávaná spolehlivost (expected confidence):

hodnota navýšení (lift):
(CERRITO‚ 2006, s. 159)
2.2.2 Klasifikace a prediktivní modelování
Klasifikace, jako forma prediktivního modelování, je důležitá část Data Miningu. Může
například definovat skupiny obyvatelstva. Klasifikace pomáhá organizacím identifikovat,
26
kteří zákazníci pravděpodobně zruší smlouvu na služby. Lékaři mohou předpovědět, kterým
pacientům hrozí vysoké riziko infarktu či mozkové příhody a pojišťovací společnosti mohou
určit, u kterých klientů hrozí riziko podvodu.
Existuje více rozdílných metod pro klasifikaci. Mezi běžně používané patří neuronové
sítě, rozhodovací stromy a regrese. Díky více metodám klasifikace je důležité porovnávat
výsledky metod pro určení nejvíce vhodného prostředku klasifikace. Můžeme například
porovnávat míru úspěšné klasifikace a vybrat techniku, která nabízí nevyšší hodnotu.
V některých situacích může být přesnost velmi vysoká (téměř 100 %) na tréninkové množině
a přesto na validačním souboru je prakticky nulová. Proto je validace modelu naprosto
zásadní postup v DM.
Data Minig používá klasifikační metody, které jsou podobné (někdy stejné) pro ty, kteří
používají statistickou inferenci. Zatímco DM využívá mnoho rozdílných modelů a následně je
porovnává na testovací množině dat, statistická inference má tendenci zkoumat jeden model,
posuzuje jeho efektivitu pomocí -hodnot a podle předpokladů modelu.
Klasifikace se zaměřuje primárně na začlenění nebo vyloučení v malém vzorku
specifických kategorií. Nicméně všechny klasifikační techniky pracují stejně dobře k predikci
výsledku spojité proměnné. (CERRITO‚ 2006, s. 242)
Prediktivní modelování by se dalo snadno popsat takto. Máme soubor dat se vstupními
hodnotami a jím odpovídající výstupní hodnoty – na tomto souboru se prediktivní model učí,
tedy indukuje pravidla z datového vzorku. Při aplikaci prediktivní model hledá
nejpravděpodobnější hodnotu výstupu na základě předem neznámé kombinace vstupních
hodnot, jinými slovy na nový datový soubor aplikuje naučená pravidla a pomocí dedukce se
pokouší určit výstupní hodnotu.
Základním příkladem bývá hodnocení rizika u banky. Banka má svou databázi klientů
s mnoha údaji (vstupní hodnoty) a někteří klienti jsou na základě zkušenosti označeni jako
rizikoví. Pokud mát banka dostatečně velkou databázi, může využít model k učení se na této
databázi. Tento model hledá vztahy mezi vstupními parametry, a pokud se mu podaří najít
silný vzor rizikových klientů, lze poté snadno nového klienta ohodnotit pomocí tohoto
modelu. Dle zkušeností banky by rizikový klient mohl mít teoreticky tyto vstupní hodnoty:
muž, 18-25 let, dva úvěrové účty, ženatý. Takto naučení model by poté nového klienta se
stejnými vstupními hodnotami určil jako rizikového. Tyto vstupní hodnoty mají na výsledek
různou váhu. Pokud bude mít banka 20 vstupních hodnot, může díky klasifikaci vzejít
například 5 signifikantních atributů, na základě kterých bude model schopen velmi přesně
určit rizikového klienta.
2.2.3 Regrese
Regresní analýza je statistická metoda pro odhad závislosti mezi proměnnými. Zahrnuje
několik technik pro modelování a analyzování více proměnných, kdy se zaměřuje na vztah
mezi závislou proměnnou a jednou či více nezávislými proměnnými. Konkrétněji, regresní
analýza pomáhá pochopit, jak se mění typická hodnota závislé (vysvětlované) proměnné při
změně nezávislých (vysvětlujících) proměnných.
27
Obecně ji lze zapsat rovnicí:
, kdy má normální rozdělení pro lineární
regresi a diskrétní pro logistickou regresi. (CERRITO‚ 2006, s. 243)
2.2.3.1 Lineární regrese
Představuje aproximaci daných hodnot polynomem prvního stupně (přímkou) metodou
nejmenších čtverců. Jinak řečeno, jedná se o proložení několika bodů grafu takovou přímkou,
aby součet druhých mocnin odchylek jednotlivých bodů od přímky byl minimální.
Aproximace přímkou je naznačena na obrázku 14.
Obr. 14 Ilustrace lineární regrese (Wikipedia)
Lineární regresi lze použít tam, kde výstupem je intervalová proměnná. Pokud je
výstupní proměnnou nominální hodnota, použije se logistická regrese. (CERRITO‚ 2006, s.
243)
Kvalita lineárního modelu je typicky vyjádřena pomocí koeficientu determinace
,
který se pohybuje v intervalu
a udává, jaký podíl rozptylu v pozorování závislé
proměnné se podařilo regresí vysvětlit, tj. čím vyšší hodnota, tím větší úspěšnost regrese.
2.2.3.2 Logistická regrese
Logistická regrese umožňuje identifikovat model závislosti jedné kategoriální proměnné na
ostatních. Nezávislé proměnné mohou být jak číselného tak kategoriálního typu. Na základě
nalezeného modelu lze provádět predikce pro neznáme případy včetně odhadu
pravděpodobnosti výskytu jednotlivých kategorií. Metoda se užívá především v bankovnictví,
medicíně, marketingu, ekonomii a v technických nebo přírodních vědách. (ACREA CR)
Uvažujme binární vysvětlovanou proměnnou , jež nabývá s pravděpodobností
hodnoty 1 a s pravděpodobností
hodnoty 0. Představuje-li vektor
[
],
-tou kombinaci hodnot nenáhodných vysvětlujících
proměnných
a vektor je vektorem neznámých parametrů. Odhadem vektoru
se odhaduje hledaná pravděpodobnost výskytu zkoumaného jevu (za předpokladu
parametrizace logistickou funkcí).
Poté lze vyjádřit regresní funkci s tzv. logitovou transformací jako logistickou regresní
funkci:
, kde
[
],
[
]. Podmíněná
28
střední hodnota binární vysvětlované proměnné je tak vyjádřena jako nelineární funkce
vysvětlujících proměnných. Z logistické regresní funkce přitom vyplývá, že
, a
dále
[
] . (PECÁKOVÁ‚ 2007)
Příklad takové funkce znázorňuje obrázek 15.
y
x
Obr. 15 Logistická funkce s
na horizontální ose a
Kvalita modelu logistické regrese se obvykle nevyjadřuje pomocí
testu poměru věrohodnosti (likelihood ratio test).
na vertikální
, ale častěji pomocí
Výhoda těchto regresních metod je v teoretické propracovanosti, nevýhodou může být
náročnost a složitý vývoj komplexnějších modelů. Všeobecně jsou tyto metody vnímání jako
nestabilní, pomále a nepoužitelné pro složitější úlohy klasifikace. Nicméně v přesnosti
konkurují nejlepším algoritmům SVM14. (KOMAREK‚ 2004)
2.2.4 Neuronová síť
Neuronová síť patří mezi nelineární regresní metody. Díky svému principu a obtížné
interpretaci se řadí mezi black box algoritmy, protože neexistuje jeden určitý model nebo
rovnice a model není prezentován ve stručném formátu, jako je například regrese. Její
inspiraci lze hledat v přírodě, chováním odpovídá biologickým strukturám. Umělá neuronová
síť je struktura určená pro distribuované paralelní zpracování dat.
Síť se skládá z neuronů, jejichž vzorem je biologický neuron. Tyto neurony jsou
vzájemně propojeny a předávají si signály. Signály jsou během přenosu transformovány
určitou přenosovou funkcí. Neuron má libovolný počet vstupů, ale pouze jeden výstup.
Neuronové sítě se mohou používat k rozpoznávání obrazových dat, identifikaci osob,
v radarových systémech, rozpoznávání sekvencí (gesta, hlas, ručně psaný text), lékařské
diagnózy, finanční aplikace, vizualizace a filtrování spamu.
Umělý neuron přestavuje model McCulloch-Pitts (MCP). Tento neuron má několik
vstupů
a jeden výstup, jak ilustruje obrázek 16.
14
SVM – support vector machines, algoritmy podpůrných vektorů
29
Obr. 16 Neuron McCulloch-Pitts (CHALUPNÍK‚ 2012)
Signály vedou do neuronu, kde se přes váhy sečtou v potenciál , pokud je potenciál
dostatečně velký, neuron vyšle signál . Váhy
představují jakousi propustnost signálu.
Podmínka pro vyslání signálu je
, a tu lze přepsat pomocí aktivační funkce
.
Celou činnost lze vyjádřit snadno matematicky, kdy
bude záporné číslo (představuje práh,
který musí potenciál překonat).
Aktivační funkce se může lišit, měla by ale být nelineární (např. sigmoid nebo
hyperbolický tangens). (CHALUPNÍK‚ 2012)
Neuronová síť složená z jednotlivých neuronů by poté vypadala, jak naznačuje schéma
na obrázku 17.
Obr. 17 Diagram neuronové sítě (autor)
Na tomto schématu má síť jednu skrytou vrstvu. Komplexita sítě narůstá s postupným
přidáváním skrytých vrstev (hidden layers) a počtem vstupních proměnných.
30
Mezi klady neuronové sítě patří velmi dobrá aproximace a interpolace, ale v případě
extrapolace dochází k nepředvídanému chování. V tomto ohledu je lepší lineární regrese.
(LOHNINGER‚ 1999)
2.2.5 Rozhodovací strom
Rozhodovací stromy lze rozdělit na dva hlavní typy a to podle predikované výstupní hodnoty.
Prvním typem je klasifikační strom (classification tree) a je použit v analýze, kde predikovaná
hodnota tvoří třídu. Druhý typ je regresní strom (regression tree), kde jako výstupní
proměnnou spojitá hodnota. Regresní strom ilustruje obrázek 18. (POŠÍK‚ 2005, s. 27)
Y
X
Obr. 18 Regresní strom (POŠÍK‚ 2005)
Rozhodovací stromy představují naprosto jiný přístup ke klasifikaci oproti již zmíněným
metodám regrese. Výstupem rozhodovacího stromu jsou série if-then pravidel. Každé pravidlo
rozdělí pozorovaná data na část stromu, která se dále rozdělí dalším if-then pravidlem. Tento
postup se nazývá „rozděl a panuj“ (divide and conquer). Počáteční úroveň, která obsahuje
celý datový soubor, tvoří kořen rozhodovacího stromu. Finální uzly se nazývají listy. Uzly
mezi počátečním kořenem a listy jsou větve rozhodovacího stromu. Finální list stromu,
obsahující pozorování, je vlastní predikovanou hodnotou (klasifikací).
Na rozdíl od neuronové sítě a regrese, rozhodovací strom nepracuje s intervalovými
hodnotami. Rozhodovací stromy pracují s nominální výstupní proměnnou, která má více než
dva možné výsledky a s pořadovou (ordinální) proměnnou.
Rozhodovací strom se dokáže dobře vypořádat s chybějícími hodnotami, není nutné
využívat dopočítání hodnot a lze tak vytvářet sadu if-then pravidel přímo. Rozhodovací strom
by neměl být příliš rozsáhlý, například v programu SAS Enterprise Miner je standardní
velikost stromu nastavena na 6 úrovní. Počet úrovní lze samozřejmě ovlivnit oběma směry.
Nicméně přednost mají stromy jednodušší a menší. Rozhodovací stromy patří mezi metody
učení s učitelem. Při tvorbě stromu se musí hlídat chybovost, aby nedošlo k přeučení
(kategorie je příliš specifická, mnoho úrovní). Postup tvoření stromu se také nazývá TDIDT –
Top-Down Induction of Decision Trees.
31
Rozhodovací strom má velkou výhodu ve snadné interpretaci, lze ho snadno vysvětlit
cílové skupině, což ocení hlavně manažeři. Ukázku principu rozhodovacího stromu velmi
názorně ilustruje obrázek 19.
Obr. 19 Schéma rozhodovacího stromu (E-University)
Přesnost rozhodovacího stromu se určuje pomocí míry chybné klasifikace. Mějme
skupinu studentů, kde 20 % tvoří vysokoškoláci. Pokud řekneme, v této skupině není žádný
vysokoškolák, bude míra chybné klasifikace rovna 20 %. Náhodné hádání při klasifikaci by se
také pohybovalo okolo hodnoty 20 %. Míra chybné klasifikace zkoumaného modelu se tedy
porovnává s náhodnou klasifikací a musí být nižší. (CERRITO‚ 2006, s. 247)
2.2.6 Shluková analýza (clustering)
Shlukování je z pohledu Data Mining procesu považováno za metodu učení bez učitele. Není
zde specifický výstup nebo cílový proměnná. Shlukování se liší od klasifikace tím, že
neexistují předem dané kategorie v pozorování – proto není jasně specifikovaná výstupní
proměnná. Z pohledu zkoumání výsledků je tedy nutné použít jiné techniky pro analyzování
dat.
Protože neexistují předem daná výstupní kategorie, nelze hledat jedinou správnou
odpověď z analýzy. Shlukování se zaměřuje na určení, zda nalezené seskupení má nějaký
význam. Metody shlukování lze rozdělit:


hierarchické (metoda nejbližšího/nejvzdálenějšího souseda, Wardova metoda …),
nehierarchické ( -means, Kohonenovy samoorganizující mapy …).
Ve srovnání s klasifikací je poměrně komplikované provést validaci, a to díky absenci
cílové proměnné. Validace je tedy prováděna pomocí prozkoumání „rozumnosti“ daného
clusteru a jak se liší od jiného. Clustery se považují za odůvodněné, pokud je lze pojmenovat.
Proto je pojmenování clusterů důležité (ale také náročné). Pojmenování clusteru je založeno
na vstupních proměnných uvnitř clusteru a na základě těchto proměnných jsou clustery
odděleny. Příkladem může být specifická skupina zákazníků, nakupující pouze přes internet.
32
2.3 Data Mining – hodnocení modelů
K nezbytným krokům v procesu dobývání znalostí patří hodnocení a porovnání vytvořených
modelů.
U predikčních modelů, které mají výstupní proměnnou numerického typu, lze použít
jako míru kvality modelu střední kvadratickou odchylku (Mean-Squared Error). Pokud je
̂ vektorem predikce a je vektorem skutečných hodnot, pak je střední kvadratická odchylka
(rozptyl) vyjádřen jako:
∑ ̂
Účelem metod je minimalizovat tuto nejčastěji používanou míru chyby. Další možností
je použití střední absolutní chyby (Mean Absolute Error), která je vyjádřena:
∑ ̂
Mezi další možné sledované míry patří relativní kvadratická chyba, relativní absolutní
chyba a korelační koeficient.
2.3.1 Matice záměn
Klasifikační modely se nejčastěji hodnotí podle matice záměn (confusion matrix). V matici
jsou ve sloupcích uvedeny informace o tom, jak postupoval algoritmus při klasifikaci, a
v řádcích jsou informace, jak by to být mělo. Tabulka 2 představuje zmíněnou matici záměn.
Tabulka 2Matice záměn (confusion matrix)
Predikovaná třída
Třída = ano Třída = ne
Skutečná třída Třída = ano TP
FN
Třída = ne FP
TN
Tabulka představuje klasifikaci do dvou tříd, „ano“ a „ne“. TP (true positive) je počet
klasifikací, které algoritmus zařadil správně do třídy „ano“. FP (false positive) znamená počet
klasifikací, které jsou chybně zařazeny do třídy „ano“ (patří do třídy „ne“). TN (true negative)
jsou správně zařazené klasifikace do třídy „ne“ a FN (false negative) představuje počet
chybně zařazených klasifikací do třídy „ne“ (patří do třídy „ano“). Na základě této matice je
vytvořena široce používaná míra správnosti (accuracy) a chyby (error):
33
V matici se sledují počty správně a nesprávně zařazených pozorování. V některých
případech může být důležité, jaké se algoritmus dopustil chyby. Například u hodnocení bonity
klientů banky se může stát, že systém chybně doporučí klientovi úvěr (třída „ano“) a ten jej
nesplatí. Tím vznikne ztráta. V případě, že by tohoto klienta zařadil chybně do „ne“, banka by
pouze nevydělala. Tuto situaci řeší matice nákladů (cost matrix). Chyba vyjádřená
v nákladech chybné klasifikace15 má podobu:
Kde
je cena chybného zařazení třídy „ne“ do třídy „ano“ a
chybného zařazení třídy „ano“ do třídy „ne“.
je cena
Při výrazně nerovnoměrném rozložení tříd (například „ano“ 5 % a třída „ne“ 95 %) je
celková přesnost zkreslená a je lepší použít přesnost konkrétní třídy:
Senzitivita a specificita (sensitivity and specificity) jsou charakteristiky převzaté
z medicíny. V případě nasazení nějakého nového léku nás zajímá, u kolika nemocných
pacientů lék zabere (senzitivita), a zda lék zabírá pouze na danou chorobu (specificita).
Z matice záměn se tyto hodnoty spočítají jako:
Přesnost a úplnost (precision and recall) jsou pojmy, které jsou používané
v oblasti vyhledávání informací. Pokud například hledáme dokumenty, týkající se určitého
tématu, pak:
1. ne všechny nalezené dokumenty se týkají tématu,
2. určitě jsme nenalezli vše, co je k tématu k dispozici.
Přesnost znamená, kolik nalezených dokumentů se skutečně týká daného tématu a
úplnost říká, kolik dokumentů týkajících se tématu jsme nalezli. Tyto míry shody lze použít i
pro hodnocení znalostí:
15
Správná klasifikace (TP, TN) uvažujeme s nákladem 0.
34
Přesnost je totéž jako správnost pro danou třídu. Někdy se používá souhrnná
charakteristika F-míra (F-measure):
(BERKA‚ 2003)
Pochopení práce s maticí záměn je tedy velmi důležité, na základě této matice se určují
hodnoty s velmi silnou vypovídací hodnotou pro model. Dále se pro vzájemné porovnání
modelů velmi často využívá grafické znázornění křivek. Porovnání pomocí křivek dá lepší
představu o kvalitě modelu i v souvislosti s požadovaným využitím (specifický tvar křivky).
Tyto křivky používají prakticky všechny Data Mining programy, proto je důležité uvést
alespoň dvě nejpoužívanější.
2.3.2 ROC křivka
Křivka ROC (Receiver Operating Characteristic) je známá z oblasti teorie detekce signálu.
Poprvé byla použita během druhé světové války k analýze radarového signálu. V návaznosti
útoku na Pearl Harbor v roce 1941 zahájila americká armáda výzkum pro zlepšení predikce
japonských letadel z radarových vln.
V roce 1950 byly ROC křivky uplatněny v oblasti psychofyziky pro měření slabých
lidských signálů. V medicíně se ROC analýza rozšířila ve vyhodnocování diagnostických
testů. Dále našly ROC křivky uplatnění v epidemiologii a medicínských výzkumech.
V radiologii jsou využívány pro vyhodnocování nových technik.
ROC křivka dává do souvislosti podíl TP a FP:
Tyto charakteristiky se dají dát do vztahu se senzitivitou a specificitou:
,
. Používá se tedy i kritérium
křivku ilustruje obrázek 20.
35
ROC
Obr. 20 ROC křivka pro dva modely (autor)
ROC křivku lze použít u modelů, které klasifikaci doprovázejí vahou, resp.
pravděpodobností. Křivku tvoříme tak, že měníme prahovou hodnotu (threshold), při které
bude výsledek klasifikace interpretován jako „ano“. Bodu [0,0], tedy žádné klasifikaci do
„ano“, odpovídá práh 1. Bodu [1,1], kdy jsou všechny klasifikace zařazeny do třídy „ano“,
odpovídá práh 0. Změnou prahu lze simulovat chování modelu v případě změny poměru mezi
počty příkladů obou tříd i změny cen za chybnou klasifikaci. ROC křivka tedy dává obraz o
chování klasifikátoru bez ohledu na rozdělení a na cenu chyb. (BERKA‚ 2009)
Ideálním případem je, pokud by křivka procházela bodem [0,1], což by znamenalo
správnou klasifikaci všech pozorování do třídy „ano“. Proto hledáme takový model, kde se
křivka pohybuje směrem vlevo a nahoru. Můžeme tedy vycházet z plochy pod křivkou
(AUC – Area Under Curve). Při náhodném prediktoru bude plocha pod křivkou tvořit 50 %.
Při naprosto ideálním stavu, kdy by křivka procházela bodem [0,1] by AUC tvořila 100 %
plochy.
Existují případy, kdy pro dva různé modely vznikne stejná plocha pod křivkou. V této
situaci výběr modelu závisí na konkrétních požadavcích. Na obrázku 21 jsou dvě ROC křivky
pro různé modely, kdy AUC je stejná. Model 2 je vhodnější pro nižší poměr FP a model 1
naopak pro vyšší poměr FP. (TAN et. al.‚ 2004)
36
Obr. 21 Křivka ROC pro dva modely se stejnou AUC (autor)
2.3.3 Křivka navýšení (lift chart)
Křivka navýšení se často používá v marketingu. Vezměme situaci, kdy je třeba poslat
klientům nabídku nějakého produktu. Ze zkušenosti víme, že na takovou nabídku odpoví
velice málo (například 1 %) oslovených zákazníků. To znamená, že většina dopisů s nabídkou
je odeslána zbytečně. Při tvorbě modelu bychom tuto skutečnost chtěli vzít v úvahu. To
umožní křivka navýšení, která dává do souvislosti podíl respondentů, kteří odpověděli ( )
s podílem odeslaných dopisů (
). Tato křivka lze vytvořit pouze u
modelů, které nemají binární výstupní proměnnou. Klasifikace musí být doprovázena
numerickou hodnotou, která vyjadřuje, jako moc si klasifikátor věří při svém rozhodnutí pro
daný příklad (pravděpodobnost, váha). Lze tedy křivku navýšení vytvořit např. pro neuronové
sítě a bayesovské klasifikátory.
Máme uspořádaný úsek příkladů, seřazený podle pravděpodobnosti (váhy) sestupně. Na
tomto úseku se vytvoří dílčí matice záměn s hodnotami
,
,
,
. Hodnoty
a
se vynesou do grafu. Křivka navýšení vždy prochází bodem [0,0]
(nepošleme-li žádný dopis, nedostaneme žádnou odpověď) a bodem [1,1] (pošleme-li dopisy
všem, zachytíme všechny respondenty). Model bude tím lepší, čím bude křivka navýšení ležet
nad diagonálou reprezentující náhodný výběr. (BERKA‚ 2009)
Můžeme mít zkušenost, že na poslanou reklamu 1 000 000 domácnostem reaguje 0,1 %,
tj. 1000 respondentů. Předpokládejme, že se nám podaří pomocí modelu určit podmnožinu
100 000 domácností (tj. 10 % původního souboru), ze kterých odpoví 0,4 % (400). Toto
navýšení poměru odpovědí se nazývá lift faktor a v tomto případě se rovná číslu 4. Pokud
známe cenu zásilky a potenciální zisk, lze určit, do jaké míry je tato reklama návratná. Křivka
navýšení s uvedeným příkladem je znázorněna na obrázku 22. (WITTEN et. al.‚ 2000, s. 141)
37
Obr. 22 Křivka navýšení – lift chart (autor)
2.3.4 Occamova břitva
Pokud dojde při porovnávání modelu ke shodě ve správnosti (chyby), vstupuje ještě do
rozhodování další kritérium. Jedná se o filozofický předpoklad, který říká, že nejlepší vědecká
teorie je ta nejjednodušší, která popisuje všechna fakta. V případě DM a porovnávání modelů
je tedy lepší ten, který model je menší (méně pravidel, menší strom apod.). V teorii učících se
systémů má tento předpoklad jednoduchosti podobu principu minimální délky popisu (MDL –
Minimum Description Length). (BERKA‚ 2009)
2.4 Zhodnocení datově orientované analytiky
Předchozí kapitoly nastínily základní metody různých přístupů k analýze. Tradiční Business
Intelligence řešení poskytuje analytikům a řídícím pracovníkům pohled na data z různých
perspektiv a podle oboru zájmu. Vedle základních technik pro provádění analýz, jako jsou
kontingenční tabulky a reporty, jsou k dispozici rozmanité nástroje pro predikci na základě
trendu apod. Kromě těchto základních nástrojů se v současnosti nabízí také široké možnosti
vizualizace těchto výsledků.
Základní metody OLAP pokrývají většinou jedno faktorový přístup zobrazení. Jedná se
například o zobrazení klasických tabulek (prodej podle regionu) nebo kontingenčních tabulek
(prodej podle regionu a produktové řady). Nejtradičnější analytikou je deskriptivní analytika a
ta tvoři dnes většinu všech obchodních analýz. Tato popisná analytika je retrospektivního
charakteru a snaží se na základě pohledu do historických dat určit příčiny úspěchu či
neúspěchu. Naprostá většina manažerských výstupů v podobě reportů prodejů,
marketingových analýz, operativních reportů a finančních výsledků je založena hodnocení
výsledků minulého období. V případě OLAP je navíc omezující vlastností předem daná
struktura kostky, což je do značné míry rigidní faktor. Další metriky si manažer většinou sám
nepřidá a je odkázán na původní návrh datového modelu, případně na dodatečné změny
dodavatelem (pokud jsou možné).
38
Výstupy z těchto analýz jsou většinou statické a postrádají dynamickou složku, tedy
časové charakteristiky. Pro pochopení příčin zjištěného výsledku jsou nutné dobré znalosti
sledované problematiky, což vyžaduje specializovaného analytika. Většinou tyto výsledky
nejsou provázány v rámci podniku a řeší pouze konkrétní dílčí problém či oblast činnosti, bez
kontextu na další procesy v rámci organizace.
Dalším typem analytiky je prediktivní analýza. Tento přístup se na základě historických
dat snaží předpovědět budoucí trend nebo alespoň určit pravděpodobnou variantu budoucí
situace. Prediktivní analytika již zahrnuje podstatně více možností v porovnání s klasickou
OLAP analýzou. Lze určit, který faktor má na výslednou hodnotu zásadní vliv a například při
použití rozhodovacího stromu lze vytěžit velmi srozumitelná pravidla. Tento přístup také
vyžaduje specializovaného analytika, který navíc kromě dobré znalosti dané obchodní
problematiky ovládá statistické metody a metody Data Miningu. Obecně ale tato analýza
může přinést velké úspory, zejména v marketingu, kde je tento typ prediktivní analýzy
rozšířený. Díky indukci pravidel je navíc možné získat nové znalosti, které původně analytik
neměl. Tato analytika navíc představuje velmi dobré využití v automatizovaném zpracování
nových dat, kdy je na základě modelu prováděno skórování dat.
Nicméně je důležité pamatovat na zastarávání modelu a provádět validaci, případně
generovat nový model. Zastarávání modelu bude záviset na charakteru prostředí, ve kterém se
organizace nachází. V případě statického prostředí může model vydržet s dobrými výsledky
dlouho a naopak ve velmi dynamické prostředí, kde se mohou vztahy dat (pravidla) změnit
v průběhu měsíce, může být nasazení automatického skórování velmi problematické, pokud
ne přímo nemožné. Právě pro dynamické prostředí je potřeba zkrátit reakční dobu a získat
zpětnou vazbu k aplikované obchodní strategii.
Posledním typem je preskriptivní analytika. Tento přístup jde nad rámec predikování
určité hodnoty, přidává navíc vhodná opatření a akce plynoucí z predikce. Preskriptivní
analýza ukáže rozhodujícímu pracovníkovi možné implikace jednotlivých rozhodnutí. Pomocí
této analytiky jsem schopni odpovědět na otázku, co se stane, kdy a proč. Lze tak zkoumat
rozmanité scénáře, vliv konkrétních rozhodnutí a další vztahy nejrůznějších faktorů.
Kombinací prediktivní a preskriptivní analytiky lze dosáhnout lepší účelnosti a efektivnosti.
Příkladem může být identifikace faktoru, který ovlivňuje poptávku cílové skupiny po
konkrétním produktu. Tento faktor nám pomůže nalézt prediktivní analytika. Preskriptivní
analýza nám pomůže optimalizovat plánování, výrobu, zásoby a celý dodavatelský řetězec,
aby poptávaný produkt byl dodáván co možná nejefektivněji.
K aplikaci preskriptivní analytiky nám pomohou nástroje znalostního managementu,
které budou popsány v dalších kapitolách.
39
3 Knowledge management
Tato kapitola probere problematiku oblasti znalostního managementu. Pro pochopení funkce
znalostních modelů bude vysvětlen základní koncept pojmu „znalost“, následně budou
uvedeny fáze tvorby modelu a jazyky, které lze při tvorbě využít. Výstup této kapitoly tvoří
znalostní vrstvu, která bude v aplikační části dále integrována do architektury BI řešení.
3.1 Koncept znalostí
Znalost je stále více uznávána jako nová strategická výhoda organizace. Nejvíce zavedené
paradigma je, že znalost je síla. Proto je v zájmu člověka hromadit znalosti a držet si tak
strategickou výhodu. Společným postojem většiny lidí je spoléhat se na znalosti, protože
právě to je činí důležitými pro organizaci. Takový člověk se stává aktivem a je pro organizaci
přínosný.
Dnes je znalost stále považována za sílu, ve skutečnosti za enormní sílu, ale chápání
tohoto pojmu se změnilo a zejména to platí v kontextu s organizací. Nové paradigma zní, že
znalost musí být v rámci organizace sdílena, aby byl zajištěn růst a pokrok. Bylo prokázáno,
že organizace sdílející znalosti mezi vedením a zaměstnanci roste rychleji a je stále silnější,
jinými slovy je více konkurenceschopná. Jádro znalostního managementu tedy tvoří sdílení
znalostí.
Za účelem pochopení znalostního managementu je nejdříve nutné pochopit koncept
samotné znalosti, jak se liší od informací a od pouhých dat.
Na začátku máme data, která představují čísla, slova nebo jen jednotlivá písmena – jsou
bez jakéhokoliv kontextu. Nemají žádnou smysluplnou vazbu na cokoliv jiného. Pouhý sběr
dat není informace. To znamená, že pokud není žádný vztah mezi kusy dat, neexistuje zde ani
informace. Informaci vytváří pochopení vztahu sbíraných dat, nebo případně pochopení
provázanosti mezi kolekcemi dat a ostatních informací. Jinými slovy, základním prvkem pro
existenci informace je kontext, vztah mezi kusy dat. Vztah mezi daty a informacemi je
zachycen na schématu 23.
40
Obr. 23 Konceptuální postup od dat ke znalostem (URIARTE‚ 2008)
Obecně lze říci, že informace jsou v čase relativně statické a mají lineární charakter.
Informace pouze stanovuje vztah mezi daty, tedy neposkytuje základní pochopení, proč data
jsou právě taková a jak se mohou měnit v čase. Ve stručnosti, informace je vztah mezi daty, v
kontextu k jejich významu a nabízí jen malou implikaci pro budoucnost.
Pokud se informace dále zpracovává, má potenciál stát se znalostí. Informaci lze
považovat za zpracovanou, pokud je možné určit vzor vztahů mezi daty a informacemi. Když
umíme porozumět těmto vzorům a jejich implikacím, potom se kolekce dat a informací mění
ve znalost.
Na rozdíl od pouhé informace, která je závislá na kontextu, samotná znalost má tendenci
vytvářet svůj vlastní kontext. (URIARTE‚ 2008, s. 4)
3.1.1 Typy znalostí
V moderní ekonomice je využitelná znalost považována za konkurenční výhodu organizace.
Tato výhoda je realizována prostřednictvím plného využití informací a dat spojeného
s využitím lidských dovedností, myšlenek a motivace. V souvislosti s organizací, znalost je
produktem a je systematicky aplikována na data a informace. To je výsledkem učení, který
poskytuje organizaci jedinou udržitelnou konkurenční výhodu. Znalost jako taková se stala
základním přínosem, který je v dnešní ekonomice důležitější než práce, půda a kapitál.
Obecně existují dva typy znalostí: tacitní znalosti a explicitní znalosti. Tacitní znalost je
uložena v mozku člověka, explicitní znalost je vyjádřena v dokumentech a jiných možných
formách uložení. Explicitní znalost tedy může být skladována nebo začleněna do zařízení,
produktů, procesů, služeb a systémů. Oba typy znalostí mohou vzniknout jako výsledek
interakce nebo na základě inovačního procesu. Dále mohou vzejít z partnerství a aliancí.
Prostupují každodenním fungováním organizací a přispívají k dosahování jejich cílů. Tacitní i
explicitní znalosti umožňují společnosti reagovat v nových situacích a vznikajících
příležitostech.
41
3.1.1.1 Tacitní znalosti
Tacitní znalost vzniká skrze učení a zkušenosti. Je vyvíjena procesem interakce s ostatními
lidmi. Tacitní znalost roste pomocí praktikování pokusů a na základě zkušeností z úspěchu či
neúspěchu. Je tedy kontextově specifická. Je jí těžké formálně vyjádřit, zaznamenat nebo
předat ústně. Zahrnuje subjektivní poznatky, intuici a domněnky. Vzhledem k tomu, že tacitní
znalost je vysoce individuální, závisí velmi na schopnostech a ochotě osoby tuto znalost
zprostředkovat ostatním. Sdílení tacitních znalostí je velkou výzvou mnoha organizací. Tento
typ znalostí může být sdělován pomocí rozdílných aktivit a mechanizmů. Mezi aktivity
mohou patřit konverzace, workshopy, různá školení apod. Mechanizmy zahrnují mimo jiné
použití informačních technologií. Zejména různé nástroje pro týmovou komunikaci, e-maily,
groupware, rychlé zprávy a v poslední době také sociální sítě. Princip sociálních sítí se snaží
implementovat softwarové firmy a příkladem může být Kenexa, kterou v roce 2012 koupila
společnost IBM. Tato platforma na bázi sociální sítě slouží ke spolupráci mezi experty a
sdílení znalostí technologické integrace.
Cílem organizace je identifikovat tacitní znalost, která může být užitečná. V moment,
kdy je tato znalost nalezena, stává se pro organizaci velmi cenným aktivem, protože ji lze
těžce replikovat. To, proč je tacitní znalost konkurenční výhodou organizace, je právě její
charakteristika unikátnosti a složitého napodobení. Proto je pro organizaci nezbytné, aby
objevila možnosti jak tyto znalosti nalézt, šířit a využít. Jedná se o optimální využívání
intelektuálního kapitálu zaměstnanců.
V každé společnosti jsou tacitní znalosti důležitým předpokladem pro dobré
rozhodování. Pokud bude ve firmě nové vedení, těžko může činit dobrá rozhodnutí, dokud
nebude mít tacitní znalosti o fungování firmy. Využití tacitních znalostí k rozhodování a k
utváření hodnot je podstatou „učící se organizace“. Management a zaměstnanci by se měli
naučit „vstřebávat“ relevantní znalosti prostřednictvím zkušeností a praxe. Dále je potřeba
tyto poznatky umět šířit, ideálně prostřednictvím osobní a skupinové interakce uvnitř
organizace.
3.1.1.2 Explicitní znalosti
Explicitní znalost je kodifikována. Je uložena v dokumentech, databázích, webových
stránkách, e-mailech apod. Tato znalost může být snadno šířena ostatním formou
systematického a formálního jazyka. Explicitní znalost je vše, co může být kodifikováno,
dokumentováno a archivováno. Patří mezi ně znalostní aktiva ve formě reportů, poznámek,
byznys plánů, výkresy, patenty, ochranné známky, zákaznické seznamy, metodologie apod.
Představují hromadění zkušeností organizace, uchované ve formě snadno přístupné
zúčastněným stranám a v případě potřeby se dají snadno replikovat. Ve většině organizací
jsou tyto znalosti uchovány pomocí informačních technologií. Jde zejména o efektivní práci
s těmito znalostmi. V případě stohů papírových dokumentů se nejedná o dostatečně efektivní
způsob, jak se znalostmi zacházet.
Explicitní znalosti nejsou od tacitních zcela odděleny, naopak se vzájemně doplňují. Bez
tacitní znalosti by bylo obtížné, pokud ne nemožné, porozumět explicitním znalostem.
Například člověk bez znalostí technických, matematických nebo vědeckých (tacitních) by
42
těžko chápal vysoce komplexní matematickou formulaci nebo zapsaný chemický proces, i
když by se jednalo o snadno dostupnou explicitně vyjádřenou znalost v rámci organizace.
Proces konverze tacitních znalostí na explicitní nemůže začít do té doby, dokud je tacitní
znalost ukryta v nepřístupné podobě uvnitř osoby, která tuto znalost vlastní. S tím může
souviset i ochota dané osoby se o znalost podělit. I když je vlastník ochoten se podělit, může
nastat problém ve schopnosti danou znalost vyjádřit.
3.1.1.3 Interakce mezi typy znalostí
Osobní znalost se může stát organizační znalostí skrze dynamický proces interakce mezi
tacitní a explicitní znalostí. Tento dynamický proces je základním faktorem při tvorbě znalostí
v organizaci. Interakce mezi dvěma typy znalostí je známa jako 4 způsoby konverze znalostí
(Nonaka 1996).
Proces vytváření znalostí je založen na pohybu po spirále mezi tacitní a explicitní
znalostí. Obrázek 24 představuje zmíněnou spirálu, která přechází mezi druhy znalostí.
K tacitní znalosti K explicitní znalosti
Z tacitní znalosti
Z explicitní znalosti
Socializace
Externalizace
Internalizace
Kombinace
Obr. 24 Spirála tvorby organizační znalosti (Nonaka)
Socializace je proces vytváření společných tacitních znalostí prostřednictvím sdílení
zkušeností. V procesu socializace je prostorem interakce stejné místo a čas jednotlivců, kteří
sdílejí zkušenosti.
Externalizace je proces vyjadřování tacitních znalostí do takové explicitní znalosti, která
lze vyjádřit jako koncept nebo diagram. Tento proces často využívá metafory, analogie a
nákresy. Fáze externalizace je spouštěna dialogem, který směřuje k vytvoření konceptu
z tacitní znalosti. Dobrý příkladem externalizace je koncept nového produktu nebo vývoj
nového výrobního procesu. V tento okamžik jsou tacitní znalosti v mozku odborníků
vyjadřovány jako koncepty nebo nákresy, které je možno dále studovat a utvářet.
Kombinace je proces sestavování nové explicitní znalosti do systémové znalosti.
Například výzkumník může sestavit soubor dříve existujících explicitních znalostí s cílem
připravit specifikaci nového prototypu produktu. Nebo inženýr může kombinovat dostupné
výkresy a specifikace návrhu k vytvoření nové podoby procesu či zařízení. Běžně se
vyskytuje kombinace nově vytvořeného konceptu a existující znalosti.
Internalizace je proces osvojení si explicitní znalosti do formy tacitní znalosti
(know-how, operativní znalost). Výborným příkladem tohoto procesu je „learning by doing“,
tedy učení se formou praktické zkušenosti. Explicitní znalost může být vyjádřena formou
textu, zvuku nebo videa. Typické je použití různých manuálů a příruček, nebo instruktážních
43
videí. Tyto instrukce se po naučení stávají součástí tacitních znalostí člověka. (URIARTE‚
2008, s. 8)
Znalosti vznikají na základě učení, které může být individuální, strojové a organizační.
Individuální učení představuje tvorbu nové tacitní znalosti v podobě zkušeností, chování,
dovedností, upevňování hodnot a vytváření preferencí. To je zajištěno kognitivní funkcí
mozku, například formou četby, poslechu a pozorovaní. Úložiště znalosti je tedy lidský
mozek. Tento proces je různě dlouhý, odvíjí se od intelektu a schopnosti porozumění.
Důležitá je také složitost explicitně vyjádřené znalosti.
Dalším typem učení je strojové, které je založeno na algoritmech. Tento typ učení byl
popsán v předešlé kapitole o Data Miningu. Strojové učení může být automatizované nebo za
pomoci experta (učení s učitelem). Naučená znalost ze strojového učení může být uložena
například v neuronové síti, která pracuje na principu paralelní optimalizace.
Posledním typem je organizační učení, které je pro nás v tomto kontextu nejdůležitější.
Je realizováno na principu skupinového učení, meetingů a seminářů. Organizační učení by
mělo kompenzovat migraci odborníků. V případě přílivu odborníků je tedy důležité jejich
znalosti zužitkovat a uchovat do znovupoužitelné podoby. V případě odlivu expertů je poté
možno tyto znalosti replikovat. Možnost opakovatelné použitelnosti do značné míry závisí na
srozumitelném zaznamenání dané znalosti. K tomuto procesu učení je potřeba expertních
znalostí, zkušeností a důkazů. Důležitým prvkem jsou také data, ze kterých lze znalosti
dolovat pomocí zmiňovaných metod DM.
Organizační znalost by měla být zaznamenána ve všeobecně přijatelné formě a ve
srozumitelném jazyce pro všechny zúčastněné strany. K tomu ideálně slouží implementace
znalostně orientované komunikační platformy. (VORÁČEK‚ 2012)
3.1.1.4 Jazyk a znalosti
Znalosti jisté, nejisté i subjektivní jsou většinou vyjadřovány pomocí jazyků. Tyto jazyky lze
rozdělit na formální a neformální. Z pohledu využití vhodného jazyka v manažerském
prostředí je použití formálního jazyka značně komplikované. Formální metody popisu jsou
vhodné pro matematiku, statistiku, formální heuristiku a empirii. Jsou typické abstraktností,
výrazovou omezeností a je problematické je validovat. Díky tomu se v manažerském
prostředí nemohou prosadit.
Formální jazyk pracuje se sekvencemi znaků (symbolů) a tyto znaky patří do konečné
množiny - abecedy. Sekvence znaků se označuje jako slovo. Množině slov v určité abecedě se
říká jazyk. Příkladem může být abeceda, která se označuje jako:
{
}
nad kterou hledáme slova (řetězce). Jazyk, obsahující hledaná slova nad abecedou se
značí . Tento jazyk se může definovat různými způsoby, například všechna existující slova,
44
nebo pouze slova vyhovující regulárnímu výrazu. Slova se mohou generovat na základě
formální gramatiky, která se dále dělí podle Chomského hierarchie16.
Omezení tohoto jazyka plynou v teoretické rovině v rozpoznatelnosti, výrazové síle a
shodnosti. Z praktického hlediska plynou omezení ve srozumitelnosti, jazyk je nepřirozený a
postrádá jednoduchost.
Pomocí formálního jazyka mohou vznikat jednoduché vztahové znalosti (např. entity
v databázi). Na základě těchto znalostí nelze příliš odvozovat.
Dalším typem jsou strukturované (dědičné) znalosti. To jsou specifické třídy, které dědí
atributy z obecnějších tříd. Jsou vyjádřeny pomocí hierarchie, aby bylo patrné, jaké atributy
dědí z nadřazených tříd. Příkladem mohou být rámce a sémantické sítě.
Inferenční znalosti, tedy deklarativní, jsou základem systémů založených na pravidlech a
znalostech. Příkladem jsou různé expertní systémy, které pomocí určených pravidel vedou
uživatele k cíli. Tedy od obecného problému ke konkrétnímu řešení. Odvozovací engine je
v tomto případě počítačový program, který vytváří zdůvodňování na základě pravidel. Tato
pravidla by měla být založena na logice (výroková logika, predikátová logika prvního řádu,
epistemická logika, modální logika, temporální logika a fuzzy logika).
Posledním typem je procedurální znalost. Ta obsahuje zakódované kroky, jak dosáhnout
určitého řešení. Procedurální znalost se liší od deklarativní v tom, že může být aplikována
přímo na určitý úkol. Deklarativní znalost spočívá v konstatování stavu řešeného problému,
vlastností a vztahů. Procedurální znalost představuje abstraktní model orientovaný na
pracovní postup, tedy algoritmus. Je často vyjádřen pomocí schématu či síťového grafu.
3.2 Definice pojmu Knowledge Management
Neexistuje žádná obecně přijatá definice pojmu Knowledge Management. Existuje ale
množství definic od různých expertů. Knowledge Management, tedy znalostní management,
lze obecně charakterizovat jako konverzi tacitních znalostí na explicitní a jejich sdílení uvnitř
organizace. Přesněji řečeno, prostřednictvím znalostního managementu vytváří organizace
hodnotu ze svého intelektuálního vlastnictví. Jedná se o proces, který se zabývá identifikací,
získáváním, šířením a udržováním znalostí, které jsou pro organizaci užitečné.
Znalostní management má v širším kontextu mnoho různých definicí. Všechny ale stojí
na stejné myšlence, každá z nich řeší určitý aspekt znalostního managementu, viz obrázek 25.
16
Hierarchii vytvořil Avram Noam Chomsky v roce 1956, skládá se z frázové, kontextové, bezkontextové
a regulární gramatiky.
45
Výsledkově
orientovaná
definice
„Mít správné znalosti na správném místě, ve
správný čas a ve správné formě“
Procesně
orientovaná
definice
„Systematický management procesů, podle
kterých je znalost identifikována, vytvořena,
sdružována, sdílena a aplikována“
Technologicky
orientovaná
definice
„Business Intelligence + spolupráce +
vyhledávací nástroje + inteligentní agenty“
Obr. 25 Definice znalostního managementu (Benjamins)
Znalostní management zahrnuje dva hlavní aspekty, informační management a řízení
lidí. Proto je nutné zabývat se oběma oblastmi, nelze se změřit pouze na informační hledisko.
V procesu získávání tacitních znalostí je velmi důležité brát v úvahu kulturní a sociální
hodnoty, postoje a ambice. Tento proces utváření znalosti nemůže být úspěšný pouze díky
informačnímu managementu.
3.3 Systémové myšlení a znalostní management
Pro plné využití potenciálu znalostního managementu je nutné zavést koncept systémového
myšlení. Znalost je tvořena souborem vztahů mezi informacemi. To nám dává lepší představu
o tom, jak se daná znalost může měnit v čase a jaké změny či výsledky očekávat.
Dalším stupněm nad znalostmi je moudrost. Ta není tvořena pouhou kolekcí znalostí, ale
vzejde z pochopení základních principů odpovědných za vzory, představující samotné
znalosti. Moudrost má ještě větší tendenci tvořit vlastní kontext. Tyto základní principy, které
představují určitou „univerzální pravdu“, lze reprezentovat pomocí archetypů.
Moudrost dokáže odpovědět na otázku, proč organizace roste či upadá. Pokud bude
člověk zkoumat individuální komponenty (akce) firmy, které jsou vyjádřeny pomocí znalostí,
nenalezne ty pravé významné charakteristiky růstu. Pouze na základě propojení vzorů
(znalostí), jejich interakci a vývoji v průběhu času lze pochopit princip vykazující
charakteristiku růstu organizace (systému).
Systémové myšlení obsahuje metody, díky kterým lze snadněji pochopit složité
manažerské problémy. Jeho zásadou je dívat na podnik jako na celek, kde jednotlivé jeho
části mezi sebou reagují a ovlivňují se. (BELLINGER‚ 2004)
Mezi největší obhájce systémového myšlení patří bezesporu Peter Senge, který napsal
knihu The Fifth Discipline. Pátá disciplína představuje přístup integrující disciplíny osobního
mistrovství, mentálních modelů, budování sdílené vize a týmové učení. Tato integrace je
důležitým předpokladem pro učící se organizaci.
46
3.4 Dynamické řízení organizace
Dynamický management je řízení, které očekává, že cílový stav systému se mění (tj. cíle
organizace nebo alternativní cesty budoucnosti, které jsou oceněny). Nemusí se nutně jednat o
změny, které jsou předvídatelné. Toto očekávání lze rozdělit na dva předpoklady:
1. změny cílového stavu systému jsou očekávané, protože v situacích reálného života
jsou tyto změny cílů naprosto běžné,
2. změny cílového stavu systému jsou považovány za žádoucí, protože cílové systémy
delší dobu statické naznačují, že manažeři se ze svých rozhodnutí mnoho nepoučili.
Dynamické řízení je aplikovatelné na všech úrovních, od velké organizace až po
jednotlivce. Přístup je dobře použitelný jak na běžné operační činnosti, tak na jednotlivé
projekty.
Při řízení organizace existuje míra rizika a nejistoty. S tím se lze vypořádat v zásadě
dvěma způsoby: ignorování tohoto faktu, nebo se podle něj záměrně řídit a očekávat nečekané
události. Mezi základní výhody dynamického řízení patří lepší rozhodnutí a přesnější pohled
do budoucnosti, zahrnující všechny formy rizika a nejistoty. Pokud jsou činnosti vedoucí
k dlouhodobému úspěchu řízeny pomocí nejvíce informovaného pohledu (zohledňující
nejistoty), lze očekávat větší přínos každé této činnost. Tento přístup je účinnější, než řízení
zaměřené pouze na cíl, které může být až rok zastaralé.
Další výhodou je nižší plýtvání času manažerů. Jedním z důvodů mrhání časem je
rozdílnost mezi plánovaným stavem a skutečným stavem. Jak se rozdíl mezi původními cíli a
aktuálními požadavky zvětšuje, rostou i rozpory mezi plánem a skutečností. Manažeři musejí
trávit více času nad hledáním příčiny tohoto rozdílu proti plánu, který může být tou dobou
zastaralý a jeho relevance se postupem času snižuje. Dynamický management se přizpůsobuje
rychleji aktuálním požadavkům, které se objevují. Tím snižuje rozdíl mezi plánovaným
stavem a skutečností, což má v důsledku i menší plýtvání času řídících pracovníků.
Jedním z klíčových konceptů dynamického managementu je monitorování a reakce
řízení na základě nově vzniklé informace. Ve statickém řízení je častější periodická frekvence
monitoringu. V případně dynamického řízení se tato frekvence kontroly mění, protože reaguje
podle potřeby aktuální situace.
Důležitým rozdílem je tedy efektivní zpětná vazba. Žádný proces analyzování není
užitečný, pokud sledovaná situace nemá efektivní odezvu, kterou můžeme do analýzy
zahrnout. K tomu slouží mnoho technik, od jednoduchých myšlenkových procesů až po
sofistikované metody modelování a rozhodovací techniky. (LEITCH‚ 2002)
3.5 Transformace k procesnímu řízení
V rámci zvyšování výkonnosti organizace se obecně opouští od klasického funkčního řízení a
přechází se na procesní řízení. Na tuto transformaci má vliv zejména požadavek vysoké
kvality produktů, která je zároveň podmíněna kvalitními procesy a dalším faktorem je čas.
V dynamickém prostředí musí organizace reagovat velmi flexibilně, je neustále pod tlakem
zkracování lhůt a produkčního cyklu, je vyvíjen tlak na rychlou změnu procesů. Ve funkční
47
struktuře není vždy zcela jasné, kdo je za procesy zodpovědný. Přínosy procesního řízení jsou
v jasně vymezených kompetencích a odpovědnostech za procesy, lze snadno řídit výkonnost a
efektivitu procesu. Díky dobře definovaným procesům lze lépe pochopit chod celé organizace
a tím vzniká potenciál pro zlepšování a optimalizace. Další výhodou je jasně definované
workflow, tedy oběh dokumentů a dat. Obecně mezi cíle procesního řízení patří:



kvalita – zaměření na zájmy zákazníka, zvýšení spolehlivosti produktů,
náklady – odstranění aktivit, které nemají přidanou hodnotu,
čas – redukce čekacích dob, přepravních a nevyužitých časů.
Přechod k procesnímu řízení organizace vyžaduje definování procesů. Dalším krokem je
určit „majitele“ procesu. V této fázi je nezbytné mít mandát od nejvyššího vedení, protože
dochází k přesunu kompetencí a je tedy nutná podpora vedení. Každý proces vyžaduje
nastavení regulace. Je nutné určit, co se bude sledovat, jak se budou provádět korekce
v případě odchylky od plánu. Procesy se dále provážou, vytváří se procesní síť. Procesní síť
představuje dlouhodobé, cílevědomé dohody mezi subjekty organizace, které jim umožňují
získat a udržovat si konkurenční výhodu vůči jiným organizacím.
Síťové dohody mají specifický systém hodnot, které vytvářejí důvěru a vzájemnou
podporu nezbytnou pro existenci a stabilitu sítě.
Tyto sítě mohou být různého typu, například:
AMÉBA17 – struktura bez hierarchie, volně svázaná síťová organizační struktura složená
z autonomních vnitřních podnikatelských jednotek (SBU), blízká fungování biologických
systémů. Tyto jednotky SBU se skládají z CBU (zákaznická podnikatelská linie, mající
marketingovou autonomii, vytváří produkty pro externí zákazníky) a IU (vnitřní
„insourcingová“ struktura, vytváří interní produkty a služby, které případně může nabízet i
externě). Tuto strukturu ilustruje obrázek 26. (PROCHÁZKA‚ 2005)
Obr. 26 Schéma struktury Améba (Businessvize)
17
AMÉBA – vytvořil Dr. Kazuo Inamori, zakladatel společnosti Kyocera
48
Struktura améba vznikla z důvodu zlepšení flexibility vůči menším firmám. Díky
takovému uspořádání si může i velká organizace udržet dostatečnou pružnost v rámci trhu,
nedochází k rigidnosti a je schopna inovovat. Struktura je navíc specifická v tom, že
zaměstnanec není přidělen na pozici, ale dostává se do améby dobrovolně na základě své
specializace, funguje zde vnitropodnikový trh práce. Zaměstnanci často mezi amébami
přecházejí, jedná se obvykle o dočasnou strukturu, která se neustále mění (zvětšuje, zmenšuje,
případně zaniká).
3.6 Nástroje znalostního managementu
Při řešení reálného problému v organizaci s využitím znalostního managementu prochází toto
řešení různými fázemi. Tyto fáze zachycuje životní cyklus znalostního modelu, viz obrázek
27.
Obr. 27 Systémový pohled na řešení problému (MITROFF et. al.‚ 1977)
Iniciační fáze znalostního modelu vzniká existencí reálného problému či potřeby.
Ačkoliv je reálná skutečnost prvním impulsem, nelze říci, že v této fázi model začíná a končí.
Znalostní model většinou není konečné řešení a celý tento cyklus tedy tvoří jednu iteraci.
V první fázi při přechodu do konceptuální fáze dochází k formulaci problému a
k obecnému vymezení dané problematiky. Dále proces zahrnuje tvorbu znalostí a syntézu
znalosti (problému) do takové podoby, aby ji bylo možné postoupit další fázi modelování.
Vědecký model již představuje formálně vyjádřenou problematiku a lze jej použít pro řešení
problému. Kruh
představuje vzniklé řešení, které lze aplikovat na problémovou situaci.
Vztah mezi realitou a vědeckým modelem (modelem reality) představuje stupeň
korespondence. Vertikální vztah mezi řešením a konceptuálním modelem určuje, jak navržená
řešení korespondují s původním konceptuálním řešením. (MITROFF et. al.‚ 1977, s. 115)
49
3.6.1 Tvorba znalostí (Knowledge Engineering)
Znalosti mají svůj životní cyklus, kde na počátku stojí požadavek nové znalosti. Tato fáze
může být iniciována vědomě, kdy chceme zachytit objevenou tacitní znalost, nebo může
vzniknout požadavek na řešení určitého problému. Při tvorbě znalosti je nedílnou součástí
procesu získávání znalostí (Knowledge Acquisition). K získávání znalostí dopomáhají další
dílčí techniky. Prvním krokem je analytická fáze, kdy se snažíme znalosti nalézt, vynést je na
světlo (Knowledge Elicitation). Metoda nalézání (elicitace) znalostí vychází z předpokladů:







většina znalostí je v hlavách expertů,
experti mají obrovské množství znalostí,
experti mají mnoho tacitních znalostí,
neumí říci přesně, co všechno znají a umějí,
tacitní znalosti je velmi obtížné (někdy téměř nemožné) popsat,
experti jsou velmi zaneprázdnění a cenní,
žádný expert nezná vše.
Techniky, které mají za úkol vynesení znalostí na povrch, musí být dostatečně efektivní.
Kromě rychlého nalezení znalostí se musí zaměřit hlavně na důležité a užitečné znalosti.
Znalosti je nutné sloučit od více odborníků a musí být možné je validovat a udržovat. Důležitá
vlastnost těchto technik je, aby umožnili porozumění nalezených znalostí i neodborníkům.
Mezi základní techniky tohoto procesu patří:

Techniky generování protokolu – zahrnují různé typy interview (nestrukturované,
středně strukturované a strukturované), techniky reportingu (sebe reportování a
stínování18) a pozorovací techniky.
Techniky analyzování protokolu – jsou použity přepisy interview nebo jiné textové
poznámky, slouží k identifikaci různých typů znalostí (cíle, rozhodnutí, vztahy,
atributy), tvoří můstek mezi protokolovými a modelovacími technikami.
Techniky generování hierarchií – slouží k sestavení hierarchických struktur, jako jsou
různé sítě a rozhodovací stromy.
Maticové techniky – zahrnují konstrukci matic, které obsahují problémy a možná
řešení. Zahrnují užití rámců, které představují vlastnosti konceptů a techniky
repertoárové mřížky pro nalezení, hodnocení, analýzu a kategorizaci vlastností
konceptů.
Třídící techniky – jsou použity pro zachycení způsobu, jakým lidé porovnávají a třídí
koncepty, může vést k nalezení znalosti o třídách, vlastnostech a prioritách.
Úlohy s omezenými informacemi a procesy – představují techniky, které limitují čas
nebo informace, které má expert k vykonání úkolu. Například technika dvaceti otázek,
která představuje efektivní cestu jak získat klíčové informace v určité doméně a
seřazené podle priorit.
Techniky založené na diagramech – zahrnují generování koncepčních map, sítě
přechodu stavů, diagram událostí a procesní mapy. Použití těchto technik je důležité






18
Sledování reportovaného pracovníka, osobní monitoring
50
zejména k zachycení úkolů a událostí, které řeší otázky: co, jak, kdy, kdo a proč.
(BECHHOFER‚ 2006)
Fáze nalézání znalostí představuje netriviální proces, kde výstupem bývá definice hranic
řešeného problému (systému, organizace) a určení všech klíčových atributů (zúčastněné
strany, sjednocená terminologie a další).
Další fáze představuje syntézu, tedy formální vyjádření nalezených týmových znalostí
(Knowledge Representation). Syntéza zahrnuje obecné techniky vizualizace dat, informací,
konceptů, strategií, struktur, procesů apod. Oblast reprezentace znalostí zahrnuje analýzu jak
zdůvodňovat přesně a efektivně a jak využít sady symbolů k vyjádření faktů ve znalostní
doméně. Slovník sestavený ze symbolů společně se systémem logiky umožňuje usuzování o
objektech a lze díky tomuto spojení vytvářet v rámci znalostní reprezentace věty. Klíčovým
atributem reprezentace je výrazovost. Čím je výrazovost vyšší, tím snadnější a kompaktnější
je vyjádření faktu nebo znalosti. Dobrá reprezentace znalostí by měla pokrývat šest
základních charakteristik:






Pokrytí – reprezentace musí pokrývat šířku a hloubku informace. Bez širokého pokrytí
nelze odvozovat ani řešit nejasnosti.
Srozumitelná lidem – reprezentace je vnímána jako přirozený jazyk a logika v něm by
měla volně proudit. Měla by podporovat modularitu a hierarchie tříd. Stejně tak by
měla obsahovat jednoduché primitivní elementy, které jsou kombinovány do
komplexních forem.
Konzistence – znamená odstranění redundancí nebo konfliktů vyjádřených znalostí.
Efektivita
Jednoduchá modifikace a aktualizace
Podporuje inteligentní aktivity, které jsou použity ve znalostní bázi.
Reprezentace zahrnuje zejména nástroje a postupy pro tvorbu strukturních i časových
charakteristik znalostí. K tomuto účelu jsou využívány různé návrhové standardy, mezi
nejznámější patří zejména:






Unified Modeling Language (UML),
Business Process Modeling Notation (BPMN),
Event-driven Process Chain (EPC),
Web Services Description Language (WSDL),
XML Process Definition Language (XPDL),
XML Schema Definition (XSD).
(Software AG)
Časové charakteristiky zkoumaného systému (znalostí) je potřeba vyjádřit ve
srozumitelné formě, aby byly snadno pochopitelné a práce s nimi byla efektivní. Není účelem
sestavovat složitý systém do formy diferenciálních a diferenčních rovnic, ale mnohem
snadněji a efektivněji pomocí modelovacích jazyků sestavit simulační model a umožnit tak
chování zkoumaného systému simulovat na počítači.
51
3.6.2 Základní modelovací jazyky učící se organizace
K zachycení komplexity a heterogenity různých problémů v rámci organizace, ekonomiky a
sociálních systémů existují v současné době tři nejrozšířenější simulační metodologie.
Důležité je zejména pochopení chování systémů v čase, k tomu účelu slouží systémová
dynamika (System Dynamics – SD), diskrétní události (Discrete Event – DE) a modelování
založené na agentech (Agent Based – AB).
3.6.2.1 Systémová dynamika (SD)
Systémová dynamika je vědní disciplína, která patří mezi systémové vědy. Zabývá se
chováním systémů v čase, snaží se vysvětlit závislosti a vazby mezi jednotlivými veličinami
systému. Pomocí systémové dynamiky může analytik lépe pochopit chování organizace, která
představuje komplexní nelineární systém. Díky pochopení vztahů a ovlivňujících faktorů je
poté snazší reagovat na změny a plánovat. Systémová dynamika představuje nástroj pro
konstrukci modelu, který je reálněji sladěný s realitou než mentální model individuálního
pozorovatele.
Vývoj systémové dynamiky sahá do 50. let minulého století. Za jejím zrodem stojí Jay
Wright Forrester, který je považován za průkopníka v oblasti kybernetiky a počítačů.
Systémová dynamika je sadou konceptuálních nástrojů pro pochopení struktury a
dynamiky komplexních systémů, a hlavně představuje rigorózní modelovací metodu pro
sestavení formálního počítačového modelu. Díky tomu je velmi vhodná pro simulaci složitých
systémů, kde pomáhá k nastavení efektivních politik v rámci organizace. Tyto nástroje
dohromady nám dovolují vytvořit manažerské „letové simulátory“ – mikrosvěty, kde čas a
prostor mohou být stlačeny a zpomaleny. Díky tomu lze zkoumat vedlejší efekty rozhodnutí,
které se projeví v dlouhodobém horizontu. Na základě modelu lze lépe pochopit fungování
komplexního systému, což vede k vytvoření lepších struktur a nových strategií pro úspěšnější
organizaci. (STERMAN‚ 2000, s. vii)
Systémová dynamika je typicky používána v dlouhodobých, strategických modelech a
předpokládá vysokou agregaci modelovaných objektů. Je tedy vhodná na řešení problémů,
kde vysoká míra abstrakce nepředstavuje problém.
Samotný model systémové dynamiky se skládá z diagramu stavů a toků (stock and flow).
Nelinearita je do systému zavedena pomocí příčinných smyček (feedback loops), které
ovlivňují toky. Příklad modelu systémové dynamiky ilustruje obrázek 28.
52
Obr. 28 Model systémové dynamiky – dravec a kořist (XJ Technologies)
Uvedený model představuje dvojici diferenciálních rovnic, které popisují dynamiku
predátora a kořisti v nejjednodušší podobě. Jedna populace predátorů a jedna populace kořisti.
Tento model byl vyvinut nezávisle ve 20. letech minulého století autory Alfredem Lotkou a
Vitem Volterrem. Model je charakteristický oscilací velikosti obou populací v čase, kdy
vrchol populace predátora zaostává mírně za vrcholem kořisti (viz obrázek 27, pole výsledků
simulace). Na základě tohoto modelu lze dospět k několika závěrům:
a) populace kořisti má neomezené zdroje a kořist zemře pouze v případě, že je sežrána
predátorem,
b) kořist je jediným zdrojem obživy predátora a predátor zemře pouze hlady,
c) predátor může spořádat neomezené množství kořisti,
d) není zde žádná komplexita prostředí (obě populace se pohybují v homogenním
prostředí).
Tento jednoduchý model názorně ilustruje princip systémové dynamiky. Obsahuje stavy
populací a příslušné toky. Šipky představují příčinné smyčky, které ovlivňují toky. U těchto
smyček jsou důležitá znaménka
a
. Na základě těchto znamének se určuje typ
smyčky, tedy zda se jedná o smyčku zesilující změnu (reinforcing loop) či vyrovnávající
změnu (balancing loop). Zesilující smyčka je v tomto případě u populace kořisti, kdy
zvyšování populace vede k vyšší porodnosti zajíců. Vyrovnávající smyčka je zde v případě
rostoucí populace zajíců, která snižuje úmrtnost rysů.
Systémová dynamika se svou abstrakcí od jednotlivých událostí a entit zaměřuje na
celkový pohled a výslednou politiku. Při modelování pomocí SD je nutné si uvědomit, že tak
jak pracuje model s agregáty, nelze jednotlivé položky ve stejném stavu (zásobníku) odlišit,
nemají individualitu. Analytik, který pomocí SD modeluje, musí přemýšlet v podmínkách
globálních strukturálních závislostí a musí pro toto modelování mít přesná kvantitativní data.
(BORSHCHEV et. al.‚ 2004)
3.6.2.2 Diskrétní události (DE)
Většina procesů, které můžeme pozorovat ve světě, se skládá z kontinuálních změn. Nicméně
pokud chceme analyzovat tyto procesy, často je výhodnější rozdělit tento kontinuální proces
na části, tedy diskrétní události. Díky tomu lze snadněji pochopit fungování procesu a
zjednodušuje to analýzu. Metoda modelování pomocí diskrétních událostí aproximuje časově
53
spojitý reálný proces pomocí námi definovaných nespojitých událostí. Mezi typické události
může patřit:





příchod zákazníka do obchodu,
dokončení vykládky kamionu,
zastavení dopravníku,
vydání nového produktu,
hodnota zásob dosáhne prahové hodnoty apod.
Při modelování pomocí diskrétních událostí je pohyb mezi body a vyjádřen pomocí
dvou událostí a zpoždění. Příkladem může být pohyb vlaku z jednoho města do druhého, což
by se vyjádřilo událostí odjezdu a událostí příjezdu. Pohyb vlaku je tedy vyjádřen pomocí
časového intervalu mezi těmito dvěma událostmi, v modelování označováno jako zpoždění.
Termín diskrétní události se používá hlavně v užším smyslu k označení procesně
zaměřeného modelování (process-centric), které naznačuje využití v analýze procesů systému
(organizace). Při analýze je na systém nahlíženo jako na sekvenci operací, které jsou
vykonávány na entitách různého typu (zákazníci, dokumenty, součástky, datové pakety,
vozidla, telefonní hovory a další).
Entity v modelu vystupují jako pasivní prvky, přesto mohou mít atributy, které ovlivňují
jejich zpracování a mohou definovat specifický průchod procesem. Modelování pomocí
diskrétních událostí je realizováno na nízké až střední úrovni abstrakce, tedy nižší než
systémová dynamika. Ačkoliv je každý objekt modelovaný individuálně jako entita, typicky
nejsou zohledněny detaily na fyzické úrovni (geometrie, rychlost, akcelerace atd.). Tento typ
modelování je velmi rozšířen a používán v oblasti výroby, v logistice a zdravotnických
oborech. (ANYLOGIC)
Existuje mnoho komerčních nástrojů, které podporují tento přístup modelování. Některé
jsou vhodné pro obecné použití a některé jsou konkrétně specializované (služby, logistika,
call centra). Jejich uživatelské prostředí a používané grafické komponenty se mohou velmi
lišit, přesto základ stojí většinou na podobném výpočetním jádru pro simulaci diskrétních
události. Toto jádro posouvá entity skrze nadefinované bloky. Proto lze modelování pomocí
diskrétních událostí chápat jako algoritmus, který zpracovává obecné entity, typicky
s využitím stochastických prvků. Stochastické prvky může představovat jednoduchý příklad,
kdy pracovník vykonává určitou operaci. Pracovník dokáže odbavit entitu v určitém čase, ale
tento čas není nikdy konstantní (v reálném životě), proto je nutné do tohoto typu modelování
zavést vhodné rozdělení pravděpodobnosti. Konstantní čas procesu může samozřejmě
existovat v určitých případech, zejména v rámci automatizované výrobní linky. Jednoduchý
zápis modelu představuje typický příklad obsluhy klientů v bance, které znázorňuje obrázek
29.
54
Obr. 29 Obsluha v bance – schéma z programu Arena™
Na obrázku jsou patrné jednotlivé události (obdélníky), vstup a výstup zákazníků. Toto
schéma znázorňuje kromě zmíněných událostí ještě logické prvky, které ovlivňují tok entit
v diagramu. Obdélník s označením Tellers představuje dostupné zdroje, které jsou potřeba
k obsloužení entit (zákazníků). Tyto modely vycházejí svým principem z teorie front a
systémů hromadné obsluhy. Na klasifikaci obsluhového systému lze použít tzv. Kendallovu
notaci, která se nejčastěji uvádí v podobě čtyř parametrů systému, zapsanou ve tvaru
A/B/C/D, kde:




A: vstupní tok, četnost příchodů do systému
B: doba obsluhy zákazníka
C: počet obslužných linek, obsluhovatelů
D: kapacita systému
Dalším pátým parametrem se může specifikovat frontový režim, tedy jak se zachází
s nově vstupující entitou. Standardně se považuje za výchozí režim FIFO, ale mohou
existovat následující režimy:




FIFO (First In – First Out) – první vstupující je obsloužen jako první,
LIFO (Last In – Fist Out) – poslední vstupující je obsloužen jako první,
SIRO, RS (Search in Random Order, Random Selection) – pořadí obsluhovaného
závisí na náhodném výběru,
SJF (Shortest Job First) – nejdříve je obsloužen ten, jehož obsluha zabere nejkratší
čas.
I když pětiznaková Kendallova notace obsahuje všechny základní informace o systému,
nepopisuje systém jednoznačně. Nebere v úvahu nastavitelnou trpělivost zákazníků, možnost
předbíhajících zákazníků, proměnnou dostupnost obsluhy, režim obsazování linek apod.
(ČVUT)
Sledované metriky modelu diskrétních událostí tvoří čas strávený ve frontě, čas strávený
v celém systému, délka fronty a využití zdrojů (obsluhy). Na základě těchto metrik lze model
optimalizovat a navrhovat řešení.
55
Pro iniciační fázi modelu se může použít pevně daný počet entit v časovém intervalu
nebo ho lze nahradit pravděpodobným výskytem v čase. Pravděpodobnost výskytu
vstupujících entit
do systému za časový (objemový) interval se vyjadřuje pomocí
pravděpodobnostní funkce náhodné veličiny s Poissonovým rozdělením :
kde
představuje střední hodnotu počtu výskytu jevu za časovou jednotku.
Zpoždění entity ve frontě lze vyjádřit pomocí exponenciálního rozdělení. Hustota
pravděpodobnosti pro exponenciální rozdělení náhodné veličiny je dána vztahem:
{
Distribuční funkce exponenciálního rozdělení náhodné veličiny je poté vyjádřena:
{
Technika modelování pomocí diskrétních událostí nachází velmi dobré uplatnění
v simulaci reálného provozu. Díky možnostem současných nástrojů lze vytvářet virtuální
továrny pro simulaci výroby a všech souvisejících procesů. Pomocí 3D grafických knihoven
lze sestavit velmi detailně celou výrobní linku a získat tak konkrétní představu o celém
simulovaném procesu. V rámci České republiky je v tomto oboru na vysoké úrovni zejména
společnost Škoda Auto, která na základě své digitální továrny připravuje nové výrobní
procesy. Tato digitální továrna je navíc zobrazována pomocí vyspělé 3D stereoskopické
projekce, díky které pozorovatel získá velmi reálný pohled na vykonávané operace. Nápady a
myšlenky tak přichází naprosto přirozeně, jako by pozorovatel posuzoval reálný provoz.
Tento přístup tvoří odlišný pohled na řešenou situaci, než v případě plánování nad schématy a
diagramy.
3.6.2.3 Agentově orientované modelování (AB)
Modelování založené na agentech lze definovat jako decentralizovaný, individuálně zaměřený
přístup k vytváření modelu. Při aplikaci této metody tvůrce modelu identifikuje aktivní entity,
které se nazývají agenty. Těmito agenty mohou být lidé, společnosti, projekty, výrobní
součásti, vozidla, města, zvířata, lodě, produkty apod. Agent má typicky implementováno
určité chování, které je dáno stavy, hlavními motivy, reakcemi a pamětí. Tato entita se
nachází prostoru (prostředí simulace), navazuje spojení s dalšími agenty a reaguje s okolím.
Celkové chování modelu se poté skládá z jednotlivých interakcí všech individuálních entit.
Tento přístup nemá definované chování systému, skládá se čistě z chování definovaných
jednotlivců, kterých může být v systému od několika desítek až po miliony. Agentově
orientované modelování má rozdílný přístup v tvorbě modelu oproti předchozím metodám SD
a DE, kdy se začíná na spodní úrovně individuálních entit a ty tvoří vyšší úroveň interakcí,
jedná se o tzv. bottom-up modeling. Názorný příklad agentově orientovaného modelu
představuje obrázek 30.
56
Obr. 30 Obecná architektura AB modelu (BORSHCHEV et. al.‚ 2004)
Na obrázku je znázorněn agentově orientovaný model dynamiky populace v zemi.
V tomto modelu je část chování agentů definována pomocí diagramu stavů (statechart), a
části prostředí tvoří domy, pracovní místa, dopravní infrastruktura apod. Pomocí agentů lze
tedy vyjádřit velmi komplexní systém. Další významnou výhodou je, že tato metoda dovoluje
konstrukci modelu, aniž bychom měli znalosti o globálních závislostech v systému (na
agregované úrovni). Typicky je také snadnější udržovat agentově orientovaný model než
model systémové dynamiky. U AB modelu představuje vylepšení výsledku typicky lokální
úprava, než v případě SD modelu, kde jsou změny více na globální úrovni.
Každý z uvedených modelovacích jazyků je vhodný pro jiné účely, jsou svým principem
zaměřeny na různé úrovně abstrakce. Lze je v případě potřeby i kombinovat, čímž vznikne
heterogenní model. To může být v některých případech přínosné, například pokud máme
v rámci procesu (DE model) entitu, jejíž komplexnost vyžaduje pro věrnější vyjádření
skutečnosti zapojení AB modelu. Vhodnost uvedených jazyků pro požadovanou míru
abstrakce ilustruje obrázek 31.
57
Obr. 31 Přístupy (paradigma) v modelování podle úrovně abstrakce (autor podle XJ
Technologies)
Pomocí vertikální přerušované čáry jsou rozděleny metody podle přístupu k času
v procesu. DE a AB model většinou pracuje s diskrétním časem, tzn. „skáče“ z události na
událost. Systémová dynamika chápe čas procesu jako spojitou veličinu.
Jak je z obrázku patrné, agentově orientovaný model dokáže pokrýt největší rozsah
abstrakce. Díky této metodě lze určit individuální pravidla chování entitám na více úrovních
abstrakce, například agentům v podobě pracovníků (nízká abstrakce), nebo můžeme
považovat za agenty konkurenční podniky (vysoká abstrakce). Z pohledu možného vyjádření
komplexity systému je tato metoda nejbohatší a ve většině případů lze systémovou dynamiku
i diskrétní události nahradit AB modelem (BORSHCHEV et. al.‚ 2004). Vhodně zvolený
jazyk závisí kromě míry abstrakce také na míře zjednodušení, kvantifikace a dostupných
analýzách problému. Obecně lze vybírat podle výchozích situací:




máme individuální data  agentově orientovaný model,
jsou zde pouze informace o globálních závislostech  model systémové dynamiky,
systém lze popsat pomocí procesů  model na základě diskrétních událostí,
systém je natolik komplexní, že zahrnuje všechny zmíněné aspekty  možnost
kombinace všech metod.
Zvolená metoda se také může odvíjet od dostupných nástrojů, většinou jsou zaměřeny
pouze na jednu modelovací metodu. Heterogenní model s využitím více metod podporuje
v současnosti pouze jediný nástroj, což je také velmi omezující faktor.
58
3.6.2.4 Typy znalostních modelů
Znalostní model řeší konkrétní problematiku a obecně lze tyto modely rozdělit na nejvyšší
úrovni do sedmi skupin:
1. Diagnostické modely – tento typ modelů je použit pro řešení problému kategorizací a
vytvořením rámce, účelem je stanovit zdrojovou či pravděpodobnou příčinu.
 Příklad: existují tyto symptomy, jaký je problém?
2. Explorativní modely – tyto modely mají za úkol produkovat možné varianty pro
specifický případ.
 Příklad: známe problém, jaké jsou možnosti?
3. Selektivní modely – tyto modely slouží pro podporu rozhodování a výběr optimálních
možností. Proces selekce se musí většinou vypořádat s konfliktními cíli.
 Příklad: známe tyto možnosti a hledáme, která z nich je pro nás nejlepší.
4. Analytické modely – modely jsou většinou použity pro analýzu předem vybraných
možností. Tento typ modelů má schopnost posoudit vhodnost, riziko či jiné
požadované atributy.
 Příklad: vybrali jsme tuto možnost a chceme určit, jak je dobrá a odpovídající
pro náš cíl.
5. Instruktivní modely – tento typ modelů poskytuje návod v obousměrném nebo
interaktivním procesu.
 Příklad: Jak můžeme dosáhnout tohoto cíle?
6. Konstruktivní modely – tyto modely jsou schopny konstruovat řešení spíše než dávat
návod a instrukce.
 Příklad: potřebujeme něco za použití těchto specifikací.
7. Hybridní modely – v pokročilém modelování jsou modely tvořeni provázáním či
řetězením několika modelů dohromady. Lze tak modely implementovat jako
nezávislé komponenty. To dovoluje jednodušší údržbu a budoucí rozšíření.
Sofistikovaná aplikace s kompletním cyklem může zahrnovat a využívat všechny
uvedené modely: diagnostický  explorativní  selektivní  analytický  konstruktivní
model. (MAKHFI‚ 2011)
3.6.3 Validace a verifikace modelu
Sestavený znalostní model není validní ve chvíli, kdy dojde k jeho kompletnímu sestavení,
ani když projde testem aproximace na historických datech. Aby byl model věrohodný, musí
se neustále konfrontovat s reálnými daty a s názory expertů. Prostřednictvím tohoto procesu
se budou znalosti modelu i experta měnit a prohlubovat. Je potřeba hledat takové příležitosti,
aby bylo možné na základě vlastností modelu replikovat širokou škálu historických
zkušeností.
Testování modelu by nemělo být navrženo tak, aby se pouze dokázala pravdivost
modelu. Tímto přístupem je proces učení omezen a takový přístup narušuje užitečnost modelu
a důvěryhodnost toho, kdo model sestavoval.
59
Nelze se pouze zaměřovat na replikaci historických dat, bez ohledu na vhodnost
základních předpokladů, robustnosti a sensitivity výsledků ve vztahu na předpoklady o
hranicích modelu a zpětné vazby struktury. Autoři modelu často selhávají v dokumentování
vlastní práce, aby znesnadnili ostatním replikaci a rozšiřování modelu. Chybou je také zaujatý
postoj, kdy se data prezentují selektivně, tedy pouze příznivé výsledky vůči předpokladům a
to navzdory důkazům.
Testování modelu by mělo být navrženo za účelem odhalování chyb a slabých míst, aby
bylo možné nalézt limity modelu, vylepšit jej a nakonec použít ten nejlepší model pro
podporu v rozhodování.
3.6.3.1 Typy dat pro validaci
Forrester (1980) identifikoval tři typy dat potřebných pro vývoj struktury a rozhodovacích
pravidel v modelu: numerická, psaná a mentální data. Numerická data jsou známa například
v podobě časových řad a mnoha dalších možných záznamů v databázích. Psaná data zahrnují
záznamy typu operačních procedur, organizačních grafů, reportů, e-mailů a dalších typů
archivních dat. Mentální data zahrnují všechny informace obsažené v mentálním modelu
člověka, včetně dojmů, příběhů, pochopení systému a jak je tvořeno rozhodnutí. Tato
mentální data nejsou přístupná přímo a musí projít fází vynášení znalosti na povrch
(knowledge elicitation), jak bylo popsáno v předchozích kapitolách.
Numerická data obsahují pouze malý zlomek informací, která obsahují psaná data, což je
nepatrné v porovnání s informacemi obsaženými v mentálním modelu experta. Pokud bychom
používali pouze surová data, bez odborných znalostí účastníků, byl by výsledkem chaos. Pro
tato numerická data a kvantitativní metriky je používán termín „hard data“, nebo „hard
variables“. „Soft variables“ naproti tomu představují faktory, jako jsou cíle, vnímání a
očekávání. Termín „hard“ je zaveden pro znázornění, že numerická data jsou více přesná a
reálná než kvalitativní data, která mohou být pro někoho „nehmotná“ a nespolehlivá.
Když jsou dostupná numerická data, je důležité použít při testování správné metody pro
odhad parametrů a posoudit schopnost modelu replikovat historická data. Jedná se o hard
validaci. Mnoho zdánlivě měkkých proměnných (soft variables), například zákaznické
vnímání kvality, morálka zaměstnanců, optimizmus investora a politické hodnoty, je běžně
kvantifikováno různými analytickými nástroji. Tato kvantifikace měkkých proměnných často
dává důležitý pohled na dynamiku systému.
Obecně by se člověk měl vyvarovat extrémního přístupu, tedy aby k validaci byla
používána pouze hard data, nebo naopak aby se kladl důraz pouze na kvalitativní pohled, na
úkor numerické přesnosti. Na základě numerického testování je potřeba provést analýzu
citlivosti pro určení významných parametrů a vztahů. Parametry, které nejsou významné,
nemusí být odhadovány s vysokou přesností. Lze se tak v rámci omezeného rozpočtu zaměřit
na hlavní faktory, které budou modelovány a odhadovány přesněji. (STERMAN‚ 2000, s.
854)
60
4 Aplikační část – implementace
znalostního modulu do BI
Tato část práce se bude zabývat reálnou možností implementace znalostního modulu na
základě požadavků výrobní firmy (klient). Modelové řešení projektu vychází z požadavků
imaginární výrobní firmy, která řeší typické problémy související s ekonomickou krizí a
rostoucím tlakem ze strany odběratelů a konkurence. Úkolem řešitele (dodavatele) projektu je
navrhnout a implementovat klientovi takové řešení znalostního managementu, které pro něj
bude efektivní a účelné. Nedílnou součástí je samozřejmě i budoucí podpora ze strany
dodavatele.
Cílem projektu je vytvořit pro výrobní firmu takový nástroj, který bude pro klienta
přínosný v rámci operativního a taktického plánování. Samotná implementace platformy pro
znalostní management je pro klienta přínosná hlavně v dlouhodobém horizontu a je v souladu
se strategií zvyšování efektivnosti všech procesů v organizaci. Na základě tohoto projektu by
měli zúčastněné strany navázat delší obchodní spolupráci. Předpokladem je, že klient nemá
implementovány žádné nástroje znalostního managementu a v minulosti ani nedošlo
k pokusům o implementaci. Zkušenosti s těmito nástroji proto budou pro klienta nové, proto
je klíčové poskytnout ze strany dodavatele dostatečnou podporu odpovědným pracovníkům,
kteří s nástroji budou pracovat.
4.1 Výrobní společnost ABC stroj, s. r. o. (klient)
Výrobní společnost ABS stroj, s. r. o., je zavedená firma působící na českém trhu přes 20 let.
Její hlavní aktivitou je zakázková výroba strojních součástí, tato činnost tvoří převážnost část
obchodních aktivit. Dále díky vlastnictví skladových prostor v žádané lokalitě (Praha)
poskytuje logistické a skladovací služby. Veškeré výrobní prostory se nachází na území ČR,
nedaleko Prahy. Menší sklad, který využívá firma výhradně pro své výrobky a materiál, se
nachází ve stejném místě jako sídlo firmy a výroba. Velký sklad, který firma nabízí i externím
zájemcům, je vzdálen cca 30 km od sídla firmy. Výrobní sortiment představují strojní
součásti, nástrojařská výroba a finální stroje. Mezi klíčové odběratele patří firmy působící
v automobilovém průmyslu (VW, DAF, Volvo).
Společnost je středně velký podnik, průměrný počet zaměstnanců se pohybuje kolem 100
a roční obrat v loňském roce 2012 představoval zhruba 15 mil. EUR.
Společnost disponuje certifikátem jakosti 9001:2008 a z pohledu zahraničních
odběratelů má velmi dobré jméno, které si chce do budoucna udržet díky implementaci
nových technologií a efektivních metodik řízení provozu.
V minulosti měla firma ABC stroj, s. r. o., ustálený výrobní program a díky slušné
poptávce se zaměřovala hlavně na projekty dlouhodobějšího charakteru. V době před
ekonomickou krizí se firma nacházela v relativně statickém prostředí strojního odvětví a
zaměřovala se hlavně na sériovou výrobu. Kusová a malosériová výroba byla do té doby
odmítána z důvodu delšího zaváděcího cyklu a vyšších nákladů pro firmu, kdy nedokázala
61
tyto krátkodobé projekty řešit dostatečně efektivně. Okolo roku 2009 zaznamenala firma
pokles rozsáhlejších projektů a spolupráce s některými zahraničními odběrateli začala upadat.
Strojírenský průmysl zasáhla ekonomická krize, která donutila firmu reagovat na podmínky
trhu. V souvislosti s rostoucí dynamikou prostředí se firma proto rozhodla zaměřit na
zefektivnění plánování a svou strukturu se rozhodla transformovat směrem k procesnímu
řízení. Od tohoto kroku si společnost ABC stroj, s. r. o., slibuje snížení nákladů a zrychlení
celého procesu zavedení konkrétního procesu zakázkové výroby. Na základě tohoto
zefektivnění může přijímat zakázky menšího rozsahu, které pro ni v minulosti nebyly
dostatečně lukrativní. Technologicky je firma velmi dobře vybavená, disponuje stroji od
klasických frézek a soustruhů až po moderní multifunkční CNC obráběcí centra. Problémem
společnosti je neefektivní a nepružné řízení, špatně přidělená odpovědnost za jednotlivé
procesy a v poslední době i vyšší fluktuace kvalifikovaných zaměstnanců.
V dobách před ekonomickou krizí se firmě dařilo dodržovat obchodní plány, manažeři
neměli problém s obhájením svých rozhodnutí a vlastníci firmy byli spojení. V současné době
se začaly projevovat negativní stránky původního statického přístupu k řízení a docházelo
k obtížné identifikaci ovlivňujících faktorů, které měly za následek nedodržení stanoveného
plánu pro daný rok.
Firma vlastní ERP systém, ze kterého čerpá veškerá dostupná data z výroby a provozu
společnosti. Data z provozního ERP systému a dalších operativních systémů jsou pumpována
do datového skladu, kde na základě agregací a výpočtů dochází k tvorbě reportů a sledování
běžných obchodních veličin a ukazatelů. Data a informace získaná z těchto systémů slouží
jako podklad pro rozhodování kompetentních manažerů.
4.1.1 Potřeba řešení situace ve společnosti ABC stroj, s. r. o.
Vedoucí pracovníci společnosti si uvědomují problémovou situaci a pro řešení situace
zavedením pokročilých nástrojů pro podporu rozhodování mají plnou podporu od vlastníků
firmy. Manažeři chtějí optimalizovat v první fázi výrobní oblast a v dalším kroku by mělo
dojít i k optimalizaci logistických služeb a skladování. Na základě zformulovaných
požadavků se rozhodli oslovit dodavatelskou společnost, která má dlouhodobé zkušenosti
s implementací analytických nástrojů pro podporu rozhodování.
Za stranu klienta bude vystupovat zkušený manažer firmy ABC stroj, s. r. o., který
povede veškerá jednání a bude zodpovědný za zdárný výsledek celého projektu zefektivnění
plánování. V jeho kompetenci je i předělení potřebných expertů firmy, se kterými bude
dodavatelská firma spolupracovat při vývoji nástroje.
4.2 Softwarová společnost Data XYZ, s. r. o. (dodavatel)
Klientské požadavky bude řešit vývojová společnost, která má bohaté zkušenosti
s nasazováním analytických platforem v ČR i zahraničí. Jedná se o menší firmu o velikosti
zhruba 20 zaměstnanců. Kromě několika administrativních pracovníků se firma skládá ze
zkušených analytiků, programátorů, testerů a dvou projektových manažerů.
62
Na základě požadavků společnosti ABC stroj, s. r. o., bude určen vedoucí analytik, který
bude odpovědný za řešení projektu. Tento analytik bude mít k dispozici několik
programátorů, kteří budou mít na starost implementační fázi nástroje.
Dodavatelská firma poskytuje řešení Business Intelligence s využitím prediktivní
analytiky a poskytuje poradenství s využitím simulačních nástrojů. Své produkty dodává
formou projektu „na klíč“, tedy kompletní zajištění od hardwarové infrastruktury, přes
implementaci požadovaných nástrojů, až po zaškolení jednotlivých pracovníků a následný
servis celého řešení. Klienti oceňují profesionální přístup a dlouhodobou spolupráci, kdy
dodavatel dokáže flexibilně upravovat dodané řešení a prodlouží tak jeho životní cyklus.
Řešení projektu bude ilustrováno z pozice dodavatelské firmy, tedy na základě výše
zmíněných problémů a požadavků. Prioritou je naklonit si klienta k implementaci nástrojů
znalostního managementu a řešení na základě simulací. Na tomto konceptu závisí veškerá
další spolupráce mezi klientem a dodavatelem. V tomto kroku musí být jasně představeny
výhody, které toto řešení nese a finální implementace nástroje musí tyto výhody skutečně
obsahovat, aby projekt byl vyhodnocen jako úspěšný a mohla pokračovat užší spolupráce
mezi oběma stranami.
4.3 Představení nástrojů znalostního managementu
zákazníkovi
Odpovědný pracovník za stranu klienta má z předešlých porad vedení společnosti definované
problémové oblasti, které chce zefektivnit. Jedná se o plánování výroby v nové hale a
v dalším kroku zefektivnění logistiky v externím skladu v Praze. Se svými požadavky oslovil
zákazník dodavatelskou firmu.
Dodavatelská firma provedla na základě poptávky předběžnou analýzu výhodnosti
projektu a rozhodla se zákazníkovi nabídnout své služby a řešení. Na tento projekt byl
přidělen zkušený analytik, který má speciálně v oblasti výroby bohaté zkušenosti. Na základě
analytického interview, kdy byly přesně formulovány požadavky, výchozí situace a
očekávané výstupy, se rozhodl dodavatel vytvořit prototyp nástroje, kterým chce zákazníka
přesvědčit o vhodnosti znalostního modulu pro konkrétní řešenou oblast. V první fázi se proto
obě strany dohodli, že nástroje se budou zavádět postupně a v pilotní fázi bude využito
plánování pro nově zařízenou výrobní halu, která je vybavena univerzálními obráběcími CNC
stroji. Na této modelové situaci chce zákazník ověřit efektivitu nabízeného řešení. Zákazník
požaduje zkrácení fáze zavádění nového procesu (zakázky) pro své odběratele a dále
monitorování celého procesu takovým způsobem, aby v případě odchodu kvalifikovaného
pracovníka nebyl tento proces narušen či ohrožen. Mělo by se předejít možným dodatečným
nákladům na konkrétní strojní zakázce, což by dovolilo firmě ABC stroj, s. r. o., operovat
s menšími zakázkami a s menší rizikovou přirážkou. Účel tohoto řešení spočívá ve zvýšení
konkurenceschopnosti, důvěryhodnosti vůči odběratelům a lepšímu plánování finančních
prostředků. Nástroj tedy poslouží jak manažerům na taktické úrovni, tak odpovědnému
pracovníkovi na operativní úrovni řízení.
63
Na základě analýzy ze strany dodavatele je jako vhodný postup zefektivnění navržen
postup, kterým by se měl projekt ubírat. V první fázi je nutné v prostředí klienta zavést
efektivní správu procesů, sjednotit veškeré návrhy a plány procesů a zpřístupnit je správným
uživatelům. Dalším krokem je maximální využití nadefinovaných procesů. To nabízí dvě
hlavní cesty, jak s procesními modely pracovat:


nasazení procesu na server a vytvořit tak automatizované workflow,
do nadefinovaného procesu zakomponovat dynamickou složku a využít tak simulací
při plánovaní a monitoringu (model diskrétních událostí).
Zákazník si uvědomuje důležitost managementu procesů, zejména v kontextu
zeštíhlování výroby a možností monitoringu. Díky nasazení procesních modelů dostává
možnost, jak proces dále ladit a jak se poučit z reálných situací, které může do modelu
procesu zpětně implementovat. Nasazení procesního managementu tedy považuje jako
vhodný krok.
Dalším úkolem je přesvědčit klienta pro vhodnost zavedení simulací do těchto procesů.
Do současné doby firma plánovala a následně testovala navržený proces výroby reálným
provozem. Následně se případné nedostatky odstraňovaly za provozu daného procesu. To se
promítlo jako dodatečné náklady, které při plánování nebyly zcela zřejmé. Tyto náklady může
tvořit jak nutnost dodatečných pracovních sil, tak případné nedostatky v kapacitě strojů a
dalšího příslušenství, které je do výroby zapojeno.
Tuto nejistotu při plánování by mělo odstranit zavedení vhodných simulací. Pro
zákazníka bude vytvořen vzorový prototyp simulačního modelu, na kterém mu budou
demonstrovány výhody daného řešení. Simulační model je tvořen formálním modelem
řešeného problému, takže práce s ním dovoluje využití jak v plánovací fázi tak při
monitoringu procesu.
4.4 Interaktivní prototyp modelu diskrétních událostí
K řešení konkrétního problému v prostředí výrobní firmy se nejvíce hodí využití jazyka
diskrétních událostí (Discrete Event). Díky své podstatě, která byla rozepsána v teoretické
části, nabízí ideální řešení pro rychlý vývoj prototypu znalostního modelu a následné
prezentaci zákazníkovi. Pro vývoj znalostního modelu je zajištěna součinnost klienta ve formě
poskytnutí potřebných dat a expertů, jejichž znalosti se implementují do vyvíjeného modelu.
V tomto scénáři, kdy zákazník nemá implementovaný procesní management, se vychází
zejména z elicitace znalostí zkušených pracovníků, tvoří se myšlenkové mapy procesů a díky
nim se následně pomocí vhodného nástroje sestaví znalostní model, který představuje
formální vyjádření řešené situace. Vytvořený formální model bude v dalších kapitolách využit
jako analytický modul, který bude napojen na reálná data.
Výsledek této činnosti by měl být argumentem pro klienta, proč o nástrojích znalostního
managementu uvažovat. Na základě sestaveného modelu, který by měl v rámci možností
(jedná se o prototyp) kopírovat realitu, se bude zákazník rozhodovat, zda implementovat či
ne. V této fázi bude nejdůležitější roli hrát vizuální stránka a nabízená funkčnost. Co nejvyšší
64
validita modelu je řešena až v následujících fázích projektu. Nutné předpoklady pro tvorbu
prototypu tvoří:


dostupnost dat, které se dotýkají řešené problematiky (ERP, Data Warehouse …),
dostupnost expertů ze strany klienta, kteří jsou dokonale obeznámeni s řešenou
problematikou.
Kromě předpokladů na straně klienta existují ještě předpoklady na straně dodavatele, a to
zejména schopnost pochopení problému do hloubky (analytik), případně facilitátor, který
analytické interview moderuje a pomáhá k efektivnějšímu toku myšlenek zúčastněných
odborníků.
4.4.1 Nástroj pro tvorbu prototypu modelu
Dodavatelská společnost využívá k tvorbě znalostních modelů komerční program
AnyLogic®. Na základě zkušeností a požadavků klientů se jedná o nejvhodnější nástroj a to
z několika důvodů:




umožnuje tvorbu modelů systémové dynamiky, diskrétních událostí i agentově
orientovaných modelů,
v současnosti jako jediný dokáže tyto tři metodologie tvorby modelů kombinovat,
výstupy programu (modely) lze integrovat do již hotových analytických nástrojů,
výstupy jsou graficky propracované a lze tvořit i 3D prostředí (virtuální továrny).
Program AnyLogic® nabízí kromě rychlého grafického vývoje množství statistických
rozdělení, díky kterým tvoří ideální platformu pro simulace. Obchodní simulace, které lze
v tomto nástroji tvořit, pokrývají pro nás zajímavé oblasti jako:










trh a konkurence,
zdravotnictví,
výroba,
dodavatelský řetězec,
logistika,
maloobchod,
business proces,
dynamika sociálních systémů a ekosystémů,
IT infrastruktura,
dynamika chodců a dopravní simulace.
Poslední verze programu číslo 6 je založena na velmi rozšířeném vývojovém prostředí
Eclipse. Díky tomu je tento nástroj platformě nezávislý, lze jej provozovat na operačním
systému MS Windows, Mac OS a Linux.
Součástí programu AnyLogic® jsou různé grafické knihovny pro urychlení práce na
konkrétní oblasti zájmu, pro nás nejzajímavější je knihovna podnikových procesů (Enterprise
Library).
65
4.4.2 Vývoj prototypu modelu
Protože v této případové studii není implementován standardizovaný procesní management
například na platformě ARIS, bude se prototyp modelu tvořit na základě existujícího procesu
a myšlenkových modelů expertů ze strany klienta. Z pohledu životního cyklu znalostního
modelu se tedy nacházíme ve fázi konceptuálního modelu, viz obrázek 32.
Obr. 32 Výchozí situace při tvorbě prototypu (autor podle MITROFF)
Z obrázku je patrný postup z fáze konceptuálního modelu k vědeckému modelu, který
představuje formální model řešeného problému. Konceptuální fáze přechodu mezi reálným
problémem a konceptuálním modelem je minimalizována z důvodu existence jakýchkoliv
plánů, schémat a analýz k již existujícímu procesu. Možnosti využití existujících dokumentací
a analýz budou uvedeny v další kapitole.
Na základě spolupráce s klientem a dodavatelem vzniká dokument, popisující
konceptuální model řešené situace ve výrobní hale. Tato dokumentace je ve formě EPC
schématu (standard ARIS/SAP).
Existující proces výroby v hale je převeden do diagramu, který představuje tok
materiálu/výrobků uvnitř různých činností. Tento diagram je v ilustrativní zkrácené formě
znázorněn na obrázku 33.
66
Obr. 33 Zjednodušený EPC diagram činností ve výrobní hale (autor)
Na schématu je znázorněn v obecné formě tok materiálu a následných výrobků v
řešeném procesu. Tento proces představuje ohraničení řešené problematiky. Skládá se
z procesu transportu surového materiálu od dodavatele do výrobní haly, poté ho odpovědný
skladník naskladní a materiál je připraven ke zpracování na CNC strojích.
Diagram se skládá ze stavů (šestihran) a akcí (obdélník s kulatými rohy). Každou akci
vykonává určitý zdroj, v tomto případě je znázorněn externí pracovník při nakládání
materiálu. Nákladní automobil řídí externí řidič a naskladnění surového materiál provádí
67
interní skladník. Po složení materiálu externí řidič odjíždí z areálu. Pomocí přidělení zdrojů si
lze snadno převést konkrétní zdroje na finanční ohodnocení a toky.
Naskladněný materiál skladník postupně vozí na operativní místo poblíž obráběcích
center, kde jednotliví pracovníci přeměňují materiál ve finální díly. Zpracování materiálu
může začít až ve chvíli, kdy je stroj připraven. Z tohoto centrálního místa tedy materiál
prochází logickou podmínkou OR, kdy postupuje do jednoho ze tří strojů. Tyto stroje
vykonávají stejnou operaci, jsou tři pouze z důvodu výrobní kapacity.
Na schématu již není zobrazen proces dopravy hotových součástek do dalšího
zpracování, ale jednalo by se o podobný proces, jako představuje dovoz surového materiálu.
K tomuto logickému sledu jednotlivých aktivit je potřeba prostudovat existující data
jednotlivých činností obsažená například v ERP. Předpokladem pro správné nasazení DE
modelu je znalost dob trvání jednotlivých činností. Toto trvání může být sledováno různými
způsoby. V případě skladníka je měření obtížnější, ale dá se vycházet z rychlosti
vysokozdvižného vozíku, komplikovanosti skladových prostor apod. V této situaci by bylo
nejvhodnější jeho práci měřit dalším pracovníkem, aby se mohlo s touto dynamickou
veličinou dále pracovat. Čas zpracování výrobků je v tomto případě měřitelný relativně
snadno. Čas operací CNC stroje je naprogramován a obsluha stroje vykonává časově krátkou
podpůrnou činnost (usazení materiálu do CNC, vyjmutí hotového výrobku, položení na
paletu).
V případě, že máme nadefinovány veškeré operace a určené zdroje (materiálové či
pracovní), můžeme přistoupit k vytvoření simulačního modelu pomocí programu AnyLogic®.
Do tohoto konceptuálního modelu zavedeme dynamickou složku tak, že jej převedeme na
model diskrétních událostí. Proto jsou velmi důležitá reálná data, ze kterých čerpáme
informace o dobách trvání, rozdělení, spotřebě v čase atd.
Pomocí dostupných komponent z Enterprise library sestavíme na základě získané
dokumentace a analýz dat prototyp modelu, který bude pro klienta graficky atraktivní. Při
vývoji modelu je využit v programu plně objektový přístup. Díky tomu lze mnoho již
hotových částí procesů znovu využít. Sestavení modelu je díky grafickému vývoji velmi
rychlé a přehledné. Grafická reprezentace bude odrážet reálné dispozice výrobní haly, což
dává simulaci větší věrohodnost (vizuální). V této fázi prototypu není prioritou vysoká
přesnost modelu, ale hlavně logická a faktická přesnost komplexních situací. Tento
ilustrativní příklad není příliš komplexní, ale pro pochopení a demonstraci klientovi je velmi
vhodný právě svou jednoduchostí. Díky této jednoduché demonstraci klient dokáže snadno
rozpoznat, že model odpovídá reálné situaci.
Model diskrétních událostí v programu AnyLogic® bude mít následující podobu, viz
obrázek 34.
68
Obr. 34 DE model řešeného procesu ve výrobní hale (autor podle XJ Technologies)
Výsledný model diskrétních událostí zachycuje sled jednotlivých událostí včetně jejich
časových charakteristik. Diagram obsahuje prvky událostí (iniciační a finální), jednotlivé
aktivity (operace s materiálem/výrobkem), dopravníky a časové prodlevy. Zajímavostí je
vyjádření tří CNC strojů, které představují souhrnnou značku pro podproces. Ve fázi
prototypu by CNC stroj mohl být vyjádřen jako obyčejná aktivita, která trvá určitý čas. Tento
diagram je připraven na detailnější definování procesu každého CNC stroje. Časové
charakteristiky v podprocesu tvoří výslednou časovou charakteristiku CNC stroje.
Celý model spojuje tři oblasti: dodávka materiálu, výroba, další transport. Pomocí
simulace v tomto procesu lze sledovat chování zdrojů, kde dochází k hromadění a tvoření
front, případně kde je přebytek pracovníků a zda stroje běží na požadovanou kapacitu.
Takto nadefinovaný proces tvoří výpočetní jádro celé simulace. Pro prezentaci je však
vhodné jej převést do graficky srozumitelnější podoby, nejlépe do animovaného
trojrozměrného modelu. Vytvoření 3D modelu je velmi vhodné pro uvědomění si fyzikálních
vlastností zkoumaného procesu. V případě montážní linky nebo výrobní haly je tak možné
předejít mnoha situacím, na které by se mohlo narazit až reálným provozem. Právě to je jeden
ze silných argumentů pro zákazníka. Jedno z možných zpracování modelu do 3D podoby
ilustruje obrázek 35.
69
Obr. 35 3D simulace Discrete-Event modelu výrobní haly (AnyLogic®)
Na obrázku je zobrazena v symbolickém provedení továrna, ve které se simulovaný
proces odehrává. Klient má díky této prezentaci dobrou představu o tom, jak materiál
postupuje jednotlivými kroky a kde může docházet k hromadění výrobků.
4.4.3 Ovládání simulačního modelu
Sestavená simulace, která představuje formální model řešeného procesu, reaguje na základě
vnitřních parametrů modelu (procesu). Výpočetní jádro simulace obsahuje zakomponovaná
pravidla a jednotlivé vazby ovlivňujících faktorů. Samotné parametry, které mají na simulaci
vliv, vycházejí z běžných reálných hodnot. Právě tyto hodnoty (parametry) lze měnit a
zjišťovat tak chování celého procesu. To nám umožní identifikovat faktory, které mají malý či
zásadní vliv na chod celého procesu. Tím, že model obsahuje nadefinované znalosti v podobě
vnitřních pravidel, lze jej využít pro analýzu a řízení na základě modelu, což představuje
nejefektivnější způsob managementu.
Jednotlivé parametry, které lze v rámci této simulace definovat a měnit:








interval dodávek materiálu,
interval odvozu hotových součástek,
kapacita palety,
kapacita kamionu,
počet vysokozdvižných vozíků,
rychlost kamionu, VZ vozíku,
rychlost pracovníka,
zpoždění při naskladňování/vyskladňování materiálu,
70

čas zpracování materiálu (nejkratší, průměrný, nejdelší) apod.
Tyto vnitřní parametry jsou v simulaci ovládány přes prezentační vrstvu modelu. Proto
lze některé parametry nastavit konstantní a některé zpřístupnit uživateli ve formě ovládacího
prvku v dashboardu simulace. Podrobnější rozbor možností uživatelského prostředí simulací
bude probrán v samostatné kapitole.
4.5 Úprava a zdokonalení modelu pro reálné nasazení
V případě, že je předchozí fáze prototypu modelu úspěšná a klient je přesvědčen o užitečnosti
celého řešení, je potřeba znalostní model zpracovat do co nejlepší možné míry. To
představuje využití všech dostupných informací a znalostí zainteresovaných lidí. Toto platí
pro model, který vzniká na základě existující situace a jehož účelem je tuto situaci zlepšit či
jiným způsobem řešit a optimalizovat.
V této fázi ladění modelu je tedy vhodné využít veškerých dostupných analýz, které již
k danému problému existují. Lze mezi ně zařadit existující:





náčrty, hrubé plány procesů,
existující analýzy prvků v modelu (stroje, aktivity, pracovní zdroje),
audity klíčových parametrů,
všechny analytické výstupy ve formě diagramů
jakékoliv další existující analýzy.
Díky existenci výše uvedených zdrojů informací se lze rychleji dostat do fáze
konceptuálního modelu a pomocí DE modelování převést na kvalitní formální model, který
lze dále využívat k simulaci či monitoringu a analytice.
Pokud máme k dispozici analytické výstupy ve formě diagramu (EPC, UML, ARIS,
BPMN), lze z těchto dokumentů vytěžit cenné informace a znalosti. Právě tyto znalosti jsou
implementovány do znalostního modelu. V praxi bychom nejspíš nenašli situaci, kdy by
existovala pouze data, ke kterým by neexistovaly informace, a nenašel se člověk, který má o
datech určité domény patřičné znalosti.
Z pohledu dodavatele i klienta je existence těchto podpůrných dokumentů v jakékoliv
formě velmi vítaná, protože v důsledku dochází ke zkrácení potřebného času na vývoj
znalostního modelu (případně zbyde více času na potřebnou validaci a verifikaci). Proto je
z pohledu dodavatelské firmy vhodné navrhnout nástroj pro procesní management v případě,
že jej klient nemá.
Pokud by klient disponoval pouze daty a neměl kompetentního člověka s potřebnými
znalostmi problematiky, představovalo by to problém hlavně pro dodavatele řešení. Tento
případ by naznačoval nedostatečné přidělení odpovědností za proces, což je v praxi reálný jev.
V takové situaci by bylo prakticky na dodavateli řešení, jak potřebné znalosti získá či odvodí.
Samozřejmě k tomu lze využít již popsaných metod statistiky a zejména Data Mining, díky
kterému lze odvodit vztahy a pravidla v poskytnutých datech. Nicméně v tomto případě se
dodavatel vystavuje riziku, že dodávané řešení neponese patřičný efekt a bude nákladnější,
71
což může být ve výsledku vyhodnoceno jako neúspěšný projekt a nemusí být ani dokončen.
Právě tato situace naznačuje důležitost vhodných expertů či expertních analýz. Data zde
přesto hrají velmi důležitou roli a to ve fázi validace a verifikace znalostního modelu.
Ve chvíli, kdy dodavatelská firma využila veškerých dostupných informací a znalostí při
tvorbě znalostního modelu, je nutné ověřit jeho správnost a přesnost.
4.6 Validace a verifikace znalostního modelu
U sestaveného modelu je nezbytně nutné ověřit jeho logickou správnost a přesnost podle
specifikovaných požadavků. K tomuto účelu slouží validace a verifikace modelu.
Za validní znalostní model považujeme takový model, který odpovídá představám
uživatele a je v souladu s jeho očekáváním a jeho specifikací.
Verifikací vytvořeného modelu ověříme jeho pravdivost na základě konfrontace
s reálnými situacemi. Tento postup by se měl zaměřit na faktickou správnost sestaveného
modelu a ověřit platnost očekávaných axiomů. Toho lze docílit, jak bylo již zmíněno,
vystavení modelu extrémním situacím. Například testujeme, jak se model chová v případě
selhání určitého kritického prvku v procesu, což by mělo mít logický důsledek v nulovém
výstupu a nahromadění v zásobníku (frontě) před tímto porouchaným prvkem. Tato verifikace
by měla probíhat na základě expertních úsudků a předpokladů, proto je vhodné využít týmu
odborníků s jejich názory.
Znalostní model sestavený pomocí jazyka diskrétních událostí lze dobře ověřit na
základě reálných dat. Pokud máme v tomto případě záznamy z provozu, které zachycují
ovlivňující proměnné vstupující do modelu, lze výsledek modelu a očekávaný výsledek
(reality) snadno vzájemně porovnat. Pokud jsou reálné vztahy v procesu správně
implementovány do znalostního modelu, měly by si výstupy odpovídat.
Ve fázi verifikace se znalostní model může konfrontovat s dalšími analýzami. Výstup
znalostního modelu by tedy měl odpovídat výstupu modelu sestaveného pomocí statistických
metod či Data Mining modelu.
Statistické analýzy a DM model jsou provedeny na reálných datech, které zákazník
poskytne dodavateli k provedení auditu. Dostupnost, kvalita a dostatečné množství těchto
analyzovaných dat je důležité pro co nejlepší verifikaci modelu.
4.6.1 Verifikace znalostního modelu pomocí Data Mining modelu
V celém procesu tvorby znalostního modelu je velmi vhodné využit Data Mining. Pokud je
dodavatelská firma vystavena situaci, kdy musí co nejvíce znalostí získat na základě
předložených dat z řešené úlohy či jiného komplexního problému, lze na základě metod Data
Miningu extrahovat vzory a vztahy mezi těmito daty. Pro řešení tohoto konkrétního projektu
výrobního procesu firmy ABC stroj, s. r. o., který představuje úlohu vstupujících proměnných
(klíčových faktorů procesu) a výstupu hotových dílů, lze ideálně využít již zmiňovanou
regresi. Pro relativně snadnou úlohu, jako je tento modelový proces výrobní firmy, je vhodné
použít lineární a nelineární regresní metody.
72
Pokud se nám podaří k řešené úloze najít DM model, který bude dostatečně přesný a
robustní, lze jej použít jako alternativní prostředek pro porovnávání přesnosti námi
sestaveného znalostního modelu. Nejkvalitnější DM model můžeme vybrat například podle
hodnotícího kritéria ROC křivky, která byla vysvětlena v teoretické části Data Miningu.
Tento DM model nám tedy může dobře posloužit pro porovnání výstupů vůči
znalostnímu modelu. Pokud je DM model typu regresního stromu, lze navíc ověřit
indukovaná pravidla. Indukovaná pravidla, která se model naučil z pozorovaných dat, lze
porovnat s námi definovanými pravidly (např. názory expertů), která jsou použita ve
znalostním modelu. Tím dochází k ověření, zda pravidla námi předpokládaná jsou obsažena i
v reálných datech. Tento fakt dobře ilustruje podobnost DM modelu a znalostního modelu,
kdy by měly oba modely na stejných datech předpokládat stejný výsledek (nebo alespoň
velmi podobný).
V případě, že DM model vznikne pomocí metody neuronové sítě, je interpretace tohoto
modelu velmi omezená – jedná se o typ modelu black box, do kterého standardní cestou
nevidíme. Nelze jej snadno převést na pravidla if-then, která lze vyčíst z modelu
rozhodovacího stromu.
Nicméně i model sestavený pomocí neuronové sítě lze dobře využít pro porovnání
sestavovaného znalostního modelu. Model neuronové sítě má typickou vlastnost výborné
interpolace a v některých situacích proto může tento typ modelu dávat nejlepší skóre ohledně
přesnosti modelu. Přesný a validní Data Mining model můžeme tedy využít jako alternativní
analýzu a porovnávat snadno výstupy DM a znalostního modelu.
Validitu samotného DM modelu lze snadno ověřit na základě dostupných dat, proto můžeme
při porovnání s validním DM modelem rychle rozhodnout, zda je znalostní model kvalitní či
ne. Tyto Data Mining modely se navíc mohou ve firmě již vyskytovat, stejně jako jiné typy
analytiky. Pokud tedy klient již využívá procesní management a k řešené situaci existuje DM
model, je pro dodavatele relativně snadné vytvořit znalostní model a ověřit jej.
Této koexistence DM modelu a znalostního (KM) modelu lze využít i v případě, kdy se
DM model sám dodatečně validuje. U zákazníka, kde se DM model používá ke skórování dat
v databázi, se může průběžně ověřovat přesnost hodnotícího DM modelu automaticky. Pokud
tedy v námi řešeném procesu dochází k postupným změnám, kterou může představovat
klesající výkonnost určitého stroje, dochází ke snižování přesnosti znalostního i DM modelu.
Tím, že DM model prochází automatickou validací lze tedy přimět DM model k novému
naučení a zároveň poslat požadavek na změnu znalostního modelu, kterou má v našem
případě na starost dodavatelská softwarová firma Data XYZ, s. r. o.
Další možná situace pro dodavatelskou společnost může nastat, pokud klient řeší určitou
problémovou oblast, ke které má veškerá související data a považuje je za velmi cenná.
Samozřejmostí je v tomto případě naprostá mlčenlivost vůči konkurenci klienta, přesto může
mít zákazník takový požadavek, že s daty se může pracovat pouze pod jeho dozorem v místě
firmy klienta.
73
Nás jako dodavatelskou firmu vcelku nezajímají konkrétní data, ale právě vztahy dat a
dále získané znalosti. V této situaci by nám mohl Data Mining pomoci k vytvoření DM
modelu, který budeme používat jako referenční model při testování námi sestaveného
znalostního modelu. Samozřejmostí je, že výsledný DM model, podle kterého budeme KM
model porovnávat, bude přesný a validní dle specifikací. Možností pro další využití Data
Miningu existuje mnoho, zejména v dalších oblastech, které by se u této výrobní společnosti
daly v budoucnu řešit.
V tomto navrhovaném řešení bude DM model využit jako podpora implementovaného
znalostního modelu do existujícího Business Intelligence řešení klienta.
4.6.2 Dostupné nástroje pro Data mining
Pro zkoumání dat pomocí metod Data Miningu lze využít mnoha dostupných nástrojů.
Nástroje pro DM se liší svým zaměřením. V případě projektů dolování dat na nepříliš velkých
datových souborech lze využít volně dostupné programy (Open Source). Po podrobném
zkoumání dostupných nástrojů lze jednoznačně doporučit zejména program WEKA, který je
velice přehledný a pro začínající DM analytiky je nejvhodnější. Obsahuje všechny důležité
nástroje pro přípravu dat, klasifikaci, regresi, shlukování, asociační pravidla a vizualizaci dat.
Obrovskou výhodou pro vývojovou firmu je fakt, že WEKA obsahuje přístupné API,
díky kterému lze využít všech nástrojů programu přímo v kódu vyvíjeného nástroje pro
klienta. V tomto řešeném projektu by se tedy knihovna programu WEKA dala velmi snadno
využít k automatizovaným analytikám. K programu dále existuje velké množství
dokumentace a díky své otevřenosti jej lze nalézt v mnoha dalších projektech, jako například
volně dostupná řešení Business Intelligence (Pentaho), kde slouží jako analytický nástroj.
Nevýhodou tohoto nástroje může být rychlost. Díky tomu, že program je napsán
v jazyku Java, lze jej provozovat na jakékoliv platformě, ale jedná se o interpretovaný jazyk a
je proto nutný program, který Java kód provádí (interpretuje). Tento fakt se neprojeví na
malých projektech, ale v případě větších datových souborů (více jak 1 mil. záznamů) se
rychlost projeví, stejně tak náročnosti paměti a další související problémy. Toto omezení je
v dnešní době velmi relevantní díky obrovskému množství dat, které firma produkuje.
V rámci volně dostupných nástrojů se v poslední době velmi prosazuje nástroj Rapid
Miner. Tento program je také napsán jazykem Java, ale obsahuje další rozšíření, díky kterým
umí pracovat s velkými daty. Bonusem je plná integrace všech nástrojů z programu WEKA.
Lze jej použít jako samostatný analytický nástroj či jako výpočetní engine pro vlastní
aplikace, stejně jako v případě předchozího programu. Podle serveru KDnuggets je Rapid
Miner od roku 2010 jedničkou v Data Mining a analytických projektech.
Na základě vlastních zkušeností se jedná o velmi přehledný program, kde se projekt tvoří
formou grafického workflow. Tento koncept tvorby DM projektu je tedy stejný, jaký
používají ostatní komerční programy. Lze využít mnoha doplňků, které usnadní konkrétní
úlohu. Program existuje ve volně šiřitelné verzi, která ale neobsahuje doplňky napojení na
komerční datová úložiště a hlavně je bez rozšíření Hadoop (Big Data).
74
Nejvíce flexibilním, ale zároveň nejdražším řešením, je program od společnosti SAS
Institute Inc. Statistický program této americké společnosti, která vznikla v roce 1976, je mezi
statistiky velmi známý. Představuje z pohledu funkčnosti a výkonu naprostou špičku. Kromě
vývoje statistického a analytického softwaru se tato společnost soustředí na tvorbu Business
Intelligence platformy, kde nabízí další uplatnění svých pokročilých analytických nástrojů.
Nástroj této firmy pro Data Mining je SAS Enterprise Miner. Tento nástroje se skládá
z grafického prostředí (Java klient), který běží na uživatelově pracovní stanici a všechna
výpočetní síla je na straně serveru. Tím je dobře vyřešen požadavek výkonnosti v rámci
opravdu velkých projektů. Výpočetní server, který se může skládat z velkého počtu procesorů
a s řádově desítkami GB paměti může provádět in-memory či in-database analytiku. Analýza
dat může probíhat nad existující databází jakéhokoliv výrobce nebo nad databázovým
serverem od SAS (Teradata). Tento program je spíše pro ilustraci skutečného enterprise
řešení, svými náklady na pořízení přesahuje možnosti malých firem. Řádově se cena za
licenci pro stanici pohybuje mezi 20 000 – 30 000 USD za první rok, dále roční platba klesá
(cca 25 -35 % pořizovací ceny). I když nejsou ceny k SAS Enterprise Miner zveřejněny, podle
neoficiálních informací se cena serverového řešení pohybuje cca 100 000 USD za 5 licencí
pro první rok, následně se platí procentní podíl každý rok. Nicméně současné licencování na
míru přesným požadavků se může velmi lišit a reagovat tak na podstatně levnější konkurenci.
Obecně lze tedy říci, že se z pohledu DM jedná o nejdražší řešení a setkat se s ním lze pouze
na univerzitách či ve velkých korporátních společnostech.
Posledním nástrojem je DM platforma v podání společnosti Microsoft. Nástroj je
integrován přímo do produktu MS SQL Server 2012, který zmiňovaná dodavatelská firma
Data XYZ, s. r. o., běžně používá k implementaci Business Intelligence řešení. Právě tato
dostupnost a těsná provázanost s kvalitním databázovým serverem je podle názoru autora
nejlepším možným řešením pro komerční nasazení DM modelů. Data Mining projekt se řeší
v prostředí SQL Server Data Tools a nabízí všechny potřebné algoritmy a hodnotící techniky
(klasifikační matice, ROC křivka, lift křivka, rozbor rozhodovacího stromu).
I v případě, že dodavatelská softwarová firma nemá licenci MS SQL Server a přesto
chce poskytovat služby v Data Mining analytice a vyvíjet DM modely, vychází toto řešení na
částku 9 637 USD pro server a 5 klientů (typ licence CAL) – navíc oproti SAS Enterprise
Miner získá jako bonus licenci na plnohodnotný databázový server. Výpočet vychází podle
aktuálního licenčního modelu firmy Microsoft pro rok 2013. Přestože toto řešení nedosahuje
všech předností specializovaného řešení od SAS, jedná se o velmi kvalitní a relativně levný
nástroj pro profesionální použití.
4.7 Integrace znalostního modelu do existujícího BI řešení
V tuto chvíli bychom měli mít z původního prototypu modelu validní a robustní znalostní
modelu, který se bude dále integrovat pro reálné využití ve výrobní firmě.
Celé řešení je postaveno na tří vrstvé architektuře, kdy základní datovou vrstvu u klienta
představuje jeho existující ERP systém a datový sklad. Již bylo zmíněno, že klient disponuje
existujícím Business Intelligence řešením. Proto úkolem dodavatele je toto BI řešení rozšířit o
75
znalostní vrstvu, tedy validní znalostní model, který je dostatečně robustní pro plánování za
různých podmínek.
Při implementaci znalostního modelu hrozí riziko, že uživatel nástroje přijme chování a
pravidla simulačního modelu jako naprosto pravdivá, bez ohledu na realitu. Tento znalostní
model je postaven tak, aby dával co nejvěrnější obraz reality a uživatel se na něj mohl
v maximální možné míře spolehnout, přesto je nutné pamatovat na reálnou změnu podmínek
všech vstupujících parametrů či jejich vztahů, které k dynamickému prostředí patří.
Pro tyto účely dodatečného ověřování platnosti modelu je současně dodán Data Mining
model, kterým prochází také vstupní parametry. Myšlenka duálního nasazení DM i KM
modelu spočívá ve vzájemné verifikaci. Pokud budou po určitý čas oba modelu správně
predikovat výstupní hodnoty na základě reálných parametrů, je vše v pořádku a lze používat
znalostní model k simulování různých situací.
Ve chvíli, kdy se oba modely začnou odchylovat od skutečných výstupů, je zde jasný
indikátor k úpravě znalostního modelu a k novému naučení Data Mining modelu. Tato situace
by naznačovala, že v reálném procesu došlo ke změnám, které při původním zpracování
modelu neexistovaly. Pokud by nastala situace, že DM model bude predikovat správné
hodnoty ve vztahu s realitou a znalostní model se začne lišit, může to znamenat, že ve
znalostním modelu je opomenut určitý vztah a znovu se tato situace stává indikátorem
k úpravě znalostního modelu. I když je důsledek uvedených situací vždy stejný a tím je
úprava KM modelu, máme díky této kombinaci jasnější představu, na základě jaké události
vznikla potřeb úpravy znalostního modelu. Tato informace je využitelná pro dodavatelskou
firmu, která celé analytické řešení spravuje.
Jak dojde k implementaci znalostního a DM modelu do existujícího Business
Intelligence řešení ilustruje následující obrázek 36.
76
Obr. 36 Architektura řešení se znalostní vrstvou a DM modelem (autor)
Na obrázku je znázorněna architektura, která se použije při nasazení zkonstruovaného
znalostní modelu. Paralelně je již ze zmíněných důvodů nasazen i DM model. Datová vrstva
je plněna sběrem údajů z reálného prostředí, konkrétně v tomto projektu se jedná o parametry
výrobního procesu, jejichž výsledkem je výstup strojních součástí.
Tento sběr reálných dat je velmi důležitý v celém procesu, proto je zajištěno pomocí
datové integrace skutečné komplexní sledování všech veličin. Nasazení čárových kódů je
samozřejmé. V případě nutnosti a lepší sledovatelnosti operací je možné dále nasadit RFID
čipy, díky kterým lze sběr dat ještě více zautomatizovat.
V datové vrstvě tedy máme k dispozici všechna potřebná data, která vstupují v rámci
dalšího zpracování do logické vrstvy. V tradičním Business Intelligence řešení je využita
77
pouze běžná transformace, například agregace a různé poměrové ukazatele. V řešeném
projektu, který je zasazen spíše do oblasti Operational Intelligence, mohou být data do
prezentační vrstvy posílána bez jakékoliv transformace. Tuto tradiční cestu dat představuje
levá polovina schématu, která je oddělena vertikální přerušovanou čarou.
Na schématu jsou naznačeny sledované parametry ( – ) a výstupní sledovaná veličina
. V tradičním pojetí BI tyto vstupní parametry a závislou výstupní proměnnou hodnotí řídící
pracovník, musí dobře znát proces a jednotlivé vazby, aby mohl plánovat změny pro lepší
(efektivnější) výstup. Tyto údaje běžné BI řešení nabízí formou tabulek či dashboardů, které
jsou pouze pro čtení (read-only) a nedovolují žádnou interakci uživatele a poskytovaných
informací. V případě změny odpovědného pracovníka, který proces řídí, může dojít
k nesprávnému pochopení jednotlivých vztahů ovlivňujících faktorů a proces nemusí mít
dostatečně efektivní výstup jako v případě velmi zkušeného pracovníka (v praxi velice běžné).
Na základě těchto chybných rozhodnutí o alokování zdrojů dochází k dodatečným nákladům a
celá situace se promítne do ziskovosti řešených zakázek, které prochází tímto řízeným
procesem.
Pravá strana schématu obsahuje v logické vrstvě zakomponovaný znalostní a Data
Mining model. Jak je z obrázku patrné, dochází ke stejnému využití vstupních parametrů jako
u tradičního řešení. Znalostní model v logické vrstvě tvoří výpočetní jednotku (back-end),
který je dále využíván prezentační vrstvou a vstupem ze strany uživatele (front-end).
Mezi front-end aplikací ve formě dashboardu a znalostním modelem dochází
k obousměrné datové komunikaci. Dashboard dostává informaci o skutečných hodnotách
parametrů, které pochází z ERP/DW a uživatel vidí klasický pohled na ukazatele jako při
tradičním BI řešení. Druhý směr komunikace (front-end  back-end) zajišťuje interakci
uživatele a dat, aby mohl simulovat různé změny vstupujících parametrů. Při výchozích
hodnotách, které znalostní model dostává z datové vrstvy, produkuje model výstupní hodnotu
na základě vložených znalostí a měl by odpovídat realitě (pokud je validní). Tuto situaci
představuje na obrázku 36 graf v dashboardu na pravé straně (realita + simulace).
V okamžiku, kdy uživatel změní výchozí hodnotu vstupního parametru, dojde pomocí
výpočetní jednotky KM modelu k predikci výstupní hodnoty. Tento moment je v grafu
vyznačen tečkovanou vertikální čarou, na pravé straně od čáry se nachází simulovaná hodnota
(červeně). Změnu tedy uživatel provádí do podobného či úplně stejného dashboardu, na který
byl zvyklý z předchozího BI řešení. Změnou je pro něj možnost plné interakce, kdy okamžitě
vidí výsledek svého rozhodnutí a může tak plánovat různé kombinace na základě aktuální
situace. Může tak reagovat například na úbytek pracovníků, poruchu VZ vozíku, poruchu
jednoho ze tří uvažovaných CNC strojů a mnoho dalších situací. Pro uživatele tento nástroj
tvoří v podstatě „hru“, díky které si může vyzkoušet svá rozhodnutí na aktuální situaci, aniž
by toto rozhodnutí musel nejprve zavést do reálného provozu. Tím se může vyhnout
nechtěným komplikacím, nebo naopak může dosáhnout lepšího výsledku pomocí více změn,
než měl původně v úmyslu zavést.
78
V této fázi implementace nastává otázka, jak vyřešit uživatelské prostředí, aby propojení
reality a simulace bylo efektivně použitelné a nemohlo dojít k jakékoliv záměně dat. Uživatel
v tuto chvíli pracuje s reálnými daty a simulovaná data by mohla být příčinou omylu.
Navrhované řešení v tomto projektu je takové, že znalostní model běží ve výchozím
stavu souběžně s reálnými daty, v grafu výstupní hodnoty se simulovaný výstup graficky
nezobrazuje. U modelu v tuto chvíli dochází pouze k porovnávání reálného výstupu a
predikovaného na základě reálných dat. V případě odchylek mohou interní procesy vyvolat
nějakým způsobem potřebu úpravy modelu, jak již bylo zmíněno.
Ve chvíli, kdy uživatel potřebuje simulovat nějaké rozhodnutí jako přípravu pro skutečné
nasazení změny, spustí explicitně simulaci a dashboard zobrazí upozornění, že některé
skutečné parametry jsou simulovány na jiné hodnoty, tím se spustí i srovnání reálného a
simulovaného výstupu do grafu. Z grafu a případné odchylky si pracovník udělá obrázek,
jaký dopad bude mít jeho rozhodnutí a pokud to bude výhodné, tuto změnu zavede.
Uživatel, který simuluje zamýšlenou změnu, v tuto chvíli využívá implementované
znalosti expertů, které KM model obsahuje. V tomto řešeném projektu nemusí být zmiňovaná
výhoda natolik zřejmá, jako v případě vysoce komplexních operací a procesů, kde by měl i
zkušený uživatel problém s „kvalitním“ rozhodnutím. Pokud je manažer vystaven časovému
tlaku, nemusí se díky znalostnímu modelu rozhodovat na základě intuice. Rozhodování na
základě intuice může být efektivní pouze do určité míry složitosti úloh, ale pokud se jedná o
velmi provázané vztahy mezi elementy, nemůže manažer vzít v úvahu všechny ovlivňující
faktory pouze na základě intuice. Výhody tohoto řešení rostou právě s rostoucí komplexností a
nelinearitou systému.
Pro analytika, který má praktické zkušenosti s operačním výzkumem, by mělo být toto
propojení reálných dat a znalostního modelu vcelku logické a srozumitelné.
Náhled možného řešení uživatelských vstupů a sledování vytíženosti jednotlivých zdrojů
v řešeném procesu ilustruje následující obrázek 37.
79
Obr. 37 Uživatelské rozhraní pro ovládání KM modelu (XJ Technologies)
Na obrázku je zachyceno prostředí, které umožňuje zadávání klíčových parametrů do
modelu (front-end). Uživatel má k dispozici informace z reálného provozu ve formě
výchozích hodnot parametrů a v hlavní sledované metrice tohoto panelu má přehled o časech
jednotlivých úkonů. Tyto časy jednotlivých procesů v součtu udávají celkový čas, který je
potřeba k produkci dílů. Jednotlivé časy se mohou v průběhu měnit, na což uživatel reaguje
změnou některých parametrů procesu. V tomto případě má možnost volit:




čas mezi příjezdy dodavatelského kamionu s materiálem,
počet dostupných VZ vozíků pro manipulaci s materiálem a hotovými díly,
čas mezi příjezdy kamionu pro odvoz hotových dílů,
čas potřebný pro zpracování dílu.
Na základě empirických výzkumů mají jednotlivé zdroje určenou pracovní kapacitu,
kterou následně uživatel vidí přehledně ve formě aktuálního vytížení prostředků. Vidí tak
například využití skladového prostoru, využití VZ vozíku a vytíženost tří CNC strojů.
4.7.1 Další existující nástroje pro sestavení modelu
K samotnému vývoji znalostního modelu je v tomto řešení využit nástroj AnyLogic®
z důvodu snadného vývoje simulačního modelu. Díky grafickému návrhu se logika KM
modelu navrhuje velmi rychle a snadno se upravuje. V praxi existují ještě další možnosti, jak
vytvořit znalostní model typu Discrete Event a nasadit jej. Existují další komerční či volně
dostupné knihovny, kde se návrh logiky píše formou kódu. To znamená kromě definování
jednotlivých prvků a aktivit pomocí kódu také vytvoření jednotlivých spojení (hran). Problém
u větších projektů, které má dodavatelská firma Data XYZ, s. r. o., řešit, by při využití
negrafických knihoven představovala samotná údržba hran mezi aktivitami a prvky.
80
V případě jednoduchého procesu, jako je uváděn v tomto projektu, by napsání modelu pomocí
knihovny SharpSim© (jazyk C#) zabralo sice delší čas oproti návrhu modelu v AnyLogic®,
ale stále by byl tento model snadno udržovatelný. S narůstající složitostí procesu by udržování
modelu pomocí psaného kódu bylo velmi neefektivní a pomalé. Proto je výhodnější používat
pro tyto návrh modelů grafické nástroje, jako například SIMUL8 či zde uvedený AnyLogic®.
Program SIMUL8 sice neumí kombinaci metod modelování jako AnyLogic®, ale
disponuje obrovskou výhodou ve formě snadného importu navrženého procesu pomocí
BPMN 2.0, což je běžný standard pro navrhování podnikových procesů. Lze tak navržené
procesy rozhýbat v čase a sledovat chování procesů v systému. Program AnyLogic® neumí
importovat tuto standardní notaci a místo toho využívá svou vlastní, odvozenou od
Real-Time UML.
4.8 Rozšíření znalostního modelu
Řešený problém pro výrobní společnost ABC stroj, s. r. o., představuje jasně ohraničenou
činnost, která se v rámci celé firmy (systému) nachází. Z pohledu horizontální rozšiřitelnosti
KM modelu lze uvažovat o snížení abstrakce a zakomponování ještě většího detailu až na
úroveň aktivit, které nelze dále dělit. V navrhovaném modelu je tato situace nastíněna u
aktivit CNC strojů, které jsou ve fázi prototypu modelu vyjádřeny obecným časem trvání
zpracování materiálu. Tato aktivita CNC stroje se dá v případě potřeby dále rozdělit na
podproces, který lépe vystihne reálnou situaci. To, do jaké hloubky se řešený model bude
rozvíjet, je otázkou zkušeností dodavatele a na posouzení, zda zavedení hlubšího detailu
přinese nějaký užitek. Z praktického hlediska se zavádění hlubšího detailu projeví na
nákladech pro klienta, protože pro konstrukci a validaci modelu bude potřeba více času. Na
druhou stranu při zavedení hlubšího detailu do procesu se model stane více robustním a
teoreticky by měl mít delší životní cyklus, než jej bude nutné upravit poskytovatelem KM
modelu.
Ve výchozí situaci výrobní firmy je zmíněn požadavek na optimalizaci využití
existujících skladových prostor, které se nenacházejí v místě sídla společnosti. Tento úkol by
se dal řešit obdobně jako ukázkový proces ve výrobní hale, tedy pomocí diskrétních událostí a
simulace. Celý proces od prototypu modelu až po implementaci do existujícího informačního
systému by byl prakticky stejný. V této chvíli by existovaly dva nezávislé modely pro řešené
oblasti zájmu a pravděpodobně i dvě rozdílné odpovědné osoby za tyto procesy.
Zmiňovaná výrobní firma produkuje svou činností součásti, které dále skladuje a
distribuuje odběratelům. K tomu využívá svůj větší sklad, který je kapacitně naddimenzován,
a proto jej chce nabídnout k logistickým službám dalším zájemcům.
Jednou z možných variant využití těchto dvou existujících KM modelů (výroba a
logistika) je jejich propojení. Tím by firma dostala jasnější obrázek toho, jaké kapacity může
nabídnout externím zájemcům v závislosti na své výrobě. Může tak provádět co-když analýzy
a zkoumat různé situace na základě scénářů. To jí pomůže v identifikaci potenciálních
problémů a rizik.
81
V extrémní situaci by firma mohla mít zaznamenány všechny procesy pomocí
znalostních modelů, a pokud by je propojila, tvořil by takový model celé firmy nejvyšší
možnou znalost o komplexním fungování této firmy. Pak by se jakákoliv změna mohla
projevit díky komplexní provázanosti všech činností. Tato situace představuje opak druhého
extrému, kdy firma disponuje množstvím dat bez znalosti jednotlivých vztahů, tedy chaosu.
V realitě by se nám nejspíš nepodařilo najít ani jeden z uvedených extrémů. Většinou se řeší
pomocí simulace a pokročilých technik situace, pro které se to nejvíce hodí.
Další variantou rozšíření znalostního modelu je jeho vertikální expanze. Vertikální
rozšíření by mohlo představovat napojení výrobní firmy na externí prostředí. Do propojení
s externím prostředím je potřeba zapojit i další metody modelování, tedy systémovou
dynamiku či agentově orientované modely. U externích vlivů a procesů nás už nemusí zajímat
přílišná detailnost a z tohoto důvodu je snadnější využít jazyky vyšší abstrakce.
Výrobní firma například uvažuje o zavedení nové výrobku pro koncové zákazníky, a pro
lepší naplánování marketingových aktivit si nechá zpracovat model pro řešení tohoto
problému. Tento model představuje pro marketing typický Bassův difúzní model. Výrobní
firma si jej nechá sestavit pro situaci, kdy zákazníci mohou nakupovat i opakovaně stejný
produkt (například se spotřebovává). Ve svém marketingovém oddělení bude tedy plánovat
reklamu, kterou zaměří na potenciální zákazníky. V rámci kampaně přemýšlí i využití WOM
(Word Of Mouth) marketingového nástroje. Tento model sestavený pomocí systémové
dynamiky by následně vypadal tak, jak jej ilustruje obrázek 38.
Obr. 38 Bassův difúzní model s opakovaným nákupem (AnyLogic®)
Uvedený model představuje formální vyjádření problematiky nasycování (difúze) trhu
vyráběným produktem, kdy na jedné straně existují potenciální zákazníci a na druhé již
osvojení zákazníci. Druhá skupina hotových zákazníků představuje díky zakomponování
82
opětovného nákupu další obchodní příležitost, která se odvíjí na mnoha dalších faktorech
(kvalita výrobku, loajalita ke značce a další).
Zmíněný model tedy výrobní firma využije ve fázi plánování a následně si jej může
nechat implementovat do existujícího informačního systému a použít jej pro monitorování.
Prakticky tak svou strategii řídí podle modelu a následně tuto strategii upravuje v případě
vyskytujících se odchylek od modelu. Reaguje tak velmi pružně na rozdíl od situace, kdy by
kampaň byla naplánována a pak by se pouze provedlo vyhodnocení (např. za fiskální rok).
Model systémové dynamiky může firma využít i v jiných strategických plánech. Díky
systémové dynamice si lze strategická rozhodnutí vyzkoušet na simulaci a do „ostrého“
provozu aplikovat jen „ověřená“ rozhodnutí. Systémová dynamika poskytuje důležitou
informaci o tvaru křivky sledované veličiny. Výrobní firma tak může při plánování
dodavatelského řetězce zjistit rozkmitání systému, známé jako Bullwhip effect. Tento problém
rozkmitání se projevuje až postupem času, proto je pro identifikaci problému použití
systémové dynamiky ideální.
Poslední metodu agentově orientovaných modelů lze využít u řešené výrobní firmy
v mnoha situacích. Například v ukázkovém procesu výrobní haly může být CNC stroj
vyjádřen pomocí agenta. Toto propojení by mělo smysl v případě, že CNC stroj má mnoho
vnitřních stavů, které ovlivňují čas zpracování. Díky schopnosti agentových modelů pokrýt
širokou míru abstrakce je možné vyvinout řešený výrobní proces detailně pomocí agentů a
dále jej napojit na externí prostředí, které bude také vyjádřeno jako samostatné agenty
(konkurence, dodavatelé a odběratelé). Tato metoda jediná poskytuje možnost využití jediné
modelovací techniky v rámci vertikální a horizontální expanze modelu. Tento fakt je důležitý
zejména z pohledu použitého nástroje, protože agentových frameworků existuje větší
množství i volně dostupných. Naopak při propojování modelů diskrétních událostí, systémové
dynamiky a případně agentově orientovaných modelů je vývojář odkázán na jediný existující
software (při zachování agility a znovu použitelnosti). Jednou z variant napojení více modelů,
které pocházejí z různých nástrojů, je přes vytvořená datová rozhraní. Přes rozhraní mohou
modely v prostředí manažerského informačního systému komunikovat a předávat si data.
4.9 Náklady řešení projektu
Nasazení znalostního modelu není řešením pro každého. Stejně jako mnoho firem nemá ani
kvalitní Business Intelligence řešení, je nutné řešit vhodnost tohoto řešení individuálně a
velmi dobře zvážit, zda se takové řešení vůbec vyplatí.
Pro softwarovou firmu, která je v pozici dodavatele znalostního řešení, existuje v tomto
případě několik možností jak své služby v oblasti Knowledge Management nabídnout. Pokud
klient představuje malou či střední firmu, kde je analytická platforma řešena krabicovým
produktem například od společnosti Stormware či jiného dodavatele hotového BI řešení, nelze
očekávat vysoký zájem o toto řešení. Naopak větší firmy, zejména technologické či výrobní,
budou vhodnou cílovou skupinou pro poskytovatele znalostních nástrojů.
Z pohledu dodavatelské společnosti představuje poskytování Knowledge Management
nástrojů nutnost vlastnit vývojová prostředí a programy, pomocí kterých budou schopni tento
83
druh projektů řešit. Nástroje pro Data Mining již byly zmíněny a netvoří zásadní finanční
překážku, tedy pokud firma nebude trvat na využití programu SAS Enterprise Miner.
Z pohledu simulačních nástrojů je již situace jiná. Pro rychlý a efektivní vývoj je nezbytné
vlastnit některý z komerčních nástrojů, jehož výběr bude záviset na zaměření dodavatelské
firmy. Pokud se zaměří pouze na optimalizaci procesů ve výrobních podnicích a dodávku BI
řešení, vystačí si s rozšířeným programem SIMUL8 od americké společnosti SIMUL8
Corporation. Licence pro tento nástroje ve verzi Professional vyjde na 4 995 USD. Pořízení
takové nástroje proto není zátěží a lze jej velmi dobře využít pro rozšíření portfolia
analytických nástrojů. Znalostní modely lze pak snadno zákazníkovi implementovat do
dodávaného či existujícího Business Intelligence řešení. Nástrojů pro optimalizaci procesů
existuje celá řada, cenou však většinou přesahují zmiňovaný SIMUL8. Tyto nástroje
využívají metody diskrétních událostí.
V případě, že se dodavatelská společnost zaměří více na podporu strategického
plánování, je výběr vhodného nástroje podstatně užší. Prakticky má možnost výběru z
programů:



VenSim® – 1 licence pro komerční použití – 1 995 USD,
PowerSim Studio™ – 1 komerční licence + licence pro SDK – 16 457 EUR,
iThink® – 1 licence pro komerční použití – 1 899 USD.
Za pomoci těchto nástrojů může zákazníkovi poskytnout analýzu business problémů na
vyšší hierarchické úrovni, tedy ve strategické oblasti. Programy využívají metody systémové
dynamiky.
Pokud by se poskytovatel nástrojů znalostního managementu chtěl zaměřit na kompletní
pokrytí od strategické až po operativní úroveň, má pouze jedinou možnost ve volbě nástroje a
to program AnyLogic®. Licence tohoto nástroje ve verzi Professional přijde na 15 500 USD a
dále roční platba 4 900 USD za údržbu a technickou podporu. V rámci této licence dostane
firma 5 licencí pro spouštění simulačních aplikací, tedy využitelných pro klienty. Výstupy
programu v podobě Java appletů, které lze snadno integrovat do BI řešení vedle existujících
dashboardů, nejsou licenčně omezené.
Dodavatelská společnost tedy čelí rozhodnutí, na který segment se zaměří. V případě
velké konzultantské společnosti je ideálním řešením program AnyLogic®, pokud firma
disponuje odborníky se zkušenostmi z mnoha oblastí. Pro malou až střední dodavatelskou
firmu se jeví jako nejvhodnější řešení zaměřit se na oblast optimalizace procesů, která má
z pohledu zájmu klientů největší potenciál a lze ji prezentovat velmi přesvědčivě (virtuální
továrny, linky apod.). Rozšíření o tuto službu nepředstavuj pro dodavatele velké finanční
náklady a vytvářet simulace procesů lze velmi rychle.
Z pohledu zájemce o nástroje znalostního managementu přicházejí v úvahu dvě
možnosti, jak tyto nástroje získat a využívat. Jedna z možností je využití vlastních sil, tedy
získání odborného konzultanta, který je schopen řešit podobný typ projektů a umí vytvářet
znalostní modely na požadované úrovni řízení. Tento přístup následně vyžaduje pořízení výše
zmiňovaných nástrojů a potřebných licencí. Dále je potřeba myslet na nutnou integraci do
84
existujícího BI řešení, které se o tuto znalostní vrstvu rozšíří. Integrace vlastními silami
(zaměstnanci) nemusí dopadnout dobře a ve finále se může velmi prodražit.
Protože se jedná o specializované řešení, je vhodnější dodávku analytického nástroje
řešit s externí firmou, která má s tímto typem projektů zkušenosti. Klient se tak dozví, co
konkrétně získá, co mu takové řešení přinese (úsporu či jiný efekt) a jak dlouho bude vývoj a
integrace trvat. Následně je potřeba vyřešit i otázku údržby, která je v případě těchto
analytických nástrojů naprosto nezbytná z důvodu „zastarávání“ modelů.
Do nákladů u varianty spolupráce s externí firmou tedy mohou vstupovat potřebné
licence pro běh dodaných aplikací (runtime licence) a kalkulace projektu. Projekt bude trvat
podle náročnosti a hlavně podle výchozích podmínek určitý čas, který dodavatelská firma
vypočítá. Orientační cena senior analytika v oblasti modelování a simulace se pohybuje okolo
1 400 EUR na 1 den (cena společnosti CACIT Group). Následně cena vývoje a integrace bude
podstatně nižší, například běžně zhruba 600 EUR/man-day (člověkoden). Samozřejmě závisí
na dodavateli, jakou zvolí cenovou strategii. Vzhledem k povaze projektu a potřeby
dlouhodobé spolupráce je pro dodavatele důležitější vhodně zvolit pravidelné poplatky za
údržbu řešení a podporu. Proto může slevit ze své marže a poskytnout klientovi nižší sazbu
man-day při realizační fázi. Celkové náklady řešení se budou velmi lišit a zcela závisí na
složitosti zadaného úkolu a náročnosti integrace modelu. Nejvíce nákladné řešení by vzniklo
v případě komplexního modelu, který bude propojen na všech vertikálních úrovních
(strategická – taktická – operativní) a případně může být ještě napojen na externí prostředí
(dodavatelé, konkurence, legislativní omezení a další). Zde by se do nákladů velmi promítl
potřebný čas zkušených analytiků.
4.10 Posouzení efektivnosti
Na základě orientačních nákladů je potřeba posoudit, zda nabízený analytický model je
vhodný či nikoliv. Vhodnost nasazení nástrojů znalostního managementu se projeví zejména
u procesů tvořících core business společnosti. Tato hlavní činnost může být pro firmu natolik
důležitá, že se snaží co nejvíce minimalizovat a předpovídat rizika. Příkladem by mohl být
řetězec v automobilovém průmyslu, kdy nedodání potřebných součástí jedné firmy způsobí
problém firmě druhé. Z této situace může hrozit finanční pokuta za stojící linku odběratele či
hrozí riziko ztráty obchodního partnera. Ve vysoce konkurenčním prostředí je zejména druhý
fakt dostatečným důvodem, aby se společnost zaměřila na minimalizaci rizika svých hlavních
procesů. Pokud výrobní firma sestavuje nový výrobní proces, je pravděpodobné, že využije
možností simulace. Simulovaný proces lze sestavit velmi rychle a navíc v porovnání
s reálným experimentováním na skutečné lince je simulace velice levná a bezriziková. Pokud
už je simulační model vytvořen, představuje plán, který firma skutečně nasadí. Proto
integrace tohoto modelu představuje přirozený krok, jak provozní ERP systém monitorovat
tímto modelem a kontrolovat odchylky od plánu (modelu).
Zájemce o tento typ preskriptivní analytiky se tedy bude rozhodovat podle toho, jaký je
jeho postoj k riziku a jak si cenní svých klíčových procesů. Dodavatel by měl klientovi
ukázat, kde mu znalostní management přinese peníze, tedy v úspoře zdrojů (pracovních nebo
materiálních) či naopak ve větším zisku pomocí zefektivnění existujícího procesu.
85
Obecně společnosti, které považují podrobnou analytiku za velmi důležitou, tvoří
potenciální skupinu zákazníků pro dodavatele nástrojů znalostního managementu. Do
kladného posouzení efektivnosti znalostního nástroje se také může promítnout fakt, že klient
již disponuje platformou pro definice podnikových procesů, čímž urychlí celý proces vývoje
modelu a sníží tak finanční náročnost projektu.
V procesním managementu je dnes aktuálním tématem monitorování procesu, které lze
provádět například pomocí nástroje ARIS BPM. Procesy, které jsou ve formě konceptuálních
modelů, jsou navázány na reálná data. Dají se tak porovnávat například dvě pobočky
vykonávající stejný proces a zjišťovat vzájemné odchylky. K posouzení dvou reálných
procesů je potřeba mít určité znalosti.
Pokud se tento monitoring rozšíří o znalostní model, nemusí uživatel porovnávat dvě
pobočky mezi sebou a hledat problém, ale stačí porovnat každou pobočku se znalostním
modelem, tvořící referenční plán. Takové porovnání dokáže provést i uživatel bez zkušeností,
nebo ještě lépe tuto analýzu zautomatizovat a vytvořit výstrahu při odchylce v manažerském
dashboardu. Lze tak odborníky využít k účelnější činnosti, než k rutinním analýzám provozu.
86
Závěr
Cílem práce bylo ukázat nástroje a metody znalostního managementu v kontrastu se
stávajícími prostředky Business Intelligence řešení. Dále provést analýzu obchodní politiky a
implementační filozofie poskytovatele Knowledge Management řešení v souvislosti
s existující Business Intelligence infrastrukturou.
Cíl práce se skládal z řešení dílčích témat, která představovala:






rychlé vytvoření prototypu řešené úlohy pomocí jazyka Discrete Event, s následnou
horizontální a vertikální expanzí. Základním požadavkem byla agilita, atraktivita a
podpora ze strany dodavatele Knowledge Management vrstvy,
opakované využití výstupů analýzy stávajících ERP/BI řešení pro pevně daný
„back-end“, tvořený pomocí System dynamics, Discrete Event a Agent based
modelování,
role dat a výstupů datových analýz (statistických i Data mining) při tvorbě a validaci
znalostní vrstvy,
role expertů a týmů při validaci prototypu modelu i jeho následně rozšířené varianty,
problematika interaktivního dynamického uživatelského rozhraní,
zhodnocení účelnosti a účinnosti implementace znalostní vrstvy včetně orientační
analýzy nákladů.
V teoretické části byly popsány hlavní tři tematické okruhy, které vstupují do řešení
problematiky. První část představovala samotný popis Business Intelligence řešení, jeho
nástrojů a architektury. Další část tvořila oblast Data mining, která je v praxi využívána v BI
řešení a poskytuje zároveň velmi dobrý nástroj pro využití v oblasti znalostního
managementu. Třetí oblastí je téma Knowledge Management, které je předmětem řešení
práce. Každá ze tří částí je sama o sobě obsahově velmi náročná a rozsahem by vystačila na
samostatné řešení diplomové práce. Proto jsou jednotlivé části účelově zaměřeny pouze na
nezbytně nutné informace, aby pro případného čtenáře nepředstavovala neznalost tématu
překážku k celkovému pochopení integrace Knowledge Management vrstvy do architektury
Business Intelligence řešení.
Jednotlivá dílčí témata jsou řešena pomocí ukázkového projektu dodání znalostního
nástroje mezi imaginární výrobní firmou a poskytovatelem Knowledge Management vrstvy.
V tomto obchodním vztahu jsou ilustrovány jednotlivé koncepty, které by případný
poskytovatel mohl v praxi uplatnit. Ucelený projekt je zvolen z důvodu, aby si případný
zájemce o KM nástroj udělal ucelený pohled na danou problematiku.
Ačkoliv k tématu existuje velké množství dostupné literatury a kvalitních zdrojů,
v současné době žádný z velkých poskytovatelů Business Intelligence řešení v ČR
neposkytuje zároveň možnost nasazení Knowledge Management nástrojů. Většinou se
dodavatelé analytických nástrojů specializují na technickou dodávku BI architektury spolu
s integrací tradičních nástrojů deskriptivní, případně i prediktivní analytiky. Jejich řešení jsou
tak většinou založena na využití statistických a Data Mining metod. Téma integrace KM
87
vrstvy do BI řešení je tak z pohledu trhu relativně neznámé, což při správném uchopení celé
myšlenky představuje možnou konkurenční výhodu pro poskytovatele analytických nástrojů.
Aplikační část, která představuje řešení této práce, obsahuje autorem navrhovaný
koncept řešení celé dodávky znalostního nástroje a integrace do existujícího BI řešení
zákazníka. Důraz je přitom kladen na reálné požadavky trhu, to znamená zachování agilního
vývoje, dostupnost nástrojů a metod pro KM vrstvu, poskytování podpory k dodávanému
řešení a celkovou efektivnost a účelnost řešení. Z řešení dílčích témat vyplynuly následující
poznatky a postřehy.
Rychlé vytvoření prototypu DE modelu s následnou horizontální a vertikální expanzí, se
zachováním agility, atraktivity a podpory ze strany dodavatele KM vrstvy.
Při řešení tohoto dílčího konceptu se ukázalo jako klíčové, mít k dispozici kvalitní
nástroj pro sestavení znalostního modelu. Pro rychlý vývoj a zachování agility nepřipadá
v úvahu vývoj za pomoci kódu a dostupných knihoven pro diskrétní události (například
SharpSim). Toto řešení je neefektivní v případě rozsáhlejších úloh, pro které je celý nástroj
zamýšlen. Jako ideální možnost se ukázaly dva nástroje, SIMUL8 a AnyLogic®. V rámci
řešení pouze úloh, které jsou založeny na DE modelech, lze doporučit díky ceně SIMUL8.
Oba nástroje poskytují velmi rychlý návrh modelu a dále kvalitní grafickou prezentaci.
Následná úprava modelu, jeho rozšíření a vlastní nasazení je v případě využití těchto dvou
nástrojů velmi snadná. Program SIMUL8 je z hlediska podpory pro klienta ještě o něco dále
díky snadnému importu již hotových procesů (BPMN 2.0), které může klient dodat a tím
urychlit celý proces vývoje modelu. Z pohledu horizontální a vertikální expanze vede
jednoznačně program AnyLogic®, který jako jediný dokáže využít všechny tři metody
modelování a lze tedy model rozšířit jak do větší detailnosti, tak jej propojit na všechny
úrovně řízení, včetně napojení na externí prostředí. Discrete Event model tak může být
propojen se strategickým modelem společnosti.
Opakované využití výstupů analýzy stávajících ERP/BI řešení pro pevně daný
„back-end“, tvořený pomocí System dynamics, Discrete event a Agent based modelování.
Řešení tohoto konceptu ukazuje možnosti, jak existující výstupy analytik využít
v procesu tvorby znalostního modelu. Podstatným faktem je z hlediska vývoje usnadnění
konceptuální fáze modelu a tedy rychlejší přechod k modelování. Výsledek snažení lze dodat
klientovi velmi rychle, což je jeden z hlavních požadavků při tvorbě nástroje. Čím dříve
dostane klient hotový produkt, tím lépe. Pokud by se táhla konceptuální fáze neúměrně
dlouho, například z důvodu neposkytnutí kompetentních odborníků ze strany klienta, může
hrozit riziko předčasného ukončení celého projektu. Při řešení projektu je analytická fáze
naprosto klíčová a závisí na ní úspěch celého řešení, proto je podpora pomocí existujících
výstupů velmi žádoucí. Samotná fáze modelování je již na základě kvalitního konceptuálního
modelu relativně snadná.
Role dat a výstupů datových analýz (statistických i Data Mining) při tvorbě a validaci
znalostní vrstvy, role expertů a týmů při validaci prototypu modelu i jeho následně rozšířené
varianty.
88
Tyto dvě oblasti byly řešeny společně v kapitole 4.6 Validace a verifikace, kde jsou
jednotlivé přístupy detailněji popsány. Větší důraz je zde kladen na Data Mining model, u
kterého je navrženo několik možností využití, včetně paralelního nasazení vedle KM modelu
(souběžná detekce odchylek). Z pohledu dodavatele KM vrstvy je tento koncept důležitý
v tom směru, že klient se musí na dodávané řešení spolehnout, musí být důvěryhodné.
Problematika interaktivního dynamického uživatelského rozhraní.
Dílčí koncept problematiky uživatelského rozhraní představuje pro dodavatele zásadní
otázku, jak účelně implementovat celé řešení do existujícího BI řešení, to znamená i možnost
zasazení do existujících dashboardů. Tradiční BI řešení představuje informační dashboardy
pouze ke čtení, autorem navrhovaný koncept představuje plně interaktivní uživatelský
dashboard. Díky tomu je potřeba vypořádat se s problematikou nezaměnitelnosti informací
(realita vs. simulace) a se samotným intuitivním ovládáním znalostního modelu, jehož
výpočetní část tvoří DE model. Jde tedy o vhodné navržení editace klíčových vstupních
parametrů. V případě rozsáhlejšího manažerského kokpitu tak přichází v úvahu i pokročilejší
testování použitelnosti.
Zhodnocení účelnosti a účinnosti implementace znalostní vrstvy včetně orientační
analýzy nákladů.
Rozbor tohoto klíčového konceptu řeší kapitola 4.10 Posouzení efektivnosti. Z pohledu
dodavatele znalostní vrstvy je tato část klíčová. Je důležité zmínit, že tento druh KM nástrojů
není určen pro všechny, přestože se jedná svou podstatou o velice univerzální nástroj.
Dodavatelská firma bude nejčastěji vystavena otázce, kde toto řešení přinese peníze.
Z uvedeného důvodu je toto téma velmi důležité a závisí na něm celá spolupráce klienta a
poskytovatele. Existují oblasti, kde je nasazení Discrete Event modelu naprosto nezbytné
právě díky vysoké efektivitě (kritické procesy, automobilový průmysl) a naopak oblasti, kde
díky nízké komplexnosti úloh není potřeba nasazení tohoto nástroje vůbec řešit. Je úkolem
poskytovatele dobře identifikovat potenciální skupinu klientů a zaměřit se tímto směrem, kde
plní KM vrstva svůj účel.
V současné době existují dva extrémy, kdy některé společnosti investují do těchto
pokročilejších metod velké peníze a druhý extrém jsou společnosti, které tyto možnosti vůbec
neznají, nebo si pod tímto druhem projektů představují obrovské náklady.
Výzvou pro případné poskytovatele analytických nástrojů je tedy oslovit i tuto druhou
skupinu firem a nabídnout jim vhodný produkt ve formě využitelných znalostních modelů.
Důležitým předpokladem je dobré zvládnutí všech fází tvorby znalostního modelu a
schopnost tyto modely účelně integrovat do hotových ERP/BI řešení.
89
Použitá literatura a další zdroje
ACREA CR. Logistická regrese. In: ACREA CR, spol. s r.o. [online]. [cit. 2013-02-06].
Dostupné z: http://www.acrea.cz/cv/cv_logreg.htm
ANYLOGIC. Discrete Event Simulation Modeling. Anylogic: Multimethod Simulation
Software [online]. [cit. 2013-02-19]. Dostupné z: http://www.anylogic.com/discrete-eventsimulation
BI: Dimensional Model - Snowflake schema architecture‚ 2010. In: Microsoft Technology
[online]. 19. 6. 2010 [cit. 2013-02-02]. Dostupné z: http://blog-mstechnology.blogspot.cz/
2010/06/bi-dimensional-model-snowflake-schema.html
BECHHOFER, S.‚ 2006. Knowledge Elicitation. In: The University of Manchester
[online].2006. Dostupné také z: http://www.cs.man.ac.uk/~seanb/teaching/COMP30411/
KA.pdf
BELLINGER, G.‚ 2004. In: Systems Thinking [online].2004 [cit. 2013-02-17]. Dostupné z:
http://www.systems-thinking.org/kmgmt/kmgmt.htm
BERKA, P.‚ 2003. Dobývání znalostí z databází. Praha: Academia. ISBN 80-200-1062-9.
BERKA, P.‚ 2009. izi456 - kapitola 6. In: sorry.vse.cz [online]. 3. 10. 2009 [cit. 2013-02-08].
Dostupné z: http://sorry.vse.cz/~berka/docs/izi456/kap_6.pdf
BI DASHBOARDS. Metrics and KPIs. In: BI Dashboards, Business Intelligence,
visualization, KPI [online]. [cit. 2013-02-03]. Dostupné z: http://www.bidashboard.org/
metrics-kpi.html
BORSHCHEV, A. a A. FILIPPOV‚ 2004. From System Dynamics and Discrete Event to
Practical Agent Based Modeling: Reasons, Techniques, …. In: System dynamics [online]. 29.
7. 2004 [cit. 2013-02-19]. Dostupné z: http://www.systemdynamics.org/conferences/2004/
SDS_2004/PAPERS/381BORSH.pdf
BUREŠ, V.‚ 2007. Znalostní management a proces jeho zavádění : průvodce pro praxi.
Grada, s. 27. ISBN 978-80-247-1978-8.
CERRITO, P. B.‚ 2006. Introduction to Data Mining Using SAS® Enterprise Miner™. Cary:
SAS Institute Inc. ISBN 978-1-59047-829-5.
EVELSON, B.‚ 2008. Business Intelligence. In: Forrester Research, Inc. [online]. 21. 11.
2008
[cit.
2013-01-31].
Dostupné
z:
http://www.forrester.com/
Topic+Overview+Business+Intelligence/-/E-RES39218?objectid=RES39218
EVELSON, B.‚ 2010. WANT TO KNOW WHAT FORRESTER'S LEAD DATA
ANALYSTS ARE THINKING ABOUT BI AND THE DATA DOMAIN? In: FORRESTER
BLOGS [online]. 29. 4. 2010 [cit. 2013-01-31]. Dostupné z: http://blogs.forrester.com/
90
boris_evelson/10-04-29want_know_what_forresters_lead_data_analysts_are_thinking_about_bi_and_data_domain
HAYES, F.‚ 2002. The Story So Far. In: Computerworld Inc. [online]. 15. 4. 2002 [cit. 201302-01].
Dostupné
z:
http://www.computerworld.com/s/article/70102/
The_Story_So_Far?taxonomyId=009
CHALUPNÍK, V.‚ 2012. Biologické algoritmy (4) - Neuronové sítě. In: root.cz [online]. 25.
4. 2012 [cit. 2013-02-06]. Dostupné z: http://www.root.cz/clanky/biologicke-algoritmy-4neuronove-site/
IBM CORP.‚ 2011. IBM SPSS Modeler CRISP-DM Guide. In: IBM SPSS Modeler CRISPDM Guide [online].2011 [cit. 2013-02-05]. Dostupné z: ftp://ftp.software.ibm.com/software/
analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf
INMON, W. H.‚ 2005. Building the Data Warehouse. 4th ed. Indianapolis: Wiley Publishing,
Inc. ISBN 978-0-7645-9944-6.
INTER-INFORMATICS. KPI - Key performance indicator. In: Inter-Informatics [online].
[cit. 2013-02-03]. Dostupné z: http://www.mereniprocesu.cz/KPI-Key-performanceindicator.html
Kendallova klasifikace. In: ČVUT [online]. Dostupné také z: http://www.fd.cvut.cz/
department/k611/pedagog/K611THO_soubory/webskriptum/2_Kendall.html
KOMAREK, P.‚ 2004. Logistic Regression for Data Mining and High-Dimensional
Classification. [online].2004 [cit. 2013-02-06]. Dostupné z: http://www.autonlab.org/
autonweb/15762/version/2/part/4/data/komarek_lr_thesis.pdf?branch=main&language=en
LACKO, Ľ.‚ 2009. Business Intelligence na platforme Microsoft SQL Server 2008 [online]. 2.
vyd [cit. 2013-01-30]. Dostupné z: http://download.microsoft.com/download/A/2/6/
A26E47F4-37B5-497E-80BE-8D1EB6DD1D0A/SQL_Server_2008_BI_SK.pdf
LEITCH, M.‚ 2002. A new approach to management control: Dynamic Management. In:
Dynamic Management [online]. 13. 11. 2002 [cit. 2013-02-17]. Dostupné z: http://
www.dynamicmanagement.me.uk/dynamic/
Lineární regrese. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA):
Wikipedia Foundation, 2011-, naposledy upraveno 14.5.2012 [cit. 2013-02-06]. Dostupné z:
http://cs.wikipedia.org/wiki/Line%C3%A1rn%C3%AD_regrese
LOHNINGER, H.‚ 1999. Neural Networks - Extrapolation. In: Teach/Me Data Analysis
[online].1999, verze 2006 [cit. 2013-02-06]. Dostupné z: http://www.vias.org/tmdatanaleng/
cc_ann_extrapolation.html
MAKHFI, P.‚ 2011. Introduction to Knowledge Modeling. In: Makhfi.com World of
Knowledge Modeling [online].2011 [cit. 2013-02-26]. Dostupné z: http://www.makhfi.com/
KCM_intro.htm
91
MENA, J.‚ 2011. Machine Learning Forensics for Law Enforcement, Security, and
Intelligence. Boca Raton: CRC Press (Taylor & Francis Group). ISBN 9-781-4398-6069-4.
MITROFF, I. I. a R. H. KILMANN‚ 1977. Systemic Knowledge: Toward an Integrated
Theory of Science. Spring: Springer. ISSN 1573-7853.
MODELOVACÍ NORMY A STANDARDY. In: Software AG [online]. [cit. 2013-02-24].
Dostupné z: http://www.softwareag.com/cz/product/aris_platform/modeling/default.asp
NOVOTNÝ, O. J. POUR a D. STRÁNKSÝ‚ 2005. Business Intelligence. Praha: Grada
Publishing, a.s, 19 s.. ISBN 978-80-247-6685-0.
PECÁKOVÁ, I.‚ 2007. Logistická regrese s vícekategoriální vysvětlovanou proměnnou.
[online].2007
[cit.
2013-02-06].
Dostupné
z:
http://www.vse.cz/polek/
download.php?jnl=aop&pdf=42.pdf
POSPÍŠIL, J. a M. NEMRAVA‚ 2006. Dolování dat a jeho aplikace. [online].2006. Dostupné
také z: http://axpsu.fpf.slu.cz/~sos10um/trendy/DM.pdf
POŠÍK, P.‚ 2005. In: Data Mining [online]. 14. 12. 2005 [cit. 2013-02-07]. Dostupné z: http://
cyber.felk.cvut.cz/gerstner/teaching/zbd/DataMining-hout.pdf
PROCHÁZKA, J.‚ 2005. Procesní řízení. In: Ostravská univerzita [online].2005 [cit. 201302-16]. Dostupné z: http://www1.osu.cz/~prochazka/rpri/P4.pdf
PŘÍKLENK, O.‚ 2012. Deset klíčových technologických trendů podle Gartneru. TOP 100
ICT společností v České republice [online]. IDG Czech Republic, a.s. Seydlerova 2451, 158
00 Praha 5, s. 20 [cit. 2013-01-29]. Dostupné z: http://data.businessworld.cz/file/
top100_2012.pdf
RAINARDI, V.‚ 2008. Building a Data Warehouse: With Examples in SQL Server. Berkeley:
Apress. ISBN 978-1-4302-0527-2.
SAS Enterprise Miner. In: SAS Institute Inc. [online]. [cit. 2013-02-04]. Dostupné z: http://
www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html
STERMAN, J. D.‚ 2000. BUSINESS DYNAMICS: Systems Thinking and Modeling for a
Complex World. Kingsport: McGraw-Hill Higher Education. ISBN 0-07-231135-5.
TAN, STEINBACH a KUMAR‚ 2004. Data Mining Classification: Basic Concepts, Decision
Trees, and Model Evaluation. [online]. 18. 4. 2004 [cit. 2013-02-07]. Dostupné z: http://
www-users.cs.umn.edu/~kumar/dmbook/dmslides/chap4_basic_classification.pdf
URIARTE, F. A.‚ 2008. Introduction to Knowledge Management. Jakarta: ASEAN
Foundation. ISBN 978-979-19684-0-9.
VAVRA, T.‚ 2012. BI. Business intelligence. Buďte informovaní. TOP 100 ICT společností v
České republice [online]. IDG Czech Republic, a.s. Seydlerova 2451, 158 00 Praha 5, s. 3738 [cit. 2013-01-29]. Dostupné z: http://data.businessworld.cz/file/top100_2012.pdf
92
VORÁČEK, J.‚ 2012. Znalostní management (KM) - přednášky 6MI413.
WITTEN, I. W. a E. FRANK‚ 2000. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementation. San Diego: Academic Press. ISBN 1-55860-552-5.
93
Seznam obrázků a schémat
Obr. 1 Postavení BI v aplikační architektuře IS/ICT (NOVOTNÝ et. al.‚ 2005, s. 20) ............5
Obr. 2 Architektura Business Intelligence (autor podle Pentaho) .............................................6
Obr. 3 Diagram Data Warehouse systému (RAINARDI‚ 2008) ...............................................8
Obr. 4 Schéma hvězdy v dimenzionálním úložišti (RAINARDI‚ 2008, s. 8) .........................10
Obr. 5 Schéma vločky v dimenzionálním úložišti (Babu‚ 2010).............................................11
Obr. 6 Normalizované datové úložiště (RAINARDI‚ 2008, s. 9) ...........................................12
Obr. 7 Multidimenzionální DB se dvěma dimenzemi (RAINARDI‚ 2008, s. 378) ................14
Obr. 8 Multidimenzionální databáze se třemi dimenzemi (RAINARDI‚ 2008, s. 379) ..........15
Obr. 9 Krájení kostky (RAINARDI‚ 2008, s. 413)..................................................................16
Obr. 10 Kostkování (RAINARDI‚ 2008, s. 414) .....................................................................16
Obr. 11 Hierarchie dimenze, drill up a drill down (RAINARDI‚ 2008, s. 414) ......................17
Obr. 12 Klíčové ukazatele jako zpětná vazba pro vedení (INTER-INFORMATICS) ............19
Obr. 13 Fáze projektu podle metodologie CRISP-DM (IBM) ................................................23
Obr. 14 Ilustrace lineární regrese (Wikipedia) ........................................................................28
Obr. 15 Logistická funkce s
na horizontální ose a
na vertikální ............29
Obr. 16 Neuron McCulloch-Pitts (CHALUPNÍK‚ 2012) ........................................................30
Obr. 17 Diagram neuronové sítě (autor) ..................................................................................30
Obr. 18 Regresní strom (POŠÍK‚ 2005) ..................................................................................31
Obr. 19 Schéma rozhodovacího stromu (E-University) ..........................................................32
Obr. 20 ROC křivka pro dva modely (autor) ...........................................................................36
Obr. 21 Křivka ROC pro dva modely se stejnou AUC (autor) ................................................37
Obr. 22 Křivka navýšení – lift chart (autor) ............................................................................38
Obr. 23 Konceptuální postup od dat ke znalostem (URIARTE‚ 2008) ...................................41
Obr. 24 Spirála tvorby organizační znalosti (Nonaka) ............................................................43
Obr. 25 Definice znalostního managementu (Benjamins) .......................................................46
Obr. 26 Schéma struktury Améba (Businessvize) ...................................................................48
Obr. 27 Systémový pohled na řešení problému (MITROFF et. al.‚ 1977) ..............................49
Obr. 28 Model systémové dynamiky – dravec a kořist (XJ Technologies) .............................53
Obr. 29 Obsluha v bance – schéma z programu Arena™ ........................................................55
Obr. 30 Obecná architektura AB modelu (BORSHCHEV et. al.‚ 2004) ................................57
Obr. 31 Přístupy (paradigma) v modelování podle úrovně abstrakce (autor podle XJ
Technologies)............................................................................................................................58
Obr. 32 Výchozí situace při tvorbě prototypu (autor podle MITROFF) .................................66
Obr. 33 Zjednodušený EPC diagram činností ve výrobní hale (autor) ....................................67
Obr. 34 DE model řešeného procesu ve výrobní hale (autor podle XJ Technologies) ............69
Obr. 35 3D simulace Discrete-Event modelu výrobní haly (AnyLogic®) ..............................70
Obr. 36 Architektura řešení se znalostní vrstvou a DM modelem (autor) ...............................77
Obr. 37 Uživatelské rozhraní pro ovládání KM modelu (XJ Technologies) ...........................80
Obr. 38 Bassův difúzní model s opakovaným nákupem (AnyLogic®) ...................................82
94
Seznam tabulek
Tabulka 1Porovnání statistických metod vůči Data Mining technikám (CERRITO‚ 2006)...21
Tabulka 2Matice záměn (confusion matrix)............................................................................33
95
Seznam použitých zkratek
3NF
AB
AUC
BI
BPMN
CNC
CSV
DDS
DE
DM
DMA
DQ
DSA
DSS
DW
EAI
EIS
EPC
ERP
ETL
FIFO
FK
FN
FP
GLM
I/O
IS/ICT
KDD
KM
KPI
LIFO
MDL
MOLAP
ODS
OLAP
OLTP
ROC
ROLAP
SD
SEMMA
SIRO
SJF
třetí normální forma
agentově orientované (modely)
plocha pod křivkou
Business Intelligence
standardizovaná notace podnikových procesů
počítačem řízený obráběcí stroj
formát pro tabulková data v textovém souboru
dimenzionální datové úložiště
diskrétní události
Data Mining
datové tržiště
Data Quality
dočasné úložiště dat
systém pro podporu rozhodování
datový sklad
integrační nástroje
manažerské aplikace
notace procesů podle společností ARIS/SAP
podnikový informační systém
transformační nástroje
First In – First Out
cizí klíč
False Negative
False Positive
obecný lineární model
vstup/výstup
informační systém, informační a komunikační technologie
dobývání znalostí z databází
znalostní management
klíčový indikátor výkonnosti
Last In – First Out
minimální délka popisu
Multidimensional Online Analytical Processing
operativní úložiště dat
Online Analytical Processing
Online Transaction Processing
Receiver Operating Characteristic
Relational online analytical processing
systémová dynamika
Sample, Explore, Modify, Model, Assess
Search in Random Order
Shortest Job First
96
SQL
SVM
TDIDT
TN
TP
UML
WSDL
XPDL
XSD
Structured Query Language
Support Vector Machines
Top-Down Induction of Decision Trees
True Negative
True Positive
Unified Modeling Language
Web Services Description Language
XML Process Definition Language
XML Schema Definition
97
Download

Znalostní nadstavba BI platformy ERP systému