UPRAVLJANJE
PODACIMA:
organizacija i skladištenje
podataka, analiza,
otkrivanje modela u podacima i
podaci na Webu
Teme:
1. Upravljanje podacima: kritični faktori uspeha
(problemi sa podacima, životni ciklus podataka, izvori podataka, kvalitet
podataka)
2. Organizacija podataka u poslovnom sistemu
3. Skladištenje podataka
Skladište podataka (Data Warehouse –DW) i spremišta
podataka (Data Mart – DM)
4. Analiza i otkrivanje modela podataka
(otkrivanje informacija i znanja – Information and Knowledge Discovery)
Poslovna Inteligencija (Business Intelligence – BI) i OLAP alati
5. Otkrivanje znanja – Knowledge Discovery - KDD
6. Sistemi upravljanja podacima zasnovani na Webu
(korporacijski portali, inteligentni agenti ...)
UPRAVLJANJE PODACIMA
• Podaci su resurs preduzeća.
• Kako se upravlja ovim resursom?
• Posebna disciplina - Data management;
• Šta je Data management – Upravljanje podacima?
• Upravljanje podacima je struktuirani pristup za efektivno
prikupljanje, čuvanje, procesiranje, integrisanje,
distribuciju, obezbeđenje sigurnosti i arhiviranje podataka,
tokom životnog ciklusa podataka.
Životni ciklus podataka –
pretvaranje podataka u znanje
Tri osnovna principa
važna za upravljanje podacima:
• 1. Princip opadajuće vrednosti podataka;
• 2. Princip “90/90” u korišćenju podataka
• (izuzetak su podaci koji su važni za potrebe revizije);
• 3. Princip korišćenja podataka u
određenom kontekstu (podaci moraju biti
integrisani, procesirani, analizirani i formatirani u
smislenom formatu, tj. kontekstu- “akcione informacije”).
UPRAVLJANJE PODACIMA
•
Problemi:
1.
Količina podataka se povećava eksponencijalno
2.
Podaci su rasuti širom organizacija, a prikupljaju ih pojedinci različitim
metodama
3.
Za konkretnu odluku bitan je mali deo podataka
4.
Razmatranje spoljašnih podataka
5.
Podaci se čuvaju na nekoliko servera i lokacija u organizaciji
6.
Neobrađeni podaci mogu da budu uskladišteni na drugim računarskim sistemima
7.
Bezbednost, kvalitet podataka i integritet podataka su kritični, i lako mogu da
se ugroze
8.
Zakonska rešenja koja se odnose na podatke razlikuju se od jedne do druge
zemlje
9.
Biranje alata za upravljanje je veliki problem
Izvori podataka
1. Unutrašnji podaci
• odnose se na ljude, usluge i procese
• mogu se čuvati na jednom ili više mesta
• mogu da budu dostupni i preko intraneta
2. Lični podaci
• npr. mišljenje o tome šta će učiniti konkurencija,
procene prodaje
3. Spoljašnji podaci
• izvori: izveštaji uprave, slike, dijagrami, atlasi, tv
• mogu da se čuvaju na CD- ROM, DVD, na Internet
serverima, kao filmovi, kao zvuk ili glasovi
Internet i komercijalni servisi
podataka
Spoljašnji podaci pritiču u organizacije putem
elektronske razmene podataka(EDI), ili kroz
druge kanale između kompanija. Mnogo
spoljašnjih podataka dostupno je preko
ekstraneta ili Interneta.
INTERNET hiljade baza podataka širom sveta
dostupno je preko interneta, pristup ovim
podacima može biti besplatan, ali i komercijalan.
KOMERCIJALNO ONLAJN IZDAVAŠTVO onlajn
izdavač baza podataka prodaje pristup
specijalnim bazama podataka, novinama,
časopisima i izveštajima. On može po razumnoj
ceni da obezbedi podatke korisnicima.
Metode prikupljanja podataka
•
•
•
•
Podaci koji se mogu prikupiti na terenu
Ručno prikupljanje,
Pomoću instrumenata i senzora,
Podaci “koji se dobijaju na pritisak tastera miša”
“Clickstream data”
Npr. u marketingu posebna oblast – Analiza clickstream
podataka.
Bez obzira kako se podaci prikupljaju treba proveriti njihovu
valjanost (engl. “Garbage In, Garbage Out” – GIGO princip)
Kvalitet podataka (Data Quality - DQ)
Kvalitet određuje korisnost podataka kao i kvalitet odluka koje se zasnivaju
na podacima.
DQ dimenzije:
– Suštinski DQ
• Tačnost, objektivnost, verodostojnost i reputacija
– Dostupnost DQ
• Dostupnost i sigurnost pristupa
– Kontekstualni DQ
• Relevantnost, dodata vrednost, vremenska neograničenost,
potpunost, količina podataka
– Prikazivanje DQ
• Mogućnost tumačenja, lakoća razumevanja, sažetost
predstavljanja, dosledno prikazivanje
Kakvi podaci mogu da budu?
• Dva tipa podataka u poslovnom sistemu:
• Struktuirani podaci: imaju strogo određenu
formu, obično se radi o podacima koji su uneti
u datoteke i baze podataka.
• Nestruktuirani podaci: tekst, slika, audio
zapisi, e-mail poruke, dokumenta, papirne
poruke, ugovori. (čine preko 70% svih podataka kojima
raposlaže jedan poslovni sistem)
•
IBM procenjuje da 85% u posl. sistemu su nestruktuirani podaci, a da u
okviru njih 50% su duplikati).
Organizacija struktuiranih podataka u poslovnom sistemu
Hijerarhija podataka
Organizacija podataka u poslovnom sistemu
Sistem za upravljanje datotekama (File Management Systems)
Organizacija podataka u poslovnom sistemu
Sistem za upravljanje bazom podataka (Database Management
Systems - DBMS)
Organizacija podataka u poslovnom sistemu
Dva osnovna tipa baza
podataka:
• Centralizovane i
• decentralizovane
Organizacija relacione baze podataka
Upravljanje dokumentima
Problemi sa štampanim - papirnim dokumentima:
•
•
•
•
Da li dokument sadrži tekuću verziju?
Koliko često ta verzija treba da se ažurira?
Koliko su sigurni ovi dokumenti?
Kako da se ovi dokumenti blagovremeno distribuiraju
odgovarajućim osobama?
Rešenje: elektronski podaci
• Kada se podaci čuvaju u elektronskom obliku može
se ograničiti pristup različitim dokumentima
Upravljanje dokumentima
• Upravljanje dokumentima je automatsko upravljanje
elektronskim dokumentima, slikama stranica, radnim
tabelama, dokumentima u programima za obradu
teksta i složenim dokumentima, tokom njihovog
postojanja u organizaciji.
• Prednosti upravljanja dokumentima –
omogućava organizacijama:
– Veću kontrolu nad izradom, skladištenjem i distribucijom
dokumenata
– Obezbeđuje veću efikasnost u ponovnom korišćenju
informacija i kontroli dokumenata
– Skraćenje ciklusa proizvodnje i distribucije raznih izveštaja.
Sistemi za upravljanje dokumentima
Sistemi za upravljanje dokumentima (engl. Document Managment
•
System – DMS)
Obezbeđuju donosiocima odluka infromacije u elektronskom obliku
• Funkcije DMS – a:
– identifikacija dokumenata
– skladištenje dokumenata
– pronalaženje dokumenata
– praćenje
– kontrola verzija
– ažuriranje
– upravljaje procesom rada
– predstavljanje
Jedan od velikih proizvođača sistema za upravljanje
dokumentima je Lotus Development Corporation.
Sistemi za upravljanje sadržajem u organizaciji
(Enterprise Content Management Systems – ECMS)
• ECMS se koriste za upravljanje svim nestruktuiranim
sadržajem u poslovnom sistemu.
• ECMS ima sličnu ulogu kao DBMS za upravljanje
struktuiranim podacima.
•
•
•
•
•
ECMS sistemi:
DB2 Content Manager (IBM),
IFS (Oracle)
Filenet Content Manager (Filenet)
Documentum (EMC)
Skladištenje podataka
OBRADA PODATAKA
transakcijska
analitička
Transakcijska obrada podataka – koriste se uglavnom
relacione baze podataka, a rezultati su uglavnom
rezimei - sumarni prikazi i razni izveštaji. Takođe
koriste se SQL (Structured Query Language) upiti nad
relacionim bazama podataka.
Primer SQL upita:
Dobar sistem za obezbeđivanje podataka
treba da omogući podršku:
1.
Da krajnji korisnici lakše pristupaju podacima
2.
Brzo donošenje odluka
3.
Precizno i efikasno donošenje odluka
4.
Fleksibilno donošenje odluka
Analitička obrada podataka – potrebna je drugačija
organizacija podataka u odnosu na klasične baze
podataka
Skladišta podataka (Data Warehouse- DW)
Spremišta ili centri podatka (Data Mart)
Skladište podataka
CILJ
Da se brzo dođe do podataka (podaci na jednom mestu)
Da se relativno lako pristupa podacima (pomoću Weba)
SVRHA
Formira se trezor podataka, koji
omogućuje da podaci budu
pristupačni u odgovarajućim
formatima pogodnim za različite
poslovne svrhe.
Struktura i izgled skladišta podataka
BI Business Intelligence
Karakteristike skladišta podataka
Organizacija podataka – podaci su organizovani po
određenim predmetima – temama (kupac, prodavac, proizvod,
itd), a ne prema poslovnim transakcijama (isporuka, nabavka,
kontrola zaliha);
Konzistentnost – podaci preuzeti iz različitih sistema moraju
biti konzistentni – na isti način šifrirani (nekonzistentnost - pol: M ili
Z, pol: 0 ili 1);
Trajnost – podaci se u skladištu podataka ne ažuriraju;
Vremenska dimenzija – sadrži podatke iz više meseci,
kvartala, godina tako da se mogu sprovoditi poređenja kroz
vreme, kao i trend analiza;
Relaciona struktura – kao relaciona baza podataka;
Klijent/server arhitektura;
Sadrži metapodatke – podaci o samim podacima.
Prednosti skladišta podataka
1. omogućava kompanijama da restruktuiraju svoju strategiju
sistema IT
2. obezbeđuje objedinjen pregled podataka na nivou
preduzeća
3. omogućuje da se skupi operativni sistemi oslobode
obrade informacija koja se prebacuje na jeftinije servere
• Ove prednosti mogu da:
– poboljšaju poslovno znanje
– obezbede konkurentnu prednost
– poboljšaju usluge koje se pružaju klijentima
– olakšavaju donošenje odluka i
– pomognu u racionalizaciji poslovnih odluka
Arhitektura skladišta podataka
Podaci iz
nasljeđenih IS
Operativni
podaci
Þ
Skladište podataka
Dvoslojna arhitektura sa
zajedničkim skladištem podataka
Podaci iz
spoljnih izvora
Arhitektura skladišta podataka
Podaci iz
nasleđenih IS
DM
DM
Operativni
podaci
DM
Þ
Podaci iz spoljnih
izvora
DM
Dvoslojna arhitektura sa većim brojem
nezavisnih spremišta podataka (Data Mart – DM)
Arhitektura skladišta podataka
Podaci iz
nasljeđenih IS
Operativni
podaci
Þ
Podaci iz spoljnih
izvora
Skladište podataka
DM
DM
DM
DM
Troslojna arhitektura skladišta podataka
Postavljanje skladišta podataka na Internet
Pogodno za organizacije za koje važi neki od sledećih zahteva:
• krajnji korisnici treba da pristupe velikoj količini
podataka
• operativni podaci su uskladišteni na različitim
sistemima
• upravljanje je zasnovano na informacijama
• postoji velika, raznovrsna baza klijenata
• isti podaci se predstavljaju na različiti način u
različitim sistemima i dr.
Spremišta podataka - centri podataka
(Data mart)
Data mart - malo skladište podataka projektovano za
strategijsku poslovnu jedinicu ili odeljenje.
• Prednosti centara podataka su:
–
–
–
–
–
niska cena
vreme implementacije je znatno kraće
upravljanje je lokalno a ne centralno
sadrže manje informacija od skladišta podataka
omogućavaju poslovnoj jedinici da gradi sopstvene sisteme
podrške pri odlučivanju – sopstvene DSS sisteme.
• Postoje dve vrste centara podataka
1. Kopirani (zavisni) DM, kada je dodat skladištu podataka
2. Samostalni centri podataka (ne postoji skladište podataka).
Analiza i pretraživanje podataka
(otkrivanje informacija i znanja – Information and
Knowledge Discovery)
• Proces izdvajanja korisnog znanja iz velike količine podataka
poznat je kao otkrivanje znanja u bazama podataka
(engl. Knowledge Discovery in Database – KDD).
• Cilj KDD je da identifikuje valjane, nove, korisne, razumljive
obrasce (šeme ili strukture) u podacima
• KDD podržavaju tri tehnologije:
1. Prikupljanje i skladištenje velike količine podataka
2. Efikasni višeprocesorski računari
3. Algoritmi za otkrivanje modela podataka – Data
Mining algoritmi.
Evolucija alata KDD
1. Prikupljanje podataka (1960-te) računari, trake, diskovi
2. Pristup podacima (1980-te) Relacione baze podataka, SQL
3. Skladištenje podataka i podrška pri odlučivanju
(početak 1990 ...) OLAP, multidimenzionalne baze podataka
4. Inteligentno otkrivanje modela podataka (kraj 1990
...) Višeprocesorski računari, velike baze podataka, napredni algoritmi
pretrage podataka
5. Koncept poslovne inteligencije (Business intelligence)
(složeni inteligentni sistemi, kompletna integracija...)
KDD je osposobljen za mnoga složena poslovna pitanja
POSLOVNA INTELIGENCIJA
(Business Inteligence - BI)
• Analitičko procesiranje – poslovna inteligencija
• BI – široka grupa aplikacija i tehnika za prikupljanje,
analizu, pristup podacima u cilju obezbeđenja donošenja
boljih poslovnih i strateških odluka.
• Primena:
• Bankarstvo, telekomunikacije, maloprodaja/lanci i dr.
• Primer Pizza Hut, Dell, Wal-Mart, Victoria secret,
Kako poslovna inteligencija funkcioniše?
Otkrivanje informacija (Information discovery)
• ALATI:
• Ad hoc upiti
• Online analitička obrada (OLAP)
• Ad hoc upiti omogućavaju korisnicima da u realnom
vremenu dobiju informacije koje ne mogu naći u periodičnim
izveštajima
• Alati zasnovani na Webu za postavljanje ad hoc upita
omogućuju korisnicima da pristupe relacionim podacima, da
ih pretražuju, da bi donosili ključne poslovne odluke u
realnom vremenu
• Napredni alati za upite mogu da se povežu sa Intranet i
ekstranet mrežama za postavljanje B2B i CRM upita
Online analitička obrada
(On Line Analitical Processing - OLAP)
OLAP – uveo 1993. E.F. Codd: grupa alata za analizu podataka u
skladu sa trenutnim poslovnim zahtevima (real time).
Ovi alati su zasnovani na sledećim principima:
1.
2.
3.
4.
5.
6.
7.
8.
višedimenzionalni pogled na podatke,
transparentnost podataka za korisnika
jednostavan pristup podacima,
klijent/server arhitektura,
jednostavnost i fleksibilnost dobijanja izveštaja,
podrška za višekorisnički pristup,
intuitivan pristup i operacije sa podacima,
neograničen nivo dimenzija i agregacija podataka.
Online analitička obrada (OLAP)
• Ciljevi obrade OLAP:
– analiza odnosa i pronalazak trendova, šablona i izuzetaka
– da odgovori na upite korisnika
• OLAP upiti imaju karakter online upita koji:
– pristupaju veoma velikim količinama podataka
– analiziraju odnose između mnogih vrsta elemenata podataka
– sadrže zbirne podatke (npr. obim prodaje, planirani iznosi i
potrošeni iznosi)
– porede zbirne podatke u vremenu
– predstavljaju podatke po različitim kriterijumima
– složena izračunavanja među elementima podataka
– imaju mogućnost da brzo reaguju na korisničke zahteve.
Online analitička obrada (OLAP)
Trodimenzionalni prikaz podataka o prodaji
Online analitička obrada (OLAP)
Proizvod
Proizvod
Rokisporuke
isporuke
Rok
PRODAJA
Prodavnica
Prodavnica
Vreme
Vreme
Dimenzionalni model prodaje u obliku zvezdastog dijagrama
Vrste alata za interaktivnu analitičku
obradu (vrste OLAP-a)
•
Višedimenzionalni alati za interaktivnu analitičku obradu ili
MOLAP (Multidimensional OLAP) čine skup proizvoda, koji koriste
sopstvenu bazu podataka n-dimenzionalne matrične strukture.
•
Relacioni alati za interaktivnu analitičku obradu ili ROLAP
(Relational OLAP) koriste relacioni model kao osnovu svoje baze
podataka.
•
Alati za interaktivnu analitičku obradu za stone računare ili
DOLAP (Desktop OLAP) podržava manje aplikacije pojedinačnih
korisnika.
•
Hibridni alati za interaktivnu analitičku obradu ili HOLAP (Hybrid
OLAP) kombinuju prednosti MOLAP-a i ROLAP-a i najčešće je u
upotrebi.
Otkrivanje znanja –
Knowledge Discovery - KDD
Pretraživanje podataka – Data mining
zahteva probijanje kroz ogromne količine materijala da bi se pronašlo tačno
mesto na kome se nalaze dragoceni podaci
•
Pretraživanje podataka mogu da obavljaju i osobe koje nisu programeri
•
Nazivaju se i izdvajanje znanja, zaranjanje u podatke, arheologija
podataka, traganje za podacima, pretraživanje podataka, rudarenje
podataka i dr.
•
DM tehnike su pogodne za sledeće tipove problema:
–
–
–
–
–
asocijacije
grupisanje
klasifikacije
prognoze
nizovi
Metode za traganje kroz podatke
Postoji mnoštvo takvih metoda i niz njihovih modifikacija, od
kojih se kao najznačajnije izdvajaju sledeće:
– metoda analize potrošačke korpe,
– klasterisanje,
– stabla odlučivanja,
– Bayesove mreže,
– neuronske mreže,
– fuzzy logika i
– genetski algoritmi.
Oblasti primene traganja kroz podatke
1.
2.
3.
4.
Maloprodaja i prodaja
Bankarstvo
Industrijska prerada i proizvodnja
Berzansko posredništvo i trgovina vrednosnim
hartijama
5. Osiguranje
6. Računarski hardver i softver
7. Rad policije
8. Državna uprava i odbrana
9. Vazduhoplovne kompanije
10. Zdravstvena zaštita
11. Radio i TV difuzija
12. Marketing
Pretraživanje teksta i Web-a
(Text mining & Web mining)
• Text mining- predstavlja primenu otkrivanja modela
podataka na nestruktuirane ili slabo struktuirane
tekstualne fajlove
• Funkcioniše sa manje struktuiranim informacijama
• Text mining pomaže organizacijama u sledećem:
– da pronađu skriveni sadržaj dokumenata, uključujući i
dodatne korisne odnose
– da grupišu dokumenta prema zajedničkim temama
(npr. identifikuje sve klijente osiguravajuće kompanije čije su
žalbe slične)
Pretraživanje Web-a
- Web mining
• Dva pristupa:
– Web-content mining (pretraživanje Web strana radi
dobijanja informacija);
– Web-usage mining (analiza pristupa Web stranama,
odnosno Web log -ova, i drugih imformacija povezanih za
korisnikovo pretraživanje na više Web lokacija).
Web minig se koristi u sledećim oblastima:
– Filtriranje informacija (e-mails, novine, magazini i dr.),
– Prismotra (konkurencije, tehnoloških inovacija, patenata i dr).
– Pretraživanje Web log
- ova (Clickstream analiza)
Sistemi upravljanja podacima zasnovani na
Webu
Kreiranje BI spremišta podataka
Izvori
podataka za
informacioni
portal
preduzeća
Download

UPRAVLJANJE PODACIMA