Základné informácie o predmete
Manažment znalostí (1)
• Rozsah predmetu:
OBSAH PREDNÁŠKY
– 2 (prednáška)
– 1 (cvičenie)
– 1 (projektová práca)
• Základné informácie o predmete
• Dáta, informácie, znalosti
• Hodnotenie:
• Manažment znalostí
• Vyhľadávanie informácií z množiny textových dokumentov
–
–
–
–
–
– Proces vyhľadávania informácií (information retrieval – IR)
– Formálna definícia IR modelu
• Klasické modely pre IR
– Boolovský
– Vektorový
max. 20 bodov skupinové zadanie
max. 10 bodov za 1. písomku
max. 10 bodov za 2. písomku
max. 60 bodov za skúšku
bonusové body za mimoriadne kvalitné zadania
2
Úloha a miesto znalostí v organizáciách
Náplň predmetu
• Niekoľko dôvodov, prečo sú znalosti
pre organizácie také dôležité:
• Definície základných pojmov
1. Vyhľadávanie informácií (information retrieval)
– Znalosti sa stávajú jedným z rozhodujúcich aktív
– Znalosti umožňujú byť na čele zmien
– Narastajúca zložitosť riešených úloh
– Globalizácia trhu
– Organizácie dbajúce na rozvoj znalostí majú väčšiu
šancu prežiť
– Zdieľanie znalostí v rámci organizácie
– Znalosti sú „mobilné“ (v hlavách zamestnancov)
– Proces vyhľadávania informácií (IR)
– Základné modely pre IR
– Hodnotenie systémov IR
2. Základné uhly pohľadu na manažment znalostí
3. Informačné systémy pre podporu MZ
– Charakteristika, príklady systémov
4. Faktory ovplyvňujúce MZ a hodnotenie MZ
3
4
Vzťah medzi dátami, informáciami
a znalosťami (1)
Dáta – informácie – znalosti (1)
• Rozdiely medzi dátami, informácia
a znalosťami podľa [Beckman1997]:
1. Dáta: fakty, obrázky, zvuky
+ interpretácia + význam =
2. Informácie: formátované, filtrované
a sumarizované dáta
+ akcia + aplikácia =
3. Znalosti: idey, pravidlá a procedúry, ktoré vedú
akcie a rozhodnutia
5
6
1
Vzťah medzi dátami, informáciami
a znalosťami (2)
Dáta – informácie – znalosti (2)
•
Rozdiely medzi dátami, informácia a znalosťami podľa
[Tobin1996]:
1. Dáta
+ relevancia + účel =
2. Informácie
+ aplikácia =
3. Znalosti
+ intuícia + skúsenosti =
4. Rozumnosť
+ morálne princípy, schopnosť rozlišovať čo je dobré a
čo zlé, schopnosť klásť si ťažké otázky, hľadať na ne
odpovede a meniť podľa nich svoj život =>
5. Múdrosť
7
Definície znalosti
8
Znalosti ako podnikové zdroje
• Znalosť sú fakty alebo idey, ktoré boli získané
pozorovaním, štúdiom, skúmaním alebo
skúsenosťou. [Webster]
• Znalosť je organizovaná informácia využiteľná
na riešenie problému. [Woolf1990]
• Znalosť je informácia, ktorá je organizovaná
a analyzovaná, aby sa stala zrozumiteľnou
a použiteľnou na riešenie problémov alebo
na rozhodovanie. [Turban1992]
• Znalosť obsahuje pravdy a presvedčenia,
perspektívy a koncepty, úsudky a očakávania,
metodológie a know-how. [Wiig1993]
• Oproti ostatným podnikovým zdrojom
(finančným, materiálnym a pod.) majú znalosti
svoje špecifiká, napr.:
– sú nehmotné a ťažko merateľné,
– sú pomíňajúce sa, a preto môžu „zmiznúť za noc“
– znalosti nie sú v procesoch spotrebovávané, niekedy
naopak používaním rastú,
– majú veľkú šírku dopadu v organizáciách,
– nemôžu byť kúpené na trhu alebo burze,
– nie je možné ich riadiť (znalostne orientovaní
manažéri neriadia znalosti, ale iba prostredie
v ktorom sa znalosti nachádzajú!)
9
Kategorizácia znalostí (1)
10
Kategorizácia znalostí (2)
• [Bureš2005] dopĺňa toto členenie o implicitné
znalosti, ktoré sú tiež uchovávané v ľudskej mysli,
ale v okamžiku potreby je možné ich
dokumentovať alebo previesť do explicitnej
podoby.
• Často používaná kategorizácia znalostí využíva tri
kategórie (dimenzie) v rámci ktorých rozlišuje
jednotlivé typy znalostí:
• Najčastejšie používaná kategorizácia znalostí
podľa [Polanyi1966], [Nonaka1995]:
– explicitné znalosti (explicit) je relatívne ľahké
vyjadriť, dokumentovať, formalizovať a následne
zdieľať pomocou informačných a komunikačných
technológií (IKT)
– nevyjadrené znalosti (tacit), t.j. uchovávané
v ľudskej mysli. Je buďto ťažké ich formalizovať
a komunikovať, alebo nemožné previesť
do explicitnej formy.
– psychológia znalostí (deklaratívne a procedurálne)
– vyjadriteľnosť (explicitné a nevyjadrené)
– vlastník znalosti (kolektívne a individuálne)
11
12
2
Definície manažmentu znalostí
Manažment znalostí
• MZ znamená explicitnú kontrolu a riadenie znalostí v
organizácii zameranej na dosiahnutie firemných cieľov.
[Spek1997]
• MZ je o prísune správnych znalostí správnym ľuďom v
správnom čase tak, aby sa mohli čo najlepšie rozhodovať.
[Petrash1996]
• MZ je získavanie, koordinácia, rozširovanie, tvorba a
využívanie znalostí za účelom zlepšenia základných
firemných procesov. [Hempel2001]
• MZ sú stratégie a procesy na rozpoznanie, zachytenie a
efektívne využitie znalostí s cieľom zvýšenia
konkurencieschopnosti. [Wikipedia_Sk_2013]
• Pri snahe o presné vymedzenie manažmentu znalostí (MZ)
často narážame na problém, ktorý pramení zo skutočnosti, že
MZ čerpá zo širokej škály disciplín, napr.:
–
–
–
–
–
–
–
–
umelá inteligencia, expertné a znalostné systémy,
počítačom podporovaná spolupráca (groupware),
informatika, kognitívne vedy, filozofia,
správa dokumentov,
systémy pre podporu rozhodovania,
reinžiniering firemných procesov,
riadenie ľudských zdrojov,
organizačná kultúra, organizačné chovanie a pod.
13
14
Spoločné rysy definícií MZ
Čo nie je manažment znalostí
• MZ ako výkon špecifických znalostných
procesov,
• nutná spojitosť MZ s organizačnými cieľmi
alebo stratégiou,
• Spájajú MZ s organizačnými procesmi a tým
zdôrazňujú potrebu ich vzájomnej väzby
• Niektoré upozorňujú na prácu so znalostnými
aktívami, alebo znalostným kapitálom
• Len niektoré definície spájajú MZ s IKT, alebo
znalostnými technológiami, niektoré zase
s organizačnou kultúrou
• Znalostné inžinierstvo, ktoré sa síce tiež
zaoberá znalosťami, ale jeho cieľom je znalosti
získať a vložiť do automatického systému.
• Technické riešenie ako napr. Intra- alebo Extranet. IKT nie sú nutnou podmienkou MZ, ale
vhodným a užitočným nástrojom
• Jednorázová záležitosť typu „kúpim a
používam“. Je to dlhodobý proces, do ktorého
treba neustále investovať a efekt sa začne
prejavovať až časom.
15
16
Úloha používateľa,
ktorú v procese IR sleduje
Vyhľadávanie informácií z množiny
textových dokumentov
• Textové dokumenty sú jedným z najčastejších
prostriedkov pre reprezentáciu explicitných
znalostí
• Vyhľadávanie informácií (IR – information
retrieval) sa zaoberá uchovávaním informácií
a prístupom k nim
• Vyhľadávanie informácií je ovplyvnené najmä:
1. Úlohou používateľa
2. Logickou reprezentáciou dokumentov v systéme
17
17
1.
Vyhľadávanie (retrieval) – ciele vyhľadávania sú presne známe
hneď na začiatku procesu
A. Ad-hoc
B. Filtrácia
Typ vyhľadávania
2.
Kolekcia
dokumentov
Otázky
ad-hoc
relatívne statická
stále nové
filtrácia
stále nové
relatívne statické
Prehľadávanie (browsing) – na rozdiel od vyhľadávania
nie sú hlavné ciele na začiatku presne stanovené a účel
sa môže v priebehu interakcie meniť
18
18
3
Proces vyhľadávania informácií (2)
Proces vyhľadávania informácií (1)

Manažér DB textov musí
1.
2.
3.
4.

Proces vyhľadávania
1.
2.
3.
4.
5.

Určiť dokumenty, ktoré sa budú v systéme používať
Operácie, ktoré sa budú s textami vykonávať
Použitý model (logická reprezentácia dokumentov)
Vytvoriť index textových dokumentov
Používateľ vyšpecifikuje požiadavku (text)
Otázka prejde takým istým procesom parsovania
a predspracovania ako predtým indexované texty v DB
Vygenerovanie otázky, prípadne ďalšie operácie s ňou
Spracovanie otázky, t.j. vyhľadanie relevantných dokumentov
v indexe
Usporiadanie nájdených dokumentov podľa ich relevancie
k otázke
Možná spätná väzba od používateľa (vyznačí
podmnožinu zaujímavých dokumentov)
19
Taxonómia modelov pre IR (1)
•
1. Boolovský model – dokumenty aj otázky sú reprezentované ako množiny
indexových termov  tzv. množinovo-teoretický prístup
2. Vektorový model – dokumenty aj otázky sú reprezentované ako vektory
termov  tzv. algebraický prístup
3. Pravdepodobnostný model – snaží sa odhadnúť pravdepodobnosť, s
akou je daný dokument relevantný k danej otázke  tzv.
pravdepodobnostný prístup
Pre všetky tri uvedené prístupy boli vyvinuté aj alternatívne
modely
Ďalšia skupina modelov okrem obsahu textu zachytáva aj jeho
štruktúru  tzv. štrukturálne modely
Úplne iné typy modelov sa používajú na preľadávanie  tzv.
modely na prehľadávanie
•
•
21
•
•
•
•
T je počet termov v indexe daného systému
ki je i-ty term v indexe
K = k1 ... kT je množina všetkých indexových
termov
dj je j-ty dokument v systéme
wij je váha asociovaná pre každý indexový term ki
a dokument dj v systéme
dj = (w1,j, w2,j, ..., wT,j) je vektor váh indexových
termov pre dokument dj
gi(dj ) = wi,j je funkcia vracajúca príslušnú váhu
termu i pre dokument dj
23

22
22
24
24
Model je štvorica (D, Q, F, R(q,dj)), kde
– D je množina reprezentácií dokumentov dj kolekcie
– Q je množina reprezentácií používateľských otázok q
– F je spôsob (matematický aparát) modelovania
reprezentácií dokumentov, otázok a ich vzťahov
– R(q,dj) je ohodnocovacia funkcia, ktorá priradí
dvojici (q, dj)  Q x D reálne číslo. Toto ohodnotenie
(ranking) potom určuje usporiadanie dokumentov
vrátených ako odpoveď systému na používateľskú
otázku q
21
Klasické modely – základné definície
•
•
•
20
Formálna definícia IR modelu
Existujú 3 základné modely založené na odlišných
matematických aparátoch:
•
20
23
Boolovský model
• Boolovský model:
– Dokument je tvorený množinou indexových
termov, ktoré ho najlepšie charakterizujú
– t.j. váhy wij  {0,1};
– dopyt je podmnožina indexových termov
pospájaných logickými spojkami AND, OR
alebo NOT
• Jedna z možných foriem vnútornej
reprezentácie dokumentov pri boolovskom
modeli je incidenčná matica term-dokument
4
Príklad boolovskej reprezentácie:
incidenčná matica term-dokument
Antony and
Cleopatra
Antony
1
Brutus
1
Caesar
1
Calpurnia
0
Cleopatra
1
mercy
1
worser
1



Julius
Caesar
1
1
1
1
0
0
0
Príklad boolovského dopytu
a jeho vyhodnotenia
The
Hamlet Othello Macbeth
Tempest
0
0
0
1
0
1
0
0
0
1
1
1
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
0
Stĺpce predstavujú jednotlivé dokumenty (divadelné hry)
Riadky predstavujú vybrané indexové termy
Hodnota 1 znamená, že dané slovo sa vyskytuje v danej hre, ináč 0
• Takže pre každý term máme vektor binárnych hodnôt dĺžky
rovnej počtu dokumentov v korpuse
• Ak chceme napr. vyhľadať hry, v ktorých sa vyskytuje Brutus,
Caesar ale nevyskytuje sa tam Calpurnia, môžeme
sformulovať dopyt:
Brutus AND Caesar BUT NOT Calpurnia
110100 AND 110111 AND 101111
• Jeho výsledok získame bitovým súčinom, t.j.
110100 AND 110111 AND 101111 = 100100
• Takže danej podmienke vyhovujú hry Antony and Cleapatra a
Hamlet
25
26
Nevhodnosť maticovej reprezentácie
• Ak ale máme v kolekcii napr. 1 milión dokumentov priemernej
dĺžky 1000 slov
• Slovo je reprezentované približne 6 bytami, t.j.
• Korpus zaberá teda spolu cca. 6 GB
• Ak sa v tomto korpuse nachádza cca. 500 tis. navzájom rôznych
termov, potom
• Incidenčná matica term-dokument bude mať rozmer 500.000 x
1.000.000 = 5 x 1011 jednotiek alebo núl,
• ale jednotiek v nej nebude viac ako 1.000.000 x 1.000 = 109, takže
táto matica je dosť riedka
• Lepšie je teda uchovávať iba „informácie o jednotkách“
Invertovaný index (1)
• Pre každý term si musíme uchovať zoznam
všetkých dokumentov, v ktorých sa vyskytuje
• Môžeme na to použiť polia s pevne zadanou
veľkosťou (čo ak pribudne výskyt slova Caesar)?
Zoznamy výskytov (postings)
Slovník termov (vocabulary)
Brutus
1
Caesar
1
Calpurnia

2
2
2
31
4
11 31 45 173 174
4
5
6
16 57 132
54 101
Potrebujeme teda zoznamy výskytov s premenlivou
dĺžkou (v pamäti reprezentované spojkovým
zoznamom, alebo poliami s premenlivou veľkosťou)
27
Konštrukcia invertovaného indexu
Dokumenty
na indexáciu
Činnosť indexovača (1)
Friends, Romans, countrymen.
Modifikované
tokeny
Invertovaný
index
1. Vytvorí postupnosť párov typu:
– (modifikovaný token, ID dokumentu)
Tokenizér
Postupnosť
tokenov
28
Friends Romans
Moduly
predspracovania
friend
roman
Countrymen
Dokument 1
countryman
I did enact Julius
Caesar I was killed
i' the Capitol;
Brutus killed me.
2
4
roman
1
2
countryman
13
Indexovač friend
Dokument 2
So let it be with
Caesar. The noble
Brutus hath told you
Caesar was ambitious
16
29
30
5
Činnosť indexovača (3)
Činnosť indexovača (2)
3. Viacnásobné výskyty
termu v dokumente
sa zlúčia do jedného
4. Oddelí sa slovník
termov a zoznamy
výskytov
5. Pridá sa informácia, v
koľkých dokumentoch sa jednotlivé
termy vyskytli (dĺžka
zoznamu výskytov)
2. Usporiadanie
zoznamu:
– podľa abecedy, a potom
– podľa ID dokumentu
Vyhodnotenie dopytu
nad invertovaným indexom
•
•
Algoritmus pre nájdenie prieniku
dvoch usporiadaných zoznamov
Uvažujme jednoduchý dopyt BRUTUS AND CAESAR
Postup vyhodnotenia tohto dopytu:
1.
2.
3.
2
8


Nájdi v slovníku termov BRUTUS a získaj jeho zoznam výskytov
Nájdi v slovníku termov CAESAR a získaj jeho zoznam výskytov
Sprav prienik oboch zoznamov výskytov
2
4
8
16
1
2
3
5
32
8
64
13
128
128
21
Brutus
34 Caesar
Ak sú dĺžky vstupných zoznamov výskytov x a y, potom
operácia ich zlúčenia má časovú zložitosť O(x + y)
Dôležitým predpokladom je, že zoznamy výskytov sú
usporiadané podľa ID dokumentu
33
Zložitejšie dopyty a ich optimalizácia
• Čo ak máme v dopyte konjunkciu viacerých
termov (Brutus AND Caesar AND Calpurnia)?
• Ako možno využiť informáciu a frekvencii
ich výskytu v korpuse na skrátenie času
vyhodnotenia dopytu?
• Čo v prípade dopytov typu
(t1 OR t2) AND (t3 OR t4) ... ?
• Ako vyhodnocovať konjunktívne dopyty
priebežne?
answer ← <>
while p1 ≠ NIL and p2 ≠ NIL
do if docID(p1) = docID(p2)
then ADD(answer, docID(p1))
p1 ← next(p1)
p2 ← next(p2)
else if docID(p1) < docID(p2)
then p1 ← next(p1)
else p2 ← next(p2)
return answer
34
34
Vyhodnotenie konjunktívnych
dopytov
INTERSECT(<t1, . . . , tn>)
terms ← SortByIncreasingFrequency(<t1, . . . , tn>)
result ← postings(first(terms))
terms ← rest(terms)
while terms ≠ NIL and result ≠ NIL
do result ← INTERSECT(result,postings(first(terms)))
terms ← rest(terms)
return result
35
36
6
Zohľadnenie frekvencie výskytu termu
v dokumente – vektorový model (1)
Boolovský model - sumár
• Výhody
Antony and Julius
The
Hamlet Othello Macbeth
Cleopatra Caesar Tempest
Antony
157
73
0
0
0
0
Brutus
4
157
0
1
0
0
Caesar
232
227
0
2
1
1
Calpurnia
0
10
0
0
0
0
Cleopatra
57
0
0
0
0
0
mercy
2
0
3
5
5
1
worser
2
0
1
1
1
0
– Jasný formalizmus
– Jednoduchosť
• Nevýhody
– Presná zhoda výskytu termov otázky v dokumente môže viesť k príliš
veľkému (OR) alebo naopak príliš malému (AND) počtu dokumentov
v odpovedi
• Nevadí pri strojovom spracovaní, nevhodné pre používateľov
– Dokumenty nemožno usporiadať podľa stupňa relevancie
k otázke
• Pri usporiadaní podľa relevancie počet dokumentov v odpovedi
nie je problémom (stačí uvažovať prvých k)
– Neberie sa do úvahy frekvencia výskytu jednotlivých termov otázky
v dokumente
Táto reprezentácia nezohľadňuje poradie slov
v dokumente => tzv. “bag of words” model
 Ako využiť informáciu o frekvencii výskytu termu tfij
pre výpočet miery relevancie k dopytu?

37
37
38
Zohľadnenie frekvencie výskytu termu
v celej kolekcii dokumentov
Zohľadnenie frekvencie výskytu
termu v dokumente (2)
• Frekvencia výskytu nie je presne to, čo chceme
– dokument s 10-timi výskytmi termu bude viac relevantný ako dokument s
jedným výskytom, ale nie 10-krát relevantnejší
– Relevancia nerastie proporcionálne s frekvenciou výskytu
• Dá sa však použiť logaritmus frekvencie výskytu tak, aby:
• Okrem frekvencie výskytu termu v danom dokumente
je dôležitá aj jeho frekvencia v celej kolekcii.
– Zriedkavé termy nesú viac informácie ako často sa vyskytujúce termy,
čo chceme vyjadriť aj číselne
• Dokumentová frekvencia dfi termu i je počet dokumentov
v kolekcii, v ktorých sa tento term nachádza
– dfi je nepriamo úmerná informatívnosti daného termu pre
vyhľadávanie. Platí tiež, že dfi ≤ N
– pre 0 → 0, pre 1 → 1, pre 2 → 1.3, pre 10 → 2, pre 1000 → 4 ...
1  log 10 tf i,j , if tf i,j  0
wi,j  
0,
iná č

• Definujeme preto inverznú dokumentovú frekvenciu:
N 
idf i  log 10  
 df i 
• Pre výpočet podobnosti dokumentu d voči dopytu q možno
použiť vzťah:
• Každý term ti v kolekcii má teda jednu hodnotu idfi =>
• Pri jednoslovných dopytoch idfi nemá vplyv na výsledné
usporiadanie dokumentov podľa relevancie
sim (q, d )  tqd (1  log 10 tf t ,d )
39
40
Matica term-dokument
pri použití tf-idf váhovania
Váhovanie tf-idf
• Najlepšia známa váhovacia schéma pre
vyhľadávanie informácií je súčin váh tf a idf
N 
wij  (1  log tf i , j )  log 10  
 df i 
• Výpočet podobnosti dokumentu voči
dopytu:
sim (q, d )  tqd tf t  idf t ,d
Antony and Julius
The
Hamlet Othello Macbeth
Cleopatra Caesar Tempest
Antony
5,25
3,18
0
0
0
0,35
Brutus
1,21
6,1
0
1
0
0
Caesar
8,59
2,54
0
1,51
0,25
0
Calpurnia
0
1,54
0
0
0
0
Cleopatra
2,85
0
0
0
0
0
mercy
1,51
0
1,9
0,12
5,25
0,88
worser
1,37
0
0,11
4,15
0,25
1,95
Dokumenty sú teda vektory reálnych hodnôt
v T - rozmernom priestore (dj  RT), resp.
 Každý dokument je jeden bod v tomto priestore

41
42
7
Matica term-dokument
pri použití tf-idf váhovania
Váhovanie tf-idf
• Najlepšia známa váhovacia schéma pre
vyhľadávanie informácií je súčin váh tf a idf
N 
wij  (1  log tf i , j )  log 10  
 df i 
• Výpočet podobnosti dokumentu voči
dopytu:
sim (q, d )  tqd w t ,d
Antony and Julius
The
Hamlet Othello Macbeth
Cleopatra Caesar Tempest
Antony
5,25
3,18
0
0
0
0,35
Brutus
1,21
6,1
0
1
0
0
Caesar
8,59
2,54
0
1,51
0,25
0
Calpurnia
0
1,54
0
0
0
0
Cleopatra
2,85
0
0
0
0
0
mercy
1,51
0
1,9
0,12
5,25
0,88
worser
1,37
0
0,11
4,15
0,25
1,95
Dokumenty sú teda vektory reálnych hodnôt
v T - rozmernom priestore (dj  RT), resp.
 Každý dokument je jeden bod v tomto priestore

19
20
Prečo vzdialenosť nie je v tomto
prípade dobrá miera
Dopyty ako vektory
• Tak ako dokumenty, aj dopyty možno
reprezentovať vektormi v T-rozmernom
priestore
• Usporiadanie dokumentov podľa relevancie
k dopytu je potom usporiadaním blízkosti ich
vektorov k vektorom daného dopytu
• Blízkosť vektorov = podobnosť vektorov
• Blízkosť ≈ opak vzdialenosti
• Použiť Euclidovskú vzdialenosť?
• Preto sa ako miera podobnosti pri
vyhľadávaní informácií používa uhol medzi
vektorom dokumentu a vektorom dopytu
– Nie je dobrý nápad, lebo má veľkú hodnotu
pre vektory rôznej dĺžky
21
Kosínusová miera podobnosti
22
Normalizácia dĺžky vektora
• Uvedené dve tvrdenia sú ekvivalentné:
• Vektor môže byť normalizovaný predelením všetkých jeho
zložiek jeho dĺžkou, t.j. | x | 
x2
– Usporiadať dokumenty podľa klesajúcej hodnoty
uhla medzi dopytom a dokumentom
– Usporiadať dokumenty podľa stúpajúcej hodnoty
kosínusu uhla medzi dopytom a dokumentom

i
i
• Výsledkom normalizácie je, že vektor má jednotkovú dĺžku
• Kosínusová podobnosť medzi dopytom a dokumentom:
T
   
  qd q d
i1 qi di
sim (q, d )  cos( q , d )        
T
T
q d
qd
i1 qi2 i 1 di2
• Kosínus je monotónne klesajúca funkcia
na intervale [0°, 180°]
• Pre vektory normalizované na jednotkovú dĺžku vektora je
kosínusová vzdialenosť jednoducho skalárnym súčinom
normalizovaných vektorov q a d
   
T
sim (q, d )  cos( q, d )  q  d  i 1 qi di
23
24
4
Ilustrácia kosínusovej miery
podobnosti
Rôzne varianty tf-idf schémy
• Používané sumárne označenie pre popis daného
vyhľadávacieho stroja ddd.qqq
• Napr. označenie ltc.lnn znamená:
– dokument: logaritmickú tf, idf a kosínusovú normalizáciu
– dopyt: logaritmickú tf, bez idf a bez normalizácie
25
26
Príklad tf-idf výpočtu pre lnc.ltc
Vektorový model - sumár
• Dokument: „car insurance auto insurance“
• Dopyt: „best car insurance“
Term
Dopyt
tfij
tfijlog
auto
0
best
1
car
insurance
• Výhody
Dokument
wij
nor
mal.
tfij
tfijlog
wij
Súčin
dfi
idfi
nor
mal.
0
5000
2.3
0
0
1
1
1
0.52
1
50000
1.3
1.3
0.34
0
0
0
0
0
1
1
10000
2.0
2.0
0.52
1
1
1
0.52
0.27
1
1
1000
3.0
3.0
0.78
2
1.3
1.3
0.68
0.53
0
Viete povedať aká je hodnota N?
 Miera podobnosti sim = 0 + 0 + 0.27 + 0.53 = 0.8

– Schéma váženia termov podľa frekvencie ich výskytu
zvyšuje výkonnosť vyhľadávania
– Vyhľadá aj dokumenty ktoré len čiastočne vyhovujú
zadanej otázke
– Usporiadanie nájdených dokumentov podľa stupňa ich
relevancie
• Nevýhody
– Predpoklad nezávislosti indexových termov síce neplatí,
ale prakticky ide väčšinou iba o lokálne závislosti
malých skupín termov
27
28
28
Pravdepodobnostný model (2)
Pravdepodobnostný model (1)
p( R d j )
• Tento model sa snaží odhadnúť pravdepodobnosť, že
používateľ bude považovať daný dokument dj za relevantný
k svojej otázke q
p( R d j )
• Preto nutne musí predpokladať, že:
Je pravdepodobnosť toho, že dokument dj
je
relevantný ku otázke q
Je pravdepodobnosť toho, že dokument dj
nie je relevantný ku otázke q
p( R d j )
sim (d j , q) 
– Táto pravdepodobnosť závisí len od otázky q a dokumentu dj
– Existuje podmnožina všetkých dokumentov, ktorú používateľ
preferuje ako odpoveď na svoju otázku q, tzv. ideálna odpoveď R
p ( ki R )
– Dokumenty z R budú predikované ako relevantné ku q, ale všetky
ostatné dokumenty mimo R budú nerelevantné
p ( ki R )
• wij  {0,1} aj wiq  {0,1}; q je podmnožina indexových termov
p( R d j )
29
p (d j R)  p ( R)
p(d j R )  p( R )

p( d j R)
p(d j R )
Je pravdepodobnosť výskytu termu ki
v dokumente náhodne vybratom z R
Je pravdepodobnosť, že sa term ki nevyskytuje
v dokumente náhodne vybratom z R
sim (d j , q) 
29

(g ( d
i
( g ( d
i
j ) 1
j ) 1
p(ki R))  (g ( d
i
j ) 0
i
j ) 0
p(ki R ))  (g ( d
p ( k i R ))
p ( k i R ))
30
30
5
Pravdepodobnostný model (4)
t
sim (d j , q)   wi ,q  wi , j  (log
i 1
Pravdepodobnostný model (5)
p ( ki R )
1  p ( ki R )
 log
)
1  p ( ki R )
p ( ki R )
• Neskôr je táto inicializačná hodnota spresňovaná
nasledovne:
• Nech V je množina dokumentov vrátených v 1. iterácii ako
odpoveď na q a vo Vi z nich sa vyskytuje term ki
• Potom sú možné tieto alternatívne vyjadrenia
ni
pravdepodobností:
• Keďže množinu R na začiatku nepoznáme, je nutné nájsť
spôsob inicializácie vyššie uvedených pravdepodobností. Na
to existuje niekoľko spôsobov, napr.:
p ( ki R ) 
p(ki R)  0,5 Predpokladáme, že výskyt všetkých termov ki
v dokumentoch z R je rovnako pravdepodobný
p ( ki R ) 
ni Distribúcia termu ki mimo dokumentov z R je
zhodná s jeho distribúciou v celej množine
N
dokumentov
31
31
p ( ki R ) 
Vi 
Vi Vi  0,5
N


V
V 1
V 1
n
ni  Vi  i
ni  Vi ni  Vi  0,5
N


N V
N V 1
N V 1
• Tento proces môže pokračovať aj bez asistencie
človeka, alebo s jeho asistenciou tak, že človek vyberie
z odpovede systému množinu V
32
32
Pravdepodobnostný model (2)
• Výhody
– Usporiadanie nájdených dokumentov podľa
pravdepodobnosti ich relevancie k otázke
• Nevýhody
– Nutnosť počiatočného odhadu niektorých
pravdepodobností
– Neberie sa do úvahy frekvencia výskytu jednotlivých
termov otázky v dokumente
– Predpoklad nezávislosti indexových termov neplatí (ale
prakticky ide väčšinou iba o lokálne závislosti malých
skupín termov, takže to v podstate nevadí)
33
33
6
Vyhodnocovanie systémov
pre vyhľadávanie informácií (1)
Manažment znalostí (3)
•
OBSAH PREDNÁŠKY
Merateľné kritériá pre porovnávanie IR
systémov:
• Vyhodnocovanie systémov pre vyhľadávanie informácií (IR)
– Rýchlosť indexovania (počet dokumentov/hodinu,
pre určitú distribúciu veľkosti indexovaných
dokumentov)
– Rýchlosť vyhľadávania (aké je oneskorenie, ako
funkcia veľkosti indexu)
– Veľkosť kolekcie indexovaných dokumentov, resp. aj
jej distribúcia medzi rôzne oblasti zamerania
– Rôzne kritériá pre hodnotenie IR systémov
• Hodnotenie efektívnosti vyhľadávania (spokojnosť
používateľa)
– Presnosť, návratnosť, F miera – hodnotenie výsledkov
bez
usporiadania (unranked retrieval set)
– Grafické znázornenie závislosti presnosti a návratnosti – hodnotenie
usporiadaných výsledkov vyhľadávania
(ranked retrieval set)
– Sumarizačné mierky efektívnosti vyhľadávania
•
• Prezentácia výsledkov vyhľadávania - sumáre
Trocha ťažšie môže byť merateľná napr.
výrazová sila dopytovacieho jazyka, resp.
– rýchlosť vyhľadávania pre zložité dopyty
2
Vyhodnocovanie systémov
pre vyhľadávanie informácií (2)
•
•
•
Čo by sme ale radi merali u IR systému je miera spokojnosti
jeho používateľov
–
•
Vyhodnocovanie efektívnosti
vyhľadávania (1)
Tú ovplyvňuje mnoho faktorov (rýchlosť odozvy, rôzne aspekty GUI,
kvalita sumárov a pod.)
Pod vyhodnotením IR systému ale najčastejšie rozumieme
mieru relevancie množiny vrátených dokumentov k
informačnej potrebe vyhľadávajúceho
Pre daný systém IR (resp. jeho konkrétnu vyhľadávaciu
stratégiu S) sa kvantifikuje
–
–
Pre takéto vyhodnotenie IR systému teda potrebujeme:
–
–
–
•
Kolekciu dokumentov
Testovaciu množinu informačných potrieb (testovacie dopyty)
Spravidla binárne ohodnotenie dokumentov v kolekcii z pohľadu ich
ne/relevancie ku každému dopytu z testovacej množiny dopytov
Informačná potreba je teda najprv transformovaná
do
podoby dopytu, ale relevantnosť je meraná voči informačnej
potrebe, nie voči dopytu
–
podobnosť medzi množinou dokumentov vyhľadaných pomocou S
a množinou dokumentov stanovených ako relevantné k danej
otázke expertmi
–
–
Príklad informačnej potreby: „Chcem zistiť či konzumácia červeného
vína efektívnejšie znižuje riziko srdcového infarktu než konzumácia
bieleho vína.“
Dopyt: „víno červené biele srdcový infarkt zníženie rizika“
Z jednoslovného dopytu je pre IR systém veľmi ťažké zistiť informačnú
potrebu, ale používateľ nejakú vždy má („python“?)
3
Štandardné testovacie kolekcie pre IR
•
–
–
•
•
Základné miery efektívnosti vyhľadávania
pre neusporiadanú množinu výsledkov
•
Dátové kolekcie pripravované a spravované už dlhé roky
NIST (National Institute of Standards and Technology)
–
4
TREC (Text REtrieval Conference) – 1,89 mil. dokumentov, 450
informačných potrieb (zvaných topics – špecifikovaných podrobnými
pasážami textu)
Ohodnotenie top-k dokumentov vrátených nejakým IR systémom,
nie všetkých dokumentov v kolekcii
Gov2 – 25 mil. web stránok, najväčšia testovacia kolekcia (stále však
cca. 1000 krát menšia ako indexujú bežné vyhľadávače)
Reuters-21578 a Reuters-RCV1 – kolekcie novinových
článkov používané najmä pre klasifikáciu textov, podobne aj
20 Newsgroups – kolekcia Usenet news skupín (1000
článkov z každej)
Nech:
–
–
–
–
q je daný dopyt reprezentujúci informačnú potrebu
R je množina relevantných dokumentov ku q
|R| je počet relevantných dokumentov ku q
A je množina dokumentov, ktoré vyhľadávací systém
používajúci stratégiu S vráti ako odpoveď na q
– |A| je počet dokumentov vrátených S ako odpoveď na q
– RA je prienik množín R a A
Návratnosť (recall) N 
5
RA
R
Presnosť (precision) P 
RA
A
6
1
Základné miery efektívnosti trocha ináč
Prečo nie presnosť klasifikácie?
Relevantné
dokumenty
Nerelevantné
dokumenty
Relevantné
dokumenty
Nerelevantné
dokumenty
true positive (tp)
false positive (fp)
true positive (tp)
false positive (fp)
false negative (fn)
true negative (tn)
Dokumenty vrátené
IR systémom na q
Dokumenty, ktoré
neboli v odpovedi
IR systému na q
false negative (fn)
Návratnosť (recall)
Presnosť (precision)
N
P
Dokumenty vrátené
IR systémom na q
Dokumenty, ktoré
neboli v odpovedi
IR systému na q
true negative (tn)
tp
(tp  fn)
Accuracy

7
Závislosť medzi
presnosťou a návratnosťou (1)
•
Návratnosť je neklesajúca funkcia počtu dokumentov
vrátených na daný dopyt
•
Presnosť naproti tomu klesá s pribúdajúcim počtom vrátených
dokumentov aj v dobrom IS systéme
•
Preto sa zvykne používať aj zložená miera F, ktorá práve
popisuje kompromis medzi presnosťou a návratnosťou;
F 
1
(  2  1) PR

1
1
 2P  R
  (1   )
P
R
2 

9
Harmonic
20
• Harmonický
priemer (HP) je však najvhodnejší (pre
predchádzajúci
prípad HP = 0,04)
0
20
2
40

2 RP60
80
R

P
  [0,1]    [0, ]
Ak je pre nás rovnako dôležitá presnosť aj návratnosť, potom
treba dať
  0,5    1
(  2  1) PR
2 PR

 2P  R
PR
•
Hodnoty β < 1 zdôrazňujú presnosť, hodnoty β > 1 zase
návratnosť
•
Presnosť, návratnosť a F miera majú rozsah hodnôt [0,1], ale
môžu sa uvádzať aj v percentách
• Avšak používateľ obyčajne nevidí celú
množinu A (odpoveď na svoj dopyt q) naraz,
ale postupne, dokumenty sú usporiadané
podľa stupňa relevancie (ranked retrieval set)
• Teda návratnosť a presnosť sa z pohľadu
používateľa postupne menia
• Priebeh presnosti, ako funkcie závislej
od návratnosti sa zvykne zobrazovať graficky
• Ide o tzv. krivku presnosť – návratnosť
Geometric
1 1 (Recall
R fixed
P at 70%)
Precision
kde
Hodnotenie usporiadaných výsledkov
vyhľadávania
Combined Measures
F0HP 

10
• Aritmetický priemer (AP) nie je vhodný (napr. ak R = 100% a
P = 0,02%, potom AP = 50,01)
100
RP
F 
80 AP
Minimum
2
• Geometrický priemer (GP) je lepší (pre predchádzajúci
Maximum
60
prípad GP = 1,41)
Arithmetic
FGP  R.P
1
F 1 
F1 a ďalšie možné odvodené mierky
40
2 
•
1
8
Závislosť medzi
presnosťou a návratnosťou (2)
Treba si uvedomiť, že presnosť a návratnosť sú v zásade
protichodné požiadavky, t.j. akýkoľvek IR systém sa musí snažiť
o vhodný kompromis medzi nimi
•
tp  tn
(tp  fp  tn  fn)
Presnosť klasifikácie (accuracy) sa využíva pri klasifikácii, vyjadruje
percento správne zaradených príkladov (v tomto prípade dokumentov)
Pre IR ale nie je vhodná, lebo spravidla 99,9% dokumentov sú
nerelevantné

tp
(tp  fp)
A
100
11
12
2
Príklad (1)
Krivka presnosť – návratnosť
1,0
Interpolovaná presnosť
pinterp(r) = maxr´≥r p(r´)
Presnosť
0,8

Nech množina všetkých relevantných dokumentov R
na dopyt q1 je nasledovná:

Odpoveď vyhľadávacej stratégie S obsahuje túto
postupnosť dokumentov:
1. d123
6. d9
11. d38
7. d511
12. d48
2. d84
8. d129
13. d250
3. d56
9. d187
14. d113
4. d6
10.
d
15. d3
25
5. d

Zostrojte krivku presnosť – návratnosť pre danú
vyhľadávaciu stratégiu S a otázku q1
R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
0,8
8
1,0
Návratnosť
13
Príklad (1)
Normovaná krivka presnosť - návratnosť
14
Normovaná krivka presnosť - návratnosť
•
1. dokument d123
•
3. dokument d56
6. dokument d9
•
10. dokument d25
15. dokument d3
•
Definuje sa 11 normovaných úrovní návratnosti:
0%, 10%, 20%, ..., 100%
Nech rj , j  {0,1,2,…,10} je referencia na j-tu
štandardnú úroveň návratnosti (napr. r5 je úroveň
návratnosti 50%)
Potom hodnota P(rj) sa interpoluje podľa vzorca:
P(rj) = max rj  r  rj+1 P(r)
čo znamená že interpolovaná presnosť na j-tej
štandardnej úrovni návratnosti je maximálna
známa presnosť pre ľubovoľnú návratnosť z
intervalu <rj , rj+1>
15
Príklad (2)

Nech množina všetkých relevantných dokumentov R2
na dopyt q2 je nasledovná:

Odpoveď vyhľadávacej stratégie S obsahuje tú istú
postupnosť dokumentov ako v predchádzajúcom
príklade, t.j.: 1. d
6. d9
11. d38
123
2. d84
7. d511
12. d48
3. d56
8. d129
13. d250
4. d6
9. d187
14. d113
5. d8
10. d25
15. d3
16
Príklad (2)
Normovaná krivka presnosť - návratnosť
R2 = {d3, d56, d129}

3. dokument d56
8. dokument d129
15. dokument d3
Zostrojte normovanú krivku presnosť – návratnosť
pre danú vyhľadávaciu stratégiu S a otázku q2
17
18
3
Vyhodnocovanie efektívnosti
vyhľadávania (4)
•
•
•
1
Vyhodnotenie vyhľadávacej stratégie S sa však spravidla nerobí
na jedinom dopyte q, ale na množine dopytov
Definuje sa 11 normovaných úrovní návratnosti r: 0%, 10%,
20%, ..., 100%
Vypočítajú sa presnosti na jednotlivých normovaných úrovniach
návratnosti P(r) pre všetky dopyty z testovacej množiny dopytov
Nech počet dopytov je Nq, potom výsledná krivka bude
zachytávať priemerné hodnoty presností pre jednotlivé
normované úrovne návratnosti, vypočítané podľa vzorca:
Nq
P (r )  
i 1
Pi (r )
Nq

0.8
Precision
•
Príklad (dobrý výsledok z TREC 8)
0.6
0.4
0.2
0
Kde Pi(r) je presnosť S pri i-tom
dopyte na úrovni návratnosti r
0
0.2
0.4
Príklad (3)
Vyhľadávanie založené na ontológii (1)
1. Predpokladali sme, že množina konceptov pre
daný dopyt je známa
2. Množina konceptov asociovaných s daným
dokumentom sa vyberie z databázy
3. Tieto dve množiny sa porovnajú nasledovnou
mierkou podobnosti daného dokumentu Di
a dopytu Q : 
 Qcon  Di,con if Qcon  Di,con  0

simonto (Q, Di )  

 k (0,1)

0.6
0.8
1
Recall
19
20
Príklad (3)
Vyhľadávanie založené na ontológii (2)
4. Výsledná podobnosť sa vypočíta ako súčin
podobnosti založenej na ontológii a
podobnosti vypočítanej podľa vektorového
modelu, (prípadne LSI modelu)
sim(Q, Di )  simonto (Q, Di )  simTF  IDF (Q, Di )
22
21
Príklad (3) – Použitá kolekcia dokumentov
Príklad (3) – Výsledky
• Kolekcia nazvaná Cystická fibróza (získaná z
MEDLINE)
100
23
TF - IDF
90
LSI
80
Koncepty
70
Presnosť [%]
– Kolekcia pozostáva z 1239 dokumentov
– Minimálna veľkosť dokumentu 0.12 kb, maximálna veľkosť
3.8 kb a priemerná veľkosť 1.045 kb
– Ku kolekcii existuje aj súbor so 100 dopytmi
– Pre každý dopyt je známa množina relevantných
dokumentov
– Každý dokument v odpovedi je ohodnotený číslom 0 až 8
(4 nezávislí experti hodnotili mieru relevancie 0-2)
– Existuje 821 konceptov a priemerný počet konceptov
priradených dokumentu je 2.8
– Priemerný počet dokumentov asociovaných s jedným
konceptom je 4.2
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90
100
Návratnosť [%]
24
4
Sumarizačné mierky efektívnosti
vyhľadávania (1)
Sumarizačné mierky efektívnosti
vyhľadávania (2)
1. Priemerná presnosť pri nájdených relevantných
dokumentoch (MAP - mean average precision)
–
Pq1 
3. Presnostné histogramy sa používajú na porovnanie
presnosti dvoch stratégií vyhľadávania (S1 a S2)
pre
viaceré dopyty i = 1 .. Nq
Táto mierka favorizuje vyhľadávacie stratégie, ktoré rýchlo nájdu
relevantné dokumenty
1  0.66  0.5  0.4  0.3
 0.57
5
Pq2 
0.33  0.25  0.2
 0.26
3
R-presnosť (RP) je presnosť vyhľadávacej stratégie S
na |R|-tej pozícii, t.j. pri |R|-tom vrátenom dokumente
2.
RPq1 
–
4
 0.4
10
RPq2 
1
 0.33
3
Táto mierka vlastne nie je sumarizačnou, popisuje iba jeden
bod krivky presnosť - návratnosť, prax však ukazuje, že je
vysoko korelovaná s MAP
U je podmnožina R takých dokumentov, ktoré sú
používateľovi už známe
Rk = A  U je množina používateľovi známych
dokumentov v odpovedi A
RU je množina relevantných dokumentov v odpovedi A,
ktoré používateľovi neboli predtým známe


4.
Štatistiky v sumarizačnej tabuľke – napr. počet
otázok, celkový počet vrátených dokumentov, z nich
celkový počet relevantných dokumentov, a pod.
25
Používateľsky orientované mierky
efektívnosti vyhľadávania

RPS1 / S2 (i)  RPS1 (i)  RPS2 (i)
26
Vysvetlenie významu množín
pri používateľsky definovaných
mierkach efektívnosti vyhľadávania
množina relevantných
dokumentov (R)
množina dokumentov
vrátených systémom (A)
5. Pokrytie (coverage) C je definované
Rk
nasledovne:
C
používateľovi už
známe dokumenty (U)
U
Novosť (novelty) O je definovaná
RU
RU
nasledovne:
6.
O
Rk  RU

RA
Rk
•
Pre takýto test sa spraví práve jedna zmena (systém B) aktuálneho
systému (systém A), ktorej vplyv chceme ohodnotiť
–
Časť používateľských požiadaviek (1 až 10%) sa presmeruje na
zmenený systém B, zvyšné spracúva aktuálne bežiaci systém A
–
Porovnajú sa sledované parametre (napr. frekvencia klikaní na prvý
odkaz v zozname) medzi systémami A a B
–
Pri dostatočne veľkom počte používateľov možno takýmto
spôsobom lacno a rýchle overiť vplyv navrhovanej zmeny
U
O
RU
Rk  RU
Ru
28
Prezentácia výsledkov vyhľadávania
Používateľské štúdie sú dobrý nástroj, najmä v čase návrhu,
ale sú časovo náročné a nákladné
Pre bežiaci IR systém sa najčastejšie používa metóda zvaná
A/B test:
–
Rk
27
Vylepšovanie bežiaceho IR systému
•
C
• Systém IR vráti
usporiadaný zoznam
dokumentov (podľa
miery relevancie)
• Preddefinovaný počet
dokumentov s
krátkym popisom –
sumárom
• Obsah sumáru je veľmi
dôležitý – viac o
sumároch viď ďalej
29
Manažment znalostí (3)
Ján Paralič (people.tuke.sk/jan.paralic)
30
5
Sumáre vo výsledkoch IR systémov (1)
Sumáre vo výsledkoch IR systémov (2)
• Dva základné druhy sumárov:
– statické – nezávislé na dopyte ktorý viedol k vyhľadaniu daného
dokumentu, stále rovnaký
– dynamické – prispôsobené konkrétnemu dopytu, snažia sa
ukázať, prečo bol daný dokument vybraný ako relevantný k
dopytu
• Statické sumáre typicky predstavujú časť dokumentu
– napr. prvých 50 slov, uložené do cache v čase indexácie
– výber reprezentatívnej množiny viet z dokumentu - použitie NLP
pre skórovanie viet a výber najlepších
– sofistikované techniky sumarizácie textov – používané v
experimentálnych systémoch
31
• Dynamické sumáre Prezentujú jedno alebo
viac „okien“ v dokumente, ktoré obsahujú
niekoľko termov z dopytu
– vyžaduje rýchle vyhľadanie okien v cache pamäti
dokumentov
– Skórovanie nájdených okien vzhľadom na dopyt
(príznaky ako veľkosť a poloha okna v dokumente)
• Aké sumáre používa vyhľadávač Google?
32
6
Vyhľadávanie na webe
Manažment znalostí (4)
• Veľmi stručná história vyhľadávania na webe:
OBSAH PREDNÁŠKY
– Vyhľadávače využívajúce iba plno-textové indexovanie
webových stránok (obdobie 1995 – 1997, napr.
Altavista, Excite, Infoseek)
– Kategórie subjektov napĺňané odkazmi na webové
stránky (napr. Yahoo!, neskôr Open Directory, resp.
Google directory) – kvôli náročnosti na ústupe
– Využitie štruktúry liniek pri vyhľadávaní (od roku 1998,
najskôr Google)
– Sponzorované vyhľadávanie (alebo aj search
marketing fungujúci na princípe „pay per click“ –
od r. 1998 Yahoo!, získaním Overture Services, Inc.
predtým Goto.com, neskôr aj Google Ads)
• Vyhľadávanie na webe
– Veľmi stručná história vyhľadávania na webe
– Architektúra crawler-indexer, základné požiadavky
na crawler, jeho základná architektúra
– Typy používateľských dopytov, kategórie
– Ekonomické aspekty vyhľadávania, marketing založený
na vyhľadávaní, spôsob fungovania AdWords
• Vyhľadávanie s využitím štruktúry liniek
– algoritmu PageRank
– algoritmus HITS
1
Vyhľadávacie stroje
2
Architektúra „crawler-indexer“
• Väčšina vyhľadávacích strojov má
centralizovanú architektúru typu „crawlerindexer“
• „Crawlers“ sú programy ktorých cieľom je čo
najrýchlejšie a najefektívnejšie získať stránky
z webu, vrátane štruktúry ich prepojení
• Indexer má za úlohu indexáciu web stránok
získaných a parsovaných crawlerom a ich
uloženie vo vhodnej štruktúre (indexe)
• Môžete si pozrieť ako funguje vyhľadávanie
v Google alebo pozrite si video
používateľ
crawler
Search
indexer
web
Nutné požiadavky na crawler:
DNS
– Robustnosť (vedieť správne odhaliť „pasce“)
– Ohľaduplnosť (dodržiavať implicitné a explicitné pravidlá
regulujúce návštevy webových sídel)
•
4
Základná architektúra crawlera
Požiadavky na crawler
•
Ad indexy
indexy
3
Ďalšie požiadavky na crawler:
WWW
– Distribuovanosť (škálovateľná architektúra crawlerov)
robots
filters
URL
set
Content
seen?
URL
filter
Dup
URL
elim
Parse
Fetch
– Výkonnosť a efektívnosť (efektívne využitie systémových
zdrojov – procesor, pamäť, šírka pásma)
Doc
FP’s
– Kvalita (schopnosť prioritne sťahovať „užitočné“ stránky)
– Aktuálnosť (priebežné sťahovanie nových verzií web stránok)
– Rozšíriteľnosť (o nové typy formátov, protokolov ...)
URL Frontier
5
6
1
Typy používateľských dopytov
•
Personalizácia vyhľadávania
Tri veľké skupiny:
1. Informačné dopyty – používateľ hľadá všeobecné
informácie na určitú oblasť („knowledge management“).
Typicky neexistuje jedna web stránka, ktorá by
obsahovala všetky potrebné informácie. 45% – 60%
2. Navigačné dopyty – používateľ hľadá domovskú web
stránku nejakej entity („TU v Košiciach“). Používateľ v
tomto prípade očakáva hľadanú odpoveď na prvom
mieste vo výsledkoch. 15% – 25%
3. Transakčné dopyty – predchádzajú realizácii nejakej
transakcie na webe (kúpa produktu, stiahnutie súboru,
rezervácia a pod.). V tomto prípade je potrebné vrátiť
zoznam služieb, ktoré poskytujú rozhranie pre žiadané
transakcie. 25% – 35%
• Existuje niekoľko aspektov tejto úlohy:
– Personalizačná stratégia
• Úprava dopytu (rozšírenie alebo preformulovanie)
• Spracovanie výsledkov vyhľadávania (ich preusporiadanie)
– Zdroj dát pre personalizačné rozhodovanie:
• Založené na obsahu (podobnosť medzi dokumentmi)
• Kolaboratívna filtrácia (podobnosť medzi používateľmi)
• Hybridné (kombinácia oboch prístupov)
– Časový interval, z ktorého sa berú dáta pre
personalizáciu:
• Dlhodobé (celá história interakcií používateľa s vyhľadávačom)
• Krátkodobé (uvažuje iba posledné interakcie)
7
8
Marketing založený na vyhľadávaní
Ekonomické aspekty vyhľadávania (1)
• V minulosti dominovali najmä reklamné
bannery na populárnych webových stránkach,
typicky platené formou CPM (cost per mil, resp.
impression) – cena za tisíc zobrazení
reklamného bannera
•
– Reklamné bannery majú však veľmi nízku mieru
prekliku (CTR – click through rate: rádovo max.
desatiny percenta)
•
•
Marketingová stratégia, kde hlavným nástrojom
je vyhľadávač.
Cieľom je dosiahnuť, aby sa daná web stránka
ocitla vo výsledkoch pri hľadaní určitých
kľúčových slov čo najvyššie.
To sa dá dosiahnuť:
a) Využitím platených služieb – platenie za reklamu
založené na princípe CPC (cost per click) – napr.
AdWords v Google, Sponsored Search v Yahoo!
b) Optimalizáciou web stránok pre vyhľadávače (SEO)
– v rámci stránky samotnej, alebo aj mimo nej
počet kliknutí
CTR = ----------------------počet zobrazení
– Môžu byť však užitočné, ak cieľom marketingu je
budovanie povedomia o značke (branding)
9
10
Ako funguje AdWords (1)
•
–
–
–
–
–
–
•
Ako funguje AdWords (2)
•
Účet AdWords, definovanie marketingových kampaní:
Názov, dátum ukončenia, denný rozpočet, maximálne CPC
Distribučné preferencie (Google homepage, sieť partnerských
vyhľadávačov, obsahová sieť – partneri využívajúci AdSense)
Výber cieľových jazykov, geografické zacielenie,
Časové úseky dňa, kedy kampaň bude bežať
Miesto zobrazenia reklamy (s tým súvisí cena)
Demograficky závislé ponuky (len pre „social media sites“)
–
–
•
•
Čo sa ukáže pre daný dopyt v sekcii sponzorovaných liniek,
závisí na výsledku zodpovedajúcej aukcie
–
–
–
Vypočíta sa odhad ceny CPC ponuky potrebnej
pre dosiahnutie prvej pozície na daný dopyt
Berie sa do úvahy CTR danej reklamy (tzv. skóre kvality)
Relevancia textu reklamy
Celková výkonnosť kľúčového slova v minulých kampaniach
Usporiadanie marketingových ponúk pre dané kľúčové slovo
dopytu podľa hodnoty „Ad Rank“
Ad Rank = maximálne_CPC x skóre_kvality
Víťazná ponuka sa zobrazí a zadávateľ reklamy za ňu
zaplatí najnižšiu cenu, ktorá by mu ešte zabezpečila danú
pozíciu
–
–
11
Čím vyššie skóre kvality, tým nižšia odhadovaná cena CPC
Tento model podporuje dobre navrhnuté marketingové kampane
Nie je teda možné zaistiť si stopercentne prvé miesto
v zobrazených výsledkoch sponzorovaných liniek
Systém teda vedie k optimalizácii kampaní takým spôsobom,
aby dosiahli čo najvyššie skóre kvality
12
2
Optimalizácia pre vyhľadávače
Google Online Marketing Challenge
•
• Časový plán:
–
–
–
–
Registrácia: do konca zimného semestra
Marketingová kampaň: 3 po sebe idúce týždne január – máj
Podanie záverečnej správy: jún
Vyhlásenie víťazov: júl
• V prípade záujmu:
– Pozrite si podmienky súťaže na webe
(http://www.google.com/onlinechallenge),
– Sformujte tím (4-5 študentov), vybrať si vedúceho
– Vyhliadnuť si vhodnú firmu, pre ktorú by ste spravili internetovú
marketingovú kampaň (nepoužíva AdWords a nemala aktívny AdWords
účet počas posledných 6 mesiacov!)
– Kontaktujte ma
Vrámci samotnej web stránky:
– Výber vhodných kľúčových slov
– Názov domény, použitie kľúčových slov v URL
odkazoch
– Použitie kľúčových slov v názvoch, zvýrazneným
textom
– Dôležité tagy: Title, Meta
•
Mimo web stránky:
– Odkazy na web stránku z rôznych zoznamov, stránok
partnerských organizácií, blogov, a pod.
– Zakázané techniky („cloacking“)
13
14
Algoritmus PageRank (2)
Algoritmus PageRank (1)
• PageRank je vlastne simuláciou náhodného používateľa
• Vznikol v rámci projektu na univerzite Stanford a znamenal
začiatok Google
– Vychádza zo stránky na náhodnom URL
– Klikne náhodne na niektorú z liniek danej stránky
– Lawrence Page, Sergey Brin, Rajeev Motwani, Terry
Winograd: The PageRank Citation Ranking: Bringing Order
to the Web
– Po chvíli sa začne nudiť a skočí na stránku s iným náhodným URL
• Alebo ináč:
– PageRank interpretuje linku zo stránky A na stránku B ako hlas,
ktorý odovzdá stránka A stránke B
• Využíva štruktúru web liniek pre výpočet hodnotenia
kvality (PageRank) jednotlivých web stránok
– Naviac je tento hlas vážený významnosťou stránky A, ktorá dáva
svoj hlas stránke B, t.j.
• Každá web stránka má unikátny PageRank, nezávislý na
dopyte, ale iba na štruktúre prepojení
– PageRank danej stránky sa zvyšuje tým viac, čím vyšší je
PageRank stránok, ktoré sa na danú stránku odkazujú
• PageRank teda nevyjadruje relevanciu stránky vzhľadom
na daný dopytu
15
Príklad výpočtu ohodnotení PageRank (1)
Algoritmus PageRank (3)
PR(A)  ( 1  d)  d*(
16
PR(Tn )
PR(T1 )
 ... 
)
C(T1 )
C(Tn )
Page A
Page B
– d: tlmiaci faktor, nastavený na 0,85 – 0,9
– T1, …, Tn: stránky odkazujúce sa na stránku A
– PR(A): PageRank stránky A
Page C
– PR(Ti): PageRank stránky Ti
Page D
– C(Ti): počet liniek vychádzajúcich zo stránky Ti
17
18
3
Príklad výpočtu ohodnotení PageRank (2)
1*0,85/2
Page A
1
1*0,85/2
Príklad výpočtu ohodnotení PageRank (3)
Page A
1
Page B
1
Page B
0,575
1*0,85
1*0,85
Page C
1
1*0,85
Page C
2,275
Page D
1
Page D
0,15
Page A: 2,275*0,85 (od stránky C) + 0,15 (nepresunuté) = 2,08375
Page B: 1*0,85/2 (od stránky A) + 0,15 (nepresunuté) = 0,575
Page C: 0,15*0.85 (od stránky D) + 0,575*0,85(od stránky B) + 1*0,85/2
(od stránky A) + 0,15 (nepresunuté) = 1,19125
Page D: nezíska žiadne, ale nepresunuté 0,15 = 0,15
Page A: 0,85 (od stránky C) + 0,15 (nepresunuté) = 1
Page B: 0,425 (od stránky A) + 0,15 (nepresunuté) = 0,575
Page C: 0,85 (od stránky D) + 0,85 (od stránky B) + 0,425 (od stránky A) +
0,15 (nepresunuté) = 2,275
Page D: nezíska žiadne, ale nepresunuté 0,15 = 0,15
19
Príklad výpočtu ohodnotení PageRank (4)
20
Príklad výpočtu ohodnotení PageRank (5)
• Po 20 iteráciách dostaneme:
Page A
2,03875
Page A
1,490
Page B
0,575
Page C
1,1925
Page B
0,783
Page C
1,577
Page D
0,15
Page D
0,15
Stránka C má teda najväčší význam v danej sieti,
za ňou nasleduje stránka A
 Viac iterácií algoritmu vedie ku konvergencii váh
PageRank

21
Usporiadanie výsledkov v Google
Algoritmus HITS (1)
• Používa algoritmus PageRank ako jedno z kritérií
pre usporiadanie výsledkov na dopyt používateľa
• Kritérií, ktoré sa berú do úvahy pri usporadúvaní
výsledkov je viac ako dvesto, medzi nimi napr.:
–
–
–
–
–
–
–
22
• HITS (Hypertext-Induced Topic Search)
navrhnutý Jon Kleinbergom počas pobytu
v IBM
• IBM rozšírila HITS v systéme Clever
• Clever nie je vyhľadávací stroj určený na
prácu v reálnom čase
• Usporadúva stránky vzhľadom na ich
relevanciu k používateľovmu dopytu
(na rozdiel od PageRank)
Frekvencia termov
Blízkosť termov
Pozícia termov (názov, na začiatku stránky, a pod.)
Charakteristiky termu (hrubé písmo, kapitálky, a pod.)
Informácia z analýzy liniek (PageRank)
Informácia o kategóriách
... a mnohé ďalšie
23
24
4
Algoritmus HITS (2)
Algoritmus HITS (3)
1.
• Každá web stránka je hodnotená dvojicou váh:
Použitím dopytu sa získa tzv. jadro (root set) stránok z
textového vyhľadávacieho stroja (napr. Google alebo Yahoo)
– váha hub
– váha autorita
• Dobrý hub je web stránka, ktorá odkazuje
na mnoho dobrých autorít
• Dobrá autorita je web stránka, na ktorú sa
odkazuje mnoho dobrých hubov
• Výpočet váh autorít a hubov iteráciami
konverguje k vlastným vektorom MTM a MMT,
kde M je matica susednosti orientovaného
podgrafu webu
Jadro
25
26
Algoritmus HITS (4)
2.
Algoritmus HITS (5)
Jadro sa rozšíri na základnú množinu (base set) web stránok
zahrnutím
4.
Algoritmus pracuje iteratívne s váhami autority a(p) a váhami
hub h(p)
– Nastav váhy a(p) = 1 a váhy hub h(p) = 1 pre všetky p
– Opakuj nasledovné 2 operácie
– všetkých stránok na ktoré sa odkazujú stránky z jadra
– všetkých stránok ktoré sa odkazujú na nejakú stránku z jadra
3.
Typická základná množina obsahuje 1000-5000 stránok
h(v1)
v1
h(v2)
v2
h(v3)
v3
Základná
množina
p
a( p) 
p
 h( q )
h( p ) 
Príklad výpočtu algoritmu HITS (1)
h 
H  h 
h 
y
z
a 
a 
a 
A 
y
z





Z 

X
x
x
M 
Y
1 1
1

M  0 0 1


1 1 0


Z
1 1 1

0 0 1

1 1 0
H i  M * Ai 1
T
Z
Y
Ai  M * H i1
0 1

T 
M  1 0 1


1 1 0


Iterácia 0
X
X
a(v2)
v3
a(v3)
 a(q)
28
Príklad výpočtu algoritmu HITS (2)
1

Y
v2
– a napokon znormalizuj a a h na jednotkovú veľkosť
27
X
a(v1)
pq
q p
Jadro
v1
H i  M * M T H i 1
Z
T
Ai  M * M * Ai 1
5.
29
Y
1
3

1 2
3
…

T 
M M  1 1 0


2 0 2


2
2

2 1


T
M M  2 2 1


1 1 2


1
H  1
1
6 
2
 
 4 
 28
8
 
 20 
132 0,79
 36    0,21
  

 96  0,57 
X je najlepší hub
1
A  1
1
5 
5 
 
 4 
 24 
 24 
 
18 
114 0,63
114  0,63
  

 84  0,46
X a Y sú
najautoritatívnejšie stránky
Výstupom algoritmu je zoznam najlepších autorít
a niekoľko najlepších hubov.
30
5
Porovnanie PageRank a HITS
• PageRank
(Google)
– Vypočítava váhy pre
všetky web stránky
v databáze ešte pred
zadaním dopytu
– Vypočítava len autority
– Triviálny a rýchly
výpočet
Ďalšie trendy vo vyhľadávaní
• HITS
(CLEVER)
– Výpočet prebieha
na množine stránok
vrátených pre každý
dopyt
– Vypočítava autority
a huby
– Ľahký výpočet, ale
ťažko realizovateľný
v reálnom čase
• Vyhľadávanie založené na sémantike
– Môžete si prečítať napr. aj tento článok
– V Google ide o prístup založený na tzv. “znalostnom grafe”
– Bing tiež využíva sémantické vyhľadávanie
• Grafovo orientované vyhľadávanie
– napr. na Facebooku
• Technológia odpovedania na otázky
– IBM Watson
31
32
6
Analýza textu: kontext, aplikácie
Manažment znalostí (5)
• Vyhľadávanie informácií (IR, Information Retrieval)
Analýza textu,
predspracovanie textových dokumentov
• Získavanie znalostí z textov (Text Mining):
• Klasifikácia (Classification)
• Zhlukovanie, kategorizácia (Clustering, Cathegorisation)
• Extrakcia informácií (Information Extraction)
OBSAH PREDNÁŠKY
• Rozpoznávanie vlastných mien (Named Entity Recognition)
• Zisťovanie, spoločných výskytov, koreferencií a anaforických relácií
(Coreference Resolution)
• Rozpoznávanie termínov (Terminology Extraction)
• Rozpoznávanie vzťahov (Relationship Extraction)
• Analýza textu, predspracovanie textových údajov
• Konverzia na čistý text
• Segmentácia a tokenizácia
• Lematizácia a morfologická analýza
• Eliminácia stop-slov,váhovanie a normovanie termov
• Lingvistická analýza textu
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
• Textové korpusy, korpusová lingvistika
• Počítačové spracovanie prirodzeného jazyka
(NLP, Natural Language Processing)
1
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Analýza textu v IR systémoch
2
Matica dokumentdokument-term
N: počet dokumentov
M: počet termov
wij: váha j-tého termu
v i-tom dokumente
• Termy - kľúčové slová, charakterizujúce obsah dokumentu
• Váhy - miery relatívnej dôležitosti termov, napr. frekvencie výskytu
• Maticu F možno považovať aj za príznakový popis, pričom váhy
termov sú príznakmi - charakteristickými vlastnosťami
jednotlivých dokumentov
Cieľ: transformácia textu, resp. otázky, na príslušnú vektorovú
reprezentáciu
- pre indexáciu textových dokumentov sa používa matica dokument-term
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
3
Predspracovanie textových údajov
[1]
[3]
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Konverzia elektronických dokumentov
na textový formát (1)
[2]
4
[1]
• Čistý text (plain text) - sekvencia alfanumerických,
interpunkčných, oddeľovacích grafických znakov a
niektorých špeciálnych symbolov (napr. %, &, *, a pod.).
[4]
• Web, e-mail - typ obsahu dokumentov:
• štandard MIME (Multipurpose Internet Mail Extensions).
• Typ obsahu sa nastaví v hlavičke pomocou atribútu Content-type:
Content-Type: text/plain
• Predspracovanie textových údajov - získanie príznakových popisov
• Typy obsahu internetových dokumentov definuje organizácia
pre všetky texové dokumenty zo skúmaného súboru, korpusu
IANA (Internet Assigned Numbers Authority, http://www.iana.org)
• Predspracovanie je prípravná fáza pre indexáciu (v IR), resp. pre
aplikáciu metód dolovania znalostí
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
• Aktuálny zoznam typov obsahu možno nájsť na
http://www.iana.org/assignments/media-types/
5
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
6
Konverzia elektronických dokumentov
na textový formát (2)
[1]
Kódovanie
v elektronických dokumentoch (1)
Zdroj: http://ufal.mff.cuni.cz/~zeman/, 2007
Niektoré často používané formáty textu a Java nástroje na
konverziu do formátu plain text:
•
•
0–127 ASCII standard. Zbytek (128–255): anarchie.
Věta, která obsahuje všechna písmena abecedy. Na testování, že je použito
správné kódování.
– „Příliš žluťoučký kůň úpěl ďábelské ódy.“
–
–
–
–
–
–
–
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
7
Kódovanie
v elektronických dokumentoch (2)
[1]
• Pre SK/CZ: kódovania kód Kamenických (tiež KEYBCS2), PC Latin 2,
ISO Latin 2 (tiež ISO 8859-2), KOI-8 CS2, Win-1250 a MacOS CE:
<meta http-equiv="Content-Type“
content="text/html; charset=iso-8859-2">
<meta http-equiv="content-type"
content="text/html; charset=utf-8" />
Windows Central European (1250) (ž, š, ť, Ž, Š, Ť)
ISO 8859-2 (UnixLatin2): Přílią ľlu»oučký kůň úpěl ďábelské ódy.
Mac CE (Apple MacIntosh, MacOS): PŢ liä ěluéou ků kóË p l belsk k dy.
Unicode (stále více rozšířen); hybrid UTF-8, 8+16 bitů (jako třeba JIS):
PY ília
~ lue ou ký ko H
úp
l
ábelské ó
dy.
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Metainformá
Metainform
ácie v el. dokumentoch
8
[1]
• Bibliografické údaje o textoch, napríklad autor, dátum publikovania,
vydavateľ, zdroj alebo umiestnenie dokumentu, typ dokumentu,
veľkosť elektronického súboru, a podobne.
• Verzie ASCII pre európske jazyky - 256 znakov, 8-bitové kódovanie
Kódovanie ISO-8859-2:
“The quick brown fox jumps over the lazy dog.”
Bratři Kameničtí: PŠˇli¨ ‘luźou‡k k–¤ Łpl belsk‚ ˘dy.
DOS Latin 2 (852): Pýˇliç §luśouźkě k…ĺ ŁpŘl Ô belsk‚ ˘dy.
Metainformácie - údaje, ktoré sa dajú odvodiť z pôvodného
elektronického dokumentu, avšak sa strácajú pri konverzii na čistý text.
Sú to napríklad:
• ASCII (American Standard Code for Information Interchange) 7-bitové kódovanie. Obsahuje definície 128 znakov – 33 riadiacich
znakov, 94 znakov pre tlač a znak medzery.
Kódovanie ISO UTF-8:
[1]
• Metaúdaje, anotácie vložené autorom do dokumentu, ktoré dodatočne
charakterizujú obsah textu (napr. Properties v MS Word formáte).
• Informácie o štruktúre textu, napr. členenie na kapitoly, odseky, nadpisy
a pod. Tiež typografické informácie – zlom riadkov a stránok,
zvýraznenie rôznymi typmi písma, odsadenie, odrážky, a ďalšie.
• Unicode - dvojbajtové kódovanie, sady s 65 536 znakmi
• UTF-8 - kódovanie s premenlivou bitovou dĺžkou:
• prvých 128 znakov je ASCII
• 2-6 bajt - kódovanie znakov Unicode
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
9
Extrakcia čistého textu - príklad (1)
[1]
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Extrakcia čistého textu - príklad (2)
10
[1]
Čistý text v XML formáte (vrátane metainformácií):
Dokument
v PDF formáte:
<header>
<author>Ján Paralič</author>
<source>
<location>http://people.tuke.sk/jan.paralic/ prezentacie/MZ/MZ3.pdf</location>
<size>2MB</size>
<format>PDF</format>
</source>
<type>Prezentácia k prednáškam</type>
<topic>Manažment znalostí</topic>
</header>
<plain text>
<title>Manažment znalostí (3)</title>
<sub_title>OBSAH PREDNÁŠKY</sub_title>
<ul>
<li>Všeobecná architektúra systému pre podporu manažmentu znalostí v organizácii (SMZ) a príklady konkrétnych
systémov SMZ
<ul>
<li>1. Podpora toku znalostí (procesný uhol pohľadu)
<ul>
<li>Základné znalostné procesy</li>
<li>Procesy učenia v organizáciách</li>
<li>Vzťahy medzi procesmi učenia a znalostnými procesmi</li>
</ul>
</li>
<li>2. Znalostné sklady</li>
<li>3. Znalostná kartografia</li>
<li>4. Komunity znalostných pracovníkov</li>
</ul>
</li>
</ul>
...
Extrahovaný čistý text:
Manažment znalostí (3)
OBSAH PREDNÁŠKY
Všeobecná architektúra systému pre podporu manažmentu
znalostí v organizácii (SMZ) a príklady konkrétnych systémov SMZ
1. Podpora toku znalostí (procesný uhol pohľadu)
Základné znalostné procesy
Procesy učenia v organizáciách
Vzťahy medzi procesmi učenia a znalostnými procesmi
2. Znalostné sklady
3. Znalostná kartografia
4. Komunity znalostných pracovníkov
Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 1
Všeobecná architektúra SMZ (1)
MZ je vlastne manažmentom prostredia, ktoré má
umožňovať a napomáhať obehu znalostí cez 4 fázy
životného cyklu znalostí (viď. model SECI)
Nakoľko v súčasnej informačnej spoločnosti značnú
časť prostredia v organizáciách tvorí IT
infraštruktúra, je namieste položiť si otázku, ako
môžu práve IKT prispieť k obehu znalostí?
Manažment znalostí (3) Ján Paralič
(people.tuke.sk/jan.paralic) 2
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
11
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
12
Tokenizácia a segmentácia
[2]
• Segmentácia (tiež parsovanie, parsing) - členenie textu
na slová, resp. elementárne textové jednotky.
Príklad - fragment textu:
1. Podpora toku znalostí (procesný uhol pohľadu)
sa rozdelí na desať elementárnych textových jednotiek takto:
[1] [.] [Podpora] [toku] [znalostí] [(] [procesný] [uhol] [pohľadu] [)]
• Segmentácia a tokenizácia sú inicializačné textové
operácie, pri ktorých sa vo vstupnom čistom texte
dokumentu identifikujú slová, slovné spojenia a frázy,
vety, odseky, a pod.
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Tokenizácia
- určenie lexikálnych textových jednotiek (1)
13
[2]
• Iná definícia (Garabík, 2004): token je „arbitrárna jednotka textu,
ktorá rozširuje lingvistický význam pojmu slovo”.
Pri tokenizácii sa spájajú (niekedy aj rozdeľujú)
elementárne textové jednotky určené počas segmentácie:
Pr.: [1] [.] o [1.]
Ďalšie príklady: 3,14, 1 984, 25 °C, 8-krát, 18,36 EUR, Win98, ustálené
zložené pomenovania a názvy (Spišská Nová Ves, Technická
univerzita, viac-menej), skratky (angl., a pod.), adresy elektronickej
pošty, URL adresy webovských stránok a pod.
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Tokenizácia - nástroje
15
[2]
Karol Furdík
[email protected], http://web.tuke.sk/fei-cit/furdik/
[email protected], http://web.tuke.sk/fei-cit/furdik/
Tokenizácia
- určenie lexikálnych textových jednotiek (2)
14
[2]
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Tokenizácia - nástroj Apache Lucene
16
[2]
na tokeny ohraničené prázdnymi znakmi:
[1.] [Podpora] [toku] [znalostí] [(procesný] [uhol] [pohľadu)]
• Simple Analyzer – textový analyzátor, ktorý robí konverziu na malé písmená a
delí text na tokeny ohraničené prázdnymi znakmi a znakmi interpunkcie:
[1] [podpora] [toku] [znalostí] [procesný] [uhol] [pohľadu]
• Stop Analyzer – textový analyzátor, ktorý robí konverziu na malé písmená
a eliminuje stop-slová (pre angličtinu):
[1] [podpora] [toku] [znalostí] [procesný] [uhol] [pohľadu]
resp. pre anglický text: The quick brown fox jumps over the lazy dog.
bude výsledok tokenizácie: [quick] [brown] [fox] [jumps] [over] [lazy] [dog]
• Snowball Analyzer – textový analyzátor, ktorý aplikuje algoritmus na izoláciu
koreňa (stemming - pre angličtinu):
[the] [quick] [brown] [fox] [jump] [over] [the] [lazy] [dog]
• JavaCC (https://javacc.java.net), známy a často používaný
generátor textových analyzátorov pre platformu Java,
• SableCC (http://sablecc.org), objektovo orientovaný systém na
generovanie textových analyzátorov,
• JFlex (http://www.jflex.de), pravidlový generátor textových
analyzátorov,
• FLEX (http://flex.sourceforge.net), generátor textových analyzátorov
pre platformu C.
Analýza textu, predspracovanie textových dokumentov
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
Vyhľadávací systém Apache Lucene (http://lucene.apache.org). ponúka
hotové riešenie na segmentáciu a tokenizáciu anglických textov.
V Lucene sú k dispozícii sú štyri typy nástrojov:
• Whitespace Analyzer – jednoduchý textový analyzátor, ktorý delí vstupný text
Pravidlovo orientované systémy - pomocou formálnej
gramatiky sa definujú pravidlá a ohraničenia na identifikáciu
žiadaných tvarov reťazcov v texte. Nástroj potom vytvorí
vykonateľný alebo zdrojový kód, ktorý je priamo použiteľný
na segmentáciu a tokenizáciu podľa zadaných pravidiel.
Medzi takéto nástroje patria napríklad:
Manažment znalostí
Manažment znalostí
• Zložené tvary: v rámci, a teda, tok znalostí, uhol pohľadu, a pod. Tieto
však nezodpovedajú slovníkovým záznamom (nie sú to ustálené
zložené pomenovania), preto je vhodné nespájať ich.
• Aglutinované formy: oňho, akoby, a pod. Dali by sa rozdeliť, ale tým by
sa menil význam - odporúča sa nechať spojené.
Pri tokenizácii treba ďalej zohľadniť tieto javy:
• Čísla. Samy osebe nie sú dobrými termami - kvôli ich neurčitosti.
Avšak termami sú špeciálne formáty,napr. telefónne čísla, PSČ, ŠPZ,
čísla v technických dokumentáciách, čísla kapitol, atď.
• Zložené slová. napr. Jean-Claude, hi-fi, MS-DOS, ale tiež chybné
označenia, napr. Prešov-Košice, a pod.
• Interpunkcia. napr. verzia 1.32, 1.44 MB, PS/1, [email protected], atď.
•Veľkosť písma. Pri tokenizácii sa niekedy používa konverzia na veľké
alebo malé písmo, čím sa však stráca sémantická informácia.
Token (značka) - systémom rozpoznaná a akceptovaná
skupina znakov s kolektívnym významom, ktorá obyčajne
zodpovedá konkrétnemu slovníkovému záznamu.
Manažment znalostí
[2]
Elementárne textové jednotky sú:
• súvislé reťazce alfanumerických znakov, oddelené
medzerami alebo znakmi interpunkcie
• jednotlivé znaky interpunkcie
• Značkovanie (tiež tokenizácia, tokenization) - určenie
slova v jeho slovníkovom (prípustnom) tvare. Určenie
lexikálnych textových jednotiek.
Manažment znalostí
Segmentácia
- členenie na elementárne textové jednotky
17
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
18
Výsledok tokenizácie
[2]
Výsledkom tokenizácie je súbor identifikovaných a ohodnotených
tokenov. Pre ďalšie spracovanie býva súbor tokenov najčastejšie
vyjadrený vo formáte XML:
<f type=num mod=conjoin pos=1>1.</f>
<f mod=firstcapital pos=4>podpora</f>
<f pos=12>toku</f>
<f pos=17>znalostí</f>
<f type=spec_opparent pos=26>(</f>
<f pos=27>procesný</f>
<f pos=36>uhol</f>
<f pos=41>pohľadu</f>
<f type=spec_clparent pos=48>)</f>
Značka <f> označuje lexikálnu formu (word form), ktorej atribútmi sú
pozícia, typ tokenu, údaj o modifikácii (napr. konverzia veľkého
začiatočného písmena, zloženie z viacerých elementárnych jednotiek),
prípadne ďalšie parametre - v následnom procese lematizácie a
morfologickej analýzy sa tokenu priraďujú atribúty lema a tag.
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Porterov algoritmus (1)
19
• SK (CZ, DE,...) - zložité, EN - jendoduchšie.
Porterov algoritmus na izoláciu koreňa slova (Porter
stemmer) - najpoužívanejší mechanizmus pre angličtinu.
Je založený na skupine pravidiel v tvare:
(podmienka) S1 -> S2
Podmienková časť pravidla obsahuje logický výraz, pomocou ktorého sa
testuje, napríklad, či tvar končí na -s, či tvar obsahuje samohlásku, či tvar
končí na dvojitú spoluhlásku, a podobne.
Vstupom pre Porterov algoritmus sú tokeny anglických slov, výstupom sú
určené korene týchto slov (angl. stems).
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Lematizácia v slovenčine (1)
21
Problémy - nejednoznačnosti a rôzne typy nepravidelností jazyka:
• Tvarová homonymia:
mier o mieriť, ale aj mier, resp. miera
mať o mať (substantívum), ale aj mať (sloveso)
veď o viesť (sloveso), ale aj veď (častica), ...
• Lexikálna homonymia (jedno slovo označuje viac rôznych významov):
oko: ľudské, morské, reťaze
akcia: činnosť, podielový list
• Polysémia (viacznačnosť):
padnúť: do studne, za vlasť, padol návrh, šaty jej padnú, ...
Nejednoznačnosti sa nedajú riešiť na úrovni morfológie (izoláciou koreňa),
potrebná je komplexná jazyková analýza.
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Predpoklad: základný tvar má rovnaký význam ako každý z gramatických
tvarov. (to však nie je úplne pravda...)
Efekt: významná redukcia počtu termov, zníženie výpočtovej náročnosti
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Porterov algoritmus (2)
Krok 1a - odstránenie prípon -s a -es:
SSES -> SS
caresses -> caress
IES -> I
ponies -> poni
S ->
cats -> cat
Krok 1b - odstránenie prípon -d, -ed a -ing:
(m>0) EED -> EE agreed -> agree
(*v*) ED ->
plastered -> plaster
(*v*) ING ->
motoring -> motor
Krok 1c - zmena prípony -y na -i:
(*v*) Y -> I
happy -> happi
Krok 2 - zmena prípon:
(m>0) ATIONAL -> ATE relational -> relate
(m>0) ENCI -> ENCE valenci -> valence
...
Krok 3 - zmena alebo odstránenie prípon:
(m>0) ICATE -> IC
triplicate -> triplic
(m>0) ATIVE ->
formative -> form
(m>0) ALIZE -> AL
formalize -> formal
...
23
20
[3]
Krok 4 - odstránenie prípon:
(m>1) AL ->
revival -> reviv
(m>1) ANCE -> allowance -> allow
(m>1) ENCE -> inference -> infer
...
Krok 5a - úprava koreňov, odstránenie -e:
(m>1) E ->
probate -> probat
(m=1 and not *o) E -> cease -> ceas
Krok 5b - úprava koreňov, zmena -ll na -l:
(m>1 and *d and *L) LL -> L controll ->
control
------------------------------------------------Viac info (vrátane implementácie) na:
http://tartarus.org/~martin/PorterStemmer/
Ďalšie nástroje: S-stemmer, Lovinsov
stemmer, a pod.
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
[3]
Komplikovanejšia ako v EN - pravidlá morfológie sú podstatne zložitejšie a
izolácia korena sa rieši morfologickou analýzou a komplexným
lingvistickým prístupom.
[3]
Lema - základný tvar slova.
Lematizácia - proces, ktorý z tvaru slova v texte určí jeho základný tvar
(najčastejšie odstránením slovotvorných, pádových a iných predpôn
a prípon). Pri substantívach a adjektívach je lemou prvý pád jednotného
čísla, pri slovesách neurčitok:
pekná o pekný, prípadov o prípad, atď
Špeciálnou formou lematizácie je izolácia koreňa slova (angl. stemming),
pri ktorej sa označkované slovo na danej pozícii nahrádza svojím
kmeňovým základom:
{clos-ing, clos-es, clos-er, clos-e} o clos+0
[3]
Lematizácia, resp. izolácia koreňa slova, je silne závislá na
použitom jazyku.
Manažment znalostí
Lematizácia a morfologická analýza
Lematizácia v slovenčine (2)
22
[3]
Lematizácia a morfologická analýza - postup:
• Slovám identifikovaným v texte počas tokenizácie sa priradí príslušný
základný tvar – lema.
• Zároveň sa slová ohodnocujú príslušnými morfologickými kategóriami, na
základe ktorých sa tokenom priradia gramatické značky – tagy.
(tento proces sa tiež označuje ako tagovanie, angl. tagging)
• Značka určuje predovšetkým slovný druh, a potom, v závislosti od
slovného druhu, aj ďalšie kategórie ako rod, číslo, pád, osobu, atď.
Nástroje na lematizáciu a morfologickú analýzu v slovenčine:
• Automat na separáciu koreňov (systém SAPFO - Páleš, 1994)
• Lematizátor pre IR systém Egothor (Galamboš, 2001, http://www.egothor.org)
• Morfologický analyzátor SNK (Garabík, 2004)
• Tvaroslovník, lematizátor systému NAZOU (Krajči, 2009)
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
24
Reprezentácia lematizovaného textu
[3]
Lema
na
okno
sedět
kočka
být
horký
letní
den
pražské značkovanie
RR------------NNNS6-----A---VpQW---XR-AA--NNFS1-----A---Z:------------VpYS---XR-AA--AAIS1----1A---AAIS1----1A---NNIS1-----A---Z:-------------
<f>1.</f>
<l>prvý</l>
<t>0</t>
<f>podpora</f>
<l>podpora</l>
<t>SSfs1</t>
<f>toku</f>
<l>tok</l>
<t>SSis2</t>
<f>znalostí</f>
<l>znalosť</l>
<t>SSfp2</t>
<f>(</f>
<l>(</l>
<t>#</t>
<f>procesný</f>
<l>procesný</l>
<t>AAis1x</t>
<f>uhol</f>
<l>uhol</l>
<t>SSis1</t>
<f>pohľadu</f>
<l>pohľad</l>
<t>SSis2</t>
<f>)</f>
<l>)</l>
<t>#</t>
Výsledok lematizácie: [prvý] [podpora] [tok] [znalosť] [(] [procesný] [uhol] [pohľad] [)]
Význam značiek tagu <t>, použitých v príklade slovenského značkovania:
1. slovná treda: S – substantívum, A – adjektívum, 0 – číslica, # – neslovný element.
2. typ paradigmy (pri menných slovných druhoch): S – substantívna paradigma,
A – adjektívna paradigma.
3. rod: i – mužský neživotný, f – ženský.
4. číslo: s – jednotné (singulár), p – množné (plurál).
5. pád: 1 – nominatív, 2 – genitív.
6. stupňovanie: x – pozitív (irelevantný stupeň).
brnenské značkovanie
k7c6
klgNnSc6
k5eAp3nStMmPaI
klgFnSc1
k5eAp1nStMmPaI
k2eAgInSc1d1
k2eAgInSc1d1
klgInSc1
Tagset pre slovenčinu bol vyvinutý na JÚĽŠ v Bratislave, ako súčasť
projektu Slovenského národného korpusu (http://korpus.juls.savba.sk).
Koncepčne vychádza z brnenského značkovania, líši sa však spôsob
zápisu aj množina atribútov tagu (Garabík, 2004).
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Úprava výsledkov lematizácie
25
Po prvotnej morfologickej analýze teda nevyhnutne nasleduje proces
zjednoznačnenia (angl. disambiguation), ktorý už môže, na rozdiel od
samotnej morfologickej analýzy, využiť aj kontext, v ktorom sa slovo
nachádza.
[email protected], http://web.tuke.sk/fei-cit/furdik/
Váhovanie a normovanie termov (1)
[email protected], http://web.tuke.sk/fei-cit/furdik/
Eliminácia neplnovýznamových slov
26
[4]
did, didn’t, down, during, each, me, most, much, my, near, no, none, not, now, of, off, on, our, out, own,
past, per, rather, recent, say, see, self, she, so, soon, such, take, than, that, the, their, then, there, they,
this, to, too, try, under, up, upon, us, use, via, want, was, we, were, what, when, who, why, would, yes, yet,
... (http://www.link-assistant.com/seo-stop-words.html)
Prístupy k zjednoznačneniu lematizácie a morfologickej analýzy:
• štatistické metódy, založené na strojovom učení, kde východiskom je
vopred ručne označkovaný korpus, ktorý slúži ako trénovacia množina
textov.
• metóda podmienených pravdepodobností - určujú sa relatívne
početnosti po sebe nasledujúcich morfologických značiek pre tokeny
z textov v trénovacej množine.
Karol Furdík
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
Cieľ - zníženie počtu termov vo vektorovej reprezentácii (t.j. redukcia
príznakového priestoru).
Predpoklad - hlavnými nositeľmi významu sú plnovýznamové slová, t.j.
substantíva, adjektíva, slovesá. Ostatné (spojky, predložky, častice)
môžno odstrániť - ich vplyv na celkovú reprezentáciu obsahu je malý.
Stop-words - zoznam neplnovýznamových slov:
• EN: a, about, above, after, again, an, and, any, are, be, before, behind, been, both, brief, can, come,
Riešenie - brať do úvahy kontext, t.j. širšie okolie daného tokenu.
Analýza textu, predspracovanie textových dokumentov
Manažment znalostí
[3]
Výsledky lematizácie môžu byť nejednoznačné - pre jeden token môže
byť priradených viac lem (napr. tvary mier, mať, veď, a pod.).
Manažment znalostí
[3]
Príklad - fragment textu „1. Podpora toku znalostí (procesný uhol pohľadu)“:
Reprezentácia morfologických tagov je daná použitým súborom značiek
(tagsetom) a spôsobom ich zápisu.
Používané je pražské a brnenské značkovanie.
Príklad - veta „Na okně seděla kočka, byl horký letní den.“:
Token
Na
okně
seděla
kočka
,
byl
horký
letní
den
.
Slovenský tagset - príklad
• SK: a, aby, aj, ako, ale, alebo, ani, áno, asi, bez, by, byt, cez, co, ci, dnes, do, další, ešte, ho, i, iba, ja,
je, jeho, jej, k, kam, každý, kde, kto, ktorý, ku, mat, môct, môj, my, na, nad, nie, niet, než, nic, nový, o, od,
on, po, pod, podla, práve, preco, pred, preto, potom, pri, prvý, s, sa, si, so, spät, svoj, tak, takže, teda, ten,
tento, to, toto, tu, tuto, tvoj, ty, u, už, v, váš, viac, však, všetko, vy, z, za, že, ...
• Iný
spôsob - štatistika: odstrániť slová s príliš vysokou resp. príliš nízkou
frekvenciou výskytov.
Výsledok po eliminácii: [prvý] [podpora] [tok] [znalosť] [(] [procesný] [uhol] [pohľad] [)]
27
[4]
Cieľ - vyjadrenie relatívnej dôležitosti toho-ktorého termu, t.j. miery jeho
príspevku k obsahu dokumentu.
Váhovanie - úprava frekvencie termov:
• Lokálne váhovanie L(kt, di) - pre jeden dokument
• Globálne váhovanie G(kt) - pre celú kolekciu
Váhovaná frekvencia termu kt v dokumente di je potom súčinom lokálnej
váhy a globálnej váhy, teda: wit= L(kt, di) X G(kt)
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
Váhovanie a normovanie termov (2)
28
[4]
Najpoužívanejšie globálne váhovania sú:
Tri najpoužívanejšie lokálne váhovania sú:
Globálne váhovania zmenšujú váhu (dôležitosť) tých termov, ktoré sa
vyskytujú vo veľkom počte dokumentov (t.j. slabo vzájomne odlišujú
obsahy dokumentov).
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
29
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
30
Lingvistická analýza textu
Alternatívny spôsob určovania obsahu textu - skúmajú sa vzájomné
súvislosti jazykových prvkov a javov na úrovniach jazykových rovín:
fonologickej, morfologickej, lexikálnej, syntaktickej, sémantickej a
pragmatickej.
Ďakujem za pozornosť
Paralelný model jazykovej
analýzy (Páleš, 1994)
• Synergický efekt - analýza
sa vykonáva naraz vo
všetkých jazykových
rovinách, čiastkové výsledky
sa vzájomne odovzdávajú.
Otázky?
• Efektívnosť - neurčitosti sa
priebežne odstraňujú.
Viac info: J. Paralič, K. Furdík, G. Tutoky, P. Bednár, M. Sarnovský, P. Butka, F.
Babič: Dolovanie znalostí z textov. Equilibria, s.r.o., Košice, 2010, 184 s.
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
31
Manažment znalostí
Karol Furdík
Analýza textu, predspracovanie textových dokumentov
[email protected], http://web.tuke.sk/fei-cit/furdik/
32
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Text-mining (dolovanie v textoch)
• Špecifická úloha analýzy dát uložených v textovej podobe
• Vo všeobecnosti je základný postup objavovania znalostí z
textov (KDT – Knowledge Discovery in Texts) rozšírením
klasických procesov KDD – ako napr. CRISP-DM
metodológie
• Špecifiká dát v textovej podobe určujú aj ďalšie zmeny v
častiach ako
– Voľba úlohy dolovania
– Predspracovanie textových dát
– Modely používané na popis vstupných a výstupných dát
– Výber a aplikácia algoritmov analýzy dát
Manažment znalostí – Text Mining – 2013/14
Dolovanie v textoch
(Text Mining): napr.
zhlukovanie, klasifikácia,
asociačné pravidlá
5. Použitie výsledkov
4. Interpretácia a vyhodnotenie
výsledkov
3 . Dolovanie v textoch
Vizualizácia
objavených vzorov
2. Predspracovanie
1. Získanie relevantných
dokumentov
Interná forma
Textové dokumenty
Manažment znalostí – Text Mining – 2013/14
Reprezentácia textu
Vektorová reprezentácia dokumentov
• Existuje viacero úrovní – od znakovej reprezentácie,
sekvencií, n-gramov, až po vektorový model a jazykové
modely
• Najčastejšia reprezentácia – na úrovni slov
– Existuje veľa softvérov pre tokenizáciu textov
– Slovo je dobre definované pre nami bežne používané
jazyky
– Poskytuje dostatočnú silu z pohľadu sémantiky (aj
napriek problémom nejednoznačnosti) oproti náročnosti
spracovania
– Obľúbená ako vstup pre väčšinu algoritmov strojoveho
učenia vo forme vektorovej reprezentácie
• dokument je reprezentovaný ako vektor v m-rozmernom
priestore príznakov, ktoré zodpovedajú jednotlivým
slovám – tzv. termom
• množina n dokumentov je reprezentovaná ako matica n×m
• hodnoty zložiek vektora
– binárne, fjk – frekvencia slova j v dokumente k, tf-idf
váhovanie
Manažment znalostí – Text Mining – 2013/14
tfidf ( j, k )
§n
f jk u log¨
¨n
© j
·
¸
¸
¹
n – počet dokumentov
nj – počet dokumentov v
ktorých sa vyskytuje slovo j)
Manažment znalostí – Text Mining – 2013/14
Vektorová reprezentácia dokumentov
Redukcia príznakového priestoru
• neplnovýznamové slová (spojky, pomocné slovesá, ...)
• prevedenie slov na základný tvar (lematizácia), resp. koreň
slova (steming)
– problematické pre slovenčinu
• synonymá
• rozdielny význam v rôznych kontextoch
• vysoká dimenzionalita, riedka vstupná matica (t.j. veľa
nulových hodnôt)
• syntaktické frázy, n-gramy
• metainformácie (hypertextové odkazy, informácie o
autorovi, ...)
• selekcia termov
– zachová sa k termov najlepšie ohodnotených podľa
zvolenej funkcie (dokumentová frekvencia, informačný
zisk, F2, vzájomná informácia, ...)
– využitie špecifickej informácie (napr. použitie znlaosti
o synonymách z databázy Wordnet)
• extrakcia termov
– zhlukovanie termov
– latentné sémantické
indexovanie
X USVT V 1 t ... t V |V | UU T I VV T I
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Latent Semantic Indexing (1)
Latent Semantic Indexing (2)
• Ak sa singulárne hodnoty v s0 usporiadajú zostupne podľa veľkosti, k
najväčších hodnôt možno ponechať a ostatné nahradiť nulami:
• LSI prístup je založený na dekompozícii tf-idf matice A podľa singulárnych
T
hodnôt (SVD)
A
T0 S0 D0
• s0 je diagonálna matica singulárnych hodnôt a T0, D0 sú matice ľavých a
pravých singulárnych vektorov
Manažment znalostí – Text Mining – 2013/14
A # Aš
Aš
TK sK DKT
Manažment znalostí – Text Mining – 2013/14
Reprezentácia textov na úrovni fráz
• Namiesto jednotlivých slov môžeme uvažovať frázy
• Frázy môžu byť dvoch typov:
– Frázy ako frekventované sekvencie za sebou
nasledujúcich slov
– Frázy ako frekventované nesúvislé sekvencie slov
• Frázy môžeme identifikovať rôznymi technikami, ako
napr.:
– N-gramová analýza
– Jazyková analýza (použitie lingvistických postupov pre
skladbu viet, morfológiu, atď.)
– Strojové učenie
– Pravidlové systémy a stavové automaty
• Hlavný cieľ použitia frázy je presnejšie identifikovať
význam
Latent Semantic Indexing (3)
• Aby bolo možné vypočítať
* podobnosť medzi dopytom a aproximovaným
vektorom dokumentu Di , SVD , je nutné transformovať vektor dopytu do
1
T
nového priestoru príznakov QSVD
QTF
IDF TK s K
&
&
• Podobnosť medzi dokumentom a dotazom:
&
&
sim SVD (QSVD , Di , SVD )
Di , SVD u QSVD
&
&
Di , SVD QSVD
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Príklad n-gramov na 250 článkoch sme.sk
Google N-gram korpus
• V roku 2006 Google poskytol korpus pre n-gramy postavený na viac
ako 24GB komprimovaných textových dát
• Využiteľnosť najmä na analýzu algoritmov počítačovej lingvistiky, ngramovej analýzy, automatický preklad, návrh špeciálnych textovoorientovaných kernelových funkcií v algoritmoch SU, atď.
• Niekoľko štatistík:
– Počet tokenov: 1 024 908 267 229
– Počet viet: 95 119 665 584
– Počet 2-gramov: 314 843 401
– Počet 3-gramov: 977 069 902
– Počet 4-gramov: 1 313 818 354
– Počet 5-gramov: 1 176 470 663
•
So stúpajúcim n
– sa znižuje frekvencia najčastejších n-gramov
– sa zvyšuje sa podiel ustálených slovných spojení
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Vyššie úrovne reprezentácie textov
Typické úlohy dolovania v textoch
• POS úroveň – Part-Of-Speech -> použitie kategórií slov ako sloveso,
podstatné meno, prídavné meno, atď.
– Umožňuje rozlíšiť „funkciu“ slova
– Najčastejšia sa používa pri extrakcii informácií alebo pre redukciu
slovníka (vektorovej reprezentácie)
• Taxonómie / tezaury
– Cieľom je spájať hypernymá, hyponymá, synonymá, ... ...
pomocou príslušných sémantických relácií
• Najznámejší (z pohľadu využitia v KDT) je WordNet
– Existuje aj slovenský WordNet http://korpus.juls.savba.sk/WordNet.html
– Cieľom taxonómií a vyšších úrovní je spresnenie významu a
redukcia vstupných dát
• Klasifikácia textov – kategorizácia dokumentov do
existujúcich tried
• Zhlukovanie dokumentov – zhluková analýza dokumentov
a ich rozdelenie do skupín podľa podobnosti
• Extrakcia informácií – získavanie pomenovaných entít,
typických kontextových entít (email, telefónne čísla, ...),
koreferencií, relácií, analýza sentimentu, atď.
• Vyhľadávanie informácií – ide o samostatnú disciplínu,
avšak pre jej podporu sa často využívajú metódy TM/KDT
• Anotácia dokumentov a ich častí
• Vizualizácia množín dokumentov
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Oblasti využitia
• Technológie KDT sú široko využívané pre rôzne potreby (verejné,
výskumné, komerčné). Aplikácie môžeme rozdeliť do viacerých kategórií
podľa typu analýzy a funkcie (z biznis pohľadu):
– Podnikové BI/DM riešenia – tzv. „Competitive Intelligence“
– Elektronické objavovanie (e-Discovery), manažment záznamov
– Bezpečnostné systémy a bezpečnostná inteligencia
– Nástroje pre analýzu sentimentu, platformy pre sledovanie záujmu
– Nástroje a služby s podporou spracovania prirodzeného jazyka (NLP)
– Publikovanie dokumentov
– Odporúčanie dokumentov, produktov, služieb, ...
– Automatická reklama a marketing
– Vyhľadávanie a sprístupňovanie informácií
– Monitorovanie sociálnych médií
Manažment znalostí – Text Mining – 2013/14
Existujúce nástroje
• Komerčné
– IBM SPSS TM, IBM LanguageWare, Inxight, SAS TM
Statistica Text Miner, ...
– DM nástroje ako SPSS použité na textové dáta po
predspracovaní
• Open-Source
– Knižnice algoritmov použiteľných pre TM
– Komplexné nástroje pre TM / DM, aj s vizualizačnými
prvkami
– Knižnice pre (pred)spracovanie textu, NLP a podporu
vyhľadávania informácií
Manažment znalostí – Text Mining – 2013/14
Vybrané dostupné nástroje (2)
Vybrané dostupné nástroje
•
•
•
•
Apache Lucene – indexovací nástroj pre vyhľadávanie informácií
– Použitý v niektorých iných softvéroch (napr. GATE, Nutch, JBOWL)
– http://lucene.apache.org/
Apache Nutch – crawler a parsovanie HTML
– http://nutch.apache.org/
RapidMiner – rozšírenie pre textové analýzy
– Poskytuje operátory (bloky zaraditeľné do procesu spracovania) pre štatistickú
analýzu textu, podporuje viacero formátov (plain text, HTML, pdf) a techník
predspracovania / filtrovania (tokenizácia, stemming, stopslová, generovanie ngramov, extrakcia informácií pomocou regulárnych výrazov). Všetko je dostupné
spolu s vizualizačnou podporou RapidMiner-u, kde je možné vyskladať si celý
proces.
– http://rapid-i.com/
Weka
– Štandardný nástroj pre DM, je potrebné predspracovanie pomocou vhodného filtra
– K nástroju Weka existuje veľa modifikácií a rozšírení, mnoho iných nástrojov má
rozhranie na weku (Gate, Rapid Miner má Weka extension, ...)
– http://www.cs.waikato.ac.nz/ml/weka/
(príbuzné projekty: http://www.cs.waikato.ac.nz/ml/weka/related.html)
•
•
•
•
•
Orange-Text
– add-on pre Orange DM nástroj – používa nástroje vizualizácie Orange a
pridáva možnosť spracovať neštruktúrované dáta
– http://orange.biolab.si/
GATE – rozsiahly softvér s viacerými komponentmi, ako
– GATE Developer – integrované prostredie pre podporu spracovania textu
so širokou podporou pre extrakciu informácií
– GATE Teamware – kolaboratívne prostredie pre anotáciu dokumentov
postavený na workflow systéme
– GATE Embedded – Java knižnica, interface na iné aplikácie
– http://gate.ac.uk/
JBOWL – Java TM knižnica, popísaná v „Dolovanie znalostí z textov“
– http://sourceforge.net/projects/jbowl/
Ďalšie TM nástroje
– KNIME, LPU, Mallet, Apache Mahout, ...
Iné pomocné nástroje
– Excel, Matlab, Gephi (vizualizácia grafov napr. pre sieťovú analýzu),
nástroje pre získavanie n-gramov ako ngramtool, Patterns, kfNgram,
online nástroj pre citačné siete Thomson HistCite, ... a vlastné
implementácie
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Klasifikácia (kategorizácia) dokumentov
Klasifikácia (kategorizácia) dokumentov
• úlohou je zaradiť textové dokumenty podľa ich obsahu do
preddefinovaných tried (kategórií)
• indexovanie pre vyhľadávanie informácií
– triedy sú „kľúčové slová“ z preddefinovaného
(kontrolovaného) slovníka
– štruktúrované záznamy (tezaurus)
– anotovanie textov
pre ontológie
• filtrovanie textov
– junk mail
• kontrolované učenie (je potrebná trénovacia množina
klasifikovaných dokumentov)
• vyhodnotenie efektívnosti klasifikácie pre triedu C:
– presnosť S
– návratnosť U
– F miera efektívnosti
Manažment znalostí – Text Mining – 2013/14
TP
TP
( E 2 1)SU
U
FE
TP FP
TP FN
E 2S U
• pre n tried: mikro (S a U cez kontingenčnú tabuľku pre
všetky triedy) a makro spriemernenie (priemer pre n tried)
• krížová validácia
S
Manažment znalostí – Text Mining – 2013/14
Neurónové siete - Perceptrón
di,1
E1
di,2
E2
• minimalizuje sa vzdialenosť
chybne klasifikovaného
príkladu od deliacej nadroviny:
...
E|V|-1
di,|V|
E|V|
• maximalizuje sa vzdialenosť
medzi separovanými príkladmi
a deliacou nadrovinou:
2/|| E ||
L(β, E 0 , di )
di,|V|-1
Support Vector Machine (SVM)
E0
¦ yi (di β E 0 )
T
iM
§ β · § β · § yi d i ·
¨¨ ¸¸ m ¨¨ ¸¸ J ¨¨
¸¸
© E 0 ¹ © E 0 ¹ © yi ¹
sign (di β E 0 )
T
1/|| E ||
1/|| E ||
min
β, E 0
H2
diTE + E0 = 0
1
|| β || 2
2
yi (di β E 0 ) t 1, i 1, ..., | D |
T
H1
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Support Vector Machine (SVM)
2/|| E ||
1/|| E ||
[*1
1/|| E ||
[*
[*2
4
pre lineárne neseparovateľné
dáta
1
min || E ||2
E ,E 0 2
yi (di E E 0 ) t 1 [i
T
[*3
[*5
| D|
H2
diTE + E0 = 0
H1
[ i t 0, ¦ [ i d C , i 1,..., | D |
i 1
Naivný Bayesov klasifikátor
P(c j ) P(di | c j )
P (c j | d i )
P (c j )
P(d i )
Nc j
N
, P( wt | c j )
m
| P(c j )– P( wt | c j )
t 1
Nwt c j
Nc j
• N – počet trénovacích dokumentov
• Ncj – počet dokumentov patriacich do triedy cj
• Nwtcj – počet dokumentov, ktoré obsahovali term wt a
ktoré patrili do triedy cj
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
k-NN (nearest neighbors)
učenie založené na inštanciách
Rozhodovacie stromy a pravidlá
™wheat
wheat
tonnes
™tonnes
commodity
WHEAT
™WHEAT
™commodity
if
wheat š tonnes
then WHEAT
• funkcia podobnosti
určuje skóre kategórií k
„najbližších susedov“
• výsledné priradenie
kategórií sa získa
prahovaním
if
wheat š ™tonnes š commodity
then WHEAT
cos(M )
™WHEAT
WHEAT
x.y
| x || y |
27
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Boosting
Boosting – Reuters 21578
0,9
• všeobecná metóda pre
zlepšenie daného algoritmu
• základný algoritmus pre
texty:
H
H1
H2
...
TM1
TM2
...
Hm
TMm
0,85
0,8
F1
presnosť
návratnosť
základný
0,75
­h0, j ak wt  d i
H m (d i , c j ) ®
¯ h1, j ak wt  d i
0,7
0,65
0,6
• rozhodovacie stromy,
pravidlá, NB, NN, ...
0,55
0
10
20
30
40
28
Manažment znalostí – Text Mining – 2013/14
Asociačné pravidlá
• Hľadanie frekventovaných spoločných výskytov slov
– v prípade TM blízke n-gramovej analýze, avšak nerieši
sa postupnosť slov v dokumente, iba výskyt
– hľadáme pravidlá typu (wordT1 ... wordTn) =>
(wordH1 ... wordHk), kde množiny slov sú disjunktné
medzi hlavou a telom pravidla (n slov v tele, k slov v
hlave)
• Užitočné napr. pri získavaní pravidiel pre extrakciu
informácií
• Zväčša sú časťou inej analýzy, ktorú rozširujú
(poskytujú redukciu pre vstup do ďalšej metódy
TM)
• Algoritmus: APRIORI (iteračný postup hľadania kpoložkových frekventovaných množín)
Manažment znalostí – Text Mining – 2013/14
Aktívne a semi-kontrolované učenie
• iba veľmi malá počiatočná množina klasifikovaných
dokumentov C, veľký počet neklasifikovaných
dokumentov U
• cieľom je dosiahnuť čo najlepšiu presnosť pri čo
najmenšom počte klasifikovaných dokumentov
• stratégie učenia:
– odhadnúť klasifikáciu U – semi-kontrolované učenie
• kombinácia zhlukovania a kontrolovaného učenia
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Aktívne učenie - príklad
Aktívne učenie
0,9
0,8
0,7
0,6
0,5
F1
• vybrať z U príklady, ktoré prinesú čo najviac informácií
o probléme a klasifikovať ich expertom
• podľa spoľahlivosti predikcie
– štatistický odhad / vzdialenosť od deliacej nadroviny
– učením viacerých rôznych klasifikátorov a
porovnaním ich klasifikácie
• podľa zmeny naučeného klasifikátora
0,4
0,3
0,2
F1m minconfidence
F1m random
F1M minconfidence
F1M random
0,1
0
1
10
100
1000
10000
počet príkladov
Manažment znalostí – Text Mining – 2013/14
Extrakcia informácií
• vo všeobecnosti extrakcia tripletov (subjekt predikát
objekt)
• extrakcia názvov (menných entít)
– miesta, osoby, organizácie
– doménové koncepty – chemické zlúčeniny, ...
• extrakcia predikátov a hodnotových literálov
– medicínske záznamy
– ekonomické správy
Manažment znalostí – Text Mining – 2013/14
Vlastnosti regulárnych výrazov
Manažment znalostí – Text Mining – 2013/14
Extrakcia informácií – metódy
• regulárne výrazy (zápis regex v jazyku Java)
– \b (below the|higher than)? $[1-9][0-9]*\.[0-9]*\b
– (?i)<a[^>]*\\s+href=\"?([^>\"]+)\"?[^>]*>(.+?)</a>
– (?i)\b(phone|fax|tel): ?([-+ ()/0-9]+)\b
– \b(na|v|do)\s(\p{Lu}\p{L}+)\b
– \b([0-9]{3} ?[0-9]{2}) (\p{Lu}[^0-9,\n.]+)\b
• štatistické metódy
– kontrolované učenie – je potrebná trénovacia množina
anotovaných textov
• skryté Markovove reťazce – HMM
• rozhodovacie pravidlá
Manažment znalostí – Text Mining – 2013/14
Extrahovanie informácií – pravidlá
“Podľa Štatistického úradu sa celkový vývoz tovaru
zo Slovenska zvýšil o 8,3 % na 710,3 miliardy Sk.
if suffix = úrad
then ORG
if verb = (zvýšiť | znížiť) š subject  vývoz š object =
(o [0-9]?[0-9],[0-9]% na [0-9]+,[0-9]* (miliardy)? Sk)
then EXP
• ak je prísudok vo vete „zvýšiť“, alebo „znížiť“ a podmet
obsahuje slovo „vývoz“ a predmet vyhovuje regulárnemu
výrazu, potom text reprezentuje hodnotu vývozu
Manažment znalostí – Text Mining – 2013/14
HMM – skryté Markovove reťazce
px
n
sx
• nedeterministický konečnostavový
automat
• P(tj | tk), P(wt | tj)
• je potrebné nájsť najpravdepodobnejšiu postupnosť stavov (označení)
t1, ..., tn pre zadanú postupnosť slov
w1, ..., wn– Viterbiho algoritmus
Manažment znalostí – Text Mining – 2013/14
K-means (k-stredov), k-medoids
• K-means – jednoduchý a populárny nástroj
– Reprezentácia zhluku: priemer (mean) príkladov zhluku – centroid,
pre k-medoids je centroid vždy jeden zo vstupov
– Účelová funkcia: suma rozdielov medzi vstupmi a ich centroidom
• Forgyho algoritmus – dvojkrokový iteračný postup
– 1. každému bodu sa pridelí najbližší centroid,
– 2. prepočítajú sa atribúty centroidov novovytvorených skupín.
– Testuje sa ukončovacia podmienka (napr. variancia zhlukov, počet
cyklov, veľkosť zmeny), ak nie je splnená, opakuje sa bod 1.
• Vlastnosti
– Výhody: ľahko pracuje s rôznymi Lp – normami (napr. L2 je
Euklidovská vzdialenosť), umožňuje priamočiaru paralelizáciu
procesu zhlukovania, nezávisí na zoradení inštancií v dátach
– Nevýhody: závislosť na inicializácii, určenie správneho počtu
zhlukov k, citlivosť na „outliers“, škálovateľnosťou, iba numerické
atribúty, nevyváženosť zhlukov
Manažment znalostí – Text Mining – 2013/14
Proces učenia SOM-u (Kohonen)
1. Inicializácia váh neurónov SOM
2. Náhodný výber vstupnej vzorky x(t)
3. Pre každý neurón sa vypočíta jeho aktivácia (Euklidovská
vzdialenosť medzi váhovým vektorom a vstupným vektorom)
4. Neurón s najnižšou hodnotou aktivácie (teda najbližší ku
vzorke) sa označí ako víťaz c mc (t ) min x(t ) mi (t )
i
5. Vektor váh víťaza, ako aj váhové vektory neurónov
v blízkosti víťaza sú adaptované znižovaním rozdielu
jednotlivých zložiek vstupného vektora a váhového vektora
neurónu
mi (t 1)
Manažment znalostí – Text Mining – 2013/14
Zhlukovanie dokumentov
• vo všeobecnosti je úlohou rozdelenie dokumentov do
skupín s rozdielnou tématikou na základe (ne)podobnosti
• metódy
– divízne vs. aglomeratívne hierarchické zhlukovanie
– rozdeľujúce metódy, centroidné, SOM
– rozklady na hlavné komponenty, faktorizácia
(určovanie vlastností skupín dokumentov)
– FCA (formal concept analysis)
– fuzzy rozšírenia, hybridné modely, ...
Manažment znalostí – Text Mining – 2013/14
Zhlukovanie – vizualizácia
• Algoritmy zhlukovania na báze SOM
– Sieť základných elementov – neurónov, spravidla
usporiadaných do dvojrozmernej mriežky (mapy)
– Každému z neurónov je priradený n rozmerný váhový
vektor mi
– Vektor váh má ten istý rozmer ako vstupné vzorky (dáta
– v našom prípade vektory váh dokumentov)
– Realizácia zobrazenia zachovávajúceho topológiu
(ľubovoľné dva vzory blízke vo vstupnom priestore
evokujú v sieti odozvy na neurónoch, ktoré sú tiež
fyzicky blízke)
Manažment znalostí – Text Mining – 2013/14
Proces učenia SOM-u (2)
x(t)
mc(t+1)
mc(t)
mi (t ).D (t ).hci (t ).>x(t ) mi (t )@
D = koeficient učenia (po každej iterácii sa zmenšuje)
hci = funkcia susednosti (miera adaptácie v závislosti na vzdialenosti
suseda od víťaza – tiež sa časom zmenšuje)
Výstupný priestor
Vstupný priestor
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Algoritmus GHSOM (1)
Príbuzné algoritmy
• Nevýhody klasického SOM-u sú v pevnej štruktúre, vzniku nepokrytých
neurónov, ako aj v diskrétnosti a „rovnomernosti“ projekcie
• GSOM (Growing Self-Organizing Map), alebo inak aj Growing Grid
– Inkrementálne zväčšovanie mapy, ktoré umožňuje dynamicky
rozširovať mapu podľa potrieb vstupného príznakového priestoru
– Štruktúra usporiadania musí byť v tvare pravidelnej mriežky Ÿ
pridávajú sa celé „pásy“ neurónov (riadky al. stĺpce neurónov)
• HFM (Hierarchical Feature Maps)
– Jedna mapa je použitá na prvej úrovni hierarchie.
– Pre každý neurón je pridaný SOM na ďalšej úrovni hierarchie
• GHSOM (Growing Hierarchical Self-Organizing Maps)
– Kombinuje prvky GSOM a HFM
– umožňuje dynamické rozširovanie máp, a to:
• hierarchicky – podľa distribúcie dát, čo umoţňuje hierarchickú
dekompozíciu a navigáciu v podmapách a
• horizontálne – veľkosť mapy sa mení tak, aby sa prispôsobila
požiadavkám vstupného priestoru.
Manažment znalostí – Text Mining – 2013/14
1. Vytvorí sa štartovací vektor váh nultej úrovne
m0 (priemer d vstupov)
2. Vypočíta sa stredná kvadratická odchýlka mean
1
quantization error)
mqe0
m0 x
3. Vytvorí sa vrstva prvej mapy neurónov s d
T
váhami mi = (Pi1, Pi2, ..., Pin) (náh.inic.)
4. Učenie podľa klasického SOM-u
5. Vypočíta stredná kvadratická odchýlka
mapy (počet neurónov u) MQE m 1 ¦ mqei
u i
6. Rozhodne sa o zväčšovaní danej mapy
zväčšuje sa ak MQE m t W m .mqe0
7. Vloženie neurónov do mapy (viď. ďalší slajd)
8. Rozhodne sa o expanzii neurónov mapy na
ďalšiu úroveň, a to ak mqei ! W u .mqe0
9. Proces pokračuje s novovzniknutými mapami
učenia, pričom sa používa iba podčasť dát
„rodičovského“ neurónu
10. Koniec alg., keď už netreba nič expandovať
Manažment znalostí – Text Mining – 2013/14
Algoritmus GHSOM (2)
•
Pri vkladaní sa hľadá neurón s najväčšou strednou kvadratickou
odchýlkou – chybový neurón (error neuron).
– Rozhodnutie, či sa pridá nový riadok alebo nový stĺpec, je
určené umiestnením suseda tohoto chybového neurónu
s najväčším rozdielom váhového vektora.
– Inicializácia vektorov novovytvorených neurónov je jednoducho
určená ako priemer vektorov váh už existujúcich susedných
neurónov.
– Po pridaní riadku alebo stĺpca sa učiaci parameter D a funkcia
susednosti hci nastavia na inicializačnú hodnotu a učenie
pokračuje podľa štandardného procesu učenia SOM
Algoritmus GHSOM (3)
•
Proces učenia GHSOM je teda riadený dvoma parametrami – Wu a Wm
– Parameter Wu špecifikuje požadovanú granularitu reprezentácie
vstupných dát na konci procesu učenia. Každý neurón, ktorého
mqei ! W u .mqe0
–
bude expandovaný, teda pridá sa mapa na ďalšiu vrstvu
hierarchie za účelom detailnejšie vyjadriť vstupné dáta
čím menšie bude Wu, tým hlbšia bude hierarchia GHSOM
–
Na druhej strane, parameter Wm určuje požadovanú úroveň
rozlíšenia dát na jednej mape
–
Nové neuróny sa teda budú pridávať do mapy dovtedy, kým
MQE m W m .mqe0
–
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Popis zhlukov – LabelSOM
• Metóda LabelSOM – zložky vektora váh neurónu sa podobajú
odpovedajúcim zložkám vstupného vektora => popisujú a pomenúvajú
vlastne príznaky všetkých vstupných dát tohto neurónu
• Nech Ci je množina vstupných vzoriek xj  Rn namapovaných na neurón
i. Vypočítaním vzdialeností pre všetky zložky vektora k cez všetky
vektory xj dostaneme kvadratickú chybu vektora qi pre všetky neuróny i
qik
¦
x j Ci
čím menšia bude hodnota Wm, tým viac bude dochádzať k
rozširovaniu máp
(mik x jk ) 2
• Výberom zložiek vektora s chybou blízkou nule získame charakteristické
termy
• Pre texty – veľký počet zložiek je nulový => boli by vybrané iba
termami, ktoré sa nevyskytujú => preto sa navyše selektujú také termy,
ktoré majú aj dostatočne vysokú celkovú hodnotu váhového vektora
(minimálny prah W - „dôležitosť“ atribútu)
Návrh modifikácií pre GHSOM
• Problémy
– pri rozšírovaní mapy sa pridávajú celé bloky neurónov
(aj keď to nie je potrebné)
• vznik "mŕtvych" neurónov (nepokrývajú žiadne
dáta)
• rozdrobenie homogénnych zhlukov
– inicializácia expandovaných máp (nepokryté neuróny
podmáp už pri inicializácii)
• Návrh modifikácií
– pridávanie len jedného neurónu do mapy tak, aby
nedochádzalo k zbytočnému rozdrobeniu mapy
– inicializácia podmáp na základe pokrytých príkladov
expandovaného neurónu
Manažment znalostí – Text Mining – 2013/14
Manažment znalostí – Text Mining – 2013/14
Príklad mapy z modifikovanej verzie
Neur: 0-0 Vec: 186 gól , strelec, divák,
tréner, majstrovstvo,
hokej, .... Neur: 0-3 Vec: 149 zápas, hráč, divák, bod,
gól, liga, .... Neur:0-5 Vec:610
svetový, klub,
život, dielo, planéta
, ....
Neur:3-4
Vec:24 Neur: 1-2 Vec: 50 Analýza prepojení stránok (Link Analysis)
•
•
•
kolo , extraliga, bod,
...
Neur: 2-1 Vec: 363
rusko, štát, člen, vláda,
americký, rokovanie,
premiér , dohoda, .... Neur: 4-0 Vec: 302 Neur: 4-3 Vec: 104 •
film, kino, ...
strana, štát, zákon
európsky, únia,
minister, ...
Neur: 5-0 Vec: 18 milión , predaj,
banka, miliarda,
úver, ...
zomrieť, narodiť, ... Neur: 5-3 Vec: 133 Neur: 4-5 Vec: 32 Link Analysis (LA) sleduje asociácie medzi objektmi ako grafu prepojení
Zahŕňa rôzne sociálne siete, napríklad aj web – synonymá sú aj graph mining,
network analysis, social network analysis
Mocninový zákon (power law) popisuje vzťahy medzi objektmi siete (grafu)
– je charakteristický pre siete generované v rôznych (aj sociálnych) procesoch
– popisuje škálovú invarianciu v rôznych reálnych fenoménoch (vrátane
oblastí ako fyzika, biológia, sociológia, ekonomika, lingvistika)
– v rámci LA sa objavujú rôzne mocninové zákony, ako: veľkosť stránok,
konektivita stránok, veľkosť prepojených komponentov webu, štatistiky
prístupov stránok, správanie sa používateľov pri browsovaní
Mocninový zákon stupňov stránok ako uzlov grafu (in-degree = prichádzajúce
linky/odkazy, out-degree=odchádzajúce linky/odkazy, k stupeň uzla)
noviny, šport,
správa, film, .... vojak, armáda, útok,
americký, jednotka,
izrael, rusko, lietadlo,
afganistan, teroristický,
... Neur: 5-5 Vec: 44 rádio,hudobný,
hudba, film, ... Manažment znalostí – Text Mining – 2013/14
•
Siete malého sveta (Small World Networks) – priemer grafu (aj Web grafu) je
relatívne malý k veľkosti siete = „malý svet“ => formálne je priemer týchto sietí
exponencionálne menší ako veľkosť
– simuláciou aj empiricky bolo zistené, že pre miliardu stránok je priemer 19
Manažment znalostí – Text Mining – 2013/14
Modelovanie rastu Webu
Odhad dôležitosti webových stránok
• Linky (hrany) sa netvoria vo Web grafe náhodne, existujú rôzne
modely simulujúce rast
– pravdepodobnosť pripojenia novej stránky k populárnejšej stránke
je vyššia ako ku menej populárnej („bohatší bohatnú“ alebo „víťaz
berie všetko“) – preferenčný model
• Preferenčný model pripojovania (Barabasi, Albert)
– Majme M0 stránok (bodov) v čase 0
– V každom kroku vytvoríme nový bod s m≤ M0 hranami ku m
náhodným bodom (pravdepodobnosť selekcie závisí na stupni)
– Po t krokoch má sieť M0+t bodov (stránok) a m.t hrán, pričom
pravdepodobnosť konektivity k bodu sleduje mocninový zákon
• Preferenčný model vysvetľuje vznik centier, mali by však stále víťaziť
staršie centrá => v praxi ale víťazia aj nové centrá (napr. Google)
– rozšírenie: Preferenčný model + uzly majú ďalší atribút (schopnosť
či konkurencieschopnosť), ktorý dopĺňa selekciu podľa stupňa =>
tento už dokáže vysvetliť vznik nových silných centier
• Dva najznámejšie prístupy založené na dekompozícii matice
grafových prepojení – HITS a PageRank Hub( p) ¦ Authority(q)
q: p o q
• Hubs and Authorities (HITS)
Authority( p )
¦ Hub(q)
q:q o p
– Každá stránka sa snaží byť
dobrým zdrojom (autoritou) alebo prepojením (tzv. hub“)
– Idea algoritmu: 1. dobrá autorita smeruje na dobré huby, 2.
dobrý hub smeruje na dobré autority
• PageRank (používaný v Google, Larry Page / Sergej Brin)
– Počíta sa prvý vlastný vektor matice susednosti grafu
– Každá stránka je ohodnotená dôležitosťou v rámci siete
– PageRank je možné efektívne spočítať pomocou iteračnej
Ba – množina stránok smerujúcich na a,
procedúry
Manažment znalostí – Text Mining – 2013/14
Nu – počet stránok, ktoré vedú z u,
c – normalizujúci faktor, E – východzia
(inicializačná) hodnota ranku
Manažment znalostí – Text Mining – 2013/14
Citačné siete
Vizualizácia sietí stránok – použitie Gephi
• Špecifický typ siete (časový
faktor)
• Web Of Knowledge –
vedecké články v rôznych
odboroch, nástroje pre
analýzu citácií (HistCite)
Manažment znalostí – Text Mining – 2013/14
Vizualizácia množín dokumentov
• Ciele vizualizácie množín dokumentov
– Získať globálny pohľad na témy v rámci množiny dokumentov
– Vidieť vzťahy medzi témami a dokumentmi množiny
– Lepšie pochopenie množiny dokumentov ako celku
– Ukázať vysoko štruktúrovaný kontext v jednoduchšej podobe, t.j.
„hlavné príznaky“ vysokorozmerného priestoru textových
dokumentov
• Prostriedky
– Zhlukovacie algoritmy mapujúce vektorovú reprezentáciu do 2D
alebo 3D priestoru
– Grafové vizualizácie pre zobrazenie spoločných výskytov slov a
frází
– Uplatňuje sa aj pre vizualizáciu výsledkov vyhľadávania
19. 11. 2013
Obsah
2

Úvod

Aplikačné oblasti

Úlohy analýzy sentimentu

Metódy založené na slovníkoch

Metódy založené na strojovom učení

ANALÝZA SENTIMENTU
Generovanie slovníkov

Predspracovanie

Výber atribútov

Automatická tvorba korpusov

Aktívne učenie

Aspektovo-orientovaná analýza sentimentu

Otvorené problémy

Nástroje pre analýzu sentimentu
Peter Koncz
Analýza sentimentu
3
Aplikačné oblasti
4


Relevantná predovšetkým v oblastiach s veľkým:
 Významom subjektívnych hodnotení
Sentiment analysis = Opinion mining
Automatická kvantifikácia subjektívneho obsahu
vyjadreného v textovej podobe.


Typické oblasti: služby, filmový priemysel, spotrebná elektronika a pod.
... sa budeme venovať Nokii 5800. Tento
telefón disponuje veľmi kvalitným displayom,
no operačný systém je dosť pomalý ...

Veľkou výzvou je dokázanie merateľného vplyvu on-line hodnotení.


<review id=1235>
<subject id=“Nokia 5800”>
<attribute name=“display” value=“+2”/>
<attribute name=“OS” value=“-1” />
</subject>
</review>
Množstvom on-line hodnotení
Nejednoznačnosť výsledkov spôsobená rôznym prístupom k premenným na
strane:
 Hodnotení (počet, orientácia, intenzita, ...)
 Dôsledkov (zisky, návštevy stránok, rezervácie, ...)


Autorov (reputácia, demografické charakteristiky, ...)
Čitateľov (názory, hodnoty, ...)
Aplikačné oblasti
5
6







Monitorovanie sociálnych médií.
Sledovanie hodnotení produktov, služieb, značiek a pod.
Predikcia vývoja cien akcií na základe on-line hodnotení.
Identifikácia kyberšikany.
Identifikácia hlavných miest diskusie, hlavných diskutujúcich, ...
Viaceré existujúce aplikácie:

Swotti priemium

WE twendz pro

Heartbeat

Media Analysis Platform
Problémy s presnosťou a pokrytím.
1
19. 11. 2013
Aplikačné oblasti
7
Úlohy analýzy sentimentu
8








Vzťah sentimentu a emócií
9
Identifikácia subjektivity
Identifikácia orientácie sentimentu
Identifikácia sily sentimentu
Identifikácia nositeľa sentimentu
Klasifikácia emócií
Detekcia sarkazmu
Porovnávania
Aspektovo-orientovaná analýza sentimentu
Detekcia sarkazmu
10
R. Cowie, E. Douglas-Cowie, S. Savvidou, E. McMahon, M. Sawey, M. Schröder, “Feeltrace: An instrument for recording
perceived emotion in real time”, in: Proceedings of the ISCA Workshop on Speech and Emotion, Newcastle, Northern
Ireland, UK, 2000.

Detekcia sarkazmu vyžaduje pochopenie aj v prípade
človeka:

Drahý Facebook, to písmo môžeš ešte zmenšiť, stále ho môžem
prečítať.


Stromy umreli pre túto knihu?
Určite si odložte pokladničný doklad (smart phone)
Ten parfém je dokonalým repelentom

Kde som? (GPS)

Dvojdimenzionálny model emócií
Metódy založené na slovníkoch
11
Metódy založené na slovníkoch
12

Zväčša založené na pravidlách a slovníkoch slov:
Slovníky pozitívnych resp. negatívnych slov
 Slovníky slov meniacich orientáciu hodnotenia
 Slovníky slov meniacich intenzitu hodnotenia




Príklady existujúcich slovníkov:
MPQA subjectivity lexicon
SentiWordNet
 Appraisal lexicon
 National Taiwan University Sentiment Dictionary
 General Inquirer
 Macquarie Semantic Orientation Lexicon



Pozornosť venovaná metódam automatickej tvorby
slovníkov.
Ukazuje sa, že použitie väčšieho počtu slovníkov,
hoc aj nižšej kvality prispieva k zvýšeniu presnosti
klasifikácie.
Rozšírenie slovníkov:
Zlučovaním existujúcich slovníkov.
Automatickým prekladom.
 Automatickým rozširovaní slovníkov na základe
pôvodných slovníkov.


2
19. 11. 2013
Metódy založené na slovníkoch
13
Generovanie slovníkov
14
Taboada, M., et al. : Lexicon-Based Methods for Sentiment Analysis. Computational Linguistics,
Vol. 37, No. 2, 267-307 (2011)

Metódy používajúce existujúce slovníky. Obyčajne ide o použitie
slovníkov ako napr. WordNet, ktoré obsahujú okrem slov aj ich relácie ako
napr. synonymita a antonymita, ktoré je možné použiť pri odvádzaní
orientácie slov.

Metódy používajúce korpusy:

Analýza koincidencie termov. Pokiaľ sa nejaké termy vyskytujú
spolu často, je pravdepodobné, že ich orientácia bude podobná.
Použité môžu byť tak štatistické miery koincidencie termov ako aj
komplexnejšie pravidlá (napr. pointwise mutual information):

Metódy výberu atribútov. Použije sa niektorá z metód výberu
atribútov (viď ďalej) a určí sa polarita na základe početnosti
výskytu v jednotlivých triedach.
Príklad slovníka pre analýzu sentimentu
Generovanie slovníkov
15
Metódy založené na strojovom učení
16
J. Kamps, et al., "Using WordNet to Measure Semantic Orientations of Adjectives," in Proceedings of the 4th International
Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, 2004, pp. 1115-1118.

Postavené na princípoch objavovania znalostí v textoch.

Potreba korpusu anotovaných dokumentov.

Špecifiká v rámci:

Predspracovania (rozdiely v jednotlivých fázach)

Výberu atribútov (IG, Chí-kvadrát, PMI, ...)

Modelovania (SVM, NBC, KNN, ...)
Polarita slov určená na základe ich blízkosti k slovám „good“ a „bad“ v grafe z WordNetu
Predspracovanie
17
Výber atribútov
18



Pojem term-dokument matica je zavádzajúci.
Okrem dokumentov: množina dokumentov, veta, fráza, slovo
Okrem termov môžu byť použité atribúty ako:










N-gramy slov
Prítomnosť emotikonov (smajlíkov)
Prítomnosť slov v slovníkoch pre analýzu sentimentu
Kombinácia slova + POS anotácia
Syntaktické štruktúry
Vlastnosti získané z nadradených a susedných štruktúr ako je sentiment dokumentu či
okolitých viet
Vyššia presnosť dosahovaná pri použití binárnej matice term-dokument než pri
použití váhovacích schém.
Použitie n-gramov (bi a tri-gramov) zvyšuje presnosť klasifikácie.
Získaný príznakový priestor je vysoko-rozmerný
Získaná matica „term-dokument“ je riedka

Možné realizovať:



Vyber atribútov s najvyššou informačnou hodnotou vzhľadom k danej
klasifikačnej úlohe.
Transformácia príznakového priestoru do priestoru s nižšími rozmermi
(viď predošlé prednášky).
Delenie metód:

Univariantné:




Nie sú zohľadňované vzťahy medzi atribútmi
Podstatne nižšia výpočtová náročnosť
Informačný zisk, chí-kvadrát, PMI, ...
Multivariantné



Sú zohľadňované vzťahy medzi atribútmi
Vyššia presnosť
Analýza hlavných komponent, redukcia na základe korelácie, atď.
3
19. 11. 2013
Výber atribútov
Tvorba klasifikačných modelov
19
20
P. Koncz and J. Paralic, "An approach to feature selection for sentiment analysis," presented at
the 15th IEEE International Conference on Intelligent Engineering Systems (INES 2011 ) Poprad,
Slovakia, 2011.


Základné princípy sú rovnaké ako v prípade ostaných úloh
dolovania v textoch (viď predošlé prednášky)
Metóda podporných vektorov

V základnej podobe binárny klasifikátor
Numerické vstupné atribúty

Potreba nastavovania parametrov


Naivný bayesovský klasifikátor

Jednoduchšie predspracovanie
Zvyčajne nižšie výpočtové nároky

Zvyčajne nižšia presnosť ako SVM

Porovnanie informačného zisku a navrhovanej metódy
Hlavné nevýhody
Automatická tvorba korpusov
21
22




Doménová závislosť – klasifikátor natrénovaný na dokumentoch z
jednej domény (napr. hodnotenia filmov) nebude dosahovať dobré
výsledky na iných doménach (napr. hodnotenia mobilov).
Potreba korpusu – podobne ako pri iných úlohách kontrolovaného
učenia je potrebné vytvorenie korpusu anotovaných dokumentov.
Anotácia spočíva v priradení cieľového atribútu (subjektívny vs.
objektívny, orientácia sentimentu, intenzita sentimentu, typ emócie
atď.) anotovaným textom.
Možnosti zefektívnenia tvorby korpusu:





Možnosť použitia existujúcich hodnotení.
Všeobecné extrakčné vzory platné pre stránky akceptujúce
niektoré z meta-údajových formátov (napr. Microdata,
Microformats, RDFA).
<div itemprop="review" itemscope itemtype="http://schema.org/Review">
<span itemprop="name">Value purchase</span> by <span itemprop="author">Lucas</span>,
<meta itemprop="datePublished" content="2011-03-25">March 25, 2011
<div itemprop="reviewRating" itemscope itemtype="http://schema.org/Rating">
<meta itemprop="worstRating" content = "1"/>
<span itemprop="ratingValue">4</span>/
<span itemprop="bestRating">5</span>stars
</div>
<span itemprop="description">Great microwave for the price. It is small and
fits in my apartment.</span>
</div>
Nástroje podporujúce anotáciu pre AS
Automatická tvorba korpusov
Aktívne učenie
Automatická tvorba korpusov
Aktívne učenie
23
24

Crawlovanie
Extrahovanie
informácií
Výpočet
tematickej
relevantnosti
Predspracovanie
...
Value purchase - by Lucas, March 25, 2011
4/5 stars
Great hotel for the price. It is small and fits in my
needs.
Not a happy camper - by Ellie, April 1, 2011
1/5 stars

Výber textov pre anotáciu, pri ktorých sa predpokladá, že
najväčšou mierou prispejú k presnosti modelu.
Častým prístupom je výber založený na neurčitosti klasifikácie.
1.
Vytvor klasifikačný model použitím úvodnej množiny anotovaných dokumentov
2.
Vyhodnoť neanotované dokumenty vytvoreným klasifikátorom
3.
Vyber n dokumentov pri ktorých je ich klasifikácia najmenej istá
Text
Label
Relev.
4.
Anotuj zvolené dokumenty a pridaj ku korpusu
Great ...
+4
High
5.
Pokiaľ nebola dosiahnutá požadovaná veľkosť korpusu vráť sa ku kroku 1
...
...

Možnosť použitia slovníkov pričom sa predpokladá, že
dokumenty s výskytom veľkého množstva pozitívnych aj
negatívnych slov budú informatívnejšie.
The services were horrible.
...
4
19. 11. 2013
Aktívne učenie – výsledky
25
Aspektovo-orientovaná AS
26
P. Koncz and J. Paralic, Active learning enhanced document annotation for sentiment analysis. In: Cuzzocrea, A., Kittl, C.,
Simos, D.E., Weippl, E., and Xu, L. (eds.) Availability, Reliability, and Security in Information Systems and HCI. pp. 345–
353. Springer Berlin Heidelberg (2013).





Označovaná aj ako na vlastnostiach založená (feature-based).
Zvyčajne sú hodnotené jednotlivé vlastnosti objektu nie objekt
ako celok.
Metódy aspektovo-orientovanej analýzy sentimentu umožňujú
automatickú kvantifikáciu subjektívneho obsahu textu na úrovni
jednotlivých aspektov hodnotenia.
Pod aspektmi sú chápané objekty a ich vlastnosti.
Hodnotené objekty:


Metódy AOAS
Pomenované entity (osoby, miesta, značky a pod.)
Všeobecné témy (politika, doprava v meste a pod.)
Samo-zavádzanie (bootstrapping)
27
28

Prvé prístupy vychádzali z rozdelenia úlohy na dve samostatné
kroky:
 Identifikácia aspektov:




Rozpoznávanie pomenovaných entít – slovníky, klasifikácia, samo-zavádzanie
Klasifikácia vzhľadom k téme – klasifikácia do predefinovaných kategórií
Automatické identifikácia témy – v posledných rokoch hlavne LDA
Rôzne heuristiky – napr. použitie podstatných mien ako vlastností

Metóda polo-kontrolovaného učenia

Všeobecný postup, ktorý je možné použiť aj pri tvorbe slovníkov.

Podmienkou je dostupnosť veľkého množstva neanotovaných dokumentov.


Identifikácia sentimentu
V skutočnosti sú obe kroky závislé a toto riešenie je vhodné len
kvôli svojej jednoduchosti.
Presnejšie je vytváranie špecifických klasifikátorov pre
jednotlivé aspekty.



Latentná dirichletová alokácia
29
Vychádza z cyklického rozširovania počiatočnej množiny pomenovaných
entít a ich kontextu.
Na základe manuálne definovaného počiatočného zoznamu pomenovaných
entít (PE) sa najskôr vydolujú vzory ich výskytu. Na základe vydolovaných
vzorov sú získané nové PE, o ktoré je rozšírený počiatočný zoznam a tento
proces sa opakuje pokiaľ nie sú dosiahnuté ukončujúce podmienky.
Otvorené problémy
30

Identifikácia tém a kľúčových slov ktoré ich tvoria
Cieľom je identifikácia parametrov modelu

Príklad výsledku LDA:




Veta 1 a 2: 100% Téma A
Veta 3 a 4: 100% Téma B

Veta 5: 60% Téma A, 40% Téma B
Téma A: 30% brokolica, 15% banány,
10% raňajky …

(téma A bude zrejme súvisieť s jedlom)
Téma B: 20% činčila, 20% mačiatka,

20% rozkošný, 15% škrečok, …
(téma B bude zrejme o zvieratkách)
Identifikácia aspektov
Textové koreferencie
Identifikácia časti textu vťahujúcej sa k danej entite
Analýza sentimentu aplikovaná na prúdy údajov zo
sociálnych médií
Identifikácia sarkazmu
Mnohé iné
M. Steyvers and T. Griths. Probabilistic topic models. Handbook of
latent semantic analysis, 427(7):424{440, 2007.
5
19. 11. 2013
Nástroje pre analýzu sentimentu
31
Ďalšie zdroje
32

Služby poskytujúce analýzu sociálneho webu

Swotti
 Urban sensing


Softwarové riešenia pre analýzu údajov
RapidMiner (text processing plugin)
 SAS (sentiment analysis)
 SPSS (Text Analytics for Surveys)



Softwarové rámce pre analýzu textu


GATE (General Architecture for Text Engineering)
UIMA (Unstructured Information Management Architecture)

Liu, Bing : Sentiment Analysis and Opinion Mining. Synthesis
Lectures on Human Language Technologies, Morgan &
Claypool Publishers 2012. 168 s.
Pang, Bo – Lee, Lillian: Opinion mining and sentiment analysis.
Foundations and Trends in Information Retrieval, Vol. 2, No 12, 2008 pp. 1–135
Koncz, Peter: Aspektovo orientovaná analýza sentimentu.
Písomná práca k dizertačnej skúške. Košice: Technická
univerzita v Košiciach, Fakulta elektrotechniky a informatiky,
2012. 59 s.
6
Úrovne práce so znalosťami
Manažment znalostí (9)
Nadnárodná úroveň – znalostná
ekonomika a spoločnosť
OBSAH PREDNÁŠKY
• Jednotlivé úrovne práce so znalosťami
• Intelektuálny kapitál a jeho štruktúra
• Rámcové práce o manažmente znalostí
Národná úroveň –
vedomostná spoločnosť
– Typy rámcových prác o manažmente znalostí
– Životný cyklus znalostí podľa [Nonaka & Takeuchi, 1995]
Organizačná úroveň –
znalostný manažment
• Rôzne uhly pohľadu na manažment znalostí (MZ)
– Konceptuálny pohľad, Procesný pohľad
– Technologický pohľad, Organizačný pohľad
– Implementačný pohľad, Manažérsky pohľad
Manažment znalostí
Obr. podľa [Bureš 2007]
1
Úrovne práce so znalosťami (1)
2
Prejavy rastu informačnej/znalostnej
spoločnosti na štruktúre zamestnanosti v USA
1. Nadnárodná úroveň:
– Najvšeobecnejšia, vytvára rámec pre nižšie úrovne
– Pojmy ako znalostná spoločnosť, znalostná ekonomika
– Napr. dokumenty ako Lisabonská stratégia EÚ, ale aj
mnohé výskumné projekty od RP4 až po RP7
– Organizácia pre ekonomickú spoluprácu a rozvoj
(OECD) – dokument The Knowledge-Based Economy
(1996) a jednotlivé výročné správy
– Organizácia spojených národov pre výchovu, vedu
a kultúru (UNESCO) – správa Towards Knowledge
Societies (2005)
The knowledge economy: what it means for workers and
businesses (video)
3
Úrovne práce so znalosťami (2)
4
Úrovne práce so znalosťami (3)
2. Národná úroveň:
–
Na úrovni vlády SR bola schválená Štátna politika informatizácie
spoločnosti (jún 2001)
Stratégia informatizácie spoločnosti v podmienkach SR a Akčný plán
(január 2004)
– Konkretizácia Lisabonskej stratégie pre SR – projekt MINERVA
(november 2004)
– Programové vyhlásenie vlády (august 2010): „Pre dlhodobý úspech
Slovenska je nevyhnutný rozvoj našej ekonomiky tak, aby bola čoraz
menej založená na lacnej pracovnej sile a čoraz viac sa opierala o
schopnosti a vedomosti našich občanov. Pre koncepčný rozvoj
vedomostnej ekonomiky bude nevyhnutné …“
– Národný strategický referenčný rámec 2007 – 2013: jeden z operačných
programov sa volá vedomostná ekonomika (inovácie, informatizácia
spoločnosti, výskum a vývoj, modernizácia zdravotníctva)
Vedomostná ekonomika v EÚ a na Slovensku (video)
–
5
3. Organizačná úroveň:
– Posun ku konkrétnejším pojmom na úrovni jednotlivých
organizácií (výrobné, obchodné, verejné a pod.)
– Na tejto úrovni sa realizuje znalostný manažment
– Zvýšená pozornosť venovaná znalostiam, avšak
systémová a systematická práca s nimi je ešte veľmi
zriedkavá
– Znalostný manažment čoho? – organizácií, ktorých
vrcholové vedenie sa snaží o znalostne orientovaný
prístup k riadeniu svojej organizácie
– Vytváranie vhodného prostredia pre rozvoj a optimálne
využívanie znalostí
Príklad prístupu v spoločnosti Slovnaft
6
1
Úrovne práce so znalosťami (4)
Intelektuálny kapitál
4. Úroveň manažmentu znalostí:
– Tu už ide o reálnu prácu s konkrétnymi znalosťami
– Technické prostriedky na podporu práce
so znalosťami
– Rôzne typy znalostí si vyžadujú rôzne prístupy
k práci s nimi
– Tento predmet je venovaný najmä tejto úrovni
práce so znalosťami
• Podľa niektorých autorov prestavuje značnú
časť trhovej hodnoty niektorých organizácií
(Coca Cola, ABB, GE veľké SW firmy a pod.)
7
Model trhovej hodnoty spoločnosti (Skandia)
Štruktúra intelektuálneho kapitálu
Trhová hodnota
Finančný kapitál
Štrukturálny kapitál
Zákaznícky kapitál
Inovačný kapitál
Intelektuálne vlastníctvo
• Ľudský kapitál obsahuje všetky znalosti, schopnosti, kompetencie,
expertízu a kreativitu zamestnancov organizácie
• Zákaznícky kapitál obsahuje vzťahy so zákazníkmi
i
databázy o zákazníkoch. Niekedy sú tieto znalosti súčasťou
ľudského kapitálu
• Procesný kapitál obsahuje firemné procesy a infraštruktúru, ktorá
tieto procesy podporuje (všetko to, čo organizácii zostane, keď
zamestnanci odídu domov)
• Intelektuálny kapitál zahŕňa know-how, obchodné značky, patenty
a ostatné formy intelektuálneho vlastníctva, ktorá môžu byť
nejakým spôsobom chránené
• Nehmotné aktíva obsahujú organizačnú kultúru, hodnoty ktoré
organizácia pestuje.
Intelektuálny kapitál
Ľudský kapitál
8
Organizačný kapitál
Procesný kapitál
Nehmotné aktíva
10
9
Životný cyklus znalostí
Typy rámcových prác o MZ
• Na základe prípadových štúdií v Japonsku vytvoril I.Nonaka v
roku 1995 model niekoľkých spôsobov, ako organizácie
vytvárajú znalosti
• Model SECI (socializácia, externalizácia, kombinácia,
internalizácia) zahŕňa:
• Prvú skupinu tvoria práce, ktoré kladú dôraz na tvorbu
nových znalostí v organizácii, napr. [Nonaka & Takeuchi,
1995]
• Druhá skupina rámcových prác je orientovaná na znalostné
procesy (napr. [APQC 1997])
• Tretia kategória rámcových prác sa orientuje na technologický
prístup (napr. [Lotus & IBM, 1998])
– 2 formy znalostí (nevyjadrené a explicitné),
– dynamickú interakciu (prenos),
– 4 procesy tvorby znalostí (socializácia, externalizácia, kombinácia a
internalizácia).
• Organizácie vytvárajú znalosti cez interakcie medzi
explicitnými a nevyjadrenými znalosťami, tzv. znalostnými
konverziami, pri ktorých sa znalosti rozširujú čo do kvantity
aj kvality.
• Poslednú kategóriu tvoria holistické rámcové práce,
zdôrazňujúce interdisciplinárny charakter manažmentu
znalostí (napr. [Young 1998])
11
12
2
Model SECI – 1. Socializácia
Model SECI (1)
na
Tacitné
znalostí
Tacitných
znalostí
1. Socializácia je proces prevodu nových
nevyjadrených znalostí cez zdieľanú
skúsenosť (jediný spôsob ich prenosu),
napr.:
Explicitné
znalosti
socializácia
externalizácia
internalizácia
kombinácia
– spoločným trávením času, formálne a
neformálne stretnutia, aj mimo pracoviska,
– zdieľanie nevyjadrených znalostí ako pohľady
na svet, mentálne modely a vzájomná dôvera,
– organizácia často získava a využíva nevyjadrené
znalosti uložené u zákazníkov alebo
dodávateľov tým, že s nimi komunikuje.
z
Explicitných
znalosti
13
Model SECI – 2. Externalizácia
14
Model SECI – 3. Kombinácia
2. Externalizácia je proces artikulácie
nevyjadrených znalostí ako znalostí
explicitných.
3. Kombinácia je proces premeny explicitných
znalostí do komplexnejších a systematic-kejších
súborov explicitných znalostí.
– Explicitné znalosti sú zbierané z vnútorného alebo
externého prostredia organizácie a následne
kombinované, editované a spracovávané za účelom
formovania nových znalostí.
– Nové znalosti sú následne šírené medzi členmi
organizácie.
– Kreatívne používanie IKT môže značne zjednodušiť
tento spôsob znalostnej konverzie.
– Znalosť tak kryštalizuje, čo umožňuje jej
zdieľanie s ostatnými, a tým sa stáva základom
pre novú znalosť.
– Príkladom môže byť vytvorenie konceptu pri
vývoji nového produktu, alebo kontrola kvality,
ktorá dovoľuje zamestnancom zlepšovať
výrobné procesy.
15
Model SECI – 4. Internalizácia
16
Úloha manažmentu znalostí
4. Internalizácia je proces stelesnenia
explicitných znalostí do nevyjadrených.
– Cez proces internalizácie sú explicitné znalosti
zdieľané v organizácii a sú jednotlivcami
konvertované na nevyjadrené znalosti.
– Je to blízke „učeniu prácou“.
– Školiace programy, štúdium dokumentov
a návodov o zamestnaní a organizácii,
premýšľanie o nich vedie k obohateniu a
rozšíreniu nevyjadrených znalostí zamestnancov.
17
• Znamená v kontexte prezentovanej rámcovej
práce:
vytvárať vhodné prostredie pre
intenzívny priebeh všetkých štyroch
uvedených procesov tvorby znalostí
• teda napomáhať týmto transformačným
procesom, t.j. „udržiavať znalosti v pohybe“.
18
3
Rôzne uhly pohľadu na MZ
•
•
•
1. Konceptuálny pohľad na MZ
• Zahŕňa najmä problémy súvisiace s:
Manažment znalostí (MZ) je súhrnom poznatkov z mnohých
oblastí a vedných disciplín.
Zložitosť MZ nie je možné zjednodušovať, lebo je nevyhnutná
k plnému pochopeniu jeho podstaty.
Pre lepšiu orientáciu v tejto zložitosti je vhodné sa pozerať
na MZ z viacerých uhlov pohľadu [Beckman1999]:
1.
2.
3.
4.
5.
6.
– definíciami znalostí a manažmentu znalostí
(podrobnejšie viď. prvá prednáška)
– znalostné princípy, resp. celkový rámec
pre manažment znalostí (podrobnejšie
viď. predchádzajúce priesvitky)
Konceptuálny pohľad
Procesný pohľad
Technologický pohľad
Organizačný pohľad
Implementačný pohľad
Manažérsky pohľad
• Táto perspektíva ma význam predovšetkým
pre teoretickú rovinu skúmania MZ
19
20
2. Procesný pohľad na MZ (1)
•
•
•
2. Procesný pohľad na MZ (2)
Definovanie a pochopenie jednotlivých
znalostných procesov.
Základ úspechu implementácie MZ do akejkoľvek
organizácie spočíva o.i. aj vo formalizovaní,
distribuovaní, zdieľaní, aplikovaní a obnove
organizačných znalostí.
Existujú rozličné modely znalostných procesov,
napr. jeden z najjedoduchších [DiBella 1998]:
1. Získavanie znalostí
2. Rozširovanie znalostí
3. Použitie znalostí
•
Podľa [Marquardt 1996]:
1.
2.
3.
4.
•
Získavanie znalostí
Vytváranie znalostí
Transfer a využitie znalostí
Uchovávanie znalostí
Aktívnejší model predstavuje [Wiig 1993]:
1. Vytvorenie znalostí alebo ich získavanie z rôznych
zdrojov
2. Kompilácia a transformácia znalostí
3. Rozšírenie znalostí
4. Aplikácia znalostí a realizácia hodnoty
21
2. Procesný pohľad na MZ (3)
•
•
3. Technologický pohľad na MZ (1)
Existujú aj zložitejšie modely, detailnejšie
zachytávajúce štruktúru hlavných znalostných
procesov
V ďalšej časti prednášky budeme používať model
znalostných procesov podľa [Spek 1997], najmä
kvôli jeho dobrej prepojiteľnosti na technologický
pohľad na MZ:
1.
2.
3.
4.
22
Vývoj nových znalostí
Zabezpečenie nových a existujúcich znalostí
Distribúcia znalostí
Skladanie (kombinovanie) dostupných znalostí
23
• Výskum spôsobov, ako môžu jednotlivé
informačné, komunikačné a znalostné
technológie pomôcť pri realizácii MZ.
• Tento pohľad je veľmi rozšírený a niekedy
dokonca zamieňaný za znalostný manažment!
• Technologický pohľad však nie je možné ani
podceňovať. Súčasné technológie slúžia totiž
ako katalyzátor rýchleho rozvoja jednotlivých
organizácií.
24
4
3. Technologický pohľad na MZ (2)
3. Technologický pohľad na MZ (3)
• Niektoré príklady, na čo možno využiť
informačné a komunikačné technológie:
•
Príklady vhodných technológií:
– Intranet
– Systémy pre správu dokumentov
– Nástroje na vyhľadávanie informácií (information
retrieval)
– Groupware a workflow systémy
– Push technológie
– Help-desk aplikácie
– Brainstorming aplikácie
– Dátové sklady a nástroje dolovania v dátach
– a ďalšie
– Konverzia individuálnych znalostí na všeobecne
dostupné
– Konverzia dát na informácie a znalosti
– Konverzia textových informácií na znalosti
– Prepojenie ľudí so znalosťami
– Prepojenie rôznych typov znalostí navzájom
– Vzájomné prepojenie ľudí
– Prepojenie znalostí s konkrétnymi ľuďmi
25
4. Organizačný pohľad na MZ (1)
4. Organizačný pohľad na MZ (2)
• Orientuje sa na vyriešenie problematiky
charakterizácie znalostnej organizácie a pre ňu
vhodnej formálnej aj neformálnej organizačnej
štruktúry, úloh, zodpovednosti a organizačného
učenia.
• Najznámejšie prístupy:
1.
2.
3.
4.
26
Centrum expertízy
Štyri typy projektov pre MZ
Komunity spoločných skúseností
Komunity spoločného záujmu
1. Centrum expertízy [Beckman 1999] má tieto
úlohy:
– Vytvárať, skúmať, zlepšovať a udržovať sklad znalostí
z danej domény
– Stanovovať a uplatňovať štandardy, metódy a postupy
v danej doméne,
– Zakladať partnerské vzťahy,
– Vyhodnocovať kompetencie a výkonnosť pracovníkov,
objavovať medzery v ich znalostiach a snažiť sa ich
vhodne zaplniť,
– Poskytovať školiace a konzultačné služby
– Poskytovať špecialistov pre konkrétne projekty
a procesy
27
4. Organizačný pohľad na MZ (3)
4. Organizačný pohľad na MZ (4)
2. Štyri typy projektov manažmentu znalostí
[Davenport 1998]:
–
–
–
–
28
4. Komunity spoločných skúseností
(Communities of Practice):
Znalostné sklady
Transfer znalostí
Manažment hodnotenia znalostí
Vývoj infraštruktúry
3. Komunity spoločného záujmu (Communities
of Interest):
– Zložené z osôb prichádzajúcich z rôznych oblastí
za účelom spolupráce na rôznych projektoch alebo
na riešení určitých problémov
– Obvykle existujú iba po dobu trvania projektu
29
– Zložené z osôb zdieľajúcich spoločné, resp.
podobné skúsenosti z rovnakej oblasti
– Tento druh komunity je trvalý
– Poskytuje znalostnú podporu novo
prichádzajúcim zamestnancom v danej oblasti
a pomáha ostatným zamestnancom zdieľať
znalosti a spolupracovať na projektoch
(podobné 1. Centru expertízy)
30
5
4. Organizačný pohľad na MZ (5)
•
5. Implementačný pohľad na MZ
•
Hlavný znalostný pracovník (Chief Knowledge Officer
- CKO):
–
Obhajuje a presadzuje prístupy založené na znalostiach a
učení
Pomáha vyvíjať, implementovať a kontrolovať znalostnú
infraštruktúru organizácie
Zabezpečuje primárny styk s externými poskytovateľmi
informácií a znalostí
Poskytuje zásadné podnety pre vytváranie znalostí a ich
používanie v už existujúcich procesoch
Má byť schopný dávať dobrý príklad vysokej úrovne expertízy
a úspechu svojej činnosti
Vytvárať znalostnú stratégiu a kontinuálne ju aktualizovať
–
–
–
–
–
Úvahy o rôznych metódach a postupoch ktoré
umožňujú dosiahnuť úspešné zavedenie MZ, t.j.
napr.:
–
–
–
–
–
•
Kritické faktory úspechu
Predpokladané problémy
Očakávané prínosy
Implementácia infraštruktúry IKT
Stratégia pre znalostný manažment
Patrí sem aj tvorba rôznych metodík zavádzania
znalostného manažmentu, tj. v tomto zmysle
premieta aj všetky ostatné uhly pohľadu na MZ
31
32
6. Manažérsky pohľad na MZ (1)
Metodika zavádzania SMZ (A. Tiwana)
•
•
I.
II.
III.
IV.
•
•
Rôzne postupy ktoré vedú k zavedeniu MZ
do praxe, najmä:
Pozostáva zo 4 základných fáz:
–
–
–
–
Vyhodnotenie infraštruktúry
Analýza, návrh a vývoj SMZ
Zavedenie systému
Vyhodnotenie
•
Každá z uvedených fáz sa ďalej člení
na jednotlivé kroky
Celý plán tak pozostáva spolu z 10 krokov
manažérske postupy,
meranie a hodnotenie intelektuálneho kapitálu,
prémiové, platové a motivačné systémy,
vytvorenie vhodnej podnikovej kultúry.
Prínosy MZ možno rozdeliť do dvoch skupín:
1. Výsledky ktoré majú vzťah priamo k vlastnému znalostnému
manažmentu, spojené s realizáciou znalostných procesov,
využívaním určitých technológií a pod.
2. Prínosy spojené so základnými (obchodnými) cieľmi organizácie.
33
34
6. Manažérsky pohľad na MZ (2)
6. Manažérsky pohľad na MZ (3)
• Prínosy MZ spojené s vlastným znalostným
•
manažmentom:
– Zlepšenie zdieľania znalostí a kooperácie medzi
zamestnancami organizácie,
– Rozširovanie najlepších praktík v rámci organizácie
– Zlepšenie učenia sa a rýchlejšia integrácia nováčikov
– Eliminácia straty know-how
– Zlepšenie kvality projektov a inovácie
– Zdokonalenie vzťahov s externým prostredím
– Pripravenosť reagovať na neočakávané udalosti a
schopnosť zvládnuť naliehavé krízové situácie
– a ďalšie
Prínosy spojené so základnými (obchodnými)
cieľmi organizácie:
–
–
–
–
–
–
–
35
Zvýšenie výkonnosti organizácie
Zvýšenie zisku
Maximalizácia tržieb
Zníženie nákladov
Zavedenie nových spôsobov práce
Vytvorenie nových príležitostí na trhu
a ďalšie
36
6
6. Manažérsky pohľad na MZ (4)
•
6. Manažérsky pohľad na MZ (5)
Nasledujúce výsledky sú výsledkom analýzy 48
organizácií v Nemecku a Švajčiarsku združených
v asociáciách znalostného manažmentu [North 2004]
•
Detailnejšia analýza prínosov MZ v rámci kategórie
Firemné procesy [North 2004]
37
38
6. Manažérsky pohľad na MZ (6)
•
6. Manažérsky pohľad na MZ (7)
•
Detailnejšia analýza prínosov MZ v rámci kategórie
Zamestnanci [North 2004]
39
Detailnejšia analýza prínosov MZ v rámci kategórie
Zákazníci [North 2004]
40
7
Manažment znalostí (10-11)
Všeobecná architektúra SMZ (1)
OBSAH PREDNÁŠKY
•
• MZ je vlastne manažmentom
prostredia, ktoré má umožňovať
a napomáhať obehu znalostí
cez 4 fázy životného cyklu
znalostí (viď. model SECI)
Všeobecná architektúra systému pre podporu
manažmentu znalostí v organizácii (SMZ) a príklady
konkrétnych systémov SMZ
1. Podpora toku znalostí (procesný uhol pohľadu)
•
• Nakoľko v súčasnej informačnej
spoločnosti značnú časť
prostredia v organizáciách tvorí
IT infraštruktúra, je namieste
položiť si otázku, ako môžu
práve IKT prispieť k obehu
znalostí?
Základné znalostné procesy, Procesy učenia v organizáciách,
Vzťahy medzi procesmi učenia a znalostnými procesmi
2. Znalostné sklady (ZS)
•
Požiadavky na ZS, Typy ZS (znalostné podkrovie, znalostná
špongia, znalostné vydavateľstvo, znalostná pumpa), Vnútorná
organizácia ZS
3. Znalostná kartografia
4. Komunity znalostných pracovníkov
2
Všeobecná architektúra SMZ (3)
Všeobecná architektúra SMZ (2)
1. Tok znalostí
–
2) Znalostné sklady
(dokumenty)
4) Komunity znalostných
pracovníkov
(ľudia)
Podporuje interakciu medzi nevyjadrenými znalosťami, ktoré sú
vymieňané a generované komunitami znalostných pracovníkov (4)
s explicitnými znalosťami, ktoré sú uložené v zdrojoch znalostí (2)
a s meta-znalosťami, pomocou ktorých organizácia mapuje svoje
pôsobenie (3).
2. Znalostné sklady a knižnice
–
1) Tok znalostí
Zabezpečujú efektívnu organizáciu, inteligentný prístup a opätovné
využívanie nahromadených explicitných znalostí uložených v rôznych
dokumentoch (či už papierových alebo elektronických).
3. Znalostná kartografia
–
3) Znalostná kartografia
4. Komunity znalostných pracovníkov
(mapovanie, navigácia)
–
3
1. Tok znalostí
2) Znalostné sklady
(dokumenty)
Mapovanie, organizácia znalostí všetkých typov a ich efektívne
vyhľadávanie a sprístupňovanie (napr. hlavné zameranie organizácie,
individuálne znalosti, databáza zákazníkov a pod.).
Súhra medzi tímami a komunitami, neformálnymi spôsobmi práce
a formálnymi procesmi v organizáciách znalostných pracovníkov.
4
1) Podpora toku znalostí
•
•
4) Komunity znalostných
pracovníkov
Ide najmä o procesný pohľad na MZ.
Historická perspektíva:
1. Informatizácia sa zameriavala najmä na automatizáciu
existujúcich úloh (základných organizačných procesov),
napr. registrácia zásob, obchodných transakcií, DB
obchodných partnerov ... Prebiehala často na úrovni
oddelení (prekrývajúce sa informácie,
nekonzistentnosti, nákladná administrácia)
2. Integrácia rôznych výpočtových systémov (štandardy
pre výmenu dát, ERP systémy, podpora kooperatívnej
práce – groupware, podpora pracovných tokov a pod.)
3. Zdieľanie znalostí – znalostné sklady, ktoré sa
najčastejšie zameriavajú na odosobnenú, perzistentnú
reprezentáciu znalostí a informácií v organizácii.
(ľudia)
1) Tok znalostí
3) Znalostná kartografia
(mapovanie, navigácia)
5
6
1
Základné znalostné procesy (1)
Základné znalostné procesy (2)
•
1. Tvorba nových znalostí – organizácia prežíva vďaka
neustálemu vývoju nových znalostí na základe tvorivých ideí,
analýzy omylov, dennej skúsenosti a práce výskumných a
vývojových pracovníkov.
2. Zabezpečenie nových a existujúcich znalostí – individuálne
znalosti majú byť prístupné ostatným členom organizácie, ktorí
ich potrebujú.
3. Distribúcia znalostí – znalosti majú byť aktívne distribuované k
tým, ktorí ich môžu využiť.
4. Kombinovanie dostupných znalostí – SMZ by mal umožniť a
podporiť kombináciu existujúcich znalostí naprieč celou
organizáciou.
•
•
•
•
Dobrý MZ zahrňuje neustálu modernizáciu uvedených
znalostných procesov na zlepšenie kapacity učenia
v organizácii.
To znamená že SMZ by mal v ideálnom prípade podporovať
všetky typy znalostných procesov.
Hlavným cieľom organizácie ale nie je maximalizovať vývoj
znalostí, ich uchovávanie, distribúcia a kombinácia samé
osebe, ale
zvyšovať konkurencieschopnosť neustálou adaptáciou
organizácie na externé prostredie.
Požiadavky na SMZ by mali byť preto formulované
v pojmoch tejto adaptácie, t.j. procesov učenia.
7
8
Procesy učenia v organizácii
•
Individuálne učenie (1)
Na globálnej úrovni možno procesy učenia rozdeliť na:
•
1. Učenie zhora – nadol, t.j. strategické učenie (manažment na určitej
úrovni riadenia rozpozná určitú oblasť ako perspektívnu a príjme
rozhodnutie získať znalosti z tejto oblasti)
2. Učenie zdola – nahor, ktoré zahŕňa procesy, v rámci ktorých sa
jednotlivý pracovník naučí niečo, čo môže byť užitočné pre organizáciu
(tzv. ponaučenie). Toto ponaučenie je distribuované ďalej v organizácii.
•
•
•
Pracovníci získavajú individuálne skúsenosti spolu
so spôsobom, ako vykonávajú svoju prácu.
SMZ by mal vytvárať prostredie podporujúce individuálne
učenie.
Individuálne
učenie
Ponaučenie (lesson learned) – je ľubovoľná pozitívna alebo
negatívna skúsenosť, ktorá môže vylepšiť výkonnosť
organizácie v budúcnosti.
Ďalej nás bude zaujímať len proces učenia zdola – nahor, ktorý
sa premieta do troch základných foriem učenia, prebiehajúcich
v organizácii paralelne:
Pracovná
skúsenosť
Aplikované
ponaučenie
1. Individuálne učenie
2. Učenie s pomocou komunikácie (skupinové učenie)
3. Učenie sa vývojom znalostného skladu
9
10
Individuálne učenie (2)
•
Skupinové učenie (1)
Organizačné predpoklady individuálneho učenia:
1. Pracovníci musia dostávať spätnú informáciu o svojej
výkonnosti, t.j. aký vplyv má ich spôsob práce na
procesy, v ktorých sú zahrnutí.
2. Pracovníci musia mať určitú voľnosť v rozhodovaní
ako budú vykonávať svoju prácu.
•
•
•
Začína individuálnym učením, ale potom sú individuálne skúsenosti
zdieľané so spolupracovníkmi, čo môže viesť k skupinovému učeniu.
Je efektívnejšie, lebo ponaučenie môžu aplikovať aj ostatní
spolupracovníci.
Vzťah k znalostným procesom:
1. Znalosti sa tvoria, v určitej miere integrujú
do organizačných procesov a aplikujú sa.
2. Znalosti sa nedistribuujú a nie sú zabezpečené
pre opätovné použitie.
3. Znalosti môžu byť výsledkom kombinovania, ktoré
môže podporovať SMZ.
Individuálne
učenie
Komunikácia
Aplikované
ponaučenie
Skupinové
učenie
Pracovná
skúsenosť
11
12
2
Skupinové učenie (3)
Skupinové učenie (2)
•
•
Existujú 2 formy skupinového učenia:
1. Učenie vyvolané ponukou (supply-driven) – pracovník
nájde spôsob ako zlepšiť pracovný proces a komunikuje
ho s ostatnými.
2. Učenie vyvolané potrebou (demand-driven) –
pracovník odhalí problém v aktuálnom procese a pýta
sa spolupracovníkov, či nepoznajú jeho riešenie.
•
Pritom je nutné brať do úvahy:
–
Prebytočnú réžiu (overhead), t.j. akceptovateľný počet zbytočne
zaslaných správ.
Počet zásahov (hit rate), t.j. počet ľudí, ktorí naozaj mali dostať správu /
počet tých z nich, ktorí správu naozaj dostali.
–
•
Spôsoby rozosielania správ:
–
V oboch prípadoch je potrebné rozhodnúť o:
–
1. Adresátoch správy
2. Použitom médiu
–
Osobné zasielanie (najefektívnejší spôsob komunikácie, minimálny
overhead)
Široké rozosielanie, napr. všetkým v organizácii (maximálny hit rate,
ale veľký overhead) – nie je dobrá stratégia okrem priamych potrieb
s vysokými nákladmi.
Úzke rozosielanie, napr. každému koho to podľa profilu zaujíma
(kombinuje výhody predchádzajúcich dvoch spôsobov)
13
14
Učenie sa vývojom
znalostného skladu (1)
Skupinové učenie (4)
•
Organizačné predpoklady skupinového učenia:
1.
2.
3.
4.
•
Pracovníci musia dostávať spätnú informáciu o svojej výkonnosti, t.j. aký
vplyv má ich spôsob práce na procesy, v ktorých sú zahrnutí.
Pracovníci musia mať určitú voľnosť v rozhodovaní ako budú vykonávať
svoju prácu.
Musia existovať možnosti komunikovať skúsenosti medzi
spolupracovníkmi, a to na pravidelnej báze.
Atmosféra v ktorej sa oplatí komunikovať ponaučenia.
Je založené na ukladaní ponaučení do znalostného skladu tak,
aby mohli byť odtiaľ získané a použité keď to bude potrebné.
Individuálne
učenie
Zber
ponaučení
Pracovná
skúsenosť
Vzťah k znalostným procesom:
1.
2.
3.
4.
•
Znalosti sa tvoria a integrujú do organizačných procesov.
Znalosti sa distribuujú pri komunikácii.
Znalosti sú niekedy pri komunikácii kombinované.
Znalosti nie sú zabezpečené.
znalostný
sklad
Aplikované
ponaučenie
vyhľadávanie
/distribúcia
15
16
Učenie sa vývojom
znalostného skladu (2)
•
Zber znalostí môže byť:
1.
2.
•
•
Aktívny – existujú pracovníci v organizácii ktorých úlohou je sledovať
jednotlivé procesy a nachádzať nové ponaučenia.
Pasívny – pracovníci sami musia rozoznať hodnotu ponaučenia pre
znalostný sklad.
Vyhodnotenie zozbieraných ponaučení (novosť, konzistentnosť)
Indexácia ponaučení kvôli efektívnejšiemu vyhľadávaniu (plus napojenie
na súvisiace znalosti a existujúce dokumenty)
Distribúcia znalostí zo znalostného skladu môže byť:
1.
2.
Pasívna, t.j. vyhľadávanie – pracovník si musí sám vyhľadať relevantné
ponaučenia v znalostnom sklade.
Aktívna, t.j. distribúcia – pracovníkom sú aktívne zasielané nové
ponaučenia napr. podľa ich profilov záujmu.
17
Organizačné predpoklady učenia vývojom
znalostného skladu:
1. Organizácia spravuje nejaký druh znalostného skladu.
2. Pracovníci musia byť motivovaní pre zadávanie
ponaučení do znalostného skladu.
Ukladanie znalostí do znalostného skladu v sebe zahŕňa:
1.
2.
•
Učenie sa vývojom
znalostného skladu (3)
•
Vzťah k znalostným procesom:
1.
2.
3.
4.
Znalosti sa tvoria.
Znalosti sú zabezpečené.
Znalosti sa distribuujú.
Znalosti mohli vzniknúť kombinovaním.
18
3
Vzťahy medzi znalostnými procesmi
a procesmi učenia v organizácii (1)
Znalostný
proces Tvorba
Typ učenia
Vzťahy medzi znalostnými procesmi
a procesmi učenia v organizácii (2)
Zabezpeče Distribú
Kombinovanie
nie
cia
Individuálne




Skupinové




Znalostným
skladom




•
Individuálne učenie je prerekvizitou skupinového
učenia a učenia vývojom znalostného skladu.
•
Individuálne učenie môže byť výsledkom kombinácie
znalostí získaných komunikáciou, alebo zo
znalostného skladu.
•
Diskusie (záznamy komunikačných procesov) môžu
byť uložené v znalostnom sklade.
•
Distribučný proces zo znalostného skladu 
komunikačný proces.
19
20
2. Znalostné sklady
Požiadavky na znalostný sklad (ZS)
1.
2) Znalostné
sklady
4) Komunity znalostných
pracovníkov
(dokumenty)
(ľudia)
2.
3.
1) Tok znalostí
4.
5.
6.
7.
3) Znalostná kartografia
(mapovanie, navigácia)
Jednoduchý prístup k znalostiam v ZS pre podporu
individuálneho učenia kombinovaním.
Má byť jednoduché rozhodnúť, ktorí spolupracovníci by mohli
mať znalosť o danej aktivite.
Má byť jednoduché rozhodnúť, ktorí spolupracovníci by mohli
mať záujem o dané ponaučenie.
Zadávanie ponaučení do ZS má byť jednoduché a má sa oplatiť.
Existujú dobre definované kritériá pre posúdenie toho, či niečo
je ponaučenie, ako sa má sformulovať a kde sa má uložiť.
Existujú mechanizmy pre udržiavanie konzistentnosti ZS
ZS by mal mať mechanizmy pre distribúciu novo vložených
znalostí pracovníkom, ktorých by to mohlo zaujímať.
21
22
Znalostné podkrovie
Typy znalostných skladov
• Jednotlivé typy ZS sa odlišujú podľa toho, či sú
zber ponaučení, resp. ich distribúcia aktívne,
alebo pasívne.
Pasívny zber
•
•
•
•
•
Aktívny zber
ZS sa využíva ako archív v prípade potreby
Výhodou je, že to nie je „dotieravý systém“
Zdôrazňuje princíp učenia zdola-nahor
Vyžaduje si vysokú disciplínu pracovníkov, aby mohol fungovať
dobre
Príkladom ZS tohto typu je NASA Lessons Learned database
http://llis.nasa.gov/llis/search/home.jsp
Pasívna
distribúcia
Znalostné
podkrovie
Znalostná
špongia
–
Aktívna
distribúcia
Znalostné
vydavateľstvo
Znalostná
pumpa
–
–
•
Tento ZS spĺňa požiadavky na ZS s poradovými číslami
–
23
Formulár pre zadávanie ponaučení (pre zamestnancov NASA, rôzne
kategórie)
Podané ponaučenia prechádzajú recenziou cez editorov
Formulár pre navigáciu a vyhľadávanie ponaučení (verejné)
1,4,5 a 6 (zabezpečuje editor)
24
4
Znalostné vydavateľstvo
Znalostná špongia
•
•
Organizácia sa snaží aktívne vyvinúť viac-menej úplný ZS,
keďže aktívne zbiera ponaučenia do ZS
Či ZS skutočne zvyšuje kvalitu organizačných procesov, je už
ponechané na jednotlivých pracovníkov
Čiastočným príkladom tohto typu ZS je systém KnowWeb
•
•
•
http://www.tuke.sk/kkui/projects/knowweb/KnowWeb.html
– nové zdroje explicitných znalostí (textové dokumenty) je možné
zadávať ručne,
– ale existuje aj mechanizmus automatického zberu určitých
typizovaných zdrojov informácií (napr. „end-of-day reports“
v jednotlivých predajniach maloobchodných reťazcov.)
– všetky zdroje sú linkované na znalostný model (ontológiu) pre
podporu inteligentného vyhľadávania
– Distribúcia je pasívna, ale je podporovaná modulom pre tvorbu
často používaných dotazov
•
•
Vkladanie ponaučení je ponechané na jednotlivých
pracovníkoch.
Úlohou správcov ZS je analyzovať prichádzajúce ponaučenia,
kombinovať ich so znalosťami v ZS a rozoslať ich tým
pracovníkom, pre ktorých dané ponaučenie môže byť
relevantné.
Príkladom ZS tohto typu je DOELLIS (Department of Energy
Lessons Learned Information Services)
http://hss.doe.gov/sesa/Analysis/ll/llis.html
–
–
–
•
Tento ZS spĺňa požiadavky na ZS s číslami 1,4,5
Ponaučenia boli podávané tradičnou (písomnou) formou, teraz už aj cez
webové rozhranie. Je to pasívny proces.
Podané ponaučenia prechádzajú recenziou expertov, ktorí ponaučenia
vkladajú do ZS.
Ponaučenia sú aj aktívne distribuované vedúcim oddelení, ktorí
rozhodnú o tom, ktorí pracovníci z nich môžu profitovať.
Tento ZS spĺňa požiadavky na ZS s číslami 1,5,6,7
25
26
Znalostná pumpa (1)
•
•
•
•
Ide o najzložitejší typ ZS.
Teoreticky zaručuje, že znalosti vyvinuté v organizácii sú plne
využité pre zvýšenie jej výkonnosti.
Manažment organizácie presadzuje efektívne fungovanie cyklu
ponaučení.
Príkladom ZS tohto typu je CALL (Center of Army Lessons
Learned) http://usacac.army.mil/cac2/call/ll-links.asp
–
–
–
–
•
Znalostná pumpa (2)
•
Iným príkladom ZS tohto typu je systém Webocrat
http://www.webocrat.sk/webocrat/index.jsp
–
–
–
on-line formulár pre zadávanie ponaučení, ale aj
aktívny zber ponaučení vycvičenými tímami
editácia, indexovanie a zadávanie ponaučení špeciálnym oddelením
formulár pre vyžiadanie informácie, ale aj aktívna distribúcia formou
rôznych publikácií
–
–
•
Nástroje pre vkladanie nových explicitných znalostí rôznych
foriem (dokumenty, diskusie, hlasovania, žiadosti a pod.)
Nové zdroje sú ručne anotované na koncepty ontológie pre
podporu inteligentného vyhľadávania
Ale aj nástroje pre podporu semi-automatickej anotácie nových
zdrojov
Inteligentné vyhľadávanie nad ZS,
ale aj aktívna distribúcia nových zdrojov na základe individuálnych
profilov používateľov
Tento ZS spĺňa požiadavky na ZS s číslami 1,2,3,4,5,6,7
Tento ZS spĺňa požiadavky na ZS s číslami 1,4,5,6,7
27
28
Vnútorná organizácia ZS (1)
3. Znalostná kartografia
•
2) Znalostné sklady
(dokumenty)
4) Komunity znalostných
pracovníkov
•
Prvky ZS sú znalostné objekty, ktoré môžu byť na rôznej úrovni
všeobecnosti
Správna úroveň znalostí je niekde v strede nižšie uvedenej
škály, t.j. znalostná položka
(ľudia)
1) Tok znalostí
3) Znalostná kartografia
(mapovanie, navigácia)
29
29
30
5
Vnútorná organizácia ZS (2)
•
Vnútorná organizácia ZS (3)
Znalostná položka sa používa aj v organizačnom modeli pri
metodológii CommonKADS, kde je modelovaná pomocou
objektov s určitým počtom atribútov:
•
Indexácia ZS by mala podporovať 3 základné
typy vyhľadávania/prehľadávania:
1. Hierarchické prehľadávanie – štruktúry znalostných
objektov (viď. napr. stromovú štruktúru vo
Webocrate)
2. Atribútové vyhľadávanie – zadávajú sa konkrétne
hodnoty atribútov, v ZS sa potom vyhľadajú všetky
znalostné položky, ktoré majú danú hodnotu
atribútu
3. Vyhľadávanie na základe obsahu – zadávajú sa
termy, ktoré sú relevantné pre danú oblasť záujmu,
v ZS sa vyhľadajú všetky znalostné položky, ktoré ich
obsahujú
31
32
Príklad SMZ podporujúceho komunity
znalostných pracovníkov (1)
4. Komunity znalostných pracovníkov
2) Znalostné sklady
(dokumenty)
4) Komunity znalostných
pracovníkov
•
(ľudia)
Výskum v oblasti CSCW (Computer Supported Cooperative
Work) poskytol početné aplikácie (groupware) pre podporu
rôznych špecifických aspektov kooperatívnej práce, napr.:
–
–
–
1) Tok znalostí
•
•
3) Znalostná kartografia
(mapovanie, navigácia)
Koordinácia pracovných tokov (workflow management)
Zdieľanie dokumentov
Video-konferencie
Vzniká však potreba integrácie týchto rôznorodých funkčností
systémov groupware
Príkladom realizácie takéhoto systému je PoliTeam – systém
využívaný na nemeckom Ministerstve pre vedu, vzdelávanie a
technológie
33
34
Príklad SMZ podporujúceho komunity
znalostných pracovníkov (3)
Príklad SMZ podporujúceho komunity
znalostných pracovníkov (2)
• Aplikačný scenár pre systém PoliTeam: príprava
prejavu ministra (viď. nasledujúci obrázok) –
väčšina procesov v tejto organizácii prebieha
podobne, t.j.
– Spracovanie dokumentu smerom zhora-nadol
(podľa hierarchie v organizácii)
– Kooperatívna tvorba dokumentu na úrovni
jednotiek (units)
– Schvaľovací postup zdola-nahor podľa hierarchie
v organizácii
35
•
Riešenie:
1. Elektronické cirkulačné zložky (foldre) umožňujú (viď.
nasledujúci obrázok):
– transportovať ľubovoľné elektronické dokumenty, pridávať
ich a uberať jednoduchým drag-and-drop
– Definované prístupové práva určujú kto môže nad zložkou
vykonávať aké operácie
– Cesta cirkulačnej zložky je definovaná konfigurovateľnou
„sprievodkou“, ktorá definuje sekvenčný, prípadne paralelný
zoznam adresátov.
– Elektronický podpis umožňuje bezpečnú autorizáciu
na jednotlivých úrovniach schvaľovacieho procesu
– Integrácia s papierovými dokumentmi (čiarový kód)
– Integrácia s video-konferenčným systémom
36
6
Príklad SMZ podporujúceho komunity
znalostných pracovníkov (4)
2. Zdieľané pracovné priestory (viď nasledujúci obrázok):
– Podporujú kooperáciu medzi jednotlivými členmi jednotky,
alebo rôznych jednotiek a oddelení
– Ten kto založí pracovný priestor je zaň aj zodpovedný (môže
však túto úlohu delegovať ďalej), len on(a) môže pozývať ľudí
do tohto pracovného priestoru
– Každý pozvaný môže svoju účasť prijať alebo odmietnuť
– Notifikačná služba pri zmenách v pracovnom priestore
– Integrovaný video-konferenčný systém
3. Integrácia oboch nástrojov
– Koordinácia prác na zdieľaných dokumentoch – vloženie
dokumentu z pracovného priestoru do elektronickej
cirkulačnej zložky
37
7
Univerzalistický pohľad na MZ
Manažment znalostí (12-13)
• Faktory ovplyvňujúce manažment znalostí (MZ)
– Univerzalistický, alebo podmienený pohľad na MZ
– Vplyv (1) charakteristík riešených úloh, (2) charakteristík
používaných znalostí, (3) charakteristík organizácie,
(4) vonkajšieho prostredia
• Identifikácia vhodného typu riešenia MZ (metodika)
• Vplyv manažmentu znalostí (MZ) na organizáciu
– (1) na ľudí, (2) na procesy, (3) na produkty organizácie,
(4) na celkový výkon organizácie
• Pri univerzalistickom pohľade na manažment znalostí sa
predpokladá, že existuje jediný najlepší prístup k manažmentu
znalostí
• To by znamenalo, že v každej organizácii, ktorá si uvedomuje
význam znalostí, by stačilo aplikovať tento jeden, najlepší
prístup k manažmentu znalostí
• To sa síce v literatúre málokedy objavuje explicitne, ale často
takéto tvrdenie implicitne vyplýva
– Napr. že zdieľanie znalostí sa odporúča ako univerzálne vhodné
riešenie pre podporu manažmentu znalostí
• Ohodnotenie vplyvu MZ na organizáciu
– Existujú však situácie (malé firmy), keď takýto prístup je príliš
nákladný a lepším spôsobom je vhodné vedenie
– Kedy, ako a čo merať v súvislosti s MZ?
1
2
Podmienený pohľad
na manažment znalostí
Podmieňujúce faktory a spôsoby
podpory manažmentu znalostí
• Podmienený prístup naopak predpokladá, že
žiaden z existujúcich prístupov k manažmentu
znalostí nie je najlepší za každých okolností
• Tento prístup predpokladá, že existujú viaceré
alternatívne cesty k úspechu manažmentu
znalostí, ktoré závisia od viacerých špecifických
okolností danej organizácie
• Čo sú tieto okolnosti, resp. faktory, ktoré
ovplyvňujú/podmieňujú výber vhodnej cesty
pre realizáciu manažmentu znalostí?
Podmieňujúce
faktory
3
2
Spôsoby podpory MZ
Infraštruktúra MZ
•
•
•
•
•
Organizačná kultúra
Communities of Practice
Organizačná štruktúra
IT infraštruktúra
Organizácia znalostí
Mechanizmy
a technológie
pre manažment
4 znalostí
1
Systémy pre podporu MZ
5
•
•
•
•
Systémy na získavanie znalostí
Systémy zachytávajúce znalosti
Systémy na zdieľanie znalostí
Systémy aplikujúce znalosti
Znalostné procesy
6
•
•
•
•
Získavanie znalostí
Zachytenie znalostí
Zdieľanie znalostí
Aplikácia znalostí
7
3
4
Podmieňujúce faktory a spôsoby
podpory manažmentu znalostí
Základné znalostné procesy
pre tvorbu znalostí (model SECI)
na
1. Znalostné procesy sú primárne závislé na viacerých
podmieňujúcich faktoroch.
2. Keď sú správne vybrané znalostné procesy, ktoré sa budú
rozvíjať, je možné navrhnúť vhodné systémy pre podporu
MZ, ako aj
3. vhodné mechanizmy a technológie. Tieto sú silne
ovplyvňované
4. existujúcou infraštruktúrou MZ v danej organizácii, čo
následne ovplyvňuje
5. systémy pre podporu MZ a tieto zase
6. znalostné procesy, takže
7. infraštruktúra MZ nepriamo ovplyvňuje znalostné procesy
Tacitné
znalostí
Tacitných
znalostí
Explicitné
znalosti
socializácia
externalizácia
internalizácia
kombinácia
z
Explicitných
znalosti
5
6
1
Ďalšie znalostné procesy
Tvorba znalostí z iného pohľadu
• Objavovanie znalostí (knowledge discovery):
• Zdieľanie znalostí (knowledge sharing):
– Kombinácia (vhodná pre explicitné znalosti)
– Socializácia (vhodná pre tacitné znalosti)
– Distribúcia, resp. výmena (exchange) – vhodné pre
explicitné znalosti)
– Socializácia (vhodná pre tacitné znalosti)
• Zachytávanie znalostí (knowledge capture):
• Aplikácia znalostí (knowledge application):
– Internalizácia (explicitných znalostí)
– Externalizácia (tacitných znalostí)
– Rutiny (pre explicitné aj tacitné znalosti)
– Vedenie (pre explicitné aj tacitné znalosti)
7
Podmieňujúce faktory MZ
8
Spôsoby, akými podmieňujúce faktory
ovplyvňujú vhodnosť znalostných procesov
1. Charakteristika (typ) úloh v danom oddelení
(organizácii)
– miera neurčitosti riešených úloh
– miera nezávislosti pri riešení úloh na iných oddeleniach
A. Zvyšujú, resp. znižujú potrebu manažmentu
znalostí určitým spôsobom
– Napr. väčšie organizácie majú väčšiu potrebu
investovať do zdieľania znalostí
2. Charakteristika (typ) znalostí na riešenie úloh
– explicitné / tacitné
– procedurálne / deklaratívne
B. Zvyšujú, resp. znižujú schopnosť organizácie
manažovať znalosti určitým spôsobom
3. Charakteristiky organizácie
– veľkosť organizácie
– stratégia riadenia
– Napr. organizačná kultúra charakteristická vysokou
mierou dôvery zvyšuje schopnosť organizácie
efektívne využívať procesy zdieľania znalostí
4. Charakteristika prostredia
– miera neistoty
9
1. Charakteristika (typ) úloh
v danom oddelení (organizácii)
•
•
10
Neurčitosť úloh
• Vysoká neurčitosť (variabilita) riešených úloh:
Znalostné procesy vhodné pre danú organizačnú
jednotku (oddelenie, alebo geografickú lokalitu)
závisia na charaktere úloh, ktoré sa tam riešia
Existuje viacero rôznych charakteristík riešených
úloh, z hľadiska MZ sa ako najdôležitejšie javia
tieto dve:
– Neurčitosť úloh (resp. ich variabilita)
– Nezávislosť úloh (do akej miery je dosiahnutie cieľov
úlohy viazané na úsilie iných organizačných
jednotiek)
11
– znižuje schopnosť organizácia vytvárať rutiny, a teda
aplikácia znalostí závisí na vedení
– proces externalizácie a internalizácie je náročnejší
a drahší v dôsledku stále sa meniacich úloh
– znalosti majú tendenciu zostávať tacitné, potláčajúc
tak možnosti využitia kombinácie a distribúcie
• Pri vysokej neurčitosti úloh sa odporúča
preferovať vedenie a socializáciu
• Pri nízkej neurčitosti úloh sa odporúča:
– rutiny, distribúcia, kombinácia, externalizácia
a internalizácia
12
2
Závislé úlohy
Nezávislé úlohy
•
•
•
•
• Výkonnosť pri riešení závislých úloh závisí
najmä na dynamike interakcií, v ktorých sa
znalosti jednotlivých oddelení kombinujú
a transformujú komunikáciou a koordináciou
medzi rôznymi funkčnými skupinami
• Socializácia a kombinácia, ako procesy
napomáhajúce integrácii apriórnych znalostí
pri tvorbe nových, sú vhodné pre tento typ úloh
• Vedenie a rutiny môžu byť použité aj pre
závislé, aj pre nezávislé úlohy. Ich výber viac
ovplyvňuje neurčitosť úloh, ako ich závislosť
Vykonávanie nezávislých úloh si primárne vyžaduje znalosti
dostupné priamo u ľudí z daného oddelenia
Často si vyžadujú hlboké vedomosti z určitej oblasti
Základom v prípade nezávislých úloh je externalizácia
a internalizácia
Externalizáciou sa znalosti stávajú pochopiteľnejšími
pre ostatných zamestnancov oddelenia
– Externalizáciou, keď sa snažia modelovať svoje znalosti
analógiami, metaforami alebo cez systémy na riešenie úloh
•
Internalizáciou si zase jednotlivci osvojujú znalosti ostatných
členov skupiny
– Internalizáciou jednotlivci získavajú znalosti pozorovaním,
resp. rozhovormi s inými
13
14
Charakteristika (typ) úloh – súhrn
distribúcia
kombinácia
rutiny
internalizácia
externalizácia
rutiny
– Vyjadriteľnosťou znalostí (explicitné, resp. tacitné)
– Psychológiou znalostí (deklaratívne, resp. procedurálne)
vedenie
socializácia
•
vedenie
internalizácia
externalizácia nízka
nízka
Neurčitosť úloh vysoká
vedenie
rutiny
rutiny
internalizácia
vedenie
externalizácia
socializácia
distribúcia
kombinácia
Získavanie znalostí (knowledge discovery)
– Kombinácia je vhodná pre explicitné znalosti
– Socializácia pre tacitné znalosti
•
Zachytenie znalostí (knowledge capture)
– Externalizácia je vhodná pre tacitné znalosti
– Internalizácia vhodná pre explicitné znalosti
•
Zdieľanie znalostí (knowledge sharing)
– Distribúcia je vhodná pre explicitné znalosti
– Socializácia pre tacitné znalosti
15
2. Charakteristika (typ) znalostí
Procedurálne alebo
Závislosť úloh
vysoká
Znalostné procesy sú najviac priamo ovplyvňované
deklaratívne znalosti
distribúcia
kombinácia
socializácia
vedenie
rutiny
2. Charakteristika (typ) znalostí
•
16
2. Typy znalostí - súhrn
• Procedurálne znalosti („know how“)
procedurálne alebo deklaratívne
– Vedenie a rutiny sú vhodné tak pre explicitné ako
aj tacitné znalosti
• Niektoré znalostné procesy nemusia prispievať
k hodnote určitého typu znalostí preto, lebo
• buď nie sú efektívne pri manažovaní
(kombinácia a distribúcia nie sú efektívne
pri práci s tacitnými znalosťami)
• alebo príliš drahé, prípadne príliš pomalé
(socializácia by bola príliš drahá a pomalá
na zdieľanie explicitných znalostí, najmä
v porovnaní s distribúciou)
17
procedurálne
Získavanie znalostí
•Explicitné: kombinácia
•Tacitné: socializácia
Zdieľanie znalostí
•Tacitné: socializácia
•Explicitné: distribúcia
Aplikácia znalostí
•Tacitné/Explicitné: vedenie
•Tacitné/Explicitné: rutiny
Zachytávanie znalostí
•Tacitné: externalizácia
•Explicitné: internalizácia
18
3
Vplyv veľkosti organizácie
na aplikáciu znalostí
3. Organizačné charakteristiky
• Dve organizačné charakteristiky najviac
ovplyvňujú vhodnosť jednotlivých znalostných
procesov:
– Veľkosť organizácie a
– Stratégia vedenia organizácie
•
•
• Veľkosť organizácie vplýva najmä na výber
medzi dvojicou procesov podporujúcich:
•
– aplikáciu znalostí (vedenie a rutiny)
– zdieľanie znalostí (socializácia a distribúcia)
Väčšie a viac byrokratické organizácie budú viac
profitovať z rutín, lebo viac využívajú štandardizáciu
procesov
Menšie organizácie nie sú tak byrokratické a nie sú
tak závislé na štandardizácii a pravidlách, preto je
vhodnejšie v ich prípade vedenie
Okrem toho okolnosti potrebné pre vedenie (napr.
dôvera znalostných pracovníkov v jednotlivca, ktorý
vedie) sú oveľa pravdepodobnejšie splniteľné v
malých organizáciách
19
20
Porterov model
piatich konkurenčných síl
Vplyv veľkosti organizácie
na zdieľanie znalostí
• Porterov model podáva všeobecný pohľad
na firmu, jej konkurenciu a prostredie
v ktorom pôsobí
• Porter identifikuje päť hlavných síl, ktoré sú
zdrojom konkurencie firmy:
• Zdieľanie znalostí distribúciou je vhodné vo
veľkých organizáciách, zatiaľ čo socializácia je
odporúčaná malým organizáciám
• V malých organizáciách je viac príležitostí
na socializáciu ako vo veľkých
• Naopak pre veľké organizácia je socializácia
pri veľkých vzdialenostiach a počtoch
zamestnancov veľmi nákladná, omnoho
výhodnejšia je distribúcia
1. Súperenie medzi etablovanými podnikmi
2. Potenciálni konkurenti
3. Vyjednávacia sila zákazníkov
4. Vyjednávacia sila dodávateľov
5. Substitúty
21
22
Vplyv stratégie vedenia organizácie
na aplikáciu znalostí
Všeobecné stratégie ako čeliť
konkurenčným silám
•
• Štyri všeobecné stratégie, ktoré veľmi často môžu
byť podporené, alebo dokonca umožnené
informačnými systémami:
Stratégia vedenia organizácie môže byť:
– Nízko-nákladová (zameraná na aplikovanie existujúcich
znalostí, namiesto tvorby nových)
– Diferenciačná, resp. špecializačná (hľadanie nových
príležitostí, časté inovácie produktov => získavanie z.)
1.Stratégia nákladového vodcovstva (resp. stratégia
nízkych nákladov – angl. „low-cost leadership“)
•
2.Diferenciačná stratégia (angl. „product differentiation“)
3.Špecializačná stratégia (angl. „focus on market niche“)
•
4.Posilňovanie vzťahov so zákazníkmi a dodávateľmi
(angl. „strengthen customer and supplier intimacy“)
23
Aplikácia znalostí (vedením a/alebo rutinami) je
potrebná najmä v prípade organizácií s nízkonákladovou stratégiou
Získavanie znalostí (kombináciou a/alebo
socializáciou) je zase kľúčové v organizáciách s
diferenciačnou stratégiou
24
4
4. Charakteristiky prostredia
•
•
•
Vplyv organizácie a prostredia – súhrn
Prostredie budeme charakterizovať mierou istoty, t.j. do akej
miery sú na trhu stabilné podmienky v sektore podnikania
danej organizácie
V prostredí s nízkou mierou neistoty sú vhodné procesy
zachytávania znalostí a zdieľania znalostí, lebo zachytené
znalosti budú relevantné počas dlhšieho obdobia
Naproti tomu v neistom prostredí sú vhodnejšie
– procesy získavania znalostí (prispievajú k schopnosti
organizácie prichádzať s inovatívnymi riešeniami emergujúcich
problémov)
– aplikácie znalostí (umožňuje jednotlivcom riešiť problémy na
základe riešení ktoré odporúčajú tí, čo majú potrebné znalosti,
namiesto časovo náročného procesu zdieľania znalostí)
Charakteristika Hodnota (typ)
malá
Veľkosť
organizácie
veľká
Odporúčané znal. procesy
Získavanie (kombinácia, socializácia)
Zachytávanie (externalizácia, internalizácia)
Zdieľanie (socializácia)
Aplikácia (vedenie)
Získavanie (kombinácia)
Zachytávanie (externalizácia, internalizácia)
Zdieľanie (distribúcia)
Aplikácia (rutiny)
Zachytávanie (externalizácia, internalizácia)
Zdieľanie (socializácia, distribúcia)
Aplikácia (vedenie aj rutiny)
Stratégia
riadenia
organizácie
nízkonákladová
diferenciačná
Získavanie (kombinácia, socializácia)
Zachytávanie (externalizácia, internalizácia)
Zdieľanie (socializácia, distribúcia)
Neistota
prostredia
nízka
Zachytávanie (externalizácia, internalizácia)
Zdieľanie (socializácia, distribúcia)
Získavanie (kombinácia, socializácia)
Aplikácia (vedenie a rutiny)
vysoká
26
25
Identifikácia vhodnej stratégie
manažmentu znalostí v danej organizácii
1. Ohodnotiť podmieňujúce faktory
2. Identifikovať vhodné znalostné procesy pre každý
z podmieňujúcich faktorov
3. Stanoviť priority medzi identifikovanými znalostnými
procesmi
4. Identifikovať už existujúce znalostné procesy
5. Identifikovať chýbajúce znalostné procesy
(na základe 3. a 4.)
6. Zhodnotiť infraštruktúru pre manažment znalostí
7. Vyvinúť dodatočne potrebné systémy
pre podporu manažmentu znalostí, súvisiace
mechanizmy a organizačné opatrenia
1. Ohodnotiť podmieňujúce faktory
1. Charakteristika (typ) úloh v danom oddelení (organizácii)
– miera neurčitosti riešených úloh – vysoká, alebo nízka
– miera závislosti pri riešení úloh – vysoká, alebo nízka
2. Charakteristika (typ) znalostí potrebných na riešenie úloh
– explicitné alebo tacitné
– procedurálne alebo deklaratívne
3. Organizačné charakteristiky
– veľkosť organizácie – veľká alebo malá
– stratégia riadenia – nízko-nákladová alebo
diferenciačná
4. Charakteristiky prostredia
– miera neistoty – vysoká alebo nízka
27
3. Stanoviť priority medzi identifikovanými
znalostnými procesmi
2. Identifikovať vhodné znalostné
procesy podľa všetkých faktorov
MZ
procesy
Neurčitosť úloh
Závislosť
úloh
E/T
znalosti
Komb.
nízka
vysoká
E
--
--
D
vysoká
S-Získ.
vysoká
vysoká
T
--
malá
D
vysoká
S-Zdieľ.
vysoká
vysoká
T
--
malá
--
nízka
Distrib.
nízka
vysoká
E
--
veľká
--
nízka
Exter.
nízka
nízka
T
--
--
--
nízka
Intern.
nízka
nízka
E
--
--
--
nízka
vysoká
--
--
P
malá
N-N
vysoká
nízka
--
--
P
veľká
N-N
vysoká
Vedenie
Rutiny
P/D
znalosti
Veľkosť
organiz.
28
Stratégia Neistota
vedenia prostr.
29
• Postupne určiť pre všetky typy znalostných
procesov a všetky podmieňujúce charakteristiky
ich vzájomnú vhodnosť takto:
– 1,0 ak je vhodný
– 0,0 ak nie je vhodný
– 0,5 ak je vhodný pre obe alternatívne hodnoty
• Spočítať všetky pridelené hodnoty pre každý typ
znalostných procesov zvlášť
• Porovnať kumulatívne hodnoty a usporiadať
znalostné procesy podľa nich
30
5
• Po spočítaní vhodností jednotlivých znalostných
procesov za všetky faktory je najdôležitejším
• Ak napr. malá organizácia rieši závislé úlohy s veľkou
neurčitosťou a uplatňuje diferenciačnú stratégiu
v prostredí s vysokou neistotou, využívajúc najmä
tacitné procedurálne znalosti
MZ
procesy
Neurči- Závislosť
tosť úloh úloh
E/T
znalosti
P/D
znalosti
Veľkosť
organiz.
MZ
vysoká
procesy neurčitosť úl.
Stratégia Neistota
vedenia prostr.
Závislé
úlohy
tacitné
znal.
procedurálne
znal.
malá
org.
diferen
ciačná
strat.
vysoká
neistota
Spolu
Komb.
0
1
0
0,5
0,5
1
1
4
S-Získ.
1
1
1
0,5
1
1
1
6,5
5
Komb.
0
1
0
0,5
0,5
1
1
S-Zdie.
1
1
1
0,5
1
0,5
0
S-Získ.
1
1
1
0,5
1
1
1
Distrib.
0
1
0
0,5
0
0,5
0
2
S-Zdieľ.
1
1
1
0,5
1
0,5
0
Exter.
0
0
1
0,5
0,5
0,5
0
2,5
Distrib.
0
1
0
0,5
0
0,5
0
Intern.
0
0
0
0,5
0,5
0,5
0
1,5
Exter.
0
0
1
0,5
0,5
0,5
0
Veden.
1
0,5
0,5
1
1
0
1
5
Intern.
0
0
0
0,5
0,5
0,5
0
Rutiny
0
0,5
0,5
1
0
0
1
3
Vedenie
1
0,5
0,5
1
1
0
1
Rutiny
0
0,5
0,5
1
0
0
1
31
• Socializácia pre získavanie znalostí, nasledujú
• Socializácia pre zdieľanie znalostí a vedenie
32
6. Zhodnotiť infraštruktúru pre MZ
a stanoviť postup implementácie
nových znalostných procesov
4. Identifikovať už existujúce
znalostné procesy
• Pritom možno využiť dotazníkovú metódu
medzi zamestnancami organizácie (oddelenia)
5. Identifikovať chýbajúce
znalostné procesy
• Na základe identifikovaných znalostných procesov
(krok 3) a existujúcich znalostných procesov (krok 4)
možno určiť tie, ktoré v organizácii ešte chýbajú
• Toto porovnanie môže ukázať napr. aj to, že niektoré
existujúce znalostné procesy nie sú
pre organizáciu
také prínosné
33
• Organizačná kultúra, organizačná štruktúra a fyzické
prostredie môžu napomáhať, ale aj brániť zdieľaniu
a tvorbe znalostí.
• Informačné technológie môžu podporovať všetky
znalostné procesy.
• Tieto aspekty infraštruktúry organizácie je nutné
posúdiť a identifikovať znalostné procesy, pre ktoré
už existuje vhodná infraštruktúra.
• Tento krok je obzvlášť dôležitý pre rozhodnutie
o postupnosti, v akej sa budú znalostné procesy
približne zhodnej priority implementovať.
34
7. Vyvinúť dodatočne potrebné znalostné
procesy, mechanizmy a technológie
• To v sebe zahŕňa vytvorenie tímu, získanie
potrebných technológií, návrh a vývoj
systémov a pod.
• Takto vyvinuté systémy, mechanizmy
a technológie budú v dlhodobom horizonte
vplývať na zmenu infraštruktúry manažmentu
znalostí danej organizácie.
Vplyv manažmentu znalostí
na organizáciu
a jeho ohodnotenie (meranie)
35
6
•
Vplyv manažmentu znalostí
v niekoľkých smeroch
Vplyv manažmentu znalostí
dvoma spôsobmi
Manažment znalostí vplýva na organizáciu najmä
v štyroch základných smeroch (rovinách):
• Manažment znalostí môže vplývať na organizáciu
v rámci štyroch základných smerov, dvoma
odlišnými spôsobmi:
1. Vplyv MZ na ľudí v organizácii (učenie, adaptabilita,
spokojnosť)
2. Vplyv MZ na procesy v organizácii (efektívnosť, výkonnosť,
inovatívnosť)
3. Vplyv MZ na produkty organizácie (produkty s pridanou
hodnotou, produkty založené na znalostiach)
4. Vplyv MZ na celkovú výkonnosť organizácie (priame
a nepriame vplyvy)
1. Manažment znalostí môže napomôcť vytvoreniu
znalostí, ktoré môžu následne prispieť k zlepšeniu
organizácie z pohľadu štyroch základných rozmerov
2. Manažment znalostí môže spôsobiť priamo zlepšenia
organizácie v jednotlivých rozmeroch (ľudia, procesy,
produkty, celkový výkon organizácie)
37
38
Sumár vplyvov MZ na ľudí
Vplyvy manažmentu znalostí na ľudí
• Manažment znalostí môže vplývať na ľudí
v organizácii niekoľkými spôsobmi:
Manažment
znalostí
1. MZ môže napomáhať učeniu zamestnancov
(navzájom medzi sebou, alebo z externých zdrojov)
Znalosti
Učenie
zamestnancov
Adaptabilita
zamestnancov
2. MZ môže pomáhať zamestnancom stávať
sa flexibilnejšími
Spokojnosť
zamestnancov
s prácou
3. MZ môže pomáhať zvyšovať spokojnosť
zamestnancov s ich prácou
39
40
Vplyv MZ na efektívnosť
procesov
Vplyvy MZ na procesy v organizácii
• MZ umožňuje zlepšenia v organizačných
procesoch ako sú marketing, výroba, účtovníctvo,
styk s verejnosťou a pod. v troch rôznych smeroch
– Efektívnosť – vykonávanie najvhodnejších procesov
s najlepšími možnými rozhodnutiami
– Výkonnosť – vykonávanie procesov rýchlo a s nízkymi
nákladmi
– Inovatívnosť – vykonávanie procesov kreatívne
a novými spôsobmi, čo môže zvyšovať efektívnosť
a výkonnosť, alebo aspoň predajnosť výsledných
produktov
41
•
•
MZ umožňuje organizáciám byť efektívnejšími napr. tým, že
pomáha vhodne vybrať a vykonávať procesy (napr.
zachytávaním ponaučení z minulých procesov)
Efektívny MZ umožňuje organizáciám zbierať a sledovať
informácie potrebné k monitorovaniu externých udalostí
– Výsledkom je menej prekvapení pre vedenie organizácie, ktoré
si následne vynucujú potrebu modifikovať plány
– Naproti tomu slabý MZ môže mať za dôsledok robenie chýb
a tiež riziko ich opakovania v budúcnosti
•
MZ umožňuje organizáciám rýchlejšie adaptovať procesy
podľa aktuálnych okolností a tým udržiavať ich efektívnosť
aj v zmenených podmienkach
42
7
Vplyv MZ na výkonnosť
a inovatívnosť procesov
•
Sumár vplyvov MZ
na organizačné procesy
Efektívny manažment znalostí umožňuje organizáciám
pracovať výkonnejšie
Efektívnosť procesov
– Príklad firmy British Petroleum, ktorá rýchlym využitím nových
znalostí z jednej zo svojich základní na iných miestach dokázala
ušetriť 300 mil. USD za rok
•
• Menej chýb
• Adaptácia na zmeny okolností
Organizácie sa môžu vďaka MZ stále viac spoliehať na
zdieľanie znalostí jednotlivcami s cieľom
– produkovať inovatívne riešenia problémov, alebo vyvíjať
inovatívne organizačné procesy
– Príklad Buckman Laboratories a ich cielené prepojenie vývojových
pracovníkov so špecialistami na marketing a predaj, ako aj
technickou podporou s cieľom aby nové produkty mali stále v
prvom rade na mysli potreby zákazníkov
Manažment
znalostí
Výkonnosť procesov
Znalosti
• Zvyšovanie produktivity
• Úspora nákladov
Inovatívnosť procesov
• Zlepšený brainstorming
• Lepšie využitie nových
myšlienok
43
44
Vplyvy MZ na výkonnosť
organizácie (1)
Vplyvy MZ na produkty
organizácie
• Manažment znalostí môže vplývať na produkty
organizácie dvoma spôsobmi:
• Priame vplyvy:
– Ak sú znalosti priamo použité na tvorbu
inovatívnych produktov, ktoré generujú tržby
a zisk
– Ak je stratégia MZ dobre zladená so stra-tégiou
organizácie, takže sa v konečnom dôsledku týkajú
tržieb, alebo nákladov
– Takéto vplyvy MZ je možné potom relatívne
priamočiaro merať pomocou ukazovateľov ako
zlepšenie ROI (return on investment – návratnosť
investície)
– Znalostné procesy môžu napomáhať organizáciám
ponúkať nové a inovované produkty s významnou
pridanou hodnotou oproti pôvodným produktom
– Manažment znalostí môže mať tiež významný
pozitívny vplyv na produkty, ktoré sú od podstaty
založené na znalostiach (knowledge based) – napr.
konzultačné firmy, vývoj softvéru a pod.
45
46
Vplyvy MZ na výkonnosť
organizácie (2)
Význam hodnotenia
vplyvu manažmentu znalostí
• Nepriame vplyvy:
•
•
– Sú výsledkom aktivít, ktoré nie sú priamo naviazané na
stratégiu organizácie, tržby alebo náklady
– Ide napr. o intelektuálne prvenstvo v rámci daného
sektora, čo môže následne viesť k zvýšeniu dôvery
zákazníkov, alebo k použitiu znalostí na zlepšenie
vyjednávacej pozície vzhľadom na konkurenciu
– Trvalá konkurenčná výhoda (znalosti, najmä kontextovo
špecifické tacitné znalosti majú tendenciu byť jedinečné
a sú ťažko napodobiteľné)
47
Čo nie je možné merať, nemožno dobre manažovať
Hlavné dôvody na meranie MZ:
1. Pomáha identifikovať prínosy MZ pre organizáciu
2. Rozširuje pochopenie kvality opatrení realizovaných MZ, ako aj
intelektuálny kapitál, ktorý tieto opatrenia produkujú
3. Pomáha pochopiť či náklady na MZ opatrenia boli/sú oprávnené a
zodpovedajú vyprodukovaným prínosom.
4. Pomáha identifikovať medzery, ktoré je potrebné vyplniť MZ
opatreniami jednotlivcov, alebo organizáciou.
5. Môže pomôcť ako príklad pre vrcholový manažment v organizácii,
ako podklad pre rozhodnutie o ďalších investíciách do MZ.
48
8
Kedy robiť hodnotenie MZ?
Klasifikácia typov hodnotenia MZ
• Typy hodnotenia MZ možno klasifikovať
rôznym spôsobom, ďalej budeme uvažovať
tieto tri alternatívne pohľady:
1. Kedy sa hodnotí MZ
1. Periodicky pre celú organizáciu, alebo jej vybranú časť
(časti) – napr. dotazníkmi zamestnancom (miera súhlasu
s danými tvrdeniami, potom ich spriemerovanie)
2. Na začiatku projektu MZ s cieľom vyšpecifikovať
zameranie MZ projektu (určiť medzery medzi súčasným
stavom MZ a potenciálnymi prínosmi navrhovaného MZ
riešenia)
3. Po skončení projektu MZ s cieľom určiť jeho efekt
na organizáciu. Môže byť základom dlhodobého
vyhodnocovania vplyvov MZ v ďalších obdobiach.
• Periodicky, na začiatku, na konci MZ projektu
2. Ako sa hodnotí MZ
• Kvalitatívne, alebo kvantitatívne
3. Čo, t.j. ktoré aspekty MZ sa hodnotia
• Ľudia, procesy, produkty, celková výkonnosť
organizácie
49
50
Ako merať vplyvy MZ?
Príklad periodického hodnotenia
Prosím uveďte mieru Vášho súhlasu (1-silne nesúhlasím ... 5-silne
súhlasím) s každým z nasledovných tvrdení:
1.
2.
3.
4.
5.
Som spokojný s dostupnými znalosťami pre moje úlohy.
Je pre mňa ľahké nájsť informácie, ktoré potrebujem pri práci.
Stále viem, kde mám hľadať informácie.
Dostupné znalosti zlepšujú moju efektívnosť pri riešení úloh.
Môj nadriadený ma povzbudzuje k zdieľaniu znalostí v mojom
oddelení.
6. Dostupné znalosti zlepšujú výkonnosť môjho oddelenia.
7. Organizácia priamo odmeňuje zamestnancov za zdieľanie znalostí.
8. Organizácia verejne vyzdvihuje zamestnancov, ktorí zdieľajú svoje
znalosti. ...
•
Kvalitatívne hodnotenie MZ má za cieľ vytvoriť
základné pochopenie, či opatrenia MZ fungujú v praxi,
– napr. na základe rozhovorov so zamestnancami,
pozorovaním, príklady (ne)fungovania opatrení
•
Kvantitatívne hodnotenie MZ produkuje presné
číselné metriky (či už získané spracovaním dotazníkov,
alebo vyhodnotením ekonomickými ukazovateľov ako
ROI, resp. úspora nákladov)
– Takéto ukazovatele je ťažké navrhnúť a zmerať
v počiatočných štádiách zavádzania MZ, kedy je
potrebné preferovať kvalitatívny prístup k hodnoteniu.
51
Kvalitatívne a kvantitatívne
hodnotenie MZ
Miera využívania kvalitatívnych,
resp. kvantitatívnych ukazovateľov
na meranie MZ
•
vysoká
Čo možno hodnotiť pri MZ?
1. Hodnotiť možno priamo implementované
MZ riešenia
Kvalitatívne ukazovatele
2. Znalosti, ktoré vznikajú a sú zdieľané vďaka
implementovaným MZ riešeniam
Kvantitatívne ukazovatele
3. Vplyvy MZ riešení, resp. znalostí nimi
vyprodukovanými na organizáciu (jej
zamestnancov, procesy, produkty, resp.
celkovú výkonnosť)
nízka
nízka
52
vysoká
Úroveň skúseností s manažmentom znalostí
53
54
9
Download

Manažment znalostí (1)