NDBI001 Peter Kóša 31.1.2012
Získavanie informácií z Internetu
Každý deň prichádzame do kontaktu s Internetom. Každý deň Internet používame na
komunikáciu, zábavu a prácu. A na vyhľadávanie informácií. Zdieľanie informácií bol v podstate
historicky primárny účel, pre ktorý bol Internet vymyslený. Avšak množstvo dát, ktoré sú dnes na
Internete dostupné, prestáva byť únosné pre manuálne vyhľadávanie. Do popredia sa preto
dostávajú strojové mechanizmy získavania informácií, a práve im je venovaný tento referát.
Na začiatku sa budeme venovať všeobecnému popisu dát, ktoré sú na Internete k dispozícii,
ich organizácii a potrebám užívateľov, ktorí z týchto dát chcú získavať informácie.
V čom je Internet špecifický?
Prvou odlišnosťou Internetu voči konvenčným zdrojom informácií je to, že je rozdelený na
stránky. Každej stránke je priradené URL (Uniform Resource Locator) a tieto stránky sú veľmi
flexibilné, čo sa využitia a následne informačnej hodnoty týka. Časť stránok je použitá na uchovávanie
a prezentovanie informácií samotných a sú ekvivalentné novinovým článkom. Ďalšie stránky slúžia
k navigácii, vyhľadávaniu alebo komerčným účelom. Existujú aj dynamicky generované stránky, ktoré
sú užitočné len v jednom okamihu, ako napríklad výsledky vyhľadávania, ako aj stránky určené
k prezentácii multimediálneho obsahu, či dát z databázy. Je preto zrejmé, že nie všetky stránky majú
rovnakú informačnú hodnotu a pri získavaní informácií treba prihliadať k funkcii, či dokonca
niekoľkým funkciám jednotlivých stránok.
Vyhľadávače objavujú stránky pomocou takzvaného „preliezania“1 hyperlinkov. Na to
potrebujú, aby bola stránka voľne dostupná a aby na ňu existovala spomínaná hypertextová väzba.
Stránky, ktoré sú preto schované na firemnom intranete, majú v robots.txt zakázané zobrazovanie vo
vyhľadávači, alebo nie sú spomenuté na žiadnej inej stránke, sa preto pravdepodobne pri preliezaní
Internetu neobjavia. Súhrnne sa im vraví „skrytý web“. Naopak stránky, ktoré sú navzájom
prepojené, si môžeme predstaviť ako orientovaný graf, v ktorom stránky predstavujú vrcholy a ich
vzájomné hyperlinky predstavujú hrany. Zistilo sa, že pravdepodobnosť toho, že vrchol v tomto grafe
má stupeň i je 1/ix, kde pre x je odhadovaná podmienka x>2.1. Keďže hyperlinky na stránkach bývajú
označené kotvou, je možné hranám v grafe priradiť popisy podľa textu, ktorý je vpísaný do kotvy. Iný
spôsob nazerania na štruktúru stránok je podľa URL hierarchie, nakoľko sa dá predpokladať, že pre
adresu http://príklad.com/x/y sú stránky umiestnené pod príklad.com/x viac príbuzné, ako stránky
umiestnené na adrese príklad.com.
Pri pokuse o klasifikovanie presných rysov správania užívateľov na internete boli rozdelené
informácie do troch kategórií:



1
Navigačné – zámerom je prejsť na konkrétnu stránku
Informačné – zámerom je nájsť informácie relevantné pre užívateľa
Transakčné – zámerom je využiť internet na sprostredkovanie inej aktivity
ang. crawling
NDBI001 Peter Kóša 31.1.2012
Pre zaujímavosť, jeden výskum ukázal, že približne 60% všetkých dotazov je informačných, 25% je
transakčných a len 15% je navigačných. Správanie užívateľov na Internete navyše zďaleka nie je
anonymné, nakoľko každá väčšia stránka zaoberajúca sa vyhľadávaním informácií zbiera dáta, ktoré
užívatelia zadávajú. Odhaduje sa, že denne takto vzniknú rádovo miliardy záznamov. Archivujú sa
v nich aj vyhľadávané frázy a vyhovujúce linky (tie, na ktoré užívateľ klikol), a z takto získaných dát sa
dá následne určiť napríklad popularita stránok, kvalita poskytovaných výsledkov, alebo dokonca
spojitosť medzi jednotlivými dotazmi či nájdenými stránkami. Vďaka tomu potom vyhľadávač môže
zlepšiť použité algoritmy, navrhovať súvisiace frázy k práve zadanému dotazu a kontrolovať pravopis.
O vyhľadaní stránky
Každé vyhľadávanie stránok má niekoľko fáz a na to, aby stránka doputovala z hlbín Internetu
až k užívateľovi, musí prejsť všetkými týmito fázami. Najprv musí mať dostatočne vysoké hodnotenie
pri „preliezaní“, aby sa dostala vôbec do hromadného indexu všetkých stránok. Následne musí
skončiť na dostatočne dobrej pozícii v globálnom poradí stránok, čo je jedna z efektívnych techník
používaných pre veľké indexy stránok. Na záver sa musí umiestniť dostatočne vysoko v zozname
výsledkov, aby ju užívateľ uvidel.
Pri určovaní relevancie stránky sa ale nedá prihliadať len k zadanému dotazu. Kvôli
primitívnemu zneužívaniu SEO môže existovať mnoho stránok, ktoré majú vyššiu frekvenciu slov
obsiahnutých v dotaze ako relevantné stránky. Vyhľadávače preto pristupujú k zhromažďovaniu
dôkazov o tom, či je konkrétna stránka dôveryhodná. Medzi najjednoduchšie metódy, ktoré
nepotrebujú vôbec vedieť frázy zadané do vyhľadávača patrí prihliadanie k linkom vedúcim na
nájdenú stránku a umiestnenie v URL hierarchii. Čím viac linkov na danú stránku vedie, tým je
dôležitejšia – stránka spomenutá v 10 linkoch je určite menej známa a pravdepodobne menej
užitočné ako stránka, na ktorú smeruje niekoľko desiatok tisíc linkov. Rovnako krátke URL je dobrým
signálom pre relevanciu stránky, nakoľko stránka v koreni má potenciál byť dôležitejšia ako stránka
zanorené pod niekoľkými vrstvami zložiek. Svetoznáme vyhľadávače kombinujú stovky podobných
vlastností pri určovaní najlepších výsledkov.
Selektívne „preliezanie“ je ďalšou technikou, ktorá pomáha zlepšiť vyhľadávanie ako celok.
Preliezanie stránok sa dá jednoducho predstaviť pomocou fronty – na začiatku sa vo fronte nachádza
niekoľko prvotných stránok a objavením stránok, na ktoré z nich vedú odkazy, sa do fronty pridávajú
tieto novo objavené stránky (ak sa ešte vo fronte nevyskytli). Bez obmedzení sa touto technikou
dostaneme k obrovskému množstvu stránok, rádovo miliardám. Obmedzenie prehľadávania preto
bude určite užitočné. Môže sa jednať o pravidlá zakazujúce prehľadávanie stránok vzdialených viac
ako n linkov od počiatočných stránok, pravidlá ignorujúce niektoré URL či obmedzenia na celkový čas
prehľadávania. Práve kvôli obmedzenému času prehľadávania sa dostáva do popredia otázka
dôležitosti jednotlivých stránok a s ňou zároveň určovanie priorít stránok. Najjednoduchšou
možnosťou určenia prehľadávania stránok je fronta. FIFO2 princíp zabezpečí, že pre kvalitné
počiatočné stránky sú pri prehľadávaní objavené najprv stránky majúce vysoký PageRan, t.j. stránky,
ktoré sú dôležité. Iným prístupom je prioritná fronta, ktorá každému URL priradí prioritu na základe
textu odkazov smerujúcich na stránku. Štúdie ukázali, že je možné prehľadávať stránky pomocou
prioritnej fronty a zmerať sa teda na stránky jednou tematikou na základe textu linkov.
2
First In, First Out
NDBI001 Peter Kóša 31.1.2012
Hľadanie informácií na webe
Keď už vyhľadávač nájde stránky, na ktorých by sa mohli nachádzať relevantné informácie,
prichádza záverečné fáza, extrakcia informácií z textu. Tento proces zahŕňa ďalšie problémové
oblasti, ktoré je treba zohľadniť pri implementovaní efektívneho nástroja na hľadanie informácií.
Užívateľ, ktorý zadá ako vyhľadávanú frázu „pracovné ponuky“ bude pravdepodobne rád aj
za výsledky, ktoré by mu poskytol vyhľadávač pri zadaní fráz „pracovná ponuka“, „práca“ a
„pracovať“. Technika, ktorou sa tomu dá priblížiť, sa nazýva stemovanie. Stemovanie znamená
hľadanie koreňa slova, a pre tieto účely sa dá použiť množstvo rôznych techník, ako napríklad
lemmatizácia, odstraňovanie prefixov a sufixov a stochastické alebo slovníkové metódy. Pri použití
stemovania vo vyhľadávači sa ale síce zvýšila efektivita vyhľadávania a relevancia výsledkov, ale
objavili sa nové problémy. Stemovanie stránok z Internetu naráža na niekoľko problémov. Jedným
z nich je jeho viacjazyčnosť – stemovanie sa líši pre jednotlivé jazyky a ak sa aj podarí pri spracovávaní
stránky určiť, aký jazyk je na stránke použitý, nie vždy sa dá pre dvojslovný vyhľadávací dotaz. Navyše
sa nedá spoľahnúť na bezchybne zadané dotazy. Množstvo použitých slov a fráz z rôznych jazykov je
zase mnohonásobne rádovo väčšie ako veľkosť použitých slovníkov, lebo Internet pridáva obrovské
množstvo mien ľudí, firiem, produktov, domén a skratiek. Chyby pri stemovaní majú veľký potenciál
úplne zmeniť zmysel dotazu a preto v snahe predísť blamáži používajú internetové vyhľadávače len
veľmi obmedzené verzie stemovacích algoritmov.
Pri získavaní informácií z tradičných zdrojov, ako sú napríklad noviny, môžeme naraziť na
rovnaký článok vo viacerých periodikách. Rovnako nie sú výnimkou podobné články, ktorých obsah sa
čiastočne prekrýva. Na Internete je však situácia o to komplikovanejšia, že stránky si pre zachovanie
dobrého fungovania aj pri maximálnom vyťažení zámerne vytvárajú zrkadlové kópie svojho obsahu
na iných miestach, aby ho v prípade potreby mohli stále užívateľom ponúknuť. Podľa niektorých
odhadov je na webe 40% všetkých stránok len kópiou pôvodných stránok. Toto zrkadlenie obsahu
môže, ale nemusí byť viditeľné pre užívateľa. Rovnaký vplyv má na duplicitu obsahu aliasing stránok,
t.j. na rovnaký server môže viesť URL www.stranka.com, ale aj URL moja.stranka.je.tu.com. Ak sa
jedná o statickú stránku, po spracovaní obsahu z adresy www.stranka.com nám kontrolný súčet
odhalí, že na adrese moja.stranka.je.tu.com sa nachádza rovnaký obsah. Ak je tento obsah však
dynamicky generovaný, veľmi ľahko sa stane, že stránky budú „skoro rovnaké“ a kontrolné súčty
preto nebudú sedieť - obsah stránky sa bude zbytočne spracovávať dvakrát. Jedno z riešení, ktoré
ponúka odhaľovanie skoro rovnakých stránok je technika s názvom „shingling“. Dynamický obsah
stránok je nepríjemnosťou pri vyhľadávaní aj z ďalšieho dôvodu – nielen, že z rovnakých informácií na
stránke je možné vygenerovať úplne rozdielne stránky s iným textom a obrázkami, ale pri dnešnom
vzájomnom prepojení stránok medzi sebou je možné, že napríklad niekoľko predajcov kníh online
berie všetky svoje dáta z Amazonu, ale na svojej stránke ich upraví inak, aby prilákal viac užívateľov.
Opatrenia proti duplicitnému obsahu sú dôležité pre fungovanie vyhľadávača a ak sú
naimplementované správne, ušetria čas pri „preliezaní“ stránok, znížia objem dát s ktorými sa
pracuje a očistia konečné výsledky od zbytočných záznamov. Nespornou výhodou je aj fakt, že tieto
očistené výsledky následne vytvoria vierohodnejší graf Webu a zlepšia preto hodnotenia kvality
stránok na ňom založené, ako je napríklad PageRank.
Po duplicitnom obsahu sa dostávame k obsahu nevyžiadanému. Pretože je Internet silne
komerčný, existuje množstvo firiem a jednotlivcov, ktorý majú záujem na tom, aby sa ich stránka
NDBI001 Peter Kóša 31.1.2012
objavila medzi prvými vo výsledkoch vyhľadávania. Vďaka tomu sa mohlo vyvinúť odvetvie IT, ktoré
sa zaoberá zlepšovaním pozície stránok pomocou „optimalizácie“ obsahu stránky. SEO môže mať viac
podôb, od tzv. „bieleho“, kedy sa v podstate dbá na správne vyplnené atribúty, texty odkazov
a jednoduchú štruktúru linkov, ktorá sa ľahko prechádza, až po „čierne“, kedy sa násilne na stránku
umiestňuje text, ktorý má oklamať vyhľadávače a prinútiť ich stránku zobrazovať aj pre dotazy,
ktorým obsah stránky nezodpovedá. Je zrejmé, že druhá forma znamená nepoctivý marketing
a spameri nehľadia na potreby bežných užívateľov. „Cloaking“ znamená, že stránka podstrčí iný
obsah vyhľadávaču a iný užívateľom, ktorí na ňu v dobrej vôli prídu. Ak by veľké vyhľadávače
zverejnili techniky, ktoré používajú na filtrovanie tohto spamu, všetci priaznivci nečestného SEO by sa
hneď dali do práce na ich prelomení. Je však všeobecne známe, že sa na filtrovanie používa
kombinácia automatickej klasifikácie spamu, manuálnych blacklistov a tzv. trustranku, čo je
vzdialenosť konkrétnej stránky od známych nepoctivých stránok. Medzi nevyžiadaný obsah radí aj
obsah pre dospelých, preto vyhľadávače často ponúkajú možnosť zapnutia rodinného filtru. Väčšina
materiálu podobného razenia môže byť ľahko rozpoznaná na základe prítomnosti slov a fráz určitého
typu, slov v linkoch či linkoch vedúcich z/na známe sexuálne orientované stránky. Pri rozpoznávaní
obrázkov sa dajú uplatniť tiež rozličné sofistikované metódy, ale rôzne pokusy ukázali, že úplne
postačujúce je spraviť analýzu farieb použitých v konkrétnom obrázku a pri prekročení percentuálnej
hranice telových farieb sa jedná pravdepodobne o pornografický materiál.
Pri vyhľadávaní informácií hrá veľkú rolu kontext, v ktorom užívateľa informácie zaujímajú. Ak
užívateľ zadá dotaz na meno známej osobnosti, je veľmi pravdepodobné, že výsledky sa budú týkať
najmä činnosti, vďaka ktorej je osobnosť známa a nie jej osobného života a rodinných príslušníkov.
Vyhľadávače sa ale snažia prispôsobovať ponúknuté výsledky. Najjednoduchšou metódou je detekcia
krajiny užívateľa z IP adresy, z ktorej bol dotaz zadaný a následná lokalizácia výsledkov. Vďaka tomu
je následne omnoho ľahšie prispôsobiť jazyk stránky vyhľadávača, načítať reklamy zacielené na trh
konkrétnej krajiny či detekovať preklepy pri písaní dotazu a ponúkať „Mysleli ste ...“ návrhy. Sčasti
spornou je možnosť ovplyvňovať ponúkané výsledky v závislosti na zistenej krajine vyhľadávania. To
môže byť využité k prospechu užívateľa, napríklad vyhľadanie slova „bank“ vráti ako prvý výsledok
Bank of America pre dotaz z US, Migros Bank pre Švajčiarsko, Barclays Bank pre UK a Commonwealth
Bank pre Austráliu. Avšak rovnako sa dá táto schopnosť využiť k politickým účelom, ako sa deje
s Čínou (obmedzenie termínov, ktoré je možné na Internete vyhľadávať) a ako sa dialo napríklad
počas nedávnych nepokojov v Egypte. Naproti tomu personalizácia výsledkov je prispôsobovanie
výsledkov vyhľadávania nie v závislosti na krajine, ale na konkrétnom užívateľovi a jeho histórii
vyhľadávania. História vyhľadávania užívateľa môže byť schovaná buď v cookies na jeho počítači,
alebo v logoch na serveri a môže obsahovať dotazy zadané v minulosti a výsledky, na ktoré klikol.
Veľká časť personalizácie ale neprebieha na serveri, ale priamo u klienta. Aby vyhľadávač vedel
uhádnuť, čo presne užívateľ myslel, aké má záujmy a preferencie, potrebuje vedieť čo najviac o jeho
osobnom kontexte. K získaniu tohto kontextu je možné použiť lokálne elektronické informácie
uschované na počítači užívateľa, ako sú Office dokumenty, emaily, stiahnuté webové stránky
a história interakcií na Internete. Štúdie ukazujú, že pomocou personalizácie na strane klienta sa dá
signifikantne zlepšiť kvalita poskytovaných výsledkov vyhľadávania, avšak je otázne, či by užívatelia
tolerovali tieto zásahy do súkromia, keby si ich boli plne vedomí.
NDBI001 Peter Kóša 31.1.2012
Efektivita vyhľadávania na Internete
Výskumom v oblasti vyhľadávania na Internete sa zaoberala konferencia TREC3, ktorá ale
stále spoliehala na merateľnosť svojich výsledkov podľa nesprávnych predpokladov, že užívateľ pri
svojom hľadaní potrebuje:
1. Pri každom vyhľadávaní nájsť dokumenty, ktoré obsahujú text s informáciami súvisiacimi so
zadaným vyhľadávacím dotazom
2. Nájsť čo najviac relevantných dokumentov
3. Nájsť aj dokumenty, ktoré majú len málo nových informácií a/alebo sa prekrývajú s inými
relevantnými dokumentmi
4. Získať ľubovoľný relevantný dokument, pretože všetky sú preňho rovnako dôležité
Tieto predpoklady nie sú správne, ak sa jedná o hľadanie navigačných informácií. Navyše, aj pri
ostatných vyhľadávaniach užívatelia väčšinou preferujú ako výsledok domovskú stránku alebo
stránku, ktorá sa týka konkrétne ich potrieb a priamo im poskytne žiadanú službu. Dá sa
predpokladať, že ak človek napíše do vyhľadávača slovo „pas“, pravdepodobne si potrebuje
vybaviť alebo predĺžiť svoj vlastný cestovný pas. Vrátiť mu preto vo výsledkoch vyhľadávania
históriu vydávania pasov alebo štatistiku ich stratovosti nie je ideálne. Priemerný užívateľ
vyhľadávača klikne len na jeden alebo dva ponúknuté výsledky – štúdia serverových logov stránky
austrálskej burzy ukázala, že v priemere jeden z 35000 užívateľov navštívi všetkých 10 výsledkov
na prvých pozíciách. Nakoniec, kvôli spomínaným nesprávnym predpokladom neboli viditeľné
žiadne výhody metód založených na spracovávaní odkazov, na ktorých si prevažne zakladajú
dnešné úspešné vyhľadávače.
Na konferencii TREC-9 sa preto rozbehol projekt s názvom „Main Web“, ktorý si kládol za úlohu
priblížiť sa reálnej situácii na Internete. Použitý korpus bol špeciálne navrhnutý tak, aby dosahoval
vysokého prepojenia článkov a zrkadlil aj iné špecifiká Webu. Zároveň používal dotazy z verejného
logu Internetového vyhľadávača a pridal na škálu relevantnosti dokumentu kategóriu „veľmi
relevantný“ . Jednotlivé dotazy boli vybrané a doplnené podľa predpokladanej informácie, ktorú
môže zadávateľ dotazu chcieť získať. Napríklad Téma 488: „newport beach california“ bola označená
popisom „Aké formy zábavy sú dostupné na Newport Beach v Kalifornii?“ a širším popisom
„Ktorýkoľvek dokument pojednávajúci o zábave na Newport Beach v Kalifornii je relevantný. Okrem
iného sa sem radia činnosti ako divácky atraktívne športové podujatia, možnosti športového vyžitia,
kiná, divadlá, turistické atrakcie, atď.“. Tento popis je len jedným z možných popisov, ktoré sa snažia
odhadnúť, čo mohol zadávateľ myslieť. V spomínanom korpuse bolo ako relevantných označených 35
dokumentov a z nich jeden ako veľmi relevantný. Veľmi relevantný bola konkrétne adresa
www.commpro.com/anaheim/tourism/beaches.html a stránka, ktorá sa na tomto URL nachádza
obsahuje informácie o plážach v Newporte, Lagune, Huntingtone, San Clemente a Balboa, ale iba
veľmi málo informácií špecifických pre Newport. Pre vyhľadávač by tento výsledok bol nedostatočný,
nakoľko teoretickým cieľom je maximalizovať úžitok pre všetkých užívateľov. Stránky, ktoré by
poskytli odkazy na mapy, GPS navigáciu, ubytovacie zariadenia v lokalite a ponuku rezervácií atrakcií,
by boli lepším výsledkom. Vyhľadávačom sa toto môže podariť pomocou tzv. portálových stránok.
3
TREC – Text REtrieval Conference
NDBI001 Peter Kóša 31.1.2012
Preto v čase písania tohto článku sa medzi najvyššie hodnotené výsledky v Googli dostali stránky ako
http://www.visitnewportbeach.com, ktoré ponúkajú odkazy na všetky spomínané informácie. Užívateľ
tak nájde počasie, reštaurácie, ubytovanie a zábavu na jednom portáli. Iným príkladom, ktorým sa
zaoberala konferencia TREC-2001 Web Track, bolo vyhľadávanie domovských stránok podľa mena
zadaného v texte dotazu. Ukázalo sa, že metódy používajúce text v hyperlinkoch a URL výkonnostne
predčia metódy založené na skúmaní textového obsahu stránok.
Ideálna metóda merania prínosu výsledkov ale stále neexistuje, nakoľko rôzne prístupy majú
svoje výhody a nevýhody. Hodnota zoznamu výsledkov môže byť napríklad vypočítaná ako suma
jednotlivých hodnôt relevancií konkrétnych stránok, ktoré boli týmto stránkam priradené
samostatne. Toto hodnotenie má výhodu v tom, že jednotlivé zoznamy výsledkov sa dajú navzájom
porovnávať podľa jednoznačnej miery. Toto riešenie ale má tendenciu preceňovať hodnoty
zoznamov pre užívateľa, nakoľko

Niektoré stránky nemusia vôbec užívateľa zaujímať a nezodpovedajú jeho dotazu

Stránky s duplicitným obsahom budú zarátané viacnásobne

Niektoré stránky obsahujú informácie, ktoré užívateľ už pozná a sú preto zbytočné

Informácie ponúknuté na stránke nemusia vôbec súvisieť s užívateľovým kontextom

Započítaním stránok na pozíciách zoznamu, na ktoré užívateľ úž nie je ochotný klikať
Iné metódy navrhujú porovnávanie dvojíc zoznamov výsledkov dobrovoľnými užívateľmi
v reálnych situáciách. V súvisiacom experimente boli užívateľom predkladané výsledky z dvoch
vyhľadávačov a tí mali následne možnosť zvoliť, ktorý zoznam výsledkov im viac vyhovuje. Tento
prístup nemá síce univerzálnosť a exaktnosť predchádzajúceho, ale užívateľ pozná svoj kontext, jedná
sa o skutočnú situáciu a užívateľ teda vie, či mu nájdené výsledky pomohli, alebo nie. Podobným
spôsobom zlepšujú komerčné vyhľadávače svoje výsledky – vďaka logom užívateľských aktivít, ktoré
majú k dispozícii zadarmo, môžu upravovať relevancie jednotlivých výsledkov na základe počtu
užívateľov, ktorý si zvolili niektorý z výsledkov pre inými výsledkami. Tieto spoločnosti majú navyše
možnosť vyberať spomedzi užívateľov skupiny testovacích subjektov, ktorým budú ukazovať
pozmenené výsledky vyhľadávania a následne budú skúmať zmenu v ich správaní.
Získavanie informácií na Internete má svoje špecifiká, ktoré ho odlišujú od získavania
informácií z tradičných zdrojov. Rozdiely začínajú pri identifikácii a určovaní priorít jednotlivých
dokumentov vhodných na zaradenie do indexu a pokračujú uvedomením si vzájomného prepojenia
stránok a ich hierarchického usporiadania, ktoré hrá spolu s popismi hyperlinkov kľúčovú rolu pri
zlepšovaní vyhľadávacích algoritmov. Otázka hodnotenia výsledkov vyhľadávania veľmi dôležitá,
nakoľko užívatelia nevyhľadávajú len informácie, ale aj stránky a služby ako také. Zároveň pri
vyhľadávaní informácií je dôveryhodnejší jeden overený zdroj ako niekoľko stránok s relevantnými
kúskami textu. Poslednou významnou odlišnosťou voči získavaniu informácií z tradičných zdrojov je
možnosť lokalizácie, slúžiaca vyhľadávačom najmä na upravenie výsledkov, kontrolu pravopisu
a lepšie zacielenie reklamy. Odkazom pre budúcnosť vyhľadávačov ale stále zostáva motto Googlu
„Don't be evil“ – informácie získané od užívateľov majú byť využité na zlepšovanie a nie zneužité.
NDBI001 Peter Kóša 31.1.2012
Použitá literatúra
N. Craswell & D. Hawking (2009), Web Information Retrieval. Preprint pre Web.
Download

Získavanie informácií z Internetu