Najznámejším svetovým vyhľadávačom v dnešnej dobe je Google. Jeho tajomstvo rýchleho zobrazenia relevantných výsledkov vyhľadávania je v tom, že neustále vysiela po sieti niekoľko špeciálnych programov (robot, spider, crawler, fish, worm), ktorých jedinou úlohou je sťahovať navštívené webové stránky do hlavnej databázy vyhľadávača. Programy (pavúky) tak dokážu stiahnuť až 100 stránok za sekundu, čo znamená, že priebežne prechádzajú miliardy stránok na celom svete. Tento proces prechádzania stránok sa riadi presným algoritmom, určujúcim ktoré webové stránky sa majú prechádzať.

Pavúk si vyberie zo svojej databázy odkaz webovej stránky. Navštívi jej hlavnú stránku, prečíta ju a jej obsah stiahne do skladového servera. Následne v zdrojovom kóde stránky hľadá hypertextové odkazy medzi HTML prvkami <a> a </a>. V prípade, že odkaz nájde, stiahne novú stránku. V opačnom prípade sa vráti o úroveň nižšie. Tento proces opakuje niekoľkokrát. Vďaka tejto rekurzii pavúk reaguje na zmeny na internete okamžite a nikdy nie je jeho cesta rovnaká. Pavúky môžu byť rôzneho typu a každý pavúk sa môže zameriavať na inú činnosť (sťahovanie, prehľadávanie, kontrolovanie, štatistiky, počítanie).

Schéma práce internetového vyhľadávača Google

Obr. 1 Spôsob práce vyhľadávača Google (od indexovania až po SERP)

V momente, ako sa informácia o webovej stránke dostane do hlavnej databázy, nastupuje robot, ktorý načíta stránku, odošle požiadavku HTTP a spracuje odpoveď (metaznačky v hlavičke dokumentu, presmerovanie, stavové kódy, posledné zmeny na stránke, čas na spracovanie).

V skladovom serveri sa skomprimované stránky uložia do depozitára a označia sa identifikačnými číslami docID. Indexer a sorter vykonajú indexovanie (zaradenie do indexu), ktoré spočíva v tom, že všetky slová vyskytujúce sa na prehľadávaných stránkach sa uložia do databázy, čo v konečnom dôsledku urýchľuje ich vyhľadávanie. Každý dokument je parsovaný do hitov (súbor slovných spojení). Hity zaznamenávajú výskyt slova v dokumente spolu s jeho pozíciou, veľkosťou fontu a kapitalizáciou. Hity sú následne ukladané do zásobníkov (barely), kde sú pripravené na odoslanie k používateľom. Každému slovu je priradené identifikačné číslo wordID a jeho výskyt sa zapíše do zoznamu v zásobníkoch. Okrem toho indexer filtruje z dokumentov aj odkazy (anchor texty), ktoré sa ukladajú do špeciálneho súboru. V ňom sú uložené záznamy o odkazoch – text odkazu, odkiaľ a kam odkaz smeruje. Tieto záznamy následne spracuje program URLresolver, ktorý prevedie relatívne adresy URL na absolútne a zoradí ich podľa docID. Tieto informácie sa ukladajú do databázy odkazov a používajú sa na výpočet PageRank-u.