« OT: Chcete se seznámit?
Jak v Linuxu vytvořit novou MySQL databázi, nový MySQL účet a přidělit uživatelská práva »


Základní techniky vyhledávání v Google

Napsal weckho (Čer 3, 2008)

Google SearchingKaždý z nás jistě alespoň občas používá, nebo donedávna používal Google. Málokdo ale umí tento mocný nástroj pro fulltextové vyhledávání využít efektivně a naplno. V dnešním článku představím základní techniky, které lze použít a získat tak více relevantní výsledky.

Základní pravidla Google search

Na úvod si vyjasníme pár základních věcí, které někteří berou jako samozřejmost, jiní si však nemusí být jistí. Vyhledávání google není case sensitive (nerozlišuje velká a malá písmena, vše bere jako by bylo napsáno pouze malými písmeny). To znamená, že například při hledání jména ‚Jakub Velicka‘ dostanete stejné výsledky jako při hledání ‚jakub velicka‘. Naopak je potřeba dát si pozor na diakritiku (velicka x velička). Pokud napíšete moje jméno správně s diakritikou, dostanete jiné výsledky, než bez háčků a čárek. U víceslovných dotazů je potřeba myslet na to, že záleží na pořadí slov. Jiné výsledky dostanu když hledám „dovolená egypt“ a jiné výsledky při hledání „egypt dovolená“. Pro zaryté programátory (nebo naprosté začátečníky) – při hledání slovního spojení není potřeba mezi slova psát operátor „and“. Pokud hledám ubytování v Praze, stačí „ubytování praha“ namísto „ubytování and praha“. Google mezi jednotlivá slova doplní operátor sám.

Vypouštění obecných slov z dotazu (stopwords)

Udává se, že velmi obecná slova Google z dotazu vypouští. Taková slova nazýváme „stop slova“ (stopwords) a patří mezi ně například the, a (myšleno jako anglický neurčitý člen), and, of a další. V praxi se mi však toto úplně nepotvrdilo. Viz například hledání výrazu „internet of NY“ a „internet NY“ a mnoho dalších dotazů. Také na Google.cz je tomu podobně. Pokud hledáme dva výrazy spojené spojkou „a“ a poté zcela bez spojky, na první pohled dostaneme shodné výsledky. Když se však podíváme na počet vrácených odkazů, zjistíme, že se liší. Jak si ukážeme dále, s vypouštěním obecných slov je to trochu složitější.

Odstraňení stopwords z dotazu zpravidla přináší kvalitnější a více relevantní výsledky. Pokud Google opravdu nějaká stopwords z Vašeho dotazu vypustí (přesto že nechcete), můžete si zařazení slova do vyhledávání ‚vynutit‘. Stačí před ‚vynucené slovo‘ přidat znak ‚plus‘, napřílkad „+The blue bird“. A teď zpátky k vypouštění/ne­vypouštění stopwords. Zdá se, že dochází k jakémusi částečnému vypouštění, podívejme se na následující tři dotazy:

  • „car bmw“ – dostaneme nějaké výsledky.
  • „the car bmw“ – měli bychom dostat stejné výsledky jako u dotazu „car bmw“ (v případě, že by google vypouštěl stopwords), ale dostáváme jiné.
  • „+the car bmw“ – vrací do třetice jiné výsledky.
Tak jak je to se stopwords doopravdy? Pokud někdo ví, prosím o komentář. Ještě přidávám seznam stopwords v jednotlivých jazycích.

Alternativní slova

Mezi další metody, jak se dopracovat lepšího výsledku, patří bezesporu alternativní slova. Při hledání zkoušejte hledat jak jednotné, tak množné číslo hledaného výrazu, hledejte synonyma, zkratky, tam kde to jde, zkuste spojit nebo rozpojit slova (auto mechanik x automechanik), zadávejte slova jak s diakritikou tak bez. Více dotazy dostanete daleko více výsledků, konkrétní Vámi hledanou informaci můžete nalézt právě až po vyzkoušení alternativních dotazů.

Hledání přesných frází

V případě, že hledáme přesná jména, názvy filmů, hudby a podobně, budeme pravděpodobně vyžadovat, aby Google vrátil pouze stránky s přesným zněním hledané fráze. Stačí dát hledanou frázi do uvozovek, například „co je to alexa rank“. Je však potřeba mít na paměti, že jednoduché uvozovky fungovat nebudou, pouze klasické, dvojité.

Výrazy s více významy, filtrace výsledků hledání

Existuje mnoho výrazů, které mají více než jeden význam. Abychom našli pouze výsledky, které se týkají hledaného oboru, je potřeba stránky z jiných oboru (obsahující hledaný výraz), odfiltrovat. Ještě lépe se dá tento operátor využít, pokud chci z výsledků hledání odfiltrovat například eshopy (zajímají mě jen informace, nikoliv zboží). A teď už konkrétně, hledám stránky obsahující informace o outdooru. Jednoduchý dotaz „outdoor“ mi vrátí mezi portály, magazíny, osobními weby a jinými také eshopy. Dotaz, který odfiltruje z výsledků eshopy (popř. internetové obchody), by vypadal následovně: „outdoor -eshop“ (popř. „outdoor -internetový -obchod“). Všimněte si, že pokud chci odfiltrovat více slov, musím uvést znaménko mínus před každým z nich. Google vrátí pouze stránky, které vyhovují dotazu, ale neobsahují slova se znaménkem mínus.
Napsat komentář

Komentář