Základní techniky vyhledávání v Google
Napsal weckho (Čer 3, 2008)
Každý z nás jistě alespoň občas používá, nebo
donedávna používal Google.
Málokdo ale umí tento mocný nástroj pro fulltextové vyhledávání
využít efektivně a naplno. V dnešním článku představím základní
techniky, které lze použít a získat tak více relevantní výsledky.
Základní pravidla Google search
Na úvod si vyjasníme pár základních věcí, které někteří berou jako samozřejmost, jiní si však nemusí být jistí. Vyhledávání google není case sensitive (nerozlišuje velká a malá písmena, vše bere jako by bylo napsáno pouze malými písmeny). To znamená, že například při hledání jména ‚Jakub Velicka‘ dostanete stejné výsledky jako při hledání ‚jakub velicka‘. Naopak je potřeba dát si pozor na diakritiku (velicka x velička). Pokud napíšete moje jméno správně s diakritikou, dostanete jiné výsledky, než bez háčků a čárek. U víceslovných dotazů je potřeba myslet na to, že záleží na pořadí slov. Jiné výsledky dostanu když hledám „dovolená egypt“ a jiné výsledky při hledání „egypt dovolená“. Pro zaryté programátory (nebo naprosté začátečníky) – při hledání slovního spojení není potřeba mezi slova psát operátor „and“. Pokud hledám ubytování v Praze, stačí „ubytování praha“ namísto „ubytování and praha“. Google mezi jednotlivá slova doplní operátor sám.Vypouštění obecných slov z dotazu (stopwords)
Udává se, že velmi obecná slova Google z dotazu vypouští. Taková slova nazýváme „stop slova“ (stopwords) a patří mezi ně například the, a (myšleno jako anglický neurčitý člen), and, of a další. V praxi se mi však toto úplně nepotvrdilo. Viz například hledání výrazu „internet of NY“ a „internet NY“ a mnoho dalších dotazů. Také na Google.cz je tomu podobně. Pokud hledáme dva výrazy spojené spojkou „a“ a poté zcela bez spojky, na první pohled dostaneme shodné výsledky. Když se však podíváme na počet vrácených odkazů, zjistíme, že se liší. Jak si ukážeme dále, s vypouštěním obecných slov je to trochu složitější.Odstraňení stopwords z dotazu zpravidla přináší kvalitnější a více relevantní výsledky. Pokud Google opravdu nějaká stopwords z Vašeho dotazu vypustí (přesto že nechcete), můžete si zařazení slova do vyhledávání ‚vynutit‘. Stačí před ‚vynucené slovo‘ přidat znak ‚plus‘, napřílkad „+The blue bird“. A teď zpátky k vypouštění/nevypouštění stopwords. Zdá se, že dochází k jakémusi částečnému vypouštění, podívejme se na následující tři dotazy:
- „car bmw“ – dostaneme nějaké výsledky.
- „the car bmw“ – měli bychom dostat stejné výsledky jako u dotazu „car bmw“ (v případě, že by google vypouštěl stopwords), ale dostáváme jiné.
- „+the car bmw“ – vrací do třetice jiné výsledky.
