Robots.txt - přístup robotů na web

Robots.txt je textový soubor, který obsahuje základní informace pro internetové boty (crawlery, roboty). Definuje co můžou indexovat a co indexovat nesmí. V robots.txt může být také informace o umístění mapy webu pro vyhledávače, pokud se soubr nenachází v kořenovém adresáři.

Umístění robots.txt

Robots.txt má být umístěn v kořenovém adresáři webu. V případě SEOwebmaster.cz je to tedy URL http://seowebmaster.cz/robots.txt. Pokud dostanete oznámení E404, tak soubor na vašem webu neexistuje.

Zápis robots text

User agent: definuje robota, kterému je pravidlo určeno. V případě * se jedná o všechny roboty. Pokud je uvedeno jméno robota, tak pravidlo platí jen pro uvedeného robota.

user-agent: * - platí pro všechny roboty
user-agent: googlebot - platí pro googlebota
user-agent: seznambot - platí pro seznambota

Disallow: pravidlo určuje složky a soubory, které nemají být indexovány
Allow: pravidlo určuje složky a soubory, které mají být indexovány
Sitemap: uvádí umístění mapy webu pro vyhledávače
Volný řádek: odděluje od sebe příkazy různým robotům
#: na počátku řádku s poznámkou autora

Povolení přístupu

Co není zakázáno, je povoleno. Pokud nezakážeme indexaci, tak roboti indexovat budou.

user-agent: * - platí pro všechny roboty
disallow: - indexovat celý web

K přímému povolení můžeme použít i příkaz allow.
user-agent: * - platí pro všechny roboty
allow: / - indexovat celý web

Zakázání přístupu

Všechny soubory, které jsou na internetu nemusí být určené veřejnosti. Proto je vhodné zakázat crawlerům procházet a indexovat určité URL a složky. Pokud indexaci nezakážeme, tak se považuje za povolenou. Z toho vzniká nebezpečí Google hacking, tedy využití vyhledávače Google k získání citlivých informací, nebo zranitelností redakčního systému.

user-agent: * - platí pro všechny roboty
disallow: / - neindexovat celý web

user-agent: *
disallow: /neindexovat - neindexovat URL
disallow: /neindexovat-soubor.html - neindexovat URL
disallow: /neindexovat-soubor.php - neindexovat URL
disallow: /neindexovat/ - neindexovat adresář

Kombinace disallow a allow

V některých případech chceme zakázat procházení celou složku, ale rádi bychom nechali zaindexovat jen jediný soubor. To lze provést pomocí kombinace allow a disallow.
user-agent: *
disallow: /neindexovat-slozku/ - zakáže indexovat složku
allow: /neindexovat-slozku/tento_soubor_zaindexuj.html - zaindexuje webovou stránku "tento_soubor_zaindexuj.html"

Umístění sitemap.xml

Pokud z nějakého důvodu nemáme sitemap.xml umístěnou v kořenovém adresáři webu, tak zadáme URL mapy do robots.txt:
Sitemap: http://example.com/cesta_k_mape/sitemap.xml

Ukázky zápisu robots.txt

Zákaz procházení celého webu Googlebotem a povolení indexace celého webu Seznambotem:

user-agent: googlebot
disallow: /

user-agent: seznambot
disallow:

Zákaz procházení celého webu všem robotům mimo Googlebota:

user-agent: *
disallow: /

user-agent: googlebot
disallow: