Plik robots.txt - co to takiego? - Mateusz Kocowski

Przeczytałeś kiedyś „Bajki robotów”, Lema? Bo ja nie w pełni. A może w twoje ręce wpadła jakaś inna książka z robotami w tle, którą przyszło ci przeczytać? Mi na myśl przychodzi Qualitylandia. Ale nie o książkach będzie w tym wpisie, a o robocie, którego znać powinni wszyscy SEOwcy.

Plik robots.txt – czym tak właściwie jest?

Zgodnie z informacjami, których bez problemu doszukać się można w Internecie, za plik robots.txt uznać należy plik tekstowy, który przekazuje informacje robotom wyszukiwarek. Reguły zawarte w pliku robots.txt informują do których adresów url roboty wyszukiwarek mają dostęp, a do których nie. Prawidłowo skonstruowany plik robots.txt może mieć duże znaczenie przy zarządzaniu tzw. Crawl Budżetem. Tym samym też, prawidłowo skonstruowany plik robots.txt może przyczynić się do ograniczenia ilości żądań w obszarze indeksacji witryny. Co ważne też, plik robots.txt nie służy do ukrywania strony internetowej przed robotami Google. Jeśli chcesz, aby twoja strona nie trafiła do indeksu wyszukiwarki, zgodnie z wytycznymi od Google, zablokuj ją przy wykorzystaniu tagu noindex, bądź zabezpiecz hasłem.

Gdzie znaleźć plik robots.txt?

Plik robots.txt w przeciwieństwie, chociażby, do pliku .htaccess można podejrzeć bez konieczności logowania się na serwer. Jedynym miejscem, w którym znajdziemy wspomniany plik jest: adres-strony.pl/robots.txt

A pod tym adresem: https://mateusz-kocowski.com/robots.txt bez problemu podejrzysz to jak wygląda plik robots.txt mojej strony www. Z plikiem robots.txt jest zatem trochę jak z rejestracjami samochodów, które widoczne na co dzień nierzadko uznawane są przez policjantów, kiedy chodzi o kwestie dotyczące likwidacji szkody, za informacje wrażliwe, których udostępniać się nie powinno.

Czy wszystkie strony posiadają plik robots.txt?

Tak! A jeśli nie posiadają, to powinny go posiadać. Choć co prawda brak pliku robots.txt nie wiąże się z negatywnymi konsekwencjami dla strony internetowej. Brak pliku odbierany jest przez roboty wyszukiwarki jako standardowy, domyślny plik robots.txt.

Jak stworzyć plik robots.txt i przy wykorzystaniu jakich narzędzi?

Do stworzenia pliku robots.txt wystarczy notatnik. Serio. Dodatkowo, jeśli masz do witryny dla której chcesz stworzyć wspomniany plik, podpięte Google Search Console, skorzystaj z testera plików robots.txt. Tester znajdziesz tutaj: https://www.google.com/webmasters/tools/robots-testing-tool

Dlaczego warto korzystać z testera plików robots.txt? Wskazany tester pozwoli ci na natychmiastowe zweryfikowanie poprawności zawartych w pliku zapisów. Innymi słowy pisząc, pozwoli ci na zweryfikowanie tego, czy adresy url, które chcesz zablokować, rzeczywiście przy wykorzystaniu zawartych zapisów, zablokowane zostały. Pozwoli też na sprawdzenie tego, czy może przez przypadek nie przyszło ci zablokować adresów, których blokować nie planowałeś.

Robots.txt – co oznaczają podstawowe reguły?

Za dwie podstawowe reguły, które znaleźć można w pliku robots.txt uznać należy:

Allow
Disallow

Wykorzystanie zapisu: „Allow” poinformuje roboty wyszukiwarki o tym, że chcemy umożliwić im crawlowanie określonych adresów url, plików, katalogów, czy też całej strony. Z kolei zapis: „Disallow” co do zasady przekaże do robotów wyszukiwarki informację, że nie uniemożliwiamy im dostępu do określonych zasobów strony.

Robots.txt – jak jest w praktyce?

Pomimo tego, że plik robots.txt uznawany jest przez różne źródła jako jedna z metod do blokowania adresów url, których nie chcemy, aby robot wyszukiwarki crawlował, nie stanowi on dyrektywy zakazującej indeksowanie robotowi Google. Inaczej rzecz ujmując, reguły zawarte w pliku robots.txt mogą, ale nie muszą działać. Wynika to z tego, że każdy robot crawlujący (a jest ich wiele), może w inny sposób interpretować plik robots.txt. Zawsze więc należy podchodzić do reguł zawartych w pliku robots.txt z dystansem. Należy na bieżąco weryfikować to, czy rzeczywiście spełniają swoją funkcję.d

Plik robots.txt – co to takiego?