Plik robots.txt – co to takiego?

Przeczytałeś kiedyś „Bajki robotów”, Lema? Bo ja nie w pełni. A może w twoje ręce wpadła jakaś inna książka z robotami w tle, którą przyszło ci przeczytać? Mi na myśl przychodzi Qualitylandia. Ale nie o książkach będzie w tym wpisie, a o robocie, którego znać powinni wszyscy SEOwcy.

Plik robots.txt – czym tak właściwie jest?

robots.txt - co to takiego

Zgodnie z informacjami, których bez problemu doszukać się można w Internecie, za plik robots.txt uznać należy plik tekstowy, który przekazuje informacje robotom wyszukiwarek. Reguły zawarte w pliku robots.txt informują do których adresów url roboty wyszukiwarek mają dostęp, a do których nie. Prawidłowo skonstruowany plik robots.txt może mieć duże znaczenie przy zarządzaniu tzw. Crawl Budżetem. Tym samym też, prawidłowo skonstruowany plik robots.txt może przyczynić się do ograniczenia ilości żądań w obszarze indeksacji witryny. Co ważne też, plik robots.txt nie służy do ukrywania strony internetowej przez robotami Google. Jeśli chcesz, aby twoja strona nie trafiła do indeksu wyszukiwarki, zgodnie z wytycznymi od Google, zablokuj ją przy wykorzystaniu tagu noindex, bądź zabezpiecz hasłem.

Gdzie znaleźć plik robots.txt?

Plik robots.txt w przeciwieństwie, chociażby, do pliku .htaccess można podejrzeć bez konieczności logowania się na serwer. Jedynym miejscem, w którym znajdziemy wspomniany plik jest: adres-strony.pl/robots.txt

A pod tym adresem: https://mateusz-kocowski.com/robots.txt bez problemu podejrzysz to jak wygląda plik robots.txt mojej strony www. Z plikiem robots.txt jest zatem trochę jak z rejestracjami samochodów, które widoczne na co dzień nierzadko uznawane są przez policjantów, kiedy chodzi o kwestie dotyczące likwidacji szkody, za informacje wrażliwe, których udostępniać się nie powinno.

Czy wszystkie strony posiadają plik robots.txt?

Tak! A jeśli nie posiadają, to powinny go posiadać, bo brak pliku robots.txt wiążę się z negatywnymi konsekwencjami dla strony internetowej. Plik robots.txt stanowi pierwszą informację, którą pod uwagę biorą roboty Google podczas crawlowania konkretnej witryny. W sytuacji, w której dana strona nie posiada pliku robots.txt, robot Google’a uzyskuje kod odpowiedzi 500, a więc otrzymuje informację brzmiącą nie inaczej jak: „Tu nic nie ma„. A skoro tu nic nie ma po to po co iść dalej? Jeśli już załapałeś, bądź załapałaś o co chodzi to z pewnością twoim wnioskiem w tym wywodzie jest to, że brak pliku robots.txt może wiązać się z problemami i to nie małymi w obszarze indeksowania strony.

Nie zapominaj więc o pliku robots.txt i jego prawidłowym skonstruowaniu!

Jak stworzyć plik robots.txt i przy wykorzystaniu jakich narzędzi?

Do stworzenia pliku robots.txt wystarczy notatnik. Serio. Dodatkowo, jeśli masz do witryny dla której chcesz stworzyć wspomniany plik, podpięte Google Search Console, skorzystaj z testera plików robots.txt. Tester znajdziesz tutaj: https://www.google.com/webmasters/tools/robots-testing-tool

Dlaczego warto korzystać z testera plików robots.txt? Wskazany tester pozwoli ci na natychmiastowe zweryfikowanie poprawności zawartych w pliku zapisów. Innymi słowy pisząc, pozwoli ci na zweryfikowanie tego, czy adresy url, które chcesz zablokować, rzeczywiście przy wykorzystaniu zawartych zapisów, zablokowane zostały. Pozwoli też na sprawdzenie tego, czy może przez przypadek nie przyszło ci zablokować adresów, których blokować nie planowałeś.

Robots.txt – co oznaczają podstawowe reguły?

Za dwie podstawowe reguły, które znaleźć można w pliku robots.txt uznać należy:

  • Allow
  • Disallow

Wykorzystanie zapisu: „Allow” poinformuje roboty wyszukiwarki o tym, że chcemy umożliwić im crawlowanie określonych adresów url, plików, katalogów, czy też całej strony. Z kolei zapis: „Disallow” co do zasady przekaże do robotów wyszukiwarki informację, że nie uniemożliwiamy im dostępu do określonych zasobów strony.

Robots.txt – jak jest w praktyce?

Pomimo tego, że plik robots.txt uznawany jest przez różne źródła jako jedna z metod do blokowania adresów url, których nie chcemy, aby robot wyszukiwarki crawlował, nie stanowi on dyrektywy zakazującej indeksowanie robotowi Google. Inaczej rzecz ujmując, reguły zawarte w pliku robots.txt mogą, ale nie muszą działać. Wynika to z tego, że każdy robot crawlujący (a jest ich wiele), może w inny sposób interpretować plik robots.txt. Zawsze więc należy podchodzić do reguł zawartych w pliku robots.txt z dystansem. Należy na bieżąco weryfikować to, czy rzeczywiście spełniają swoją funkcję.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *