Czym jest crawl budget?

9 stycznia 2023
Czym jest crawl budget?

Wyszukiwarka Google to jedno z podstawowych narzędzi zdobywania przez użytkowników wiedzy. Nic zatem dziwnego, że dysponuje ogromną bazą treści, które mogą odpowiadać na zadane przez użytkownika pytanie. Jednak, czy zdajesz sobie sprawę z tego, że aby liczne strony – w tym i Twoja, mogły być wyświetlane, to muszą zostać najpierw zaindeksowane? W tym celu Googleboty sprawdzają witryny i poszukują tych z wartościowymi treściami. Ich praca oraz możliwości można opisać terminem “crawl budget”. A co to dokładnie oznacza?

Crawl budget – czyli co? 

Użytkownicy internetu zagłębiają się w jego najciemniejsze czeluści w celu znalezienia odpowiedzi na nurtujące pytania – mniej lub bardziej mądre. Każda ze stron, które widnieją w wynikach wyszukiwania Google, musiały zostać wcześniej indeksowane przez roboty Google. To też dotyczy Twojej strony, niezależnie od tego, jaki jest jej charakter czy tematyka. Każdy adres URL jest skanowany osobno i to, nawet jeśli dana witryna ma wiele podstron. Z czynnością tą wiąże się pojęcie “crawl budget”, które być może jest Ci obce. Określa ono częstotliwość, z jaką crawlery i boty wyszukiwarek mogą indeksować Twoją stronę, a także odnosi się do całkowitej ilości adresów, które mogą jednorazowo crawlować. Za inną definicję można również uznać czas, jaki roboty poświęcają na indeksowanie określonej witryny. W języku polskim pojęcie to funkcjonuje jako budżet indeksowania. Jednak, czemu crawl budget jest tak ważny? Musisz sobie zdawać sprawę z tego, że jeśli Google nie indeksuje Twojej strony, to nie będzie ona pojawiać się w wynikach wyszukiwania. Wpływa to na efektywność branży SEO – w końcu im więcej stron odwiedzi robot, tym większa szansa, że zostaną one zaindeksowane i uwzględnione w wynikach wyszukiwania. Nie można również pominąć faktu, iż crawl budget opiera się na dwóch zjawiskach: 

  • crawl rate limit, czyli limit indeksowania, który mówi o tym, jak dużo indeksowania może obsłużyć strona oraz jakie są preferencje jej właściciela, 
  • crawl demand, czyli zapotrzebowanie na indeksowanie, które informuje o tym, jakie adresy URL są warte crawlowania, a wynika to z ich popularności oraz częstotliwości aktualizacji. 

Jakie czynniki wpływają na crawl budget?

Nie można powiedzieć, że działania robotów Google są przypadkowe. Mało kto zdaje sobie sprawę z tego, że zależą one od określonych czynników. Chcąc jak najlepiej wykorzystać potencjał drzemiący w budżecie indeksowania, należy zapoznać się z crawl rare limit, crawl demand oraz crawl health, określający kondycję crawla. Jednak przy pracy z crawl budget warto wziąć pod uwagę kilka ważnych elementów, w tym: 

  • serwer, a dokładnie jego wydajność – w końcu im wolniej działa, tym Google poświęci mniej zasobów na indeksowanie nowych treści, 
  • kody odpowiedzi serwera – im więcej przekierowań 301 lub błędów 404/410, tym mniejsza skuteczność indeksowania stron, 
  • blokady w pliku robots.txt – mogą przyczynić się do utraty skuteczności indeksowania nowych podstron, 
  • nawigacja fasetowa/identyfikator sekcji/wszelkie parametru w adresach – przyczynia się do poświęcenia całych zasobów na elementy strony, na których niekoniecznie Ci zależy, 
  • duplicate content – zduplikowany kontent przyczynia się do znaczącego obniżenia skuteczności indeksowania, 
  • thin content – określa niski stosunek treści do kodu HTML, przez co Google uznaje podstrony za tzw. soft 404 i ogranicza ich indeksowanie.

Istnieje wiele czynników, które w mniejszy bądź większy sposób wpływają na crawl budget. A na czym dokładnie polega jego optymalizacja?

Na czym polega optymalizacja crawl budget?

Zapewne teraz zdajesz sobie sprawę z tego, jaka moc drzemie w crawl budget oraz planujesz już, jak może wspomóc Twoje działania SEO. Jednak zanim do tego przejdziesz, musisz zapoznać się z odpowiednią optymalizacją, która w dużej mierze zależy od wielkości serwisu. Zatem, jak się do tego zabrać? W pierwszej kolejności należy zidentyfikować strony, które mają niewielkie znaczenie, czyli charakteryzują się małą ilością informacji lub są wadliwe.

Następnie przechodzimy do innych działań, takich jak: 

  • wykrywanie i usuwanie duplikatów w strukturze strony, 
  • sprawdzenie adresów mających noindex i minimalizowanie ich ilości, 
  • przegląd robots.txt, 
  • renderowanie zawartości, 
  • sprawdzenie działania sitemap.xml, 
  • sprawdzenie wydajności strony, 
  • wdrożenie płaskiej architektury strony, w której ścieżki do podstron się jak najkrótsze, 
  • wdrożenie bardzo dobrego linkowania wewnętrznego do najważniejszych stron, 

W obecnych czasach mamy do czynienia ze wciąż pojawiającymi się stronami internetowymi, które są indeksowane przez Googleboty. Jednak i one mają określone limity, co do liczby odwiedzin czy skanowania, co właśnie określa termin crawl budget. Z uwagi na to pamiętajmy o odpowiedniej optymalizacji.