Wyszukiwarka Google to jedno z podstawowych narzędzi zdobywania przez użytkowników wiedzy. Nic zatem dziwnego, że dysponuje ogromną bazą treści, które mogą odpowiadać na zadane przez użytkownika pytanie. Jednak, czy zdajesz sobie sprawę z tego, że aby liczne strony – w tym i Twoja, mogły być wyświetlane, to muszą zostać najpierw zaindeksowane? W tym celu Googleboty sprawdzają witryny i poszukują tych z wartościowymi treściami. Ich praca oraz możliwości można opisać terminem “crawl budget”. A co to dokładnie oznacza?
Crawl budget – czyli co?
Użytkownicy internetu zagłębiają się w jego najciemniejsze czeluści w celu znalezienia odpowiedzi na nurtujące pytania – mniej lub bardziej mądre. Każda ze stron, które widnieją w wynikach wyszukiwania Google, musiały zostać wcześniej indeksowane przez roboty Google. To też dotyczy Twojej strony, niezależnie od tego, jaki jest jej charakter czy tematyka. Każdy adres URL jest skanowany osobno i to, nawet jeśli dana witryna ma wiele podstron. Z czynnością tą wiąże się pojęcie “crawl budget”, które być może jest Ci obce. Określa ono częstotliwość, z jaką crawlery i boty wyszukiwarek mogą indeksować Twoją stronę, a także odnosi się do całkowitej ilości adresów, które mogą jednorazowo crawlować. Za inną definicję można również uznać czas, jaki roboty poświęcają na indeksowanie określonej witryny. W języku polskim pojęcie to funkcjonuje jako budżet indeksowania. Jednak, czemu crawl budget jest tak ważny? Musisz sobie zdawać sprawę z tego, że jeśli Google nie indeksuje Twojej strony, to nie będzie ona pojawiać się w wynikach wyszukiwania. Wpływa to na efektywność branży SEO – w końcu im więcej stron odwiedzi robot, tym większa szansa, że zostaną one zaindeksowane i uwzględnione w wynikach wyszukiwania. Nie można również pominąć faktu, iż crawl budget opiera się na dwóch zjawiskach:
- crawl rate limit, czyli limit indeksowania, który mówi o tym, jak dużo indeksowania może obsłużyć strona oraz jakie są preferencje jej właściciela,
- crawl demand, czyli zapotrzebowanie na indeksowanie, które informuje o tym, jakie adresy URL są warte crawlowania, a wynika to z ich popularności oraz częstotliwości aktualizacji.
Jakie czynniki wpływają na crawl budget?
Nie można powiedzieć, że działania robotów Google są przypadkowe. Mało kto zdaje sobie sprawę z tego, że zależą one od określonych czynników. Chcąc jak najlepiej wykorzystać potencjał drzemiący w budżecie indeksowania, należy zapoznać się z crawl rare limit, crawl demand oraz crawl health, określający kondycję crawla. Jednak przy pracy z crawl budget warto wziąć pod uwagę kilka ważnych elementów, w tym:
- serwer, a dokładnie jego wydajność – w końcu im wolniej działa, tym Google poświęci mniej zasobów na indeksowanie nowych treści,
- kody odpowiedzi serwera – im więcej przekierowań 301 lub błędów 404/410, tym mniejsza skuteczność indeksowania stron,
- blokady w pliku robots.txt – mogą przyczynić się do utraty skuteczności indeksowania nowych podstron,
- nawigacja fasetowa/identyfikator sekcji/wszelkie parametru w adresach – przyczynia się do poświęcenia całych zasobów na elementy strony, na których niekoniecznie Ci zależy,
- duplicate content – zduplikowany kontent przyczynia się do znaczącego obniżenia skuteczności indeksowania,
- thin content – określa niski stosunek treści do kodu HTML, przez co Google uznaje podstrony za tzw. soft 404 i ogranicza ich indeksowanie.
Istnieje wiele czynników, które w mniejszy bądź większy sposób wpływają na crawl budget. A na czym dokładnie polega jego optymalizacja?
Na czym polega optymalizacja crawl budget?
Zapewne teraz zdajesz sobie sprawę z tego, jaka moc drzemie w crawl budget oraz planujesz już, jak może wspomóc Twoje działania SEO. Jednak zanim do tego przejdziesz, musisz zapoznać się z odpowiednią optymalizacją, która w dużej mierze zależy od wielkości serwisu. Zatem, jak się do tego zabrać? W pierwszej kolejności należy zidentyfikować strony, które mają niewielkie znaczenie, czyli charakteryzują się małą ilością informacji lub są wadliwe.
Następnie przechodzimy do innych działań, takich jak:
- wykrywanie i usuwanie duplikatów w strukturze strony,
- sprawdzenie adresów mających noindex i minimalizowanie ich ilości,
- przegląd robots.txt,
- renderowanie zawartości,
- sprawdzenie działania sitemap.xml,
- sprawdzenie wydajności strony,
- wdrożenie płaskiej architektury strony, w której ścieżki do podstron się jak najkrótsze,
- wdrożenie bardzo dobrego linkowania wewnętrznego do najważniejszych stron,
W obecnych czasach mamy do czynienia ze wciąż pojawiającymi się stronami internetowymi, które są indeksowane przez Googleboty. Jednak i one mają określone limity, co do liczby odwiedzin czy skanowania, co właśnie określa termin crawl budget. Z uwagi na to pamiętajmy o odpowiedniej optymalizacji.