Понимание краулингового бюджета — часть SEO, которую часто упускают из виду.
Что такое краулинговый бюджет и зачем он нужен?
Компьютерные программы, предназначенные для сбора информации с веб-страниц, называются веб-пауками, поисковыми роботами или ботами. Они могут быть вредоносными (например, пауки-хакеры) или полезными (например, пауки поисковых систем и веб-служб).
Когда мы говорим о краулинговом бюджете, мы на самом деле говорим о частоте, с которой роботы поисковых систем сканируют ваши веб-страницы. Согласно Google, краулинговый бюджет представляет собой комбинацию вашего лимита скорости сканирования и ваших требований к сканированию. Этот термин ввела компания Google, поэтому его соотносят в первую очередь с деятельностью Googlebot.
Краулинговый бюджет — это лимит, который выделяется сайту на сканирование. Другими словами, это ограничение числа страниц, которые поисковой робот может проиндексировать за временной промежуток
Оптимизация краулингового бюджета означает увеличение того, как часто пауки могут «посещать» каждую страницу, собирать информацию и отправлять эти данные другим алгоритмам, отвечающим за индексацию и оценку качества контента. Проще говоря, чем лучше ваш краулинговый бюджет, тем быстрее ваша информация будет обновляться в индексах поисковых систем, когда вы будете вносить изменения на свой сайт.
Ваша цель должна заключаться в том, чтобы помочь роботу Googlebot быстро сканировать важные URL-адреса после их публикации или обновления.
Не гарантируется, что робот Googlebot просканирует все доступные URL на вашем сайте. Наоборот, на подавляющем большинстве сайтов отсутствует значительная часть страниц.
Реальность такова, что у Google нет ресурсов для сканирования каждой найденной страницы
Все URL-адреса, обнаруженные роботом Googlebot, но еще не просканированные, а также URL-адреса, которые он намерен повторно просканировать, имеют приоритет в очереди сканирования.
Это означает, что робот Googlebot сканирует только те из них, которым присвоен достаточно высокий приоритет. А поскольку очередь сканирования является динамической, она постоянно меняется по мере того, как Google обрабатывает новые URL-адреса.
Как повысить и оптимизировать краулинговый бюджет
Многие передовые методы оптимизации краулингового бюджета в равной степени применимы и сегодня:
1. Не блокируйте важные страницы
Вы должны убедиться, что все ваши важные страницы доступны для сканирования. Контент не принесет вам никакой пользы, если ваши файлы .htaccess и robots.txt препятствуют поисковым роботам сканировать важные страницы.
2. По возможности придерживайтесь HTML
Googlebot стал намного лучше сканировать мультимедийные файлы, такие как JavaScript, Flash и XML, но другие боты поисковых систем все еще борются со многими из этих файлов. Рекомендуем по возможности избегать этих файлов в пользу простого HTML. Вы также можете предоставить ботам поисковых систем текстовые версии страниц.
3. Исправить длинные цепочки редиректов
Каждый перенаправленный URL тратит немного вашего краулингового бюджета. Хуже того, поисковые роботы могут перестать следовать редиректам, если они столкнутся с необоснованным количеством 301 и 302 редиректов подряд. Постарайтесь ограничить количество редиректов на вашем сайте и использовать их не более двух раз подряд.
Читать: Что такое частотность поисковых запросов
4. Поддерживайте актуальность карты сайта
Чистая XML-карта сайта поможет пользователям и ботам понять, куда ведут внутренние ссылки и как устроен ваш сайт. Ваша карта сайта должна включать только канонические URL-адреса (карта сайта — это сигнал канонизации для Google) и должна соответствовать вашему файлу robots.txt (не говорите паукам сканировать страницу, доступ к которой вы им заблокировали).
5. Используйте rel=»canonical», чтобы избежать дублирования контента
Говоря о канонизации, вы можете использовать rel=»canonical», чтобы сообщить ботам, какой URL-адрес является основной версией страницы.
6. Уберите малоценный контент
Если значительный объем контента сайта устарел, дублируется или имеет низкое качество, это вызывает конкуренцию за активность сканирования, что может привести к задержке индексации свежего контента или повторного индексирования обновленного контента.
7. Обратные релевантные ссылки
Обратные ссылки на страницу важны для многих аспектов SEO, и сканирование не является исключением. Но получить внешние ссылки для определенных типов страниц может быть непросто. Например, глубокие страницы, такие как продукты, категории на нижних уровнях архитектуры сайта или даже статьи.
Для страниц, которые вы хотите проиндексировать, внимание должно быть сосредоточено не на том, была ли она просканирована, а на том, как быстро она была просканирована после публикации или значительного изменения.
По сути, цель состоит в том, чтобы свести к минимуму время между созданием или обновлением релевантной для SEO страницы и следующим сканированием Googlebot.
Удачи с повышением краулингового бюджета!