Crawl Budget — IT-словарь

Суть в одном предложении

Crawl budget — это количество страниц сайта, которое поисковый робот готов просканировать за определённый период.

Краткое определение

Crawl budget — это ограничение ресурсов поисковой системы на обход сайта, определяющее, сколько URL будет посещено и обработано роботами.

Оригинал и перевод

Язык: английский
Оригинал: Crawl Budget
Буквальный перевод: бюджет сканирования

Синонимы и варианты написания

Бюджет обхода
Лимит сканирования
Crawl limit

Происхождение

Термин возник в поисковой оптимизации для описания ограничений ресурсов поисковых роботов при обходе сайтов.
Поисковые системы не могут сканировать все страницы всех сайтов непрерывно, поэтому распределяют ресурсы выборочно.

Где используется

SEO-оптимизация крупных сайтов
Управление индексацией
Архитектура сайта
Технический аудит
Оптимизация структуры URL

Когда это важно

Crawl budget критичен, когда:

сайт имеет тысячи или миллионы страниц
новые страницы долго не индексируются
робот часто сканирует неважные страницы
сайт содержит много дублей
часто обновляется контент
наблюдается высокая нагрузка на сервер

Подробное объяснение

Поисковые системы ограничивают количество запросов к сайту по двум причинам:

Ограничение ресурсов поисковой системы
Защита сервера сайта от перегрузки

Crawl budget определяется:

скоростью ответа сервера
стабильностью сайта
популярностью сайта
качеством контента
количеством дублей
структурой внутренних ссылок
частотой обновлений

Если сайт имеет много низкоценных страниц, робот тратит бюджет на них, а важные страницы могут обходиться реже или не обходиться вовсе.

Типичные причины неэффективного использования crawl budget

параметры URL
фильтры каталога
дубли страниц
бесконечная пагинация
технические страницы
ошибки 404
редирект-цепочки

Как оптимизировать crawl budget

закрыть технические страницы от обхода
удалить дубли
использовать canonical
оптимизировать внутренние ссылки
ускорить сервер
поддерживать чистую структуру URL

Crawl budget и индексация

Если страница не просканирована — она не может быть проиндексирована.

Но даже просканированная страница может не попасть в индекс, если она низкой ценности.

Аналоги и связанные термины

Индексация
Сканирование (Crawling)
Canonical URL
Robots.txt
Low Demand

Пример использования

«Сайт имеет миллионы URL с параметрами, робот тратит crawl budget на дубли, а новые страницы не индексируются.»

Мини-FAQ

Crawl budget важен для маленьких сайтов?
Обычно нет. Он критичен для крупных и сложных проектов.
Можно ли увеличить crawl budget?
Косвенно — через улучшение структуры сайта и скорости сервера.
Одинаков ли crawl budget для всех сайтов?
Нет. Он зависит от качества и популярности сайта.

Смотри также

Индексация
Robots.txt
Canonical URL