Robots.txt — IT-словарь

Суть в одном предложении

Robots.txt — это файл, который указывает поисковым роботам, какие разделы сайта можно или нельзя сканировать.

Краткое определение

Robots.txt — это текстовый файл в корне сайта, содержащий правила доступа для поисковых роботов и других автоматических агентов.

Оригинал и перевод

Язык: английский
Оригинал: Robots.txt
Буквальный перевод: файл для роботов

Синонимы и варианты написания

Robots exclusion protocol
REP
Правила обхода роботов

Происхождение

Robots.txt появился как стандарт для регулирования поведения поисковых роботов при обходе сайтов.
Он реализует Robots Exclusion Protocol — соглашение между сайтами и автоматическими агентами.

Где используется

Управление сканированием сайта
SEO-оптимизация
Защита технических разделов
Оптимизация crawl budget
Контроль нагрузки на сервер

Когда это важно

Robots.txt критичен, когда:

нужно закрыть технические разделы сайта
есть страницы с параметрами
нужно экономить crawl budget
есть тестовые или служебные разделы
требуется запретить обход определённых URL

Подробное объяснение

Поисковые роботы перед обходом сайта запрашивают:

[https://example.com/robots.txt](https://example.com/robots.txt)

Файл содержит инструкции:

какие URL можно сканировать
какие нельзя
какие sitemap использовать

Пример:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /

Sitemap: [https://example.com/sitemap.xml](https://example.com/sitemap.xml)

Это означает:

все роботы
нельзя обходить /admin/ и /tmp/
sitemap указан явно

Важное различие

Robots.txt управляет сканированием, но не гарантирует отсутствие страницы в индексе.

Если на страницу есть внешние ссылки, она может быть:

✔ не просканирована
✔ но всё равно проиндексирована (без содержимого)

Для запрета индексации используется meta noindex.

Типичные ошибки

закрытие важных страниц
блокировка CSS или JS
использование robots.txt вместо noindex
конфликт с canonical
отсутствие sitemap

Robots.txt и crawl budget

Закрывая неважные разделы, можно направить робота на ценные страницы и улучшить индексацию.

Ограничения

Robots.txt — это рекомендация.
Некоторые роботы могут игнорировать его.

Аналоги и связанные термины

Индексация
Crawl budget
Meta robots
Sitemap
Canonical URL

Пример использования

«Раздел /admin/ закрыт в robots.txt, поэтому поисковые роботы его не сканируют.»

Мини-FAQ

Robots.txt запрещает индексацию?
Нет. Он управляет только сканированием.
Где должен находиться robots.txt?
Только в корне домена.
Можно ли закрыть весь сайт?
Да: Disallow: /

Смотри также

Индексация
Crawl budget
Sitemap