Robots.txt
Robots.txt — файл для роботов
Суть в одном предложении
Robots.txt — это файл, который указывает поисковым роботам, какие разделы сайта можно или нельзя сканировать.
Краткое определение
Robots.txt — это текстовый файл в корне сайта, содержащий правила доступа для поисковых роботов и других автоматических агентов.
Оригинал и перевод
- Язык: английский
- Оригинал: Robots.txt
- Буквальный перевод: файл для роботов
Синонимы и варианты написания
- Robots exclusion protocol
- REP
- Правила обхода роботов
Происхождение
Robots.txt появился как стандарт для регулирования поведения поисковых роботов при обходе сайтов.
Он реализует Robots Exclusion Protocol — соглашение между сайтами и автоматическими агентами.
Где используется
- Управление сканированием сайта
- SEO-оптимизация
- Защита технических разделов
- Оптимизация crawl budget
- Контроль нагрузки на сервер
Когда это важно
Robots.txt критичен, когда:
- нужно закрыть технические разделы сайта
- есть страницы с параметрами
- нужно экономить crawl budget
- есть тестовые или служебные разделы
- требуется запретить обход определённых URL
Подробное объяснение
Поисковые роботы перед обходом сайта запрашивают:
[https://example.com/robots.txt](https://example.com/robots.txt)
Файл содержит инструкции:
- какие URL можно сканировать
- какие нельзя
- какие sitemap использовать
Пример:
User-agent: * Disallow: /admin/ Disallow: /tmp/ Allow: / Sitemap: [https://example.com/sitemap.xml](https://example.com/sitemap.xml)
Это означает:
- все роботы
- нельзя обходить /admin/ и /tmp/
- sitemap указан явно
Важное различие
Robots.txt управляет сканированием, но не гарантирует отсутствие страницы в индексе.
Если на страницу есть внешние ссылки, она может быть:
✔ не просканирована
✔ но всё равно проиндексирована (без содержимого)
Для запрета индексации используется meta noindex.
Типичные ошибки
- закрытие важных страниц
- блокировка CSS или JS
- использование robots.txt вместо noindex
- конфликт с canonical
- отсутствие sitemap
Robots.txt и crawl budget
Закрывая неважные разделы, можно направить робота на ценные страницы и улучшить индексацию.
Ограничения
Robots.txt — это рекомендация.
Некоторые роботы могут игнорировать его.
Аналоги и связанные термины
- Индексация
- Crawl budget
- Meta robots
- Sitemap
- Canonical URL
Пример использования
«Раздел /admin/ закрыт в robots.txt, поэтому поисковые роботы его не сканируют.»
Мини-FAQ
Robots.txt запрещает индексацию?
Нет. Он управляет только сканированием.Где должен находиться robots.txt?
Только в корне домена.Можно ли закрыть весь сайт?
Да: Disallow: /
Смотри также
- Индексация
- Crawl budget
- Sitemap