← Назад в словарь

Robots.txt

Robots.txt — файл для роботов

Суть в одном предложении

Robots.txt — это файл, который указывает поисковым роботам, какие разделы сайта можно или нельзя сканировать.

Краткое определение

Robots.txt — это текстовый файл в корне сайта, содержащий правила доступа для поисковых роботов и других автоматических агентов.

Оригинал и перевод

  • Язык: английский
  • Оригинал: Robots.txt
  • Буквальный перевод: файл для роботов

Синонимы и варианты написания

  • Robots exclusion protocol
  • REP
  • Правила обхода роботов

Происхождение

Robots.txt появился как стандарт для регулирования поведения поисковых роботов при обходе сайтов.
Он реализует Robots Exclusion Protocol — соглашение между сайтами и автоматическими агентами.

Где используется

  • Управление сканированием сайта
  • SEO-оптимизация
  • Защита технических разделов
  • Оптимизация crawl budget
  • Контроль нагрузки на сервер

Когда это важно

Robots.txt критичен, когда:

  • нужно закрыть технические разделы сайта
  • есть страницы с параметрами
  • нужно экономить crawl budget
  • есть тестовые или служебные разделы
  • требуется запретить обход определённых URL

Подробное объяснение

Поисковые роботы перед обходом сайта запрашивают:

[https://example.com/robots.txt](https://example.com/robots.txt)

Файл содержит инструкции:

  • какие URL можно сканировать
  • какие нельзя
  • какие sitemap использовать

Пример:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /

Sitemap: [https://example.com/sitemap.xml](https://example.com/sitemap.xml)

Это означает:

  • все роботы
  • нельзя обходить /admin/ и /tmp/
  • sitemap указан явно

Важное различие

Robots.txt управляет сканированием, но не гарантирует отсутствие страницы в индексе.

Если на страницу есть внешние ссылки, она может быть:

✔ не просканирована
✔ но всё равно проиндексирована (без содержимого)

Для запрета индексации используется meta noindex.

Типичные ошибки

  • закрытие важных страниц
  • блокировка CSS или JS
  • использование robots.txt вместо noindex
  • конфликт с canonical
  • отсутствие sitemap

Robots.txt и crawl budget

Закрывая неважные разделы, можно направить робота на ценные страницы и улучшить индексацию.

Ограничения

Robots.txt — это рекомендация.
Некоторые роботы могут игнорировать его.

Аналоги и связанные термины

  • Индексация
  • Crawl budget
  • Meta robots
  • Sitemap
  • Canonical URL

Пример использования

«Раздел /admin/ закрыт в robots.txt, поэтому поисковые роботы его не сканируют.»

Мини-FAQ

  • Robots.txt запрещает индексацию?
    Нет. Он управляет только сканированием.

  • Где должен находиться robots.txt?
    Только в корне домена.

  • Можно ли закрыть весь сайт?
    Да: Disallow: /

Смотри также

  • Индексация
  • Crawl budget
  • Sitemap