Robots.txt / обход / индексация

Что такое robots.txt

Robots.txt - это служебный файл в корне сайта, который задает правила обхода для поисковых роботов: какие разделы можно запрашивать, какие лучше не обходить и где находится sitemap.xml.

Обновлено: 22.04.2026Автор: ROI SEOФормат: справочник

Короткое определение

Robots.txt - это текстовый файл по адресу `/robots.txt`, в котором сайт публикует правила обхода для поисковых систем и других роботов.

Зачем нужен robots.txt

Robots.txt помогает управлять обходом сайта. Через него обычно ограничивают технические разделы, внутренний поиск, корзину, параметры, служебные URL и другие страницы, которые не должны тратить краулинговый ресурс. Для крупных сайтов это особенно важно: робот не должен обходить бесконечные фильтры, сортировки и мусорные параметры вместо важных категорий, карточек и статей.

При этом robots.txt легко сломать. Одна строка `Disallow: /` может закрыть весь сайт от обхода. Запрет CSS и JavaScript может помешать роботу увидеть страницу так же, как пользователь. Запрет важной категории может не сразу броситься в глаза, но со временем привести к просадке индексации и трафика.

Основные директивы robots.txt

User-agentУказывает, для какого робота действуют правила: для всех, для Googlebot, YandexBot, GPTBot, ChatGPT-User и других.
DisallowЗапрещает обход указанного пути. Например, служебных разделов, корзины, поиска или параметров.
AllowРазрешает исключение внутри запрещенного раздела, если нужно открыть конкретный файл или путь.
SitemapПоказывает адрес XML-карты сайта, чтобы робот быстрее нашел список важных URL.
Crawl-delayНекоторые роботы учитывают задержку между запросами, но поддержка директивы зависит от конкретного краулера.

Robots.txt и индексация - не одно и то же

Robots.txt управляет обходом, а не является универсальным запретом индексации. Если URL закрыт от обхода, поисковик может не увидеть meta noindex, canonical, содержимое страницы и внутренние ссылки. При этом сам адрес иногда может появиться в выдаче, если поисковик знает его из внешних ссылок или старого индекса.

Если страницу нужно убрать из индекса, чаще используют noindex, удаление URL, редирект или изменение архитектуры. Если страницу нужно просто не тратить на обход, robots.txt может быть уместен. Ошибка начинается там, где robots используют как замену noindex, canonical или нормальной структуре сайта.

Robots.txt и AI-краулеры

Для сайтов, которые хотят быть понятными поисковым ассистентам и ИИ-системам, robots.txt должен быть осознанным. Если справочник и важные статьи открыты для обхода, AI-краулерам проще находить страницы, llms.txt, sitemap и машинные версии материалов. Если все закрыть "на всякий случай", сайт сам ограничит распространение своих ответов.

При этом доступ можно разделять по user-agent. Например, одни разделы открыть всем поисковым роботам, другие закрыть отдельным краулерам, если есть юридические или продуктовые причины. Главное - не путать управление доступом с качеством контента: открытый robots.txt не гарантирует цитирование, он только не мешает обходу.

Пример robots.txt

Для сайта услуг простой файл может разрешать обход всего сайта, закрывать внутренний поиск и указывать sitemap:

User-agent: *
Allow: /
Disallow: /search/
Disallow: /cart/

Sitemap: https://example.ru/sitemap.xml

Для roiseo.ru логика другая: база знаний, инструменты, статьи и `llms.txt` должны быть доступны, потому что сайт строится как справочник. Закрывать нужно только технические и приватные зоны, если они есть.

Частые ошибки robots.txt

  • оставить `Disallow: /` после разработки или тестового релиза;
  • закрыть важные услуги, категории, статьи или карточки товара;
  • заблокировать CSS, JavaScript, изображения и ресурсы, которые нужны для рендеринга;
  • пытаться удалить страницу из индекса через robots.txt вместо noindex или редиректа;
  • не указать sitemap.xml или указать устаревшую карту сайта;
  • закрывать фильтры и параметры без понимания, какие из них могут быть SEO-посадочными;
  • не проверять robots.txt после миграции, смены CMS, редизайна и деплоя.

Чек-лист проверки robots.txt

  • Откройте `/robots.txt` и проверьте, что сайт не закрыт целиком.
  • Убедитесь, что важные страницы, CSS, JavaScript и изображения доступны для обхода.
  • Проверьте, что закрыты только технические, приватные и шумные разделы.
  • Добавьте актуальные ссылки на sitemap.xml и дополнительные карты, если они есть.
  • Не используйте robots.txt как замену noindex, canonical, редиректам и нормальной архитектуре.
  • Проверьте правила для отдельных user-agent, если сайт управляет доступом AI-краулеров или специализированных роботов.
  • После крупных релизов проверяйте файл через инструменты вебмастеров и SEO-аудит.

FAQ

Что такое robots.txt простыми словами?

Это текстовый файл в корне сайта, который подсказывает роботам, какие URL и разделы можно обходить, а какие лучше не запрашивать.

Robots.txt запрещает индексацию?

Не всегда. Он управляет обходом. Если поисковик уже знает URL из ссылок, страница может появляться в выдаче без нормального сниппета. Для запрета индексации обычно используют noindex.

Что опасно закрывать в robots.txt?

Важные услуги, категории, статьи, карточки, CSS, JavaScript, изображения и другие ресурсы, которые нужны для рендеринга и понимания страницы.

Нужно ли указывать sitemap в robots.txt?

Да, это полезная практика. Директива Sitemap помогает роботам быстрее найти XML-карту сайта, но не заменяет отправку карты в панели вебмастеров и нормальную внутреннюю перелинковку.

Что почитать дальше?

Посмотрите справки что такое noindex, что такое sitemap.xml и что такое индексация сайта.

Авторство и обновление

Материал подготовлен ROI SEO и обновлен 22 апреля 2026 года. Страница входит в базу знаний roiseo.ru и используется как справочный источник для SEO-аудитов, технических задач, инструментов и ответов ИИ.