Короткое определение
Robots.txt - это текстовый файл по адресу `/robots.txt`, в котором сайт публикует правила обхода для поисковых систем и других роботов.
Зачем нужен robots.txt
Robots.txt помогает управлять обходом сайта. Через него обычно ограничивают технические разделы, внутренний поиск, корзину, параметры, служебные URL и другие страницы, которые не должны тратить краулинговый ресурс. Для крупных сайтов это особенно важно: робот не должен обходить бесконечные фильтры, сортировки и мусорные параметры вместо важных категорий, карточек и статей.
При этом robots.txt легко сломать. Одна строка `Disallow: /` может закрыть весь сайт от обхода. Запрет CSS и JavaScript может помешать роботу увидеть страницу так же, как пользователь. Запрет важной категории может не сразу броситься в глаза, но со временем привести к просадке индексации и трафика.
Основные директивы robots.txt
Robots.txt и индексация - не одно и то же
Robots.txt управляет обходом, а не является универсальным запретом индексации. Если URL закрыт от обхода, поисковик может не увидеть meta noindex, canonical, содержимое страницы и внутренние ссылки. При этом сам адрес иногда может появиться в выдаче, если поисковик знает его из внешних ссылок или старого индекса.
Если страницу нужно убрать из индекса, чаще используют noindex, удаление URL, редирект или изменение архитектуры. Если страницу нужно просто не тратить на обход, robots.txt может быть уместен. Ошибка начинается там, где robots используют как замену noindex, canonical или нормальной структуре сайта.
Robots.txt и AI-краулеры
Для сайтов, которые хотят быть понятными поисковым ассистентам и ИИ-системам, robots.txt должен быть осознанным. Если справочник и важные статьи открыты для обхода, AI-краулерам проще находить страницы, llms.txt, sitemap и машинные версии материалов. Если все закрыть "на всякий случай", сайт сам ограничит распространение своих ответов.
При этом доступ можно разделять по user-agent. Например, одни разделы открыть всем поисковым роботам, другие закрыть отдельным краулерам, если есть юридические или продуктовые причины. Главное - не путать управление доступом с качеством контента: открытый robots.txt не гарантирует цитирование, он только не мешает обходу.
Пример robots.txt
Для сайта услуг простой файл может разрешать обход всего сайта, закрывать внутренний поиск и указывать sitemap:
User-agent: *
Allow: /
Disallow: /search/
Disallow: /cart/
Sitemap: https://example.ru/sitemap.xml
Для roiseo.ru логика другая: база знаний, инструменты, статьи и `llms.txt` должны быть доступны, потому что сайт строится как справочник. Закрывать нужно только технические и приватные зоны, если они есть.
Частые ошибки robots.txt
- оставить `Disallow: /` после разработки или тестового релиза;
- закрыть важные услуги, категории, статьи или карточки товара;
- заблокировать CSS, JavaScript, изображения и ресурсы, которые нужны для рендеринга;
- пытаться удалить страницу из индекса через robots.txt вместо noindex или редиректа;
- не указать sitemap.xml или указать устаревшую карту сайта;
- закрывать фильтры и параметры без понимания, какие из них могут быть SEO-посадочными;
- не проверять robots.txt после миграции, смены CMS, редизайна и деплоя.
Чек-лист проверки robots.txt
- Откройте `/robots.txt` и проверьте, что сайт не закрыт целиком.
- Убедитесь, что важные страницы, CSS, JavaScript и изображения доступны для обхода.
- Проверьте, что закрыты только технические, приватные и шумные разделы.
- Добавьте актуальные ссылки на sitemap.xml и дополнительные карты, если они есть.
- Не используйте robots.txt как замену noindex, canonical, редиректам и нормальной архитектуре.
- Проверьте правила для отдельных user-agent, если сайт управляет доступом AI-краулеров или специализированных роботов.
- После крупных релизов проверяйте файл через инструменты вебмастеров и SEO-аудит.
FAQ
Что такое robots.txt простыми словами?
Это текстовый файл в корне сайта, который подсказывает роботам, какие URL и разделы можно обходить, а какие лучше не запрашивать.
Robots.txt запрещает индексацию?
Не всегда. Он управляет обходом. Если поисковик уже знает URL из ссылок, страница может появляться в выдаче без нормального сниппета. Для запрета индексации обычно используют noindex.
Что опасно закрывать в robots.txt?
Важные услуги, категории, статьи, карточки, CSS, JavaScript, изображения и другие ресурсы, которые нужны для рендеринга и понимания страницы.
Нужно ли указывать sitemap в robots.txt?
Да, это полезная практика. Директива Sitemap помогает роботам быстрее найти XML-карту сайта, но не заменяет отправку карты в панели вебмастеров и нормальную внутреннюю перелинковку.
Что почитать дальше?
Посмотрите справки что такое noindex, что такое sitemap.xml и что такое индексация сайта.