Короткое определение
Robots.txt - это файл с директивами обхода для поисковых роботов.
Простое объяснение
Через robots.txt обычно ограничивают доступ к техническим разделам, внутреннему поиску, служебным папкам и другому шуму, который не должен тратить краулинговый ресурс.
Но robots.txt нельзя использовать бездумно. Если вы закрыли важные страницы или ресурсы рендеринга, сайт может начать хуже индексироваться и отображаться для робота.
Что обычно указывают в robots.txt
Пример
Если на сайте есть внутренний поиск с тысячами бесполезных URL, его можно закрыть в robots.txt. Но страницу услуги, которая должна ранжироваться, закрывать нельзя: робот просто перестанет ее нормально обходить.
Частые ошибки
- закрывать весь сайт через
Disallow: /и забывать снять запрет; - блокировать важные CSS и JS ресурсы;
- путать robots.txt и noindex;
- не указывать sitemap.xml;
- использовать robots.txt вместо нормальной работы с дублями и архитектурой.
Чек-лист
- Проверить, что закрыты только технические и шумные разделы.
- Убедиться, что важные страницы и ресурсы рендеринга доступны.
- Добавить ссылку на sitemap.xml.
- Не использовать robots.txt как замену noindex и canonical.
- Проверить файл после каждого крупного релиза и миграции.
FAQ
Что такое robots.txt простыми словами?
Это файл, который подсказывает роботам, какие части сайта можно обходить, а какие нет.
Robots.txt запрещает индексацию?
Нет, он управляет обходом, а не заменяет noindex.
Что почитать дальше?
Смотрите почему страницы не индексируются.