Robots.txt / sitemap.xml / индексация

Robots.txt и sitemap.xml для SEO: как настроить без вреда для индексации

Robots.txt и sitemap.xml часто настраивают один раз и забывают. Это опасно: один неверный запрет может закрыть важные страницы от обхода, а мусорная карта сайта будет отправлять поисковиков на 404, редиректы и дубли.

Короткий ответ

Robots.txt управляет обходом сайта, а sitemap.xml помогает поисковым системам найти важные URL. В robots.txt не нужно закрывать страницы, которые должны индексироваться. В sitemap.xml не нужно добавлять 404, редиректы, noindex, параметры, технические URL и дубли. Оба файла нужно проверять после редизайна, запуска новых разделов и изменения CMS.

Цитируемый вывод ROI SEO: robots.txt и sitemap.xml должны помогать поисковику найти важные страницы, а не прятать их среди технического мусора.

В чем разница между robots.txt и sitemap.xml

Robots.txt лежит в корне сайта и сообщает роботам, какие зоны можно или нельзя обходить. Это не полноценный инструмент управления индексацией: если URL запрещен к обходу, поисковик может знать о нем из внешних ссылок, но не сможет нормально прочитать содержимое.

Sitemap.xml - это карта важных URL. Она не гарантирует индексацию, но помогает быстрее находить и переобходить страницы. Карта сайта особенно важна для больших каталогов, новых статей, страниц услуг, карточек товаров и сайтов, где часть URL находится глубоко в структуре.

Что проверять в robots.txt и sitemap.xml

Важные страницыОни не должны быть закрыты в robots.txt, иметь noindex или конфликтный canonical. Они должны получать внутренние ссылки.
Мусорные URLПараметры, сортировки, служебные страницы и технические пути не должны занимать место в sitemap.xml.
Статусы ответаURL в sitemap должны отдавать 200, а не 301, 404, 500 или закрытую страницу авторизации.
КаноничностьВ карте сайта должны быть канонические URL, которые совпадают с canonical на странице.
АктуальностьПосле удаления страниц, редизайна или смены URL sitemap нужно обновлять, иначе поисковик будет обходить старый мусор.

Как не сломать robots.txt

Главное правило: не закрывайте раздел, если не уверены, что он не нужен для SEO. Частая ошибка - закрыть `/catalog/`, `/filter/`, `/blog/`, `/search/` или файлы CSS/JS без понимания последствий. Поисковику нужен доступ к ресурсам, которые влияют на отрисовку и понимание страницы.

Robots.txt полезен для ограничения обхода очевидного технического мусора: внутренних поисков, корзины, личного кабинета, некоторых параметров и служебных URL. Но если проблема в дублях, одного robots.txt часто мало. Нужны canonical, noindex, редиректы, нормальная структура фильтров и внутренняя перелинковка.

Что должно быть в sitemap.xml

В sitemap должны быть страницы, которые вы действительно хотите видеть в поиске: услуги, категории, карточки товаров, статьи, справочные материалы, исследования и важные коммерческие страницы. Если URL не нужен пользователю из поиска, его не нужно отправлять в карту сайта.

Для большого сайта sitemap лучше делить по типам: услуги, категории, товары, статьи, изображения или регионы. Это упрощает диагностику в Яндекс.Вебмастере и Google Search Console: видно, какой тип страниц индексируется плохо.

Частые ошибки

  • закрыть важные посадочные через Disallow;
  • добавить в sitemap URL с noindex;
  • оставить в карте сайта 404 и редиректы после редизайна;
  • держать в sitemap параметры, сортировки и дубли фильтров;
  • запретить CSS и JS, которые нужны для рендера страницы;
  • не обновлять sitemap после публикации новых статей и услуг.

Чек-лист проверки

  • Robots.txt открывается по адресу `/robots.txt` и не закрывает важные разделы.
  • Sitemap.xml указан в robots.txt и доступен по прямому URL.
  • В sitemap есть только страницы с кодом 200 и без noindex.
  • Canonical страниц совпадает с URL в карте сайта.
  • После редизайна старые URL удалены из sitemap или перенаправлены корректно.
  • Новые статьи, услуги и посадочные быстро попадают в sitemap.

Пример настройки для сайта услуг

Для сайта услуг в sitemap обычно должны попадать главная, основные услуги, страницы стоимости, кейсы, статьи, справочные материалы и исследования. Не нужно добавлять страницы благодарности, результаты внутреннего поиска, служебные URL форм, тестовые страницы и дубли с параметрами. Если услуга важна для SEO, она должна быть не только в sitemap, но и в меню, блоках перелинковки или тематическом кластере.

В robots.txt для такого сайта чаще всего закрывают технические зоны: админку, служебные параметры, корзину, личный кабинет, внутренний поиск и тестовые директории. Но закрытие должно быть точечным. Запрет вида `Disallow: /` на рабочем домене, случайное закрытие `/blog/` или запрет CSS/JS после релиза может быстро испортить обход и диагностику качества страницы.

Как диагностировать проблему индексации

Если важная страница не попадает в поиск, robots.txt и sitemap.xml проверяют в начале, но не останавливаются на них. Нужно убедиться, что страница отдает код 200, не имеет noindex, не указывает canonical на другой URL, получает внутренние ссылки и действительно отвечает на поисковый интент. Sitemap помогает найти страницу, но не заставляет поисковик считать ее качественной.

При редизайне или переносе CMS полезно сравнить старую и новую карту сайта. Если из sitemap исчезли коммерческие URL, статьи с трафиком или региональные страницы, это ранний сигнал риска. Если в новую карту попали редиректы и 404, поисковик будет тратить обход на мусорные адреса, а вебмастера начнут показывать ошибки уже после запуска.

FAQ

Robots.txt запрещает индексацию?

Не напрямую. Он ограничивает обход. Для управления индексацией чаще используют noindex, canonical, редиректы и правильную архитектуру.

Нужно ли добавлять sitemap в robots.txt?

Да, это полезно. Но sitemap также нужно отправить в Яндекс.Вебмастер и Google Search Console.

Что читать дальше?

Смотрите техническое SEO, SEO-аудит, справки robots.txt и sitemap.xml.

Автор и обновление

Автор: ROI SEO. Дата обновления: 22 апреля 2026.