Noindex / robots.txt / индексация

Noindex или robots.txt: что использовать и в чем разница

Эти два инструмента часто путают. Из-за этого на сайтах появляются типовые ошибки: страницу закрывают в robots.txt и ждут, что она исчезнет из индекса, или ставят noindex там, где нужна склейка дублей через canonical или 301.

В чем разница между noindex и robots.txt

noindex говорит поисковику: страницу можно увидеть, но не нужно держать ее в индексе. robots.txt говорит другое: этот URL или раздел не нужно обходить. Это разные задачи.

Если страница закрыта в `robots.txt`, поисковик может не дойти до ее HTML и не увидеть meta `noindex`, canonical или другие сигналы на самой странице. Поэтому закрытие в robots.txt не является надежным способом управлять индексацией HTML-страницы.

Когда использовать noindex

  • для страниц внутреннего поиска;
  • для части фильтров без SEO-интента;
  • для служебных HTML-страниц, полезных пользователю, но не нужных в выдаче;
  • для тонких или временных страниц, которые не должны ранжироваться.

Noindex удобен там, где пользовательский сценарий нужен, но страница не должна конкурировать в поиске. При этом важно, чтобы страница была доступна к обходу, иначе noindex может остаться невидимым.

Когда использовать robots.txt

  • для технических директорий, которые не нужно краулить;
  • для служебных файлов и сценариев;
  • для зон, где обход бесполезен и только тратит ресурсы;
  • осторожно для параметров, если это не ломает важные сигналы.

Robots.txt нужен для управления обходом, а не для лечения архитектурных проблем. Если сайт системно генерирует мусорные URL, лучше менять шаблон или правила генерации, чем бесконечно дописывать запреты.

Почему robots.txt не лечит дубли

Для дублей важны не только обход и видимость, но и передача сигналов. Если есть несколько версий одной и той же страницы, нужно дать поисковику понять, какая версия основная. Для этого работают canonical, 301, иногда noindex, а лучше всего - чистая генерация URL.

Robots.txt не склеивает дубли. Он не говорит, куда должен перейти приоритет. Именно поэтому для фильтров, параметров и сортировок чаще используют комбинации: самоканоникал на важной странице, canonical на дублях, noindex для части сценариев и чистый sitemap без мусора.

Типовые ошибки

  • закрывать важную страницу в robots.txt и одновременно ставить на нее noindex;
  • ожидать, что robots.txt удалит URL из индекса сам по себе;
  • использовать noindex там, где нужен 301 на основную страницу;
  • держать в sitemap страницы, которые закрыты noindex;
  • запрещать обход так, что поисковик не видит canonical на дублях.

Короткая матрица выбора

Нужно убрать HTML-страницу из индекса, но оставить доступнойСкорее noindex.
Нужно ограничить обход технической зоныСкорее robots.txt.
Есть дубль важной страницыСкорее canonical, 301 или изменение логики URL.
Есть пользовательский фильтр без SEO-спросаЧасто noindex плюс контроль канонической версии.

FAQ

Чем noindex отличается от robots.txt?

Noindex управляет индексацией, robots.txt - обходом.

Можно ли закрыть дубли только через robots.txt?

Нет. Для дублей robots.txt обычно недостаточно.

Когда использовать noindex?

Для страниц, которые полезны пользователю, но не нужны в поиске.

Что почитать дальше?

Смотрите что такое noindex, что такое robots.txt и страницу техническое SEO.