Почему страница не попадает в индекс: причины и чек-лист

Q: Почему страница не индексируется, если она открывается?

Код 200 сам по себе не гарантирует индексацию. Страница может быть закрыта robots.txt, meta robots или X-Robots-Tag, указывать canonical на другой URL, быть дублем, иметь слабую перелинковку или не давать поисковику достаточно полезного контента.

Q: Поможет ли отправка URL на переобход?

Отправка URL может ускорить повторную проверку, но не гарантирует индексацию. Если причина в noindex, canonical, дублях, слабом контенте или отсутствии внутренних ссылок, сначала нужно исправить первопричину.

Q: Нужно ли добавлять все страницы в sitemap?

Нет. В sitemap должны попадать важные канонические URL, которые нужно индексировать. Технические страницы, параметры, дубли, служебные разделы и страницы с noindex лучше не добавлять.

Q: Что делать, если не индексируются карточки товаров?

Нужно проверить доступность карточек, canonical, дубли вариантов, внутренние ссылки из категорий, наличие товара, характеристики, уникальность шаблона, скорость, Product-разметку и то, есть ли у карточек поисковый спрос.

Обход и индексация - не одно и то же

Частая ошибка - считать, что если поисковик увидел URL в sitemap, страница обязана появиться в выдаче. На практике есть несколько этапов: обнаружение URL, обход роботом, обработка HTML, выбор канонической версии, оценка качества и включение в индекс. Проблема может возникнуть на любом из этих этапов.

Страница может быть обнаружена, но не просканирована. Может быть просканирована, но не проиндексирована. Может быть проиндексирована, но не показываться по нужным запросам. Поэтому задача SEO-аудита - не "нажать переобход", а определить, на каком этапе ломается процесс и почему это затрагивает важные страницы.

Для бизнеса важен не сам факт индексации всех URL, а индексация нужных страниц: услуг, категорий, карточек товаров, коммерческих фильтров и статей, которые поддерживают основные посадочные. Индексировать технический мусор не нужно.

Как читать статусы в Яндекс Вебмастере и Google Search Console

В Google Search Console часто встречаются статусы "Discovered - currently not indexed" и "Crawled - currently not indexed". Первый означает, что Google знает URL, но пока не обошел его или не считает обход приоритетным. Второй означает, что URL уже был просканирован, но не включен в индекс.

В Яндекс Вебмастере нужно смотреть разделы "Страницы в поиске" и "Исключенные страницы". Там можно увидеть, какие страницы участвуют в поиске, какие исключены и по какой причине. Важно не паниковать из-за каждого исключенного URL: часть технических страниц и дублей не должна быть в поиске.

Правильный вопрос звучит так: исключены ли страницы, которые должны приносить трафик и заявки. Если из индекса выпали важные категории, услуги или карточки, это приоритет. Если исключены сортировки, UTM, поиск по сайту и мусорные фильтры, это может быть нормой.

Технические запреты: robots.txt, noindex, X-Robots-Tag

Первый слой проверки - нет ли прямого запрета на обход или индексацию. В HTML это meta robots, в HTTP-заголовках - X-Robots-Tag, на уровне обхода - robots.txt. Эти механизмы похожи внешне, но работают по-разному.

robots.txtЗапрещает или ограничивает обход. Если робот не может зайти на страницу, он может не увидеть noindex или canonical.

meta robots noindexЗапрещает показывать страницу в поиске, но робот должен иметь доступ к странице, чтобы увидеть директиву.

X-Robots-TagHTTP-заголовок для HTML и файлов: PDF, изображений, документов. Часто забывается после технических настроек.

canonicalНе запрет индексации, а сигнал о предпочитаемой версии. При конфликте с другими сигналами может быть проигнорирован.

Проверять нужно не только исходный HTML, но и фактический ответ сервера. Иногда CMS показывает нормальную страницу, а сервер или CDN отдает X-Robots-Tag: noindex. Иногда noindex остается в шаблоне после тестового запуска сайта. Разницу между запретом индексации и запретом обхода удобно разбирать отдельно в материале noindex или robots.txt.

Коды ответа, редиректы и доступность сервера

Для индексации важная страница должна стабильно отдавать корректный ответ. Если URL возвращает 404, 403, 5xx, бесконечные редиректы или soft 404, поисковик не будет считать его надежной посадочной.

200 - страница открывается, но это еще не гарантия индексации;
301 - постоянный редирект, подходит для старых URL и удаленных дублей;
302 - временный редирект, не стоит использовать вместо постоянного при миграции;
404/410 - страница удалена или недоступна;
403 - доступ запрещен, часто из-за защиты, гео-фильтров или антибот-систем;
5xx - ошибка сервера, при массовости быстро бьет по обходу и индексу.

Отдельно нужно проверять мобильную версию и рендеринг. Если важный контент появляется только после тяжелого JavaScript, не доступен в HTML или ломается на мобильной версии, поисковику сложнее оценить страницу.

Canonical, дубли и конфликт сигналов

Очень частая причина проблем - страница открыта, но canonical указывает на другой URL. Иногда это правильно: сортировка или параметр должны ссылаться на чистую категорию. Но если canonical случайно ведет с важной посадочной на общую страницу, поисковик может не индексировать нужный URL.

Также индексацию ломают дубли: страницы со слешем и без слеша, http/https, www/без www, параметры, фильтры, пагинация, карточки товаров в разных категориях. Поисковик вынужден выбрать каноническую версию сам, и выбор может не совпасть с бизнес-логикой.

Поэтому при массовых проблемах нужно смотреть не один URL, а весь паттерн. Если проблема связана с параметрами, фильтрами или карточками, используйте отдельный разбор canonical для фильтров и параметров и расширенный материал про дубли, canonical и фильтры.

Перелинковка, страницы-сироты и sitemap

Sitemap помогает поисковику узнать о страницах, но не заменяет внутренние ссылки. Если важная страница есть только в XML-карте и на нее нет ссылок из меню, категорий, статей или блоков перелинковки, она получает слабый сигнал важности.

Типовые проблемы:

страница добавлена в CMS, но не связана с навигацией;
новая статья не получает ссылок из старых материалов;
категория находится слишком глубоко и не связана с соседними разделами;
sitemap содержит noindex, редиректы, 404, параметры и дубли;
внутренние ссылки ведут на URL с параметрами, а canonical - на чистую версию.

Для новых статей и коммерческих страниц желательно сразу планировать внутренние ссылки: с главной, из блога, из релевантных money pages и из соседних материалов. Подробнее об этом - в статье внутренняя перелинковка для SEO.

Когда причина не в технике, а в качестве страницы

Поисковики не обязаны индексировать все доступные URL. Если страница тонкая, дублирует уже известный контент, не закрывает интент или не представляет ценности для пользователя, она может быть просканирована и не попасть в индекс.

Это часто происходит со страницами тегов, пустыми категориями, карточками без характеристик, услугами с одинаковым текстом, фильтрами без спроса и статьями, написанными "ради ключа". Для индексации важны не только слова, но и роль страницы в структуре сайта.

Коммерческая страница должна отвечать на запрос: услуга, цена, сроки, результат, кейсы, FAQ, доверие, CTA. Карточка товара - название, характеристики, фото, цена, наличие, доставка, аналоги, отзывы. Статья - конкретный вопрос пользователя и практический ответ без воды.

Почему не индексируются карточки, категории и фильтры магазина

В ecommerce проблема обычно системная. Если CMS создает тысячи страниц фильтров, сортировок и вариантов товаров, поисковик тратит ресурсы на шум. В результате важные категории и карточки могут обходиться хуже, а часть полезных страниц застревает вне индекса.

Карточки товаровПроверить canonical, дубли вариантов, наличие товара, характеристики, Product-разметку, ссылки из категорий и аналоги.

КатегорииПроверить ассортимент, текстовый блок, мета-теги, пагинацию, сортировки, внутренние ссылки и пустые страницы.

ФильтрыОставить в индексе только фильтры со спросом, интентом, стабильным URL и достаточным ассортиментом.

Товары не в наличииНе удалять массово без анализа: часть страниц имеет спрос, ссылки и может продавать аналоги.

Эта логика связана с SEO для интернет-магазина и статьей SEO карточки товара: индексация должна поддерживать продажи, а не просто увеличивать число URL в поиске.

Порядок проверки, если страница не индексируется

Определить, важна ли страница для бизнеса: трафик, заявки, продажи, кластер, внутренняя роль.
Проверить фактический URL: код ответа, редиректы, https, слеш, регистр, параметры.
Проверить robots.txt, meta robots и X-Robots-Tag.
Проверить canonical: куда он ведет и соответствует ли это интенту страницы.
Сверить URL с sitemap: нет ли там дублей, noindex, 404 и редиректов.
Проверить внутренние ссылки: есть ли путь к странице из структуры сайта.
Оценить качество: уникальность, полнота ответа, коммерческие факторы, полезность.
Проверить группу страниц, а не только один URL: часто проблема сидит в шаблоне.
Исправить первопричину и только потом отправлять URL на переобход.
Через несколько дней или недель сверить статус, краулинг, показы и органические конверсии.

Если проблема массовая, ручная отправка URL почти не решит задачу. Нужен SEO-аудит сайта: карта проблем, приоритеты, правила индексации и контроль результата после внедрения.

Что делать после исправлений

После правок не стоит оценивать результат через несколько часов. Индексация зависит от частоты обхода, важности страницы, размера сайта и количества технического шума. Но это не значит, что нужно ждать вслепую. Нужен короткий цикл контроля.

Сразу после правокПроверить код ответа, robots, noindex, canonical, внутренние ссылки, sitemap и доступность страницы для робота.

В течение неделиОтправить важные URL на переобход, проверить логи или отчеты обхода, убедиться, что робот видит исправленную версию.

Через 2-4 неделиСравнить статус индексации, показы, клики, позиции и органические конверсии по группе страниц.

После стабилизацииЗакрепить правила в шаблоне, чтобы CMS не создавала ту же проблему снова.

Важно отслеживать не один URL, а группу. Если из 100 карточек после правок в индекс зашли 70, нужно смотреть, чем отличаются оставшиеся 30: меньше ссылок, нет остатков, слабее контент, другой canonical, меньше спроса или больше дублей.

Ошибки, из-за которых индексация не восстанавливается

Часть команд теряет недели, потому что исправляет симптом, а не источник проблемы. Например, URL вручную отправляют на переобход, но шаблон продолжает ставить canonical на другую страницу. Или добавляют все страницы в sitemap, хотя половина из них закрыта noindex.

считать sitemap гарантией индексации;
отправлять URL на переобход до исправления noindex, canonical или дублей;
закрывать в robots.txt страницы, на которых поисковик должен увидеть noindex или canonical;
анализировать одну страницу вместо всего шаблона или типа URL;
держать в sitemap редиректы, 404, параметры, сортировки и технические страницы;
создавать новые посадочные без внутренней перелинковки и уникального интента;
удалять карточки товаров без проверки спроса, ссылок, истории индексации и аналогов.

Практический критерий простой: если после исправления страница стала технически доступной, получила внутренние ссылки, не конфликтует с canonical и имеет понятную ценность, шансы на индексацию заметно выше. Если изменился только один тег, а структура осталась шумной, результат будет нестабильным.

Чек-лист диагностики индексации

Страница отдает 200 и доступна без лишних редиректов.
URL не закрыт в robots.txt.
В HTML нет meta robots noindex.
В HTTP-заголовках нет X-Robots-Tag: noindex.
Canonical ведет на саму страницу или на корректную основную версию.
Страница есть в sitemap только если ее нужно индексировать.
Sitemap не содержит 404, редиректы, параметры и noindex-страницы.
На страницу есть внутренние ссылки с релевантных разделов.
Страница не является тонким дублем другой посадочной.
Контент закрывает интент лучше, чем шаблонная страница без пользы.
Для магазина проверены карточки, фильтры, категории, остатки и пагинация.
После правок отправлен переобход и отслеживаются изменения в Вебмастере, GSC и аналитике.

Частые вопросы про индексацию страниц

Почему страница не индексируется, если она открывается?

Потому что открытый URL - только техническая доступность. Страница может быть закрыта от индексации, указывать canonical на другой адрес, быть дублем, не иметь внутренних ссылок или не давать поисковику достаточно ценного ответа на запрос.

Чем отличается обнаружено, но не проиндексировано от просканировано, но не проиндексировано?

В первом случае поисковик знает URL, но еще не обошел страницу или отложил обход. Во втором случае страница уже была просканирована, но не включена в индекс из-за качества, дублей, сигналов каноникализации или других факторов.

Поможет ли отправка URL на переобход?

Да, если первопричина уже исправлена. Но переобход не отменяет noindex, не чинит canonical, не добавляет внутренние ссылки и не делает слабую страницу полезной. Сначала исправление, потом отправка.

Нужно ли добавлять все страницы в sitemap?

Нет. В sitemap должны быть только важные канонические URL. Если добавить туда мусорные параметры, редиректы, 404 и noindex-страницы, карта сайта начнет давать поисковику плохой сигнал о структуре.

Что делать, если не индексируются карточки товаров?

Проверить доступность, canonical, дубли вариантов, внутренние ссылки из категорий, наличие товара, характеристики, скорость, Product-разметку и спрос. Если карточки массово слабые, нужно усиливать шаблон, а не отправлять каждую вручную на переобход.

Понять, где теряются URL

Нужна проверка индексации без гадания?

Разберу, почему важные страницы не заходят в индекс, найду дубли, ошибки шаблонов и покажу, что исправлять в первую очередь.

Заказать SEO-аудит Техническое SEO SEO для магазина