Дубли страниц, canonical и фильтры: инструкция для SEO

Q: Что такое дубли страниц в SEO?

Дубли страниц - это разные URL с одинаковым или очень похожим содержанием. Они могут появляться из-за параметров, фильтров, сортировок, пагинации, версий со слешем и без слеша, http/https, www и технических страниц CMS.

Q: Когда использовать canonical?

Canonical используют, когда несколько URL должны указывать поисковику на одну основную версию страницы. Это подсказка, а не запрет индексации, поэтому ее нужно поддерживать внутренними ссылками, sitemap и логикой сайта.

Q: Что лучше для фильтров: noindex или canonical?

Если фильтр полезен пользователю, но не имеет SEO-спроса, чаще используют noindex или canonical на основную категорию. Если у фильтра есть спрос, уникальный интент и ассортимент, его можно развивать как отдельную посадочную страницу.

Q: Можно ли закрывать дубли через robots.txt?

Robots.txt управляет обходом, но не является надежным способом склейки дублей. Если робот не может обойти страницу, он может не увидеть canonical или noindex. Для дублей обычно выбирают 301, canonical, noindex или изменение генерации URL.

Q: Какие фильтры интернет-магазина индексировать?

Индексировать стоит фильтры, у которых есть поисковый спрос, понятный коммерческий интент, достаточный ассортимент, уникальные мета-теги, текст или описание выбора, внутренняя перелинковка и стабильный URL.

Почему дубли страниц опасны для SEO

Дубль - это не всегда полная копия. Для SEO достаточно, чтобы несколько URL отвечали на один и тот же интент и конкурировали между собой. Например, категория без фильтра, категория с параметром сортировки, страница с UTM, та же категория со слешем и карточка товара в разных разделах каталога.

Проблема в том, что поисковик получает противоречивые сигналы. Внутренние ссылки ведут на разные адреса, sitemap показывает одно, canonical говорит другое, а шаблон генерирует еще несколько версий. Тогда система сама решает, какую страницу считать основной. Часто это не та страница, которую бизнес хочет продвигать.

Последствия обычно такие: проседают позиции, в индексе появляется мусор, расходуется краулинговый бюджет, каннибализируются категории, карточки и фильтры, а аналитика становится грязной. Особенно больно это бьет по интернет-магазинам, где одна техническая ошибка может создать десятки тысяч URL.

Откуда появляются дубли страниц

Перед тем как ставить canonical или закрывать страницы, нужно понять источник дублей. Иначе можно закрыть полезные посадочные или оставить технический мусор в индексе.

параметры URL: сортировка, вид отображения, количество товаров на странице, UTM и внутренние метки;
фильтры каталога: бренд, цена, цвет, размер, материал, назначение, совместимость;
версии URL: со слешем и без слеша, верхний и нижний регистр, http/https, www/без www;
карточки товара в разных категориях, когда один товар доступен по нескольким адресам;
пагинация, страницы поиска, избранное, сравнение, личный кабинет и другие служебные разделы;
технические копии после миграции, редизайна, смены CMS или импорта каталога;
тонкие страницы с одинаковыми шаблонными текстами и минимальными отличиями.

Не все дубли нужно удалять. Часть страниц полезна пользователю, но не нужна в поиске. Часть имеет спрос и должна стать отдельной посадочной. Главная ошибка - применять одно правило ко всем URL без сегментации.

Canonical, 301, noindex или robots.txt: что выбрать

Инструменты индексации решают разные задачи. Если выбрать их неправильно, можно не убрать дубль, а спрятать проблему глубже. Удобнее мыслить не тегами, а сценариями.

301-редиректНужен, когда дубль не должен открываться для пользователя: http на https, старый URL после миграции, версия без слеша, удаленный товар с точным аналогом.

CanonicalПодходит, когда страница может открываться, но основной для поиска должна быть другая версия: параметры, сортировки, похожие варианты URL.

NoindexИспользуется для страниц, полезных пользователю, но не нужных в поиске: поиск по сайту, часть фильтров, служебные страницы, личные сценарии.

Robots.txtОграничивает обход, но не склеивает дубли. Его осторожно используют для технических зон, которые не должны краулиться.

Изменение шаблонаЛучшее решение, если CMS генерирует мусорные URL системно. Не лечим каждую страницу, а меняем правило генерации.

Хорошая архитектура обычно использует связку: правильные канонические URL, самоканоникал на важных страницах, чистый sitemap, единые внутренние ссылки, редиректы для технических копий и отдельные правила для фильтров.

Как работает canonical и где его ломают

rel="canonical" - это подсказка поисковой системе, какая версия страницы считается основной. Он не запрещает обход и не является жесткой командой. Если canonical конфликтует с внутренними ссылками, sitemap, редиректами или содержанием страницы, поисковик может выбрать другой канонический URL.

Правильная логика canonical:

на важной странице стоит самоканоникал на ее чистый URL;
дубли указывают canonical на релевантную основную страницу;
canonical ведет на страницу с кодом 200, а не на редирект, 404 или noindex;
на странице один canonical, без конфликтов между CMS, плагинами и шаблоном;
каноническая страница совпадает по интенту, а не выбрана случайно.

Типовая ошибка - ставить canonical на базовую категорию для всех фильтров подряд. Если фильтр “красные кроссовки Nike” имеет отдельный спрос, товары, мета-теги и внутренние ссылки, он может быть полезной посадочной. Если фильтр “сортировка по цене” просто меняет порядок товаров, ему не нужна отдельная SEO-жизнь.

Noindex и robots.txt: в чем разница

noindex говорит поисковику не показывать страницу в поиске, но для этого робот должен страницу увидеть. robots.txt управляет обходом: он может запретить роботу заходить в раздел, но не гарантирует удаление URL из индекса и не помогает роботу увидеть canonical на закрытой странице.

Поэтому закрывать дубли только через robots.txt часто рискованно. Если URL уже известен поисковику по ссылкам, он может оставаться в индексе без нормального содержимого. Для дублей чаще используют canonical, 301 или noindex, а robots.txt подключают для технических зон, где обход действительно не нужен.

Опасные сочетания тоже бывают. Например, если страница одновременно noindex, закрыта в robots.txt и содержит canonical, поисковик может просто не увидеть часть сигналов. Лучше сделать простую карту правил: какие URL индексируются, какие открываются с noindex, какие редиректятся, какие не генерируются вообще.

Фильтры интернет-магазина: где мусор, а где SEO-посадочные

Фильтры - главный источник дублей в ecommerce. Один каталог может создавать URL по цвету, бренду, размеру, цене, материалу, наличию, рейтингу и десяткам характеристик. Если все комбинации открыть для индексации, сайт быстро получит тысячи слабых страниц.

Но закрывать все фильтры тоже нельзя. Часть фильтров может собирать коммерческий спрос: “ноутбуки Lenovo 16 ГБ”, “диваны угловые серые”, “кроссовки Nike 42 размер”. Такие страницы можно развивать как полноценные посадочные, если они имеют стабильный ассортимент и понятный интент.

Когда фильтр можно индексировать

есть поисковый спрос и он не закрывается лучше другой страницей;
страница показывает достаточный выбор товаров, а не 1-2 случайные позиции;
можно сделать уникальные title, H1, description и текстовый блок выбора;
URL стабилен и не зависит от порядка выбора параметров;
есть внутренняя перелинковка из категории, меню, блоков подбора или статей;
страница приносит или может приносить продажи, а не только мусорные показы.

Когда фильтр лучше закрыть

комбинация не имеет спроса и отличается только сортировкой или видом отображения;
страница создает тонкий контент с почти пустой выдачей товаров;
фильтр дублирует уже существующую категорию, бренд или посадочную;
URL генерируется в разных вариантах при разном порядке параметров;
страница ухудшает обход важных категорий и карточек.

Для таких проектов полезно начинать не с одного тега, а с карты каталога. На странице SEO для интернет-магазина мы отдельно разбираем категории, фильтры, карточки, остатки и аналитику продаж.

Пагинация, сортировка и параметры URL

Пагинация не всегда является полным дублем, но часто отвечает на тот же интент, что и первая страница категории. Ошибка - каноникалить все страницы пагинации на первую, если из-за этого робот перестает нормально находить товары на второй, третьей и следующих страницах. Другая ошибка - открывать в индекс все сортировки и варианты отображения.

Практичный подход такой:

страницы сортировки и изменения вида обычно не индексируются и каноникализируются на чистую категорию;
параметры аналитики вроде UTM должны вести к чистому URL;
пагинация должна помогать роботу находить товары, а не плодить конкурирующие посадочные;
sitemap должен содержать важные канонические страницы, а не все технические варианты;
внутренние ссылки должны вести на чистые URL без случайных параметров.

Если после редизайна или миграции трафик просел, пагинация и параметры URL - одна из первых зон проверки. Подробнее об этом сценарии есть в материале почему просел трафик после редизайна.

Дубли карточек товара и вариантов

У карточек товара отдельная боль: один товар может открываться из разных категорий, иметь отдельные URL для цвета, размера, комплектации, региона или артикула. Иногда это полезно, иногда создает каннибализацию.

Если вариант товара имеет свой спрос, уникальное наличие, отдельные фото и важен для выбора, его можно рассматривать как самостоятельную страницу. Если варианты отличаются только цветом или размером и не имеют отдельного поискового интента, чаще лучше объединять их на одной карточке или каноникализировать на основную версию.

Здесь важно учитывать не только SEO, но и продажи. Если canonical убирает из индекса карточку, которая реально собирала спрос по артикулу или модели, можно потерять деньги. Поэтому правила для карточек лучше строить вместе с аналитикой и ассортиментом. Подробный шаблон карточки есть в статье SEO карточки товара.

Как проводить аудит дублей, canonical и фильтров

Аудит начинается не с поиска “всех дублей”, а с группировки URL. Нужно понять, какие типы адресов генерирует сайт и какие из них должны участвовать в поиске. Для этого смотрят краулер, sitemap, логи сервера, Яндекс Вебмастер, Google Search Console, аналитику и реальные посадочные страницы.

Собрать URL из sitemap, краулера, вебмастеров, логов и аналитики.
Разбить адреса на типы: категории, карточки, фильтры, пагинация, поиск, параметры, служебные страницы.
Определить канонические страницы для каждой группы.
Проверить коды ответа, canonical, meta robots, robots.txt и внутренние ссылки.
Найти страницы, которые получают показы, клики или продажи, но конфликтуют с дублями.
Составить правила: что индексируем, что закрываем, что редиректим, что перестаем генерировать.
После внедрения проверить переобход, индекс, позиции и органические конверсии.

Именно поэтому дубли входят в базовый SEO-аудит сайта и технический SEO-анализ: ошибка в каноникализации может блокировать рост даже при хорошем контенте и ссылках.

Чек-лист проверки дублей и canonical

Проверить, что главная, категории, услуги и карточки открываются только в одной основной версии.
Убедиться, что важные страницы имеют самоканоникал на чистый URL.
Проверить, нет ли canonical на 404, редирект, noindex или нерелевантную страницу.
Найти фильтры, сортировки и параметры, которые попали в индекс без SEO-ценности.
Отделить фильтры с реальным спросом от технических комбинаций.
Проверить, что sitemap содержит только нужные канонические URL.
Проверить внутренние ссылки: они должны вести на чистые адреса, а не на параметризованные копии.
Разобрать карточки товара, которые доступны по нескольким URL.
Настроить правила для снятых товаров, пустых фильтров и страниц без ассортимента.
После внедрения следить за индексом, краулингом, позициями и конверсиями.

Частые вопросы про дубли, canonical и фильтры

Что такое дубли страниц в SEO?

Это разные URL с одинаковым или очень похожим содержанием, которые могут конкурировать между собой. Дубли появляются из-за параметров, фильтров, сортировок, версий URL, пагинации, карточек в разных категориях и технических страниц CMS.

Когда использовать canonical?

Canonical нужен, когда несколько URL должны указывать на одну основную версию страницы. Но это подсказка, а не жесткий запрет, поэтому ее нужно поддерживать внутренними ссылками, sitemap, чистой архитектурой и отсутствием конфликтующих сигналов.

Что лучше для фильтров: noindex или canonical?

Если фильтр полезен пользователю, но не нужен в поиске, часто используют noindex или canonical на основную категорию. Если у фильтра есть спрос, ассортимент и отдельный интент, его можно развивать как SEO-посадочную.

Можно ли закрывать дубли через robots.txt?

Robots.txt не склеивает дубли, а управляет обходом. Если закрыть URL от робота, он может не увидеть canonical или noindex. Поэтому для дублей чаще применяют 301, canonical, noindex или исправление логики генерации URL.

Какие фильтры интернет-магазина индексировать?

Индексировать стоит фильтры с поисковым спросом, коммерческим интентом, стабильным ассортиментом, уникальными мета-тегами, понятной перелинковкой и шансом приносить продажи. Все остальное лучше закрывать или не генерировать как отдельные посадочные.

Разобрать структуру

Нужна проверка дублей и канонических URL?

Покажу, какие адреса мешают росту, где теряется приоритет посадочных и как разложить фильтры без потери полезного спроса.

Заказать SEO-аудит Техническое SEO SEO для магазина