Как правильно канонизировать URL?

При заходе на веб-ресурс поисковый робот полностью сканирует его контент, поэтому не исключается обнаружение им несколько полностью одинаковых страниц. В данном случае боту требуется выбрать вариант для проведения ранжирования, если SEO-специалист не указал, какой именно URL является оригинальным (каноническим), то есть более важным, то робот это сделает самостоятельно. При этом бот может посчитать «дублеров» одинаково важными, в результате чего краулинговый бюджет будет потрачен впустую.

Важное помнить: на одну страницу сайта - должен вести только один URL.

Далее предлагаем разобраться, как канонизировать страницы, чтобы в индексе оказывались нужные URL, а страницы-дубликаты игнорировались.

Как появляются дубликаты?

В большинстве случаев странички с одинаковыми URL появляются автоматически. Так, поисковые боты могут попасть на страницу разными способами:

Через протоколы HTTP и HTTPS, то есть в начале адреса будет присутствовать http:// либо https://.
С помощью WWW или без них.
С добавлением / в конце адреса или без.
Параметр "Показать все", нумерация страниц в каталоге и index.php.
Добавление в конце или вклинивание лишних символов в URL.

Поэтому «сеошник» должен определить, какой способ предпочтительнее и в обязательном порядке указать это ботам.

Еще один типичный способ «размножения» страниц – создание карточек товаров, которые отличаются между собой, например, только по цвету, размеру и т.д. В этом случае URL у таких страниц будет практически полностью совпадать за исключением последних нескольких символов.

Когда же поисковый робот обнаруживает на сайте практически полностью одинаковый контент по различным адресам, это ведет к снижению позиций веб-ресурса в органическом поиске. Это связано с тем, что боты намного «дороже» ценят уникальный контент и, соответственно, ранжируют его гораздо выше. В этой связи крайне важно определить, какой контент на сайте является оригинальным, а какой нет.

Применение тега Rel=canonical

Для того чтобы сделать какую-то страницу канонической, необходимо в заголовок head всех дубликатов добавить элемент link и присвоить ему атрибут rel="canonical", а также указать ссылку на каноническую страницу.

Для мобильных устройств надо добавить элемент link, но уже с атрибутом rel="alternate" и указанием ссылки уже на мобильную версию веб-ресурса.

При использовании данного способа надо учитывать, что элемент link должен содержать полный, а не сокращенный URL.

Использование Rel=canonical HTTP header

С помощью данного тега Rel=canonical удается канонизировать HTML-страницы. Если же применяются другие форматы, например, PDF, то данный тег требуется уже прописывать в HTTP-заголовке. Необходимость канонизации PDF объясняется тем, что роботы их воспринимают абсолютно также как и стандартные HTML-страницы.

Этот вариант подходит только в том случае, если имеется доступ к настройкам сервера.

301 редирект

Данный код используется для перенаправления как пользователей, так и роботов на другой адрес.

Redirect 301

Вариант лучше всего использовать в следующих случаях:

Произошла смена домена сайта.
Для контента, перемещенного навсегда на другой URL.
Для ошибки 404, а также контента, который утратил свою актуальность, но при этом имеет большой трафик и релевантные ссылки.

Карта сайта (sitemap)

Sitemap представляет собой XML-файл, в котором содержится информация о размещении URL, частоте и дате их последнего обновления.

Все страницы, которые помещены в карту сайта, боты автоматически считают более важными, соответственно, они и считаются каноническими. В этой связи рекомендуется в XML-файл добавлять действительно важные URL.

Sitemap

Будет полезно: Новые правила для robots.txt от Google

Что нельзя делать?

Категорически не допускается канонизация нескольких страниц-дубликатов с помощью разных способов. Например, нельзя тег rel=canonical добавлять в body страницы и одновременно с этим указывать другую страницу с таким же контентом в карте сайта. Это приведет к тому, что поисковый робот просто запутается и так и не сможет определить канонический URL.
Не рекомендуется применять rel=canonical link tag/ HTTP header для страниц категорий товаров, а также фильтров. Это связано с тем, что бот начнет ходить по каждому URL c практически одинаковым контентом и тем самым впустую потратит краулинговый бюджет. Страницы сортировки лучше всего помещать в robots.txt либо же в meta “noindex”. Здесь надо смотреть на размер сайта и его специфику.
Для канонизации нельзя применять robots.txt, ведь расположенные в файле директивы позволяют понять боту, какие страницы и папки надо краулить. Отказ от использования от такого варианта связан с тем, что бот просто даже не сможет попасть на страницы, а значит, ему не удастся определить, является она дубликатом или нет.
Не следует линковать дубликаты адресов внутри сайта, так как это приводит к тому, что ссылки ведут на менее важные версии страниц.
В Google Search Console нельзя вписывать дубликаты в URL removal tool, так как это приводит к блокировке доступа как к дублям, так и оригинальным страницам.

Подводим итоги

Для того чтобы показать поисковым ботам, какие страницы являются более важными, необходимо использовать описанные выше способы канонизации. Именно их официально рекомендуют специалисты поисковых систем, отмечая их эффективность и важность в подвижении сайта.

Остальные варианты способны только ухудшить позиции сайта в индексе, а также привести к временной блокировке даже канонизированных страниц.

Остались ещё вопросы?

Заказать
обратный звонок

Отправить
заявку

Заказать
выезд менеджера

Перезвоните мне:	Сейчас
	Через час
	В течение дня