Новые правила для robots.txt от Google: какие изменения ожидаются?

С 1 сентября 2019 года ожидаются существенные изменения правил протокола Robots Exclusion Protocol (REP), на основе которого разрабатываются директивы для поисковых краулеров. В дальнейшем они отображаются в файле robots.txt.

REP-протокол в течение последних 25 лет был одним из ключевых инструментов, которыми пользовались поисковые оптимизаторы. Его применение позволяло ограничивать доступ роботам на какие-то определенные страницы сайта. Сейчас же компания Google вносит существенные изменения в данный протокол, ключевое из них – отказ от поддержки директивы noindex.

Ограничение доступа роботов осуществлялось по различным причинам, но основная – снижение нагрузки на сайт, ведь через robots.txt удавалось отсечь ненужных роботов. В результате таких действий скорость открытия веб-ресурсов повышалась и одновременно требовались меньшие расходы на поддержку пропускного канала.

Действия самых известных поисковых систем, включая Google, Bing и Yandex, всегда осуществлялись строго с правилами, что были указаны в файле robots.txt. Однако REP-протокол не был утвержден на официальной основе (за это отвечает международная организация Internet Engineering Task Force, IETF), поэтому и происходила трактовка правил обработки различными поисковыми системами по-разному.

Компания Google приняла решение официально задокументировать REP, следствием чего стало направление стандарта в организацию IETF. Эти действия корпорации нацелены на решение следующих задач:

  • Расширить базу функциональных возможностей для того, чтобы создать возможность установки более конкретных правил;
  • Определить понятные стандарты для исключения вероятности возникновения спорных вариантов по применению, то есть в итоге все связи причины/следствия по вопросам применения файла robots.txt должны стать одинаковыми и понятными для всех пользователей.

Каких изменений следует ожидать?

Можно выделить 4 наиболее важных изменений:

  1. Обеспечение возможности использования директивы для любого URI. Так, кроме HTTP/HTTPS правила теперь будут распространяться, например, и на CoAP, и на FTP.
  2. Все файлы, размещаемые в директиве, будут подвергаться кешированию. Данное введение необходимо для отсечения лишних запросов, которые посылаются на сервера. Кеширование планируется проводить на срок до 24 часов, что позволит поисковому оптимизатору в приемлемые сроки обновлять файл. Предусмотрена и возможность самостоятельно устанавливать значения по кешированию, для чего предполагается использование директивы кеширования с помощью заголовка Cache-Control.
  3. Поисковые краулеры теперь обязаны проводить сканирование первых 513 кб файла. При этом роботы могут сканировать и весь файл, но они это не обязаны делать для больших по размеру файлов. Также роботы могут отказаться от сканирования файла при нестабильном соединении.
  4. В случае недоступности файла директивы будут продолжать функционировать. Это означает, что если поисковый краулер не может получить доступ к файлу robots.txt, то правила, которые указаны выше, будут действовать еще в течение длительного отрезка времени.

Также был произведен пересмотр директив, которым предоставляется доступ в файле robots.txt. Кроме того, открыт и исходный код парсера robots.txt, применяемый краулером Google для проведения парсинга данных из robots.txt.

Отмечается, что правила, не вошедшие в стандарт, с 01.09.2019 не будут поддерживаться Google, что исключает реализацию поддержки правил noindex, что, в свою очередь, негативно скажется на продвижении сайта, если не внести в него соответсвующие корректировки.

Как реализовать noindex?

После вступления в силу изменений для использования директивы noindex можно ее указывать в мета-теге robots либо задавать в HTTP заголовках.

Если планируется задействовать HTTP-заголовок, то надо записывать таким образом: X-Robots-Tag. Это означает, что для закрытия страницы от индексации надо написать X-Robots-Tag: noindex.

В случаях, когда имеется только доступ к шаблону веб-ресурса, то уже потребуется применять мета-тег robots. Для запрета индексации страниц записывается следующий код:

<meta name="robots" content="noindex">.

Такой вариант используется для всех поисковых систем. Если требуется заблокировать заход ботов google, в name записывается значение googlebot, а не значение robots.

В то же время для исключения из индекса поисковой системы каких-либо страниц сайта надо работать с кодом ответа. Если проставляется код ответа 404 или 410, то это позволяет быстро решить проблему.

Для того чтобы задать время для кеширования файла robots.txt, требуется применять заголовок Cache-Control. Запись будет выглядеть следующим образом: Cache-Control: max-age=[ n секунд].

С помощью данной директивы задается отрезок времени, когда предоставляется возможность повторно использовать скачанный ответ. Отсчет будет начинаться с момента отправки запроса.

На что еще обратить внимание?

Инструмент Google Robots.txt Tester предлагается использовать для проверки настроек robots.txt. С его помощью проверяются директивы на валидность, а также выявляются ошибки в синтаксисе.

Стоит помнить, что все ссылки, помещенные в файл robots.txt, воспринимают большой и малый регистр.

Также надо учитывать следующие особенности:

  • В поисковиках Bing и «Яндекс» не реализована поддержка директивы noindex в файле, поэтому «Яндекс» рекомендует применять noindex в X-Robots-Tag либо в метатеге robots.
  • Директивы robots.txt касаются только верхнего уровеня хоста, поэтому отдельные правила для поддоменов в robots.txt можно не прописывать.
  • Скрипты JavaScript и файлы CSS не следует закрывать в robots. Это связано с тем, что поисковая система используется рендеринг сайта, который осуществляется перед ранжированием. И в случае закрытия доступа к скриптам и стилям все равно будет проведен рендеринг веб-ресурса. Однако в этом случае нельзя ожидать корректного результата, а это, соответственно, негативно отразится на позициях ресурса в поисковой выдаче.
  • Запрет robots.txt не распространяется на краулинговый бюджет, ведь он зависит преимущественно от пропускной способности сервера, а также авторитетности доменного имени.

В результате фиксация директив robots.txt в качестве стандарта позволяет устранить все ранее существовавшие неопределенности и установить понятные правила для различных поисковых систем.

Будет полезно знать: "Как искать и увеличивать количество клиентов с помощью инструментов Yandex"

Остались ещё вопросы?

Заказ обратного звонка

Спасибо.
Мы уже получили ваше сообщение!
Адрес сайта Телефон E-mail
Перезвоните мне:
Заполняя форму, вы соглашаетесь с политикой конфиденциальности

Заказ техподдержки сайта

Спасибо.
Мы уже получили ваше сообщение!
Адрес сайта Телефон E-mail
Заказать техподдержку