Хотите добиться правильной индексации, но поисковики, игнорируя директивы в robots.txt, действуют так, как им вздумается? А с помощью метатега Robots вы не можете закрыть изображения, документы, видео- и аудиоконтент на вашем сайте?

Логичным решением проблемы может стать применение HTTP-заголовка X-Robots-Tag. Этот способ минимизирует вероятность попадания нежелательных страниц в индекс поисковых систем и позволит скрыть не только HTML-документы, но и другие типы контента на вашем сайте. Подробнее об использовании заголовка, его преимуществах и проверке поисковых инструкций вы можете узнать в этом материале.

Meta Robots Tag
Meta Robots Tag
К содержанию ↑

Что представляет собой HTTP-заголов

X-Robots-Tag — это аналог Meta Robots, но действующий на уровне сервера, а не отдельных страниц. X-Robots-Tag выступает в роли элемента HTTP-заголовка для определённого URL и распространяется на любые типы контента (HTML, .pdf, .doc, .xml, аудио- и видеодокументы).

Преимущество X-Robots-Tag заключается в том, что инструкции, заданные с его помощью, имеют более высокий приоритет у поисковиков, чем все остальные. К тому же поисковый робот получает информацию об инструкциях, не загружая саму страницу. Бытует мнение, что благодаря этому экономится краулинговый бюджет сайта.

К содержанию ↑

В чём разница между X-Robots-Tag, Meta Robots и Robots.txt

Задать поисковым роботам указания для индексации сайта и его отдельных страниц можно несколькими способами. В рамках данного раздела мы разберёмся, в каких случаях следует использовать тот или иной метод.

Файл robots.txt

Файл robots.txt применяется для запрета индексации содержимого в рамках вашего сайта. Но уже неоднократно было замечено, что поисковая система Google время от времени всё же индексирует страницы и файлы, закрытые с помощью директивы Disallow. Файл robots.txt очень удобен в использовании, но, как вы уже поняли, не очень надёжен.

Тег Meta Robots

Тег Meta Robots, прописываемый в блоке <head> страницы, используется с той же целью, но его функции не ограничиваются запретом индексации. Метатег может также использоваться для запрета перехода по ссылкам, формирования сниппета, кеширования и ряда других действий, совершаемых поисковой системой. Но, увы, его действие не распространяется на медиаконтент, в котором физически невозможно прописать необходимые атрибуты.

X-Robots-Tag

Наиболее надёжный способ прописать все необходимые инструкции по индексации для всех типов контента — воспользоваться X-Robots-Tag.

Но для его установки, как правило, необходима конфигурация вашего сервера. Некорректная настройка может негативно повлиять на весь сайт. Поэтому, если вы не уверены, что сможете правильно настроить X-Robots, поручите это специалистам.

К содержанию ↑

Как использовать HTTP-заголовок X-Robots-Tag

Для настройки X-Robots-Tag используются те же директивы, что и для Meta Robots. Ниже приведен список основных директив, которые учитывают поисковые роботы Google. Восприятие этих инструкций роботами других поисковых систем может отличаться.

  • all — нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний.
  • noindex — не отображать эту страницу, а также ссылку «Сохраненная копия» в результатах поиска.
  • nofollow — не выполнять переход по ссылкам на этой странице.
  • none — аналог сочетания директив noindex, nofollow.
  • noarchive — не отображать ссылку «Сохраненная копия» в результатах поиска.
  • nosnippet — не отображать расширенное описание этой веб-страницы в результатах поиска.
  • noodp — не использовать метаданные из проекта Open Directory для заголовков или фрагментов этой страницы.
  • notranslate —не предлагать перевод этой страницы в результатах поиска.
  • noimageindex — не индексировать изображения на этой странице.
  • unavailable_after: [RFC-850 date/time] —не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850.

Задействовать заголовок можно с помощью PHP (язык программирования общего назначения с открытым исходным кодом) и файла .htaccess.

Отличие этих способов состоит в том, что с помощью .htaccess вы можете закрыть любые документы, изображения, аудио- и видеофайлы и другой статический контент. Тогда как динамические страницы, генерируемые вашей CMS, можно закрыть только при помощи PHP.

Пример использования X-Robots-Tag в .php-файлах

Если вы хотите, чтобы поисковикам не были доступны файлы, установите в заголовке http-запроса параметр X-Robots-Tag: noindex.

На языке PHP отправить HTTP-заголовок можно с помощью функции header («X-Robots-Tag: noindex»). Таким образом, поисковые системы не будут индексировать содержимое, но смогут переходить на страницы.

Чтобы запретить переход, добавьте к этой функции директиву nofollow:

header(«X-Robots-Tag: noindex, nofollow»);

Пример использования в серверном файле-конфигураторе .htaccess

Если вы хотите задать директивы X-Robots-Tag, которые будут распространяться на весь сайт, сделайте это при помощи серверного файла-конфигуратора .htaccess. Он используется на серверах Apache и найти его можно при помощи любого FTP-клиента в корневом каталоге сайта.

К примеру, вы хотите, чтобы файлы формата .doc на вашем сайте не попадали в индекс поисковиков. Для этого на вашем сайте в файл .htaccess следует добавить такие строки:

<FilesMatch «.doc$»>

Header set X-Robots-Tag «noindex, noarchive, nosnippet»

</FilesMatch>

Если вы хотите запретить индексацию файлов .pdf, используйте следующий отрывок кода:

<FilesMatch «.(doc|pdf)$»>

Header set X-Robots-Tag «noindex, noarchive, nosnippet»

</FilesMatch>

К содержанию ↑

Как проверить настройки HTTP-заголовка X-Robots-Tag на своём сайте

Просмотреть HTTP-заголовки и проверить прописанные инструкции можно с помощью плагинов, онлайн-сервисов и десктопных программ.

Проверка с плагином Web Developer для Mozilla Firefox и Google Chrome

Данный плагин позволяет просматривать значения HTTP-заголовков любой страницы.

Работать с плагином очень просто:

  1. Установите его для своего браузера (доступен для Chrome и Firefox).
  2. Откройте интересующую вас страницу в браузере, щелкните на иконку плагина и выберите «Information» → «View Response Headers»

    Плагин Web Developer
    Плагин Web Developer
  3. По клику в браузере откроется отдельная вкладка, где будут отображена информация из заголовков ответа сервера, в том числе — директивы X-Robots-Tag.
Директива x-robots
Директива x-robots

Проверка при помощи онлайн-сервиса Server Header Checker

  1. Откройте сайт сервиса.
  2. В строку «Enter URL» вставьте адрес страницы.
  3. Выберите User Agent, версию HTTP и нажмите кнопку «Check Header».

    Онлайн-сервис Server Header Checker
    Онлайн-сервис Server Header Checker
  4. Просмотрите значения, которые отобразятся ниже.
Результат header-checker
Результат header-checker

Проверка при помощи краулера Netpeak Spider

Netpeak Spider позволяет проанализировать сразу весь сайт, отдельную его директорию или список страниц. Во-первых, с его помощью можно просматривать всю информацию о заголовках каждой отдельно взятой страницы, во-вторых, программа обратит ваше внимание на все закрытые для индексации страницы. Они будут подсвечены как страницы со следующими ошибками:

  • Заблокировано в X-Robots-Tag.
    Показывает страницы, запрещённые к индексации с помощью директивы «noindex» поля X-Robots-Tag в HTTP-заголовках ответа сервера.
  • Nofollow в X-Robots-Tag.
    Показывает страницы, у которых содержится директива «nofollow» в поле X-Robots-Tag в HTTP-заголовках ответа сервера.

Чтобы проверить сайт на ошибки, связанные с X-Robots-Tag, проделайте следующие действия:

  1. Откройте программу.
  2. Перейдите на боковую панель. На вкладке «Параметры» найдите раздел «Индексация» и проверьте наличие галочки напротив пункта «X-Robots-Tag». Если пункт не будет отмечен, программа не проанализирует данные X-Robots и вы в финальном отчёте не увидите никаких проблем, связанных с ним.

    Netpeak Spider индексация
    Netpeak Spider индексация
  3. Чтобы просканировать весь сайт, введите его URL в адресную строку и нажмите кнопку «Старт» для запуска сканирования. Если вам нужно просканировать список определённых страниц, зайдите в меню «Список URL» и выберите удобный вам способ добавления адресов, а затем запустите сканирование.

По окончанию сканирования вы сможете получить информацию об инструкциях, указанных с X-Robots-Tag, несколькими путями:

  1. Таблица со значениями X-Robots-Tag. По мере сканирования в таблице с результатами анализа будут появляться просканированные URL, а в столбце «X-Robots-Tag» будут отображаться директивы, указанные в X-Robots для данного URL.

    Результат Netpeak Spider
    Результат Netpeak Spider
  2. Отчёт по ошибкам. Перейдите на вкладку «Отчёты» → «Ошибки» на боковой панели. Кликните по названию ошибки, чтобы отфильтровать результаты сканирования и ознакомиться со списком страниц, на которых она была найдена.

    Заблокировано в X-robots
    Заблокировано в X-robots
  3. Сводка. Для получения списков страниц, для которых выставлена та или иная директива, откройте вкладку «Отчёты» → «Сводка» на боковой панели. Там вы увидите пункт «X-Robots-Tag» со списком всех имеющихся на сайте директив. Кликните по одной из них, чтобы отфильтровать результаты, как уже было описано выше.
noindex, nofollow
noindex, nofollow

При необходимости вы можете выгрузить любую из таблиц с отфильтрованными результатами на свой компьютер. Сделайте это с помощью функции «Экспорт», нажав на кнопку «Экспорт» в левом верхнем углу, либо выбрав в соответствующем меню команду «Результаты в текущей таблице».

Результаты в текущей таблице
Результаты в текущей таблице
К содержанию ↑

Коротко о главном

Чтобы закрыть от индексации медиафайлы на сайте и минимизировать вероятность появления их в поисковой выдаче, используется HTTP-заголовок X-Robots-Tag. Что о нём следует знать:

  1. Он действует на уровне сервера и имеет ряд преимуществ перед robots.txt и Meta Robots.
  2. Прописать X-Robots-Tag можно двумя способами: с помощью PHP и файла .htaccess. Директивы для заголовка аналогичны директивам для метатега Robots.
  3. Для проверки настройки X-Robots-Tag каждой отдельной страницы существуют плагины и онлайн-сервисы, позволяющие анализировать отдельно взятые страницы. Проверить весь сайт, не прилагая при этом больших усилий, можно при помощи Netpeak Spider.
Поделиться