Хочете домогтися правильної індексації, але пошуковики, ігноруючи директиви в robots.txt, діють так, як їм заманеться? А за допомогою метатега Robots ви не можете закрити зображення, документи, відео- та аудіоконтенту на вашому сайті?

Логічним вирішенням проблеми може стати застосування HTTP-заголовка X-Robots-Tag.Цей спосіб мінімізує ймовірність попадання небажаних сторінок в індекс пошукових систем і дозволить приховати не тільки HTML-документи, а й інші типи контенту на вашому сайті. Детальніше про використання заголовка, його переваги та перевірці пошукових інструкцій ви можете дізнатися в цьому матеріалі.

Meta Robots Tag
Meta Robots Tag
К содержанию ↑

Що являє собою HTTP-заголовки

X-Robots-Tag – це аналог Meta Robots, але діючий на рівні сервера, а не окремих сторінок.X-Robots-Tag виступає в ролі елемента HTTP-заголовка для певного URL і поширюється на будь-які типи контенту (HTML, .pdf, .doc, .xml, аудіо- та відеодокументи).

Перевага X-Robots-Tag полягає в тому, що інструкції, задані з його допомогою, мають більш високий пріоритет у пошуковиків, ніж всі інші. До того ж пошуковий робот отримує інформацію про інструкції, не завантажуючи саму сторінку. Існує думка, що завдяки цьому економиться краулінговий бюджет сайту.

К содержанию ↑

У чому різниця між X-Robots-Tag, Meta Robots і Robots.txt

Задати пошуковим роботам вказівки для індексації сайту і його окремих сторінок можна декількома способами. В рамках даного розділу ми розберемося, в яких випадках слід використовувати той чи інший метод.

файл robots.txt

Файл robots.txt застосовується для заборони індексації вмісту в рамках вашого сайту.Але вже неодноразово було помічено, що пошукова система Google час від часу все ж індексує сторінки і файли, закриті за допомогою директиви Disallow. Файл robots.txt дуже зручний у використанні, але, як ви вже зрозуміли, не дуже надійний.

Тег Meta Robots

Тег Meta Robots, прописується в блоці <head> сторінки, використовується з тією ж метою, але його функції не обмежуються забороною індексації. Метатег може також використовуватися для заборони переходу по посиланнях, формування сниппета, кешування і ряду інших дій, що здійснюються пошуковою системою. Але, на жаль, його дія не поширюється на медіаконтент, в якому фізично неможливо прописати необхідні атрибути.

X-Robots-Tag

Найбільш надійний спосіб прописати всі необхідні інструкції по індексації для всіх типів контенту – скористатися X-Robots-Tag.

Але для його установки, як правило, необхідна конфігурація вашого сервера. Некоректна настройка може негативно вплинути на весь сайт. Тому, якщо ви не впевнені, що зможете правильно налаштувати X-Robots, доручіть це фахівцям.

К содержанию ↑

Як використовувати HTTP-заголовок X-Robots-Tag

Для настройки X-Robots-Tag використовуються ті ж директиви, що і для Meta Robots.Нижче наведено список основних директив, які враховують пошукові роботи Google.Сприйняття цих інструкцій роботами інших пошукових систем може відрізнятися.

  • all – немає обмежень на індексування і показ контенту. Ця директива використовується за умовчанням і не впливає на роботу пошукових роботів, якщо немає інших вказівок.
  • noindex – необхідно прибрати цю сторінку, а також посилання «Збережена копія» в результатах пошуку.
  • nofollow – не виконувати перехід по посиланнях на цій сторінці.
  • none – аналог поєднання директив noindex, nofollow.
  • noarchive – не відображати посилання «Збережена копія» в результатах пошуку.
  • nosnippet – не відображати розширений опис цієї веб-сторінки в результатах пошуку.
  • noodp – не використовувати метадані з проекту Open Directory для заголовків або фрагментів цієї сторінки.
  • notranslate -не пропонувати переклад цієї сторінки в результатах пошуку.
  • noimageindex – НЕ індексувати зображення на цій сторінці.
  • unavailable_after: [RFC-850 date / time] -не відображати цю сторінку в результатах пошуку після зазначеного часу / дати. Час / дату слід вказати у форматі RFC 850 .

Задіяти заголовок можна за допомогою PHP (мова програмування загального призначення з відкритим вихідним кодом) і файлу .htaccess.

Відмінність цих способів полягає в тому, що за допомогою .htaccess ви можете закрити будь-які документи, зображення, аудіо- та відеофайли і інший статичний контент. Тоді як динамічні сторінки, які генеруються вашої CMS, можна закрити тільки за допомогою PHP.

Приклад використання X-Robots-Tag в .php-файлах

Якщо ви хочете, щоб пошуковим системам не були доступні файли, встановіть в заголовку http-запиту параметр X-Robots-Tag: noindex.

На мові PHP відправити HTTP-заголовок можна за допомогою функції header ( «X-Robots-Tag: noindex»). Таким чином, пошукові системи не будуть індексувати вміст, але зможуть переходити на сторінки.

Щоб заборонити перехід, додайте до цієї функції директиву nofollow:

header ( «X-Robots-Tag: noindex, nofollow»);

Приклад використання в серверному файлі-конфігураторі .htaccess

Якщо ви хочете задати директиви X-Robots-Tag, які будуть поширюватися на весь сайт, зробіть це за допомогою серверного файлу-конфігурувати .htaccess. Він використовується на серверах Apache і знайти його можна за допомогою будь-якого FTP-клієнта в кореневому каталозі сайту.

Наприклад, ви хочете, щоб файли формату .doc на вашому сайті не потрапляли в індекс пошукових систем. Для цього на вашому сайті в файл .htaccess слід додати такі рядки:

<FilesMatch «.doc $»>

Header set X-Robots-Tag «noindex, noarchive, nosnippet»

</ FilesMatch>

Якщо ви хочете заборонити індексацію файлів .pdf, використовуйте наступний уривок коду:

<FilesMatch «. (Doc | pdf) $»>

Header set X-Robots-Tag «noindex, noarchive, nosnippet»

</ FilesMatch>

К содержанию ↑

Як перевірити настройки HTTP-заголовка X-Robots-Tag на своєму сайті

Переглянути HTTP-заголовки і перевірити прописані інструкції можна за допомогою плагінів, онлайн-сервісів і десктопних програм.

Перевірка з плагіном Web Developer для Mozilla Firefox і Google Chrome

Даний плагін дозволяє переглядати значення HTTP-заголовків будь-якої сторінки.

Працювати з плагіном дуже просто:

  1. Встановіть його для свого браузера (доступний для Chrome і Firefox ).
  2. Відкрийте цікавить вас сторінку в браузері, клацніть на іконку плагіна і виберіть «Information» → «View Response Headers»
    Плагин Web Developer
    Плагін Web Developer
  3. По кліку в браузері відкриється окрема вкладка, де будуть відображена інформація з заголовків відповіді сервера, в тому числі – директиви X-Robots-Tag.
Директива x-robots
Директива x-robots

Перевірка за допомогою онлайн-сервісу Server Header Checker

  1. Відкрийте сайт сервісу.
  2. У рядок «Enter URL» вставте адресу сторінки.
  3. Виберіть User Agent, версію HTTP і натисніть кнопку «Check Header».
    Онлайн-сервис Server Header Checker
    Онлайн-сервіс Server Header Checker
  4. Перегляньте значення, які відобразяться нижче.
Результат header-checker
Результат header-checker

Перевірка за допомогою краулер Netpeak Spider

Netpeak Spider дозволяє проаналізувати відразу весь сайт, окрему його директорію або список сторінок. По-перше, з його допомогою можна переглядати всю інформацію про заголовках кожної окремо взятої сторінки, по-друге, програма зверне вашу увагу на всі закриті для індексації сторінки. Вони будуть підсвічені як сторінки з наступними помилками:

  • Заблоковано в X-Robots-Tag.
    Показує сторінки, заборонені до індексації за допомогою директиви «noindex» поля X-Robots-Tag в HTTP-заголовках відповіді сервера.
  • Nofollow в X-Robots-Tag.
    Показує сторінки, у яких міститься директива «nofollow» в поле X-Robots-Tag в HTTP-заголовках відповіді сервера.

Щоб перевірити сайт на помилки, пов’язані з X-Robots-Tag, виконайте наступні дії:

  1. Відкрийте програму.
  2. Перейдіть на бічну панель. На вкладці «Параметри» знайдіть розділ «Індексація» і перевірте наявність галочки навпроти пункту «X-Robots-Tag». Якщо пункт не буде відзначений, програма не проаналізує дані X-Robots і ви в фінальному звіті не побачите ніяких проблем, пов’язаних з ним.
    Netpeak Spider индексация
    Netpeak Spider індексація
  3. Щоб просканувати весь сайт, введіть його URL в адресний рядок і натисніть кнопку «Старт», щоб почати інсталяцію. Якщо вам потрібно просканувати список певних сторінок, зайдіть в меню «Список URL» і виберіть зручний вам спосіб додавання адрес, а потім запустіть сканування.

По закінченню сканування ви зможете отримати інформацію про інструкції, зазначених з X-Robots-Tag, декількома шляхами:

  1. Таблиця зі значеннями X-Robots-Tag. Під час сканування в таблиці з результатами аналізу будуть з’являтися проскановані URL, а в стовпці «X-Robots-Tag» будуть відображатися директиви, зазначені в X-Robots для даного URL.
    Результат Netpeak Spider
    Результат Netpeak Spider
  2. Звіт по помилках. Перейдіть на вкладку «Звіти» → «Помилки» на бічній панелі.Клацніть по назві помилки, щоб відфільтрувати результати сканування і ознайомитися зі списком сторінок, на яких вона була знайдена.
    Заблокировано в X-robots
    Заблоковано в X-robots
  3. Зведення. Для отримання списків сторінок, для яких виставлена ​​та чи інша директива, відкрийте вкладку «Звіти» → «Зведення» на бічній панелі. Там ви побачите пункт «X-Robots-Tag» зі списком усіх наявних на сайті директив. Клацніть по одній з них, щоб відфільтрувати результати, як уже було описано вище.
noindex, nofollow
noindex, nofollow

При необхідності ви можете вивантажити будь-яку з таблиць з відфільтрованими результатами на свій комп’ютер. Зробіть це за допомогою функції «Експорт», натиснувши на кнопку «Експорт» в лівому верхньому кутку, або вибравши у відповідному меню команду «Результати в поточній таблиці».

Результаты в текущей таблице
Результати в поточній таблиці
К содержанию ↑

Коротко про головне

Щоб закрити від індексації мультимедійні дані на сайті і мінімізувати ймовірність появи їх в пошуковій видачі, використовується HTTP-заголовок X-Robots-Tag. Що про нього слід знати:

  1. Він діє на рівні сервера і має ряд переваг перед robots.txt і Meta Robots.
  2. Прописати X-Robots-Tag можна двома способами: за допомогою PHP і файлу .htaccess. Директиви для заголовка аналогічні директивам для метатега Robots.
  3. Для перевірки налаштування X-Robots-Tag кожної окремої сторінки існують плагіни і онлайн-сервіси, що дозволяють аналізувати окремо взяті сторінки. Перевірити весь сайт, не докладаючи при цьому великих зусиль, можна за допомогою Netpeak Spider .
Поділитися