Файл robots.txt — это служебный файл предназначенный для поисковых роботов и позволяет руководить процессом индексации сайта. Другими словами, с помощью файла robots можно разрешать и запрещать к индексации отдельные страницы либо разделы сайта. Писать команды можно как всем роботам сразу, так и отдельным поисковикам. Самое главное предназначение этой файловой инструкции — запретить к индексации дубли страниц , служебные разделы, динамически созданые страницы и другой «мусор».

Работа robots.txt

Как же создать файл robots.txt?

Создать данный служебный файл можно на своем ПК с помощью любого текстового редактора (блокнота, NotePad++ и другие). Главное, что б файл имел название robots и расширение .txt.

Для написания инструкций для индексации роботами используются такие директивы (служебные операторы):

  1.  Директива User-Agent
  2. Директива Allow и Disallow
  3. Директива Host
  4. Директива Sitemap
  5. Служебные операторы «*» «$»

Директива User-Agent

С данной директивы начинается файл роботс. В ней указывается поисковый робот к которому будут применены инструкции ниже. У каждого робота есть свое имя. Вот список самых популярных:

  • GoogleBot — основной бот индексации в Google
  • YandexBot — основной бот индексации в Яндекс
  • Msnbot — Microsoft MSN Search 
  • Yahoo! Slurp — основной индексирующий бот Yahoo

Обычно  если работают с конкретный поисковиком, то открывают индексацию ко всем видам роботов поисковой системы. Для этого используют имя без приставки «Bot» (или Slurp в Yahoo). Причем регистр не имеет значения. Если хотите, что б инструкция применялась ко всем поисковикам, тогда используют оператор «*».

Приведем пример инструкций для всех поисковых роботов Google:

User-Agent: google

Allow: /

В случае работы со всеми поисковиками, будет так:

User-Agent: *

Allow: /

Директивы Disallow и Allow

Disallow показывает, что не нужно индексировать. В файле robots.txt должна быть прописана эта директива и не важно запрещаете Вы что-то индексировать или нет. если ничего не запрещаете индексировать тогда будет выглядеть так:

User-Agent: *

Disallow:

Бывают разные ситуации, иногда нужно закрыть раздел иногда конкретную страницу или группу страниц. Ниже приведем примеры самых распространенный ситуаций.

  • Раздел сайта

Если нужно закрыть раздел сайта, то файл инструкция будет такая:

User-Agent: *

Disallow: /author/ # в случае страницы https://loleknbolek.com/test/author/lolek/ страница будет недоступна к индексированию

Disallow: /author # закрывает от индексации страницы начинающиеся с /author ,

# в случае страницы https://loleknbolek.com/test/author/lolek/ страница будет доступна к индексированию

Так мы закрыли раздел авторов на сайте. Другими словами страница https://loleknbolek.com/author/lolek/ будет недоступна к индексированию всеми роботами.

  • Конкретную страницу

Если Вы хотите закрыть страницу site.com/category/hello-world.html, тогда нужно прописать так:

User-Agent: *

Disallow: /category/hello-world.html

  • Конкретную группу страниц

Возьмем к примеру 2 страницы: site.com/category/hello-world?id-test1.html и site.com/category/hello-world?id-test2.html.

User-Agent: *

Disallow: *?id* #так будут закрыты обе страницы, а вот страница site.com/category/hello-world будет открыта

# что за оператор * будет рассмотрено ниже.

  • Весь сайт 

    User-Agent: *

Disallow: /

Директива Allow работает по такому принципу как и Disallow, только она разрешает индексацию. Если Вы решили закрыть сайт от индексации (показано выше), но потом открыть только раздел авторов к индексации, то robots.txt будет выглядеть так:

User-Agent: *

Disallow: /

Allow: /author/

После создания файла Robots.txt его лучше проверить на корректность и убедится, что все Вы сделали правильно. Это можно сделать перейдя по ссылке (http://webmaster.yandex.ua/robots.xml)

 Директива Host

Как известно вначале ваш сайт доступен по 2-м адресам: www.domain.com и domain.com. Это называется зеркалом сайта. Данный случай плохой, так как вес будет распределяться по фактически 2-м разным сайтам. Закрыть дубль сайта можно используя директиву Host.

Пример:

# Допустим Вы выбрали domain.com такой вид

User-Agent: *

Disallow:

Host: domain.com

Использование данного вариант не гарантирует, что поисковик выберет именно этот вариант. Но оно дает весомый аргумент, когда робот зеркальщик будет склеивать домены и будем им учтено. Для повышения вероятно склейки именно таким образом, рекомендуется помимо директивы host использовать еще 301 редирект.

Директива Sitemap

Она показывает поисковому роботу адрес, где находиться файл sitemap.xmlПравильное создание этого фала повышает скорость индексации Вашего сайта.

Пример:

User-Agent: *

Disallow:

Host: domain.com

Sitemap: http://domain.com/sitemap.xml

Служебные операторы «*» «$»

Данные операторы используются в создание инструкции как Disallow так и Allow. Оператор «*» означает любые символы (точнее их последовательность).

Тогда как $ является грубо говоря границей закрывающего адреса. Пример:

User-Agent: *

Disallow:  /author  #закрывает страницу site.com/author.html

Disallow:  /author$   #запрещаем только страницу site.com/author

Disallow:  /author*$  #закрывает страницу site.com/author.html

В 3-е инструкции видно, что оператор «$» не отменяет действие «*».

Честно признаюсь, что когда учил robots.txt не сразу начал понимать как он работает. Затем в голове создал свое понимание и надеюсь у меня получилось Вам передать свои мысли. Тема не простая, но если у Вас возникнут трудности, тогда пишите на почту www.loleknbolek.com@gmail.com и я отвечу на все Ваши вопросы 🙂

Поделиться