Что такое файл robots.txt ? Как его создать и настроить?

Файл robots.txt — это служебный файл предназначенный для поисковых роботов и позволяет руководить процессом индексации сайта. Другими словами, с помощью файла robots можно разрешать и запрещать к индексации отдельные страницы либо разделы сайта. Писать команды можно как всем роботам сразу, так и отдельным поисковикам. Самое главное предназначение этой файловой инструкции — запретить к индексации дубли страниц , служебные разделы, динамически созданые страницы и другой «мусор».

Работа robots.txt

Как же создать файл robots.txt?

Создать данный служебный файл можно на своем ПК с помощью любого текстового редактора (блокнота, NotePad++ и другие). Главное, что б файл имел название robots и расширение .txt.

Для написания инструкций для индексации роботами используются такие директивы (служебные операторы):

  1.  Директива User-Agent
  2. Директива Allow и Disallow
  3. Директива Host
  4. Директива Sitemap
  5. Служебные операторы «*» «$»

Директива User-Agent

С данной директивы начинается файл роботс. В ней указывается поисковый робот к которому будут применены инструкции ниже. У каждого робота есть свое имя. Вот список самых популярных:

  • GoogleBot — основной бот индексации в Google
  • YandexBot - основной бот индексации в Яндекс
  • Msnbot — Microsoft MSN Search 
  • Yahoo! Slurp — основной индексирующий бот Yahoo

Обычно  если работают с конкретный поисковиком, то открывают индексацию ко всем видам роботов поисковой системы. Для этого используют имя без приставки «Bot» (или Slurp в Yahoo). Причем регистр не имеет значения. Если хотите, что б инструкция применялась ко всем поисковикам, тогда используют оператор «*».

Приведем пример инструкций для всех поисковых роботов Google:

User-Agent: google

Allow: /

В случае работы со всеми поисковиками, будет так:

User-Agent: *

Allow: /

Директивы Disallow и Allow

Disallow показывает, что не нужно индексировать. В файле robots.txt должна быть прописана эта директива и не важно запрещаете Вы что-то индексировать или нет. если ничего не запрещаете индексировать тогда будет выглядеть так:

User-Agent: *

Disallow:

Бывают разные ситуации, иногда нужно закрыть раздел иногда конкретную страницу или группу страниц. Ниже приведем примеры самых распространенный ситуаций.

  • Раздел сайта

Если нужно закрыть раздел сайта, то файл инструкция будет такая:

User-Agent: *

Disallow: /author/ # в случае страницы http://www.loleknbolek.com/test/author/lolek/ страница будет недоступна к индексированию

Disallow: /author # закрывает от индексации страницы начинающиеся с /author ,

# в случае страницы http://www.loleknbolek.com/test/author/lolek/ страница будет доступна к индексированию

Так мы закрыли раздел авторов на сайте. Другими словами страница http://www.loleknbolek.com/author/lolek/ будет недоступна к индексированию всеми роботами.

 

  • Конкретную страницу

Если Вы хотите закрыть страницу site.com/category/hello-world.html, тогда нужно прописать так:

User-Agent: *

Disallow: /category/hello-world.html

  • Конкретную группу страниц

Возьмем к примеру 2 страницы: site.com/category/hello-world?id-test1.html и site.com/category/hello-world?id-test2.html.

User-Agent: *

Disallow: *?id* #так будут закрыты обе страницы, а вот страница site.com/category/hello-world будет открыта

# что за оператор * будет рассмотрено ниже.

  • Весь сайт 

    User-Agent: *

Disallow: /

Директива Allow работает по такому принципу как и Disallow, только она разрешает индексацию. Если Вы решили закрыть сайт от индексации (показано выше), но потом открыть только раздел авторов к индексации, то robots.txt будет выглядеть так:

User-Agent: *

Disallow: /

Allow: /author/

После создания файла Robots.txt его лучше проверить на корректность и убедится, что все Вы сделали правильно. Это можно сделать перейдя по ссылке (http://webmaster.yandex.ua/robots.xml)

 Директива Host

Как известно вначале ваш сайт доступен по 2-м адресам: www.domain.com и domain.com. Это называется зеркалом сайта. Данный случай плохой, так как вес будет распределяться по фактически 2-м разным сайтам. Закрыть дубль сайта можно используя директиву Host.

Пример:

# Допустим Вы выбрали domain.com такой вид

User-Agent: *

Disallow:

Host: domain.com

Использование данного вариант не гарантирует, что поисковик выберет именно этот вариант. Но оно дает весомый аргумент, когда робот зеркальщик будет склеивать домены и будем им учтено. Для повышения вероятно склейки именно таким образом, рекомендуется помимо директивы host использовать еще 301 редирект.

Директива Sitemap

Она показывает поисковому роботу адрес, где находиться файл sitemap.xmlПравильное создание этого фала повышает скорость индексации Вашего сайта.

Пример:

User-Agent: *

Disallow:

Host: domain.com

Sitemap: http://domain.com/sitemap.xml

Служебные операторы «*» «$»

Данные операторы используются в создание инструкции как Disallow так и Allow. Оператор «*» означает любые символы (точнее их последовательность).

Тогда как $ является грубо говоря границей закрывающего адреса. Пример:

User-Agent: *

Disallow:  /author  #закрывает страницу site.com/author.html

Disallow:  /author$   #запрещаем только страницу site.com/author

Disallow:  /author*$  #закрывает страницу site.com/author.html

В 3-е инструкции видно, что оператор «$» не отменяет действие «*».

Честно признаюсь, что когда учил robots.txt не сразу начал понимать как он работает. Затем в голове создал свое понимание и надеюсь у меня получилось Вам передать свои мысли. Тема не простая, но если у Вас возникнут трудности, тогда пишите на почту www.loleknbolek.com@gmail.com и я отвечу на все Ваши вопросы :)

Оцените статью:

Очень плохоПлохоНормальноХорошоОтлично (8 Рейтинг: 5,00 из 5)
Loading...Loading...

Если Вам понравилась статья, поделитесь с друзьями в соц. сетях:

Вам также может понравиться...

Не хотите пропустить новую статью? Тогда подписывайтесь...

Комментариев: 8

  1. VINI:

    Не редактируется файл robots.txt.Так же не могу найти его в корне сайта через ftp. Пытался указать путь к корню сайта но файла робота все равно не появляется. В чем проблема? может я не правильно путь указываю в строке Directory Path?указываю так /public_html/мой сайт.ру еще пробовал /vaw/www/u0033811/public_html/мой сайт.ру. Очень буду ждать ответа.спасибо

  2. Bolek:

    Вы его редактировали раньше? И он у Вас вообще существует??

  3. VINI:

    Не редактировал.Его не было.

  4. Значит вам необходимо его создать, настроить и положить в корень вашего сайта.
    Какую cms(движок) используете у себя на сайте??

  5. vini:

    CMS worldpress.создал положил к корень но в плагене не редактируется.

  6. Так можно редактировать в простом блокноте или редакторе notepad++ или sublime text.
    Так же если используете плагин All in One Seo pack, то заходите в админку ищите пункт Инструменты SEO — > Другие модули — > Robots.txt (но для начала активируйте модуль).

    Вот ссылка на мой robots.txt http://loleknbolek.com/robots.txt, можете немного подправить для себя.

  7. VINI:

    Спасибо огромное.вроде разобрался))

  8. Обращайтесь, будем рады помочь)

Добавить комментарий

Уважаемые пользователи!


Администрация сайта проверяет все комментарии на наличие спама и оскорблений в адрес других людей. Если в оставленном Вами комментарии будут обнаружены выше перечисленные нарушения, администрация сайта может наложить на Вас санкции или забанить без предупреждения!


С уважением, Администрация сайта.


Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>



Связаться с нами

Если у Вас возникли какие либо вопросы, предложения и пожелания для развития нашего ресурса, связаться с нами Вы можете по e-mail: loleknbolek.com@gmail.com, или заполните форму что находиться ниже.

Пишите мы будем рады Вам ответить!