Продолжим тему дублей страниц на сайте. Сегодня будем говорить, о том как от них избавиться, как их удалить или закрыть от индексации поисковых систем. Ранее я уже писал, о том что такое дубли страниц и какие есть методы поиска их на вашем ресурсе, можете посмотреть тему “Дубли страниц на сайте, методы поиска.”
Давайте начинать и первое что мы узнаем, это какие же есть методы борьбы и как их применять. На самом деле их много, так как каждая система управления контентом (cms) может генерировать дубли самостоятельно.
Причины генерирования дублей страниц сайта могут быть различные, например:
- ошибки в логике структуры сайта;
- технические ошибки;
- использование различных фильтров и поиска на сайте
Для борьбы с ними необходимо будет перерыть всю систему и разобраться в чем проблема, почему они появляются. Я буду говорить о наиболее распространенных методах , с которыми может необходимо рано или поздно придется разбираться каждому.
Методы удаления и закрытия от индексации дублей страниц сайта.
- 301 редирект в htaccess.
- Закрываем страницу для индексации роботами в robots.txt.
- Добавляем атрибут rel=”canonical”.
- Удаляем страницу с индекса с помощью Google webmaster и Yandex webmaster.
1. Одним из самых распространённых способов удаления дублей на сайте является редирект (перенаправление). Вы просто перенаправляете один url адрес на другой, при этом они склеиваются и поисковая система индексирует только адрес на который вас перенаправляет. Довольно часто, можно увидеть применения 301 редиректа, при склеивании зеркал, сайтов с www и без www. Как правило большая часть сайтов использует адрес без www.
Для того, что бы реализовать 301 редирект, вам необходимо открыть файл .htaccess, который находится в корневой папке вашего движка (cms) и прописать там несколько строк.
Вот пример с нашего сайта для главной страницы, редирект с www на без www:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^loleknbolek.com [nocase]
RewriteRule ^(.*) https://loleknbolek.com/$1 [last,redirect=301]
Можете использовать для своего сайта, только поменяйте адреса.
Если же вы хотите сделать 301 редирект с одной страницы на другу (с дубля страницы), то вам не обходимо просто прописать:
Redirect 301 /адрес страницы которую необходимо перенаправить /адрес страницы на которую перенаправляете.
или же наглядный пример:
Redirect 301 /dubli-stranic-sajta-metody-udaleniya-i-zakrytiya /dubli-stranic
2. Второй способ будем использовать robots.txt, с помощью которого мы будем закрывать дубли страниц от индексации. Как вообще работать с этим файлом, я не буду описывать, вы можете почитать здесь. Как правило этот файл находится в корне вашего движка, открываем его и прописываем пару строк. Для того что бы закрыть страницу от индексации вам потребуется всего одна директива Disallow.
Вот пример, где мы закроем одну из страниц сайта для индексации поисковым роботом:
Disallow:/category2/page.html
Или
Disallow: /page.html
Я думаю тут ничего сложного нету, поэтому переходим к следующему способу с помощью которого мы разберем? как удалить дубли страниц на сайте.
3. Сейчас мы будем использовать атрибут rel=”canonical”. Этот атрибут используется для того что бы указать поисковой системе какая из страниц должна участвовать в ранжировании.
Например, у нас есть две одинаковые страницы:
https://loleknbolek.com/dubli-stranic-sajta/
и
https://loleknbolek.com/kak-samomu-raskrutit-sajt-v-google-i-yandeks/dubli-strani/
Для того что бы роботу было понятно какая из страниц должна индексироваться в моем случае вторая, нам необходимо зайти на эти страницы и прописать следующий код:
<link href=»https://loleknbolek.com/kak-samomu-raskrutit-sajt-v-google-i-yandeks/dubli-strani/» rel=»canonical» />
Если же вы используете WordPress, поставьте себе плагин all in one seo pack, в настройках этого плагина для каждой страницы внизу вы сможете найти надпись «Канонические URL’ы» и поставить там галочку. Он упрощает работу в разы.
4. Ну и последний на сегодня метод это использование Google и Yandex webmaster. Не буду много писать, а сразу по сути скажу Google webmaster вам необходимо зайти в раздел «индекс Google», здесь выбираем «удалить URL-адреса». Далее нажимаем на «Создать новый запрос на удаление», вводим дубликат страницы который необходимо удалить и нажимаем кнопку «Продолжить». Важно, что бы эта страница была закрыта от индексации, ибо она может в скором времени снова появиться в индексе и вам снова придется ее либо удалять либо закрывать.
Похожим способом можно удалить страницу и в Yandex webmaster. Переходим в «Мои сайты», там будет «Удалить url», вводим в строку адрес который необходимо удалить и жмем кнопку удалить.
На этом всё на сегодня. Буду рад если смог помочь разобраться в теме, если же что-то не ясно пишите в комментарии будем разбираться вместе. Спасибо всем!
А если страницы попали уже в индекс, а после я закрыл доступ для индексации, они со временем удалятся из индекса? или надо вручную все их удалять?
со временем удаляться, но что бы ускорить процесс можно в консоли вручную отправить на удаление
подскажите пожалуйста как закрыть дубли страниц вот такой формы
(нормальный адрес страницы.html?jjj=1500768015002)
Перепробовала все способы, ничего не помогает. Откуда беруться такие ссылки не могу пока понять, но в поиске яндекса стабильно появляются.
В robots.txt пробовали прописать строку: Disallow: *?jjj=*?