Оптимизация

Дублированный контент на сайте: найти и удалить!

Сравнить дубликаты контента можно с развилкой на дороге, где стоит указатель, указывающий на две разные дороги, ведущие в одно место. Какую дорогу выберите вы?

А чтобы вы почувствовали разницу еще сильнее: две дороги, ведущие в разные места, и только одно из них правильное. Как читатель, вы не думаете о том, на какой странице вы находитесь, ведь вы пришли на нее, чтобы получить контент. Но поисковым машинам, для отображения в поисковой выдаче, важно выбрать один вариант. Поисковик не будет отображать один и тот же контент дважды.

Скажем у вас есть статья «икс», которая расположена на странице http://www.домен.com/икс/ и тот же самый контент отображается на странице http://домен.com/article-category/икс/. Эта ситуация не выдумана, а появляется она на множестве современных CMS. Вашу статью заметили и начали на нее ссылаться. Часть ссылаются на первый URL а остальные на второй URL. Вот когда, как казалось бы, проблема поисковиков превращается в вашу проблему. Дубли контента – ваша проблема, так как те внешние ссылки помогают продвигать разные URL. Если бы все они ссылались на один URL, ваши шансы, попасть в топ 10 поисковой выдачи по запросу «икс» были бы значительно выше.

Причины появления дублей на сайте

Существует множество причин появления дубликатов контента. Большинство из них технические, так как не часто встретишь человека, который сам бы решил опубликовать один и тот же контент в двух разных местах без указания основного источника (для большинства из нас это может показаться странно). Технических же причин огромное множество. В большинстве случаев, они появляются потому, что разработчики CMS не думают как браузер, пользователь или поисковый паук – они думают как разработчики.

1) Неправильное понимание концепции URL

А не сошел ли этот разработчик с ума? Нет, он просто говорит на другом языке. Как видно, весь сайт работает благодаря системе базы данных. В этой базе данных существует только одна версия данной статьи, а уже скрипты сайта позволяют выводить эту статью из базы данных на разных страницах. Разработчик уверен в своей правоте потому, что каждая статья, расположенная в базе данных, имеет свой уникальный идентификатор (ID), а не URL. Для поисковика же все наоборот — URL является уникальным идентификатором. Если вы объясните это разработчику, то он начнет вникать в суть проблемы и уже затем, если он такой же разработчик как и те, которых я знаю и с которыми мне приходилось работать, он начнет причитать насколько тупы сегодняшние поисковые машины и пояснять, почему он не может с этим ничего поделать. Тут он конечно же не прав.

Читайте также:  On-Page оптимизация посадочных страниц - 7 важных моментов

2) ID сессии

Очень часто у вас может возникнуть желание отслеживать ваших посетителей и сделать возможным, например, хранение информации о товаре, который они хотят купить, в виртуальной корзине интернет-магазина. Для реализации этого, вам нужно присвоить для каждого из них свою “сессию”.

Сессия — это короткая история того, что посетитель делал на вашем сайте, она также может содержать такие вещи, как товары в корзине клиента.

Для того, чтобы учесть все пути пользователя, каждой сессии присваивается свой уникальный идентификатор, так называемый ID сессии, который должен где-то храниться. Самый простой способ реализации — использование cookie, однако поисковики не могут хранить cookie.

Некоторые системы (CMS) используют ID сессий в URL. В каждый URL внутренней ссылки добавляется уникальный ID сессии пользователя, что автоматически создает новый URL одной и той же страницы, а это дубликат контента.

3) Параметры URL, используемые для отслеживания и сортировки

Еще одной причиной появления дубликатов контента может стать использование параметров URL, которые не меняют содержимое страницы, например ссылки на отслеживание контента через ленту RSS. К примеру, http://www.домен.com/икс/ и http://www.домен.com/икс/?source=rss – это не один и тот же адрес для поисковика. Такие параметры позволяют вам отследить откуда пришел пользователь, но они могут помешать вашему сайту занимать хорошие позиции на страницах поисковой выдачи.

Конечно, проблемы не ограничиваются лишь параметрами отслеживания. Любой параметр, изменяющий URL, но не меняющий основную часть контента вызовет то же самое. Дубли контента могут вызвать и параметры сортировки товаров в интернет магазине.

4) Воровство и одновременная публикация контента на нескольких сайтах

В то время, как большая часть дубликатов контента возникает по вашей или технической причине, иногда другие сайты используют ваш контент с вашим согласием или без него. Обычно они не ссылаются на источник-оригинал, поэтому поисковики должны принять и этот контент, что приводит к появлению нескольких одинаковых версий одной и той же статьи.

Чем больше и известнее становится ваш сайт, тем больше будет появляться воров вашего контента, делая проблему дубликатов контента все больше и больше.

5) Разделение комментариев на страницы

В  WordPress, да и в большинстве других популярных CMS, имеется функция разделения комментариев на страницы. Это ведет к появлению дубликатов контента внутри основного URL статьи. Например, основной URL + /comment-page-1/, /comment-page-2/ и т. д.

Читайте также:  Что для Вас важнее: трафик или клиенты?

6) Страницы печати

Если ваша CMS автоматически создает версии статей для печати и вы ссылаетесь на них со страниц, на которых выводится оригинальная версия статьи, то поисковики, в большинстве случаев, если не закрыть от индексации, найдут их. И какую версию статьи после этого должен показывать поисковик? Ту, что забита рекламой и сторонним контентом, или ту, на которой находится только текст статьи?

7) С www или без www

Поисковики, до сих пор, воспринимают версию сайта с www и без www не правильно и считают одну из них дубликатом, если конечно доступны обе из них.

8) Дубли главной страницы

Очень часто встречается ситуация, когда главная страница сайта продублирована по следующим адресам:

http://site.com/index,
http://site.com/index/,
http://site.com/index.php,
http://site.com/index.php/,
http://site.com/index.html,
http://site.com/index.html/.

Как найти дубли страниц на сайте?

Вы можете даже не знать, что у вас проблемы с дублями на сайте или с самим контентом. Вот несколько методов выявления проблемы:

1) Google Search Console

Google Search Console является великолепным инструментом для выявления дубликатов контента. Зайдете в аккаунт, к которому подвязан сайт, нажмите на пункт “Вид в поиске”, а в нем на “Оптимизация HTML” и вы увидите следующее:


Если страницы имеют дубликаты заголовков (а они есть, как видно из скриншота) или дубликаты описаний, то это уже не очень хорошие новости для вашего сайта. Кликнув на них, вы увидите страницы, на которых имеются проблемы.

2) Ручной поиск в поисковой системе

Существует несколько поисковых запросов, которые могут быть очень полезны в данном случае. Если вы хотите найти все URL вашего сайта, которые содержат статью о ключевом слове «икс», тогда, в поиске Google, вам следует ввести следующее:

site:example.com intitle:”Икс”

После чего, Google покажет вам все страницы, на которых встречается данное ключевое слово. Чем более точно вы пропишите часть intitle, тем более точно можно выявить дубликаты контента.

3) Использование сторонних программ

К примеру, Screaming Frog прекрасно справится с поиском дублирующего материала на сайте. В бесплатной версии есть ограничение на количество сканируемых страниц, но ведь ничто не мешает купить ключик)). Программа ко всему прочему обладаем большим функционалом, который вам обязательно пригодится при продвижении. Обзор программы будет в другой статье.

Решение проблем, связанных с появлением дублей

Некоторые из причин появления дублированного контента, можно очень легко устранить:

Имеются ID сессий в URL?
Эту функцию можно легко отключить в настройках CMS.

Имеются страницы для печати?
Они совсем необязательны, вы можете просто создать стиль для печати страницы.

Используете разделение страницы комментариев на WordPress?
Эту функцию также легко можно отлючить. (настройки — обсуждения)

При смене параметров сортировки/фильтрации изменяется URL?
Необходимо запретить индексацию таких страниц.

Читайте также:  Robots.txt и .htaccess - что это такое?

Основное зеркало WWW или без WWW?
Выберите один из вариантов, а второй просто перенаправляйте с помощью редиректа на основной. Предпочтение вы можете поставить и в Google Search Console, но тогда вам нужно будет подтвердить обе версии сайта с www и без www.

Как бороться с дублями на сайте

Предотвращение — лучший метод борьбы с появлением дубликатов контента. Но если уже появились дубли не отчаивайтесь. Используйте след. советы:

Использование директивы Disallow в robots.txt

Это запретит поисковому роботу сканировать указанные страницы. Те страницы, которые уже попали в индекс, можно будет удалить в ручную, подав запросы на удаление в панели вебмастеров Гугла и Яндекса.

Например, что бы запретить индексацию страницы this-page.html всем поисковикам, которая находится по адресу http://example.com/no-index/this-page.html необходимо добавить в файл robots.txt след строчки:

301 Редирект

Иногда бывает просто невозможно настроить систему так, чтобы она не создавала неправильные URL контента, но всегда можно использовать их редирект. Если вы считаете это логически не обоснованным, тогда просто имейте это ввиду. Избавившись от всех проблем с дублированным контентом, убедитесь в том, что вы перенаправляет старые страницы с дубликатами на основные версии URL.

Использование rel=”canonical”

Иногда бывает так, что вы не можете избавиться от дублированной страницы сайта, но сделать это нужно. Именно для решения данной проблемы, Google ввел параметр “canonical”. Размещается он в секции <head> следующим образом:

В секции href вы размещаете ссылку, ведущую на оригинальный (основной) материал. Когда Google, или другой поисковик находит этот элемент, он понимает, что это не основная версия данного материала, основная находится по адресу, который указан в теге rel=”canonical”. Данный способ отлично подходит для страниц фильтрации, пагинации, сортировок

Использование мета-тегов robots

Данная директива «meta name=»robots» content=»noindex, nofollow»» указывает на то, что не нужно индексировать эту страницу и следовать по ссылкам на этой странице.

Ручное удаление

Если сайт небольшой, то не составит большого труда перебрать его в  ручную для того, что бы удалить статический дублирующий контент. Часто бывает так, что один и тот же материал опубликован в разных категориях, который доступен по разным URL.

Заключение

Проблемы с дублями контента решаемы должны быть решены! Дублированный контент может влиять на позиции не только в масштабах одной страницы (URLa) а и всего домена!
Дубликаты могут появиться в любом месте. Это именно то, что вы должны постоянно контролировать.

Удаление дублей на сайте сводится к их физическому удалению, запрету индексации в файле «robots.txt», настройки правильных редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».

Теги

Похожие записи:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *