Seo-online
# # #
Как найти дубли страниц

Как удалить дубликаты: инструкция, полезные советы

Чем опасны дубликаты страниц, какими они бывают и откуда берутся, как их удалить и организовать контроль в дальнейшем?

От 09.05.2019

Представьте два одинаковых апельсина, какой из них больше отвечают ключевой фразе «внешний вид апельсина»? В той же ситуации оказываются Яндекс и Google, когда сталкиваются с дубликатами. В результате падает трафик, наблюдаются скачки по ключевым запросам, ухудшается ранжирование, понижается место в выдаче. Негативные моменты можно перечислять долго, но все они лишь демонстрируют опасность дублей. С этим явлением нужно бороться и сразу пресекать, пока ситуацию можно поправить без существенной потери позиций.

Виды дубликатов

Чтобы впредь не допускать ошибок, вызванных не достаточным уровнем подготовки, рассмотрим какие существуют дубликаты:

  1. Полный дубль – одна и та же информация размещается по нескольким URL.
  2. Частичный дубль – повторяется только часть контента.

Из этого следует два вывода:

  • при создании каждой страницы необходимо использовать полностью уникальные тексты, копирование информации не допускается;
  • чтобы найти полные и частичные дубликаты нужно использовать разные методики.

6 причин возникновения полных дублей

  1. Не выбрано главное зеркало, соответственно поисковики пытаются индексировать как версию с приставкой www, так и без нее.
  2. Запись о главной странице может содержаться одновременно в нескольких директориях, например, index, index/, index.php, index.php/, index.html, index.html/. Необходимо установить основной URL, а другие адреса закрыть от индексации.
  3. Реферальные ссылки формата ?ref=… должны использовать корректный 301 редирект, но часто это правило игнорируется, в результате создается дубль.
  4. Неправильная иерархия, когда одна и та же страница доступна как в каталоге, так и в отдельной директории.
  5. Ошибки при настройке страницы 404 или бесконечные дубли, когда код выдает бесконечное множество ссылок типа: http://mysite.com/набор_латиницы.
  6. Ошибки в работе utm и gclid, в результате которых создаются копии страниц с этими метками и без них.

Полные дубли в лучшем случае понизят ранжирование отдельных страниц, а в худшем приведут к санкциям со стороны поисковиков. В последствии выйти из-под фильтра будет проблематично.

Откуда берутся частичные дубли

Частичные дубли не наносят на столько сильного вреда, но в долгосрочной перспективе могут оказать еще более пагубное воздействие на сайт. Распространенные причины:

  1. Настройка фильтрации и страниц пагинации без использования скриптов. В этом случае при переходе с основной страницы категории на вторую, третью или десятую, происходит дублирование метаданных:
Дубли пагинации
  1. Описанная проблема характерна и для отзывов. Если не используются скрипты или плагины происходит создание нового URL, при этом вся остальная информация, кроме самого текста отзыва, дублируется с материнской страницы.
  2. PDF версии страниц также дублируют весь SEO контент при этом создают новые URL. Более того, на них присутствуют текст и графические материалы, что приближает их полным дублям.
  3. HTML слепки AJAX. Использование этой технологии предполагает перенаправление ботов на HTML страницы, если при внедрении технологии допущены ошибки кода, роботы будут обрабатывать две страницы вместо одной.

Инструментарий

  1. Команда site:url_главной. Позволяет визуально оценить поисковую выдачу и посмотреть какие страницы дублируются. Подходит только для проектов до нескольких десятков URL.
Команда site: для поиска дублей
  1. Для машинного поиска используйте: Seo Spider, Netpeak Spider или Xenu. Приложения запускают на сайт поисковых ботов, которые индексируют все страницы сайта и сравнивают их по метаданным, выявляя дубли.
Машинный анализ дублей:
  1. Поисковая Консоль Google показывает количество страниц с потенциальными дублями по SEO-заголовкам. Это быстрый способ проверить есть ли проблемы.
Поисковая Консоль Google для поиска дублей
  1. Ручной поиск хотя и является своего рода демонстрацией профессионализма SEO, но носит показательный характер. Особенно, если проверить нужно большой проект с тысячами страниц.

Способы борьбы с дублями страниц

Процедура сводится к выполнению всего 5 простых действий, для которых не нужны глубокие познания в программировании или специализированные навыки. Каждый вариант сам по себе решает часть проблем, но применять нужно все в совокупности, чтобы не только решить текущие проблемы, но и оградится от них в дальнейшем.

  1. Аннигиляция – просто удалите статичные дубли страниц, актуально для полных дубликатов.
  2. Запрет индексации через robots.txt позволяет исключить служебные страницы из общей поисковой выдачи.
Запрет индексации через robots.txt
  1. Корректировка ассоциации 301 редиректов в системном файле htaccess, позволяет устранить проблемы с иерархией.
  2. Использование rel=canonical для закрепления канонических страниц и запрета создания частичных дубликатов при пагинации, фильтрации, использовании utm и gclid.
Использование rel=canonical для сокращения дублей
  1. Табы с отзывами и печатные версии страниц выкидываются из поиска путем закрытия от индексации тегами nofollow или noindex. Яндекс и Google по-разному реагируют на команды, поэтому корректность работы проверьте вручную.

Хотя дубликаты способны нанести непоправимый ущерб, их выявление не составляет больших проблем. Достаточно один раз правильно настроить системные файлы и скрипты, и раз в неделю выполнять системную диагностику на предмет сбоев. Этот нехитрый способ гарантирует полное уничтожение дублей и предохранит от их появления в будущем.

Кейсы

Оставьте заявку

Имя

Телефон

E-mail

Адрес вашего сайта

Бюджет

35000 руб.

200000 руб.

Ваш комментарий

Подписаться на рассылку

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Агентство SEO продвижения сайтов
ул. Каховка дом 24
Москва, Москва, 117461 Россия
+7 (499) 288-71-53
Продвижение сайтов