Как удалить дубликаты: инструкция, полезные советы
Чем опасны дубликаты страниц, какими они бывают и откуда берутся, как их удалить и организовать контроль в дальнейшем?
Представьте два одинаковых апельсина, какой из них больше отвечают ключевой фразе «внешний вид апельсина»? В той же ситуации оказываются Яндекс и Google, когда сталкиваются с дубликатами. В результате падает трафик, наблюдаются скачки по ключевым запросам, ухудшается ранжирование, понижается место в выдаче. Негативные моменты можно перечислять долго, но все они лишь демонстрируют опасность дублей. С этим явлением нужно бороться и сразу пресекать, пока ситуацию можно поправить без существенной потери позиций.
Виды дубликатов
Чтобы впредь не допускать ошибок, вызванных не достаточным уровнем подготовки, рассмотрим какие существуют дубликаты:
- Полный дубль – одна и та же информация размещается по нескольким URL.
- Частичный дубль – повторяется только часть контента.
Из этого следует два вывода:
- при создании каждой страницы необходимо использовать полностью уникальные тексты, копирование информации не допускается;
- чтобы найти полные и частичные дубликаты нужно использовать разные методики.
6 причин возникновения полных дублей
- Не выбрано главное зеркало, соответственно поисковики пытаются индексировать как версию с приставкой www, так и без нее.
- Запись о главной странице может содержаться одновременно в нескольких директориях, например, index, index/, index.php, index.php/, index.html, index.html/. Необходимо установить основной URL, а другие адреса закрыть от индексации.
- Реферальные ссылки формата ?ref=… должны использовать корректный 301 редирект, но часто это правило игнорируется, в результате создается дубль.
- Неправильная иерархия, когда одна и та же страница доступна как в каталоге, так и в отдельной директории.
- Ошибки при настройке страницы 404 или бесконечные дубли, когда код выдает бесконечное множество ссылок типа: http://mysite.com/набор_латиницы.
- Ошибки в работе utm и gclid, в результате которых создаются копии страниц с этими метками и без них.
Полные дубли в лучшем случае понизят ранжирование отдельных страниц, а в худшем приведут к санкциям со стороны поисковиков. В последствии выйти из-под фильтра будет проблематично.
Откуда берутся частичные дубли
Частичные дубли не наносят на столько сильного вреда, но в долгосрочной перспективе могут оказать еще более пагубное воздействие на сайт. Распространенные причины:
- Настройка фильтрации и страниц пагинации без использования скриптов. В этом случае при переходе с основной страницы категории на вторую, третью или десятую, происходит дублирование метаданных:
- Описанная проблема характерна и для отзывов. Если не используются скрипты или плагины происходит создание нового URL, при этом вся остальная информация, кроме самого текста отзыва, дублируется с материнской страницы.
- PDF версии страниц также дублируют весь SEO контент при этом создают новые URL. Более того, на них присутствуют текст и графические материалы, что приближает их полным дублям.
- HTML слепки AJAX. Использование этой технологии предполагает перенаправление ботов на HTML страницы, если при внедрении технологии допущены ошибки кода, роботы будут обрабатывать две страницы вместо одной.
Инструментарий
- Команда site:url_главной. Позволяет визуально оценить поисковую выдачу и посмотреть какие страницы дублируются. Подходит только для проектов до нескольких десятков URL.
- Для машинного поиска используйте: Seo Spider, Netpeak Spider или Xenu. Приложения запускают на сайт поисковых ботов, которые индексируют все страницы сайта и сравнивают их по метаданным, выявляя дубли.
- Поисковая Консоль Google показывает количество страниц с потенциальными дублями по SEO-заголовкам. Это быстрый способ проверить есть ли проблемы.
- Ручной поиск хотя и является своего рода демонстрацией профессионализма SEO, но носит показательный характер. Особенно, если проверить нужно большой проект с тысячами страниц.
Способы борьбы с дублями страниц
Процедура сводится к выполнению всего 5 простых действий, для которых не нужны глубокие познания в программировании или специализированные навыки. Каждый вариант сам по себе решает часть проблем, но применять нужно все в совокупности, чтобы не только решить текущие проблемы, но и оградится от них в дальнейшем.
- Аннигиляция – просто удалите статичные дубли страниц, актуально для полных дубликатов.
- Запрет индексации через robots.txt позволяет исключить служебные страницы из общей поисковой выдачи.
- Корректировка ассоциации 301 редиректов в системном файле htaccess, позволяет устранить проблемы с иерархией.
- Использование rel=canonical для закрепления канонических страниц и запрета создания частичных дубликатов при пагинации, фильтрации, использовании utm и gclid.
- Табы с отзывами и печатные версии страниц выкидываются из поиска путем закрытия от индексации тегами nofollow или noindex. Яндекс и Google по-разному реагируют на команды, поэтому корректность работы проверьте вручную.
Хотя дубликаты способны нанести непоправимый ущерб, их выявление не составляет больших проблем. Достаточно один раз правильно настроить системные файлы и скрипты, и раз в неделю выполнять системную диагностику на предмет сбоев. Этот нехитрый способ гарантирует полное уничтожение дублей и предохранит от их появления в будущем.