Содержание
Как быстро найти и убрать дубли страниц на сайте
Что такое дубли страниц и чем они вредны?
Дублями называют страницы, где URL - адреса отличаются, а содержание максимально похоже или полностью совпадает. Они могут появляться по естественным причинам и в большинстве случаев не создают особых неудобств пользователям. Но дубли вредят SEO-продвижению и усложняют аналитику сайта: снижают органический трафик, могут привести к санкциям со стороны поисковой системы, ведут к сложностям при анализе показателей работы.
Для выстраивания эффективной SEO-стратегии важно использовать максимально уникальный контент.
Типичные проблемы:
- Дубли начинают конкурировать друг с другом, это снижает рейтинг каждой страницы в выдаче результатов поиска.
- Увеличивается время индексации: при сканировании сайта бот обходит каждый URL и чем их больше, тем больше времени занимает процесс.
- Если поисковая система сочтет, что сайт содержит плагиат (неуникальный контент), то может ввести для него санкции и на время убрать из выдачи.
- Аналитика будет транслировать некорректные данные, т. к. их вес распределится между страницами-близнецами.
Дубли страниц сайта — проблема, которую не стоит недооценивать. В отличии от пользователей, поисковые системы их обнаруживают сразу.
Типы дублей страниц
Для начала определим, какими они бывают, чем отличаются и почему появляются:
Полные дубли
Такие дубли — страницы с абсолютно идентичным контентом (совпадение на 100%), но с разным URL. Они часто появляются, когда администратор не настроил склейку разных параметров:
- варианты написания адресной строки: с www и без, с использованием букв из верхнего и нижнего регистра, со слешем на конце и без него;
- применение протокола http и https;
- использование GET-параметров и utm-меток;
- включение версий индексных файлов — index.html, index.php, home.html.
При создании utm-ссылок вида https://site.ru/?utm_source их нужно перенаправлять на основной URL (https://site.ru). Так, у страницы c адресом https://site.ru может быть несколько зеркал: например, http://site.ru, http://www.site.ru и https://www.site.ru.
Частичные дубликаты
Ситуация, при которой разные страницы с уникальными URL содержат максимально близкий контент. Она происходит в следующих случаях:
- сортировка в фильтрах и каталогах;
- заведение нескольких карточек для одного товара с указанием разных характеристик;
- создание региональных версий сайта с полным переносом контента;
- пагинации, когда большой объем информации размещается на нескольких страницах, связанных друг с другом через навигацию.
Например, карточки для блокнотов одинаковых по основным параметрам, но разных по цвету или рисунку будут частичными дублями.
На первый взгляд частичные дубли страниц не так опасны, как полные. Но в долгосрочной перспективе есть риски, что из-за дублирования данных могут возникнуть сложности в реализации SEO-стратегии.
Семантические (смысловые) дубли
Такие страницы имеют разный URL и контент, а вот оптимизированы они под поисковые запросы из одного кластера.
Как правило, это случается из-за неточности распределения запросов по кластерам при анализе семантического ядра. Для роботов они будут отвечать на один пользовательский запрос, что создаст проблему в выборе приоритетной страницы.
Как найти дубли страниц
Существует несколько инструментов, позволяющих оценить наличие на сайте дубликатов разного уровня:
• Парсинг Screaming Frog SEO Spider
Наиболее популярная из специализированных программ. Имеет удобный интерфейс и большие возможности для быстрой оценки структуры сайта. Позволяет находить частично или полностью дублирующийся контент и анализировать причины его появления. Первые 500 URL-адресов можно проверить бесплатно, что особенно выгодно в работе с небольшими и средними по объему веб-ресурсами.
Важно отслеживать позиции URL в аналитических сервисах Google и Яндекс. После того как вы найдете дубли, их можно будет закрыть и перенаправить трафик по основному пути – на страницу с лучшей индексацией и более высокой посещаемостью.
• Сервис Google
Google Search Console (сокращенно – GSC) позволяет посмотреть на ваш сайт «глазами» роботов-поисковиков этой системы. Он помогает оценить факторы, влияющие на ранжирование ресурса. Инструмент бесплатный и пригодится для работы веб-аналитиков с разными по объему ресурсами.
У Google есть удобные операторы: Intext - показывает страницы, которые содержат в тексте конкретное слово, AllIntext - находит адреса сайта со всеми словами, которые вы будете указывать.
• Инструмент от Яндекса
Вебмастер помогает проанализировать сайт в своей поисковой системе, найти пересечения контента и принять меры по устранению ошибок. Отчеты Вебмастера пригодятся для оценки состояния веб-ресурса и помогут своевременно принять меры по улучшению его ранжирования.
И в Яндексе, и в Google можно использовать оператор site. Он анализирует информацию только на указанном сайте (условно https://site.ru) и его доменах (условно https://site.ru/123 или https://site.ru/1234). Оператор url: помогает найти конкретный адрес, оператор inurl: — URL с определенным словом в названии, а domain - по всему домену второго уровня.
• Оператор Sitechecker
Сервис с широким функционалом, который помогает проанализировать, что послужило причиной появления дубликатов — страницы с идентичным или очень схожим контентом, повторы в заголовках и мета-описаниях, отсутствие и некорректность использования канонических тегов. Sitechecker позволяет глубоко просканировать сайт и выявить все точки его SEO-роста.
• Программа для парсинга — Netpeak Spider
Удобный онлайн сервис, который помогает найти полные и частичные дубли в заголовках и текстах. В бесплатной версии доступно к проверке до 500 URL.
Различные сервисы предлагают в ряде случаев схожий функционал. Самое верное решение — использовать несколько инструментов при анализе веб-ресурса. Такой подход позволит исключить случайные ошибки в работе оператора и выстроить оптимальную стратегию SEO-продвижения с учетом особенностей поисковых машин.
Как убрать дубли страниц на сайте?
Существует несколько вариантов решения проблемы:
• Через 301 редирект
Этот способ подразумевает объединение (склейку) нескольких URL-адресов в один. Чтобы склеить https://site.ru c https://www.site.ru, установите перенаправление между адресами – редирект. Это позволит посетителю перейти с зеркала — https://www.site.ru) на приоритетный — https://www.site.ru. Еще одна распространенная ситуация для редиректа — смена доменного имени, например, с https://site.ru на https://1-site.ru. Выполнить процедуру можно в настройках сайта или через систему CMS.
• Назначение канонической страницы (rel=”canonical”)
Тег Rel=”canonical” определяет приоритетный URL-адрес и позволяет перенаправить на него трафик с дублей.
Многие предпочитают использовать rel=”canonical” вместо редиректа. Он работает быстрее и позволяет сохранить все URL, т. к. некоторые дубли могут быть важны для пользователей.
• Создание директивы Disallow в robots.txt
Такой вариант позволяет полностью исключить из индексации поисковым роботом нежелательные URL сайта. Важно правильно прописать путь — через «Disallow: /name page» (слеш ставится перед адресом, а не после).
• Удаление дублей
Такой кардинальный способ не всегда применим. Его можно использовать только для страниц, не имеющих ценности для сайта и не несущих трафик. В остальных случаях лучше воспользоваться другими решениями.
• Закрытие дублей от индексации через noindex
Этот тег позволяет скрыть от индексирования роботами необходимые URL. Но сфера его применения ограничена из-за того, что расходуется краулинговый бюджет. Его можно настраивать, например, при пагинации.
• Использование директивы Clean-param
При применении Clean-param в файле robots.txt робот-поисковик не станет учитывать динамические параметры в URL-адресах, при условии, что они не влияют на содержание страницы. Примеры: идентификаторы пользователя, параметры сортировки товаров.
Важно: директива поддерживается только в Яндексе. Она прописывается через квадратные скобки [name page].
• Проработка метатегов
Уникализация частичных дублей необходима, когда важно сохранить весь контент, даже максимально схожий. В таких случаях для индексации каждого URL важно создать свой тег Title, где указать номер страницы. Это решение подходит, например, при пагинации.
• Настройка 404 ответа
Он возникает, если обращение пользователя оказывается не эффективным. Например, некорректно введен адрес (https://site.ru/abcd. вместо https://site.ru/abc) или он по каким-то техническим причинам в данный момент оказался недоступен. Во втором случае сгладить разочарование посетителя можно создав для страницы с ошибкой 404 какой-то оригинальный дизайн. В некоторых CMS-системах вроде WordPress уже предусмотрена подобная опция.
Как убрать дубликаты, решает SEO-специалист. Он определяет и метод: удалить их, сделать редирект или прописать какую-то функцию. Здесь важно учитывать различные параметры: цель создания страницы, структура сайта и приоритеты в работе.
Частые вопросы
1. Страницы с разными картинками, но одинаковым текстом считаются дублями?
Да. Одинаковый текстовый контент для поисковиков будет расценен как дубль. Это может привести к снижению веса каждой из станиц и создаст проблемы с их индексированием.
2. Почему разные по содержанию и тексту страницы признаются дублями?
Распространенная причина в том, что в определенное время несколько URL передавали одинаковое сообщение об ошибке или об отсутствии у них контента. Это можно проверить через оператора [url:] в результатах поиска. Проанализируйте, какую информацию получал робот при обходе страниц (можно посмотреть в сохраненной копии). А через Яндекс-инструмент «Проверка ответа сервера» можно увидеть, какое содержимое у них сейчас. После внесения правок страницы будут повторно проиндексированы и вернутся в поиск.
Как временное решение при проведении технических работ на сайте, там можно установить код ответа 503. Им вы сообщите поисковикам о временных ограничениях доступа к ресурсам, и они не выпадут надолго из поля зрения поисковых роботов.
3. Как дубли влияют на ранжирование сайта?
Яндекс, и Google очень ценят уникальность контента. Они «не любят» плагиат, негативно оценивают его наличие и при обнаружении понижают рейтинг сайта в результатах поиска. При дублировании данных затрудняется процесс индексации каждой из страниц. В том числе становится сложно продвигать посадочные, т.к. поисковой системе сложно выбрать приоритетную.
4. Достаточно ли один раз проверить дубли на сайте?
Анализировать ситуацию лучше регулярно. Важно всегда проверять появление новых дублей после внедрения изменений на сайте.
5. В чем разница подходов Google и Яндекса к дубликатам?
И Google, и Яндекс стараются показывать самые полезные и уникальные результаты в своей выдаче. Обе поисковые системы выбрасывают из ранжирования дубли и адреса, закрытые от индексации.
Например, система Яндекс уберет в конец выдачи URL с содержанием даже 30% неуникального контента. Также она делит страницы на «недостаточно качественные» и «невостребованные». У Google такого деления нет.
Заключение
Сегодня для успешного ведения бизнеса важна корректная работа сайта. Максимально высокие позиции в поисковой выдаче делают его доступным для большого количества пользователей и генерят продажи.
Эффективная SEO-стратегия позволяет добиться конкурентности ресурса при ранжировании поисковиками. Своевременная диагностика данных, их уникализация – важная часть работ, которую нельзя игнорировать.
Остались вопросы?
Объясним, починим, создадим, наладим и научим пользоваться
-
15 лет
директор
по маркетингу -
Член совета директоров "Гильдия маркетологов"
-
58
запущенных
проектов -
Член Жюри Silver Mercury
-
Регулярный спикер конференции
-
Преподаватель MBA курсов по Digital marketing
Игорь Краснощек