Дубли страниц на сайте проверка онлайн: как быстро найти дубли страниц — SEO на vc.ru

Содержание

как быстро найти их и удалить, основные способы и методы — руководство от SEO.RU

Почему дубли страниц — это плохо?

Дубли — это страницы с одинаковым содержимым, т.е. они дублируют друг друга.

Причины, по которым страницы дублируются, могут быть разными:

  • автоматическая генерация;
  • ошибки в структуре сайта;
  • некорректная разбивка одного кластера на две страницы и другие.

Дубли страниц — это плохо для продвижения и раскрутки сайта, даже несмотря на то, что они могут появляться по естественным причинам. Дело в том, что поисковые роботы хуже ранжируют страницы, контент которых мало чем отличается от других страниц. И чем больше таких страниц, тем больше сигналов поисковым ботам, что это сайт не достоин быть в топе выдачи.

Что происходит с сайтом, у которого есть дубликаты страниц?

  1. Снижается его релевантность. Обе страницы с одинаковым контентом пессимизируются в выдаче, теряют позиции и трафик.
  2. Снижается процент уникальности текстового контента. Из-за этого понизится уникальность всего сайта.
  3. Снижается вес URL-адресов сайта. По каждому запросу в выдачу поиска попадает только одна страница, а если таких одинаковых страниц несколько, все теряют в весе.
  4. Увеличивается время на индексацию. Чем больше страниц, тем больше времени нужно боту, чтобы индексировать ваш сайт. Для крупных сайтов проблемы с индексацией могут сильно сказаться на трафике из поиска.
  5. Бан от поисковых систем. Можно вообще вылететь из выдачи на неопределенный срок.

В общем, становится понятно, что дубли никому не нужны. Давайте разбираться, как найти и обезвредить дублирующиеся страницы на сайте.

Как найти дубли страниц?

Кирилл Бузаков,
SEO-оптимизатор компании SEO.RU:

«Когда мы получаем в работу сайт, мы проверяем его на наличие дублей страниц, отдающих код 200. Разберем, какие это могут быть дубли.

Возможные типы дублей страниц на сайте

  1. Дубли страниц с протоколами http и https.

    Например: https://site.ru и http://site.ru

  2. Дубли с www и без.

    Например: https://site.ru и https://www.site.ru

  3. Дубли со слешем на конце URL и без.

    Например: https://site.ru/example/ и https://site.ru/example

  4. Дубли с множественными слешами в середине либо в конце URL.

    Например: https://site.ru/////////, https://site.ru/////////example/

  5. Прописные и строчные буквы на различных уровнях вложенности в URL.

    Например: https://site.ru/example/ и https://site.ru/EXAMPLE/

  6. Дубли с добавлением на конце URL:

    • index.php;
    • home.php;
    • index.html;
    • home.html;
    • index.htm;
    • home.htm.

    Например: https://site.ru/example/ и https://site.ru/example/index.html

  7. Дубли с добавлением произвольных символов либо в качестве нового уровня вложенности (в конце или середине URL), либо в существующие уровни вложенности.

    Например: https://site.ru/example/saf3qA/, https://site.ru/saf3qA/example/ и https://site.ru/examplesaf3qA/

  8. Добавление произвольных цифр в конце URL в качестве нового уровня вложенности.

    Например: https://site.ru/example/ и https://site.ru/example/32425/

  9. Дубли с добавлением «звездочки» в конце URL.

    Например: https://site.ru/example/ и https://site.ru/example/*

  10. Дубли с заменой дефиса на нижнее подчеркивание или наоборот.

    Например: https://site.ru/defis-ili-nizhnee-podchyorkivanie/ и https://site.ru/defis_ili_nizhnee_podchyorkivanie/

  11. Дубли с некорректно указанными уровнями вложенности.

    Например: https://site.ru/category/example/ и https://site.ru/example/category/

  12. Дубли с отсутствующими уровнями вложенности.

    Например: https://site.ru/category/example/ и https://site.ru/example/

Как обнаружить дубли страниц?

Поиск дублей страниц можно произвести разными способами. Если вы хотите собрать все-все дубли и ничего не упустить, лучше использовать все нижеперечисленные сервисы совместно. Но для поиска основных достаточно какого-то одного инструмента, выбирайте, какой вам ближе и удобнее.

  1. Парсинг сайта в специализированной программе

    Для поиска дубликатов подходит программа Screaming Frog SEO Spider. Запускаем сканирование, а после него проверяем дубли в директории URL → Duplicate:

    Кроме того, в директории Protocol → HTTP проверяем страницы с протоколом http — есть ли среди них те, у которых Status Code равен 200:

  2. Онлайн-сервисы.

    Первый, подходящий нашим целям сервис, — это ApollonGuru.

    • Выбираем 5-7 типовых страниц сайта. Например, набор может быть таким: главная, разводящая, карточка товара/страница услуги, статья в блоге, а также другие важные страницы в зависимости от типа сайта.
    • Вносим их в поле «Поиск дублей страниц» и нажимаем кнопку «Отправить»:

    • Дубли с 200 кодом ответа сервера (смотрим столбец «Код ответа сервера») берем в работу:

      Кроме того, необходимо проверять, что с дублей настроены прямые 301 редиректы на основные версии этих же страниц.

Также проверка дублей сайта возможна онлайн-сервисом Check Your Redirects and Statuscode, но он подходит только в том случае, если нужно проанализировать один URL-адрес:

  1. Панели веб-мастеров Яндекса и Google.

    Найти дублирующиеся страницы можно с помощью собственных инструментов поисковиков — Яндекс.Вебмастера и Google Search Console.

    В Яндекс.Вебмастере анализируем раздел «Индексирование», далее — «Страницы в поиске»:

    Там можно увидеть текущую индексацию сайта и искомые дубли страниц:

    В Search Console анализируем раздел «Покрытие», а именно пункт с исключенными из индекса страницами:

Собираем все дубли в одну таблицу или документ. Затем отправляем их в работу программисту:

Старайтесь подробнее объяснить программисту задачу, так как адресов может быть много».

Как убрать дубли страниц на сайте?

Евгений Костырев,
веб-программист компании SEO.RU:

«С дублирующимися страницами бороться можно разными способами. Если есть возможность, стоит использовать ручной метод. Но такая возможность есть не всегда, потому что здесь нужны серьезные навыки программирования: как минимум, нужно хорошо разбираться в особенностях CMS своего сайта.(.*)index\.(php|html|htm)$ http://site.ru/$1 [R=301,L]

Если же сайт использует Nginx, то правила прописываются в файле nginx.conf. Для перенаправления также нужно прописывать правила с помощью регулярных выражений, например:

location = /index.html {
return 301 https://site.com
}

Вместо index.html можно указать любой другой URL-адрес страницы вашего сайта, с которого нужно сделать редирект.

На этом этапе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дубли, но и вообще весь сайт из всего интернета.

Создание канонической страницы

Использование canonical указывает поисковому пауку на ту единственную страницу, которая является оригинальной и должна быть в поисковой выдаче.

Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом оригинальной страницы:

<link rel= “canonical” href= «http://www.site.ru/original-page.html”&gt;

Можно прописывать их вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress это YoastSEO или AllinOneSEOPack.

В 1С-Битрикс это делается с помощью языка программирования PHP в соответствующих файлах. Такая же история и с CMS Joomla: без вмешательства программиста или собственных навыков программирования здесь не обойтись.

Директива Disallow в robots.txt

В файле robots.txt содержатся инструкции для поисковых краулеров, как именно индексировать сайт.

Читать по теме: Как правильно заполнить файл robots.txt: критически важные моменты

Если на сайте есть дубли, можно запретить краулеру их индексировать с помощью директивы:

User-agent: *
Disallow: site.ru/contacts.php?work=225&s=1

Такой способ практически не требует навыков программиста, однако он не подходит, если дублей много: очень много времени уйдет на изменение robots.txt каждого дубля».

Выбирайте способ, исходя из собственных навыков программирования и личных предпочтений, и не давайте поисковикам повод сомневаться в релевантности и качестве вашего сайта.

SEO инструменты для анализа сайта онлайн

Автор Андрей Облаский На чтение 3 мин. Обновлено

Аналитическая работа над сайтом – это залог его успешной оптимизации. Существуют десятки seo параметров для анализа, условно их можно разделить на три категории: внутренний аудит, анализ внешних сео факторов, анализ аудитории.
Внутренний аудит подразумевает исследование таких параметров, как код страниц, скорость загрузки, безопасность, наличие карты сайта и роботс файла и т.д.
Анализ внешний предполагает исследование конкурентов в поисковой системе, качество ссылочной массы, видимость в выдаче поисковиков и т.п.
Анализ аудитории – это исследование данных по поведению пользователей на сайте, конверсии. Рассмотрим эти и другие пункты подробнее.

Код сайта и битые ссылки

Чистота кода на данном этапе считается наиболее важным seo показателем в отношении ранжирования в поисковой выдаче Яндекс или Гугл. Грамотно написанный сайт, хорошая архитектура, отсутствие битых ссылок – это уже серьезная заявка на присутствие в выдаче по конкурентным запросам. Проверить бесплатно код можно с помощью онлайн валидатора (validator.w3.org). Этот инструмент проверяет валидность страниц и дает рекомендации по устранению ошибок, можно осуществлять проверку не только кода, но и css.
Битые ссылки приводят к дезориентации пользователей и снижают трастовость сайта, поэтому избавляться от них в целях оптимизации нужно обязательно, например, с помощью инструмента brokenlinklookup.com

Скорость загрузки

Еще один важный seo показатель – это скорость загрузки сайта. Оценить можно с помощью сервиса pr-cy.ru/speed_test/. Удобен тем, что позволяет сравнить время получения отклика со своего сайта с сайтами-конкурентами. Если у вас установлен счетчик google analytics, в разделе “Поведение” > “Обзор скорости загрузки сайта” можно оценить изменение скорости загрузки сайта по дням.

Дубли страниц

Проверить бесплатно наличие в выдаче дублей можно с помощью онлайн сервиса copyscape.com, программа выведет страницы, дублирующие вбитый вами адрес на материал. Проверить можно и вручную, для этого введите в строку поиска Яндекс или Гугл точную выдержку с сайта в кавычках. Поисковик предоставит вам данные на все страницы, находящиеся у него в индексе, содержащие этот материал. Весь дублирующий контент, кроме оригинала, необходимо закрывать от индексации в роботс-файле или, если это не существенные страницы, избавляться от них.

Структура сайта с точки зрения оптимизации

Если для вашего сайта не существует семантического ядра, в соответствии с которым страницы оптимизированы, он не сможет быть представлен в выдаче поисковиков, а значит, трафика от Яндекс или Гугл на сайт ждать нет смысла. Проанализируйте семантическое ядро, подберите ключевики для тайтлов страниц, рубрик, заголовков статей и самого контента.

Оценка видимости сайта в выдаче

С помощью программы SiteAuditor или онлайн сервиса cy-pr.com проанализируйте сайт с точки зрения видимости в поисковой системе Гугл или Яндекс. Оба сервиса предоставляют возможность увидеть наложены ли фильтры, сколько страниц представлено в выдаче, какие показатели трастовости присвоены, по каким ключам и как ранжируются страницы, какова статистика показов. Эти seo данные дают широкие возможности для дальнейшей работы по увеличению трафика на сайт с поисковиков.

Внешние и внутренние ссылки

Проверить входящие, исходящие и внутренние ссылки можно с помощью инструмента pr-cy.ru/link_extractor/ или на сайте www.megaindex.ru (в разделе “внешние ссылки”). Введя урл сайта, вы получите полный перечень ссылок с «якорями» и текстовым окружением. Выполнять эту работу нужно регулярно, чтобы избежать накопления плохой ссылочной массы, ведущей под фильтр в поисковой системе или снижающей вес страниц самого сайта, что негативно сказывается на темпах продвижения сайта.

Что такое дубли страниц сайта? Как их найти и удалить из выдачи?

Некоторые SEO ошибки критично опасны и могут свести все усилия на нет. Одна из таких — дубли страниц. Они крайне негативно воспринимаются поисковыми роботами и существенно усложняют поисковое продвижение сайта. Поэтому важно убрать дубли страниц на сайте как можно быстрее.

 

Почему это так важно?

 

Когда на веб-сайте есть две одинаковых страницы, поисковики не могут понять, какую из них нужно показывать пользователям по релевантному запросу. И даже учитывая, что боты изучают и другие параметры, им все равно трудно решить, какой из дублей нужно выбирать.

 

Поэтому нужно найти и закрыть дубли страниц сайта, иначе вы столкнетесь с проблемами:

 

  • может снизиться рейтинг всего веб-сайта;
  • снижение позиции ключевых фраз;
  • скачки позиций из-за того, что система постоянно меняет релевантность между несколькими страницами.

 

Виды дубликатов

 

Чтобы эффективно искать дубли страниц и избавляться от них, нужно знать, каких видов они бывают.

 

Существует два типа:

 

  • полные дубликаты — копия страницы, размещенная на разных URL адресах;
  • частичные — дублируется часть содержимого.

 

Полные дубли

 

Это может быть:

 

  • одинаковые страницы по одинаковым URL адресам с www и без;
  • дубли страниц с html и https;
  • копии, созданные из-за реферальных ссылок;
  • проблемы с иерархией разделов, которые генерируют копии;
  • неправильно настроенная страница 404, создающая дубликаты;
  • дубли страниц без слеша в конце url.

 

Частичные дубли

 

Они обычно появляются из-за особенностей системы управления сайтом, и найти их сложнее.

 

Чаще всего это:

 

  • Копии, созданные страницами фильтров, сортировок и пагинации. Например, когда пользователь применяет фильтр товаров, URL адрес немного изменяется, и поисковые роботы индексируют эту страницу как отдельную. Но от смены адреса в данном случае контент не изменился.
  • Блоки комментариев и описаний. Здесь практически та же ситуация — переход к блоку отзывов, например, создает дополнительный параметр в адресе, но страница остается та же.
  • Печать и PDF для загрузки. Такие страницы полностью копируют содержимое веб-сайта.
  • Сгенерированные AJAX слепки страниц.

 

Как обнаружить копии?

 

Можно проверить сайт на ошибки несколькими способами:

 

Промониторить выдачу с помощью оператора “site:”

 

Это метод, позволяющий проверить дубли страниц сайта вручную. Выдачу, отфильтрованную оператором, нужно изучить визуально и выявить копии.

 

Программы

 

Существуют разные инструменты для вебмастеров, позволяющие быстро просканировать веб-сайт. Это может быть проверка сайта на дубли страниц онлайн или с помощью десктопных программ. Они выгрузят полный список адресов, который можно будет затем отсортировать и найти дубликаты.

 

Консоль Google

 

Google Search Console отображает список повторов мета-описаний и тэгов. Они могут быть признаками копий.

 

 

Как избавиться от дубликатов?

 

Первый и самый очевидный метод — удалить дубли страниц со слешем и другими частями URL адреса, которые создают копии. Также можно запретить роботам индексировать дубликаты, дописав условия в файл “robots.txt”. Это сработает со служебными страницами, которые повторяют содержимое основных.

 

Еще одно решение — настроить 301 редирект со страницы-дубля на соответствующую корректную страницу сайта. Это поможет с ошибками в иерархии разделов и reff-метками. Также можно проставить тэг “rel=canonical”, что решит проблему с фильтрами, сортировками и пагинацией. А если у вас на веб-сайте есть версии для печати, блоки с отзывами и другой информацией, воспользуйтесь тегом meta name=»robots» content=»noindex, nofollow». Это позволит скрыть подобные блоки от поисковых ботов.

 

Чаще всего копии создаются самой системой управления сайтом, поэтому лучше, чтобы выявлением дубликатов и их устранением занимался опытный специалист. Наша команда веб-студии Артджокер обладает большим опытом и крепкими знаниями в поисковой оптимизации и продвижении сайтов. Мы сможем обнаружить все ошибки, которые мешают раскрутке вашего ресурса, и исправить их. Также мы составим эффективную стратегию продвижения, которая позволит быстро добиться желаемых результатов.

Как найти дубли страниц на сайте. Проблема дублирования страниц.

Одинаковый контент на страницах – это опасность для любого сайта и серьезная проблема для SEO. Казалось бы, что в этом страшного? Одинаковый контент может привести попасть под санкции систем Яндекс и Google, понизив позиции. Дубли необходимо быстро находить, удалять и не допускать повторных появлений.

Виды дублей

Существует два вида дублей: полные и неполные

Полные дубли

Полные дубли – страницы, полностью повторяющие контент. Они ухудшают ранжирование и к ним плохо относятся поисковые системы.

Фактически, полные дубли – самая частая и серьезная проблема. Обычно, это страница, доступная по нескольким адресам: техническому адресу, через другую категорию, с параметрами в URL. То есть она получилась в результате неправильной настройки CMS.

Пример полного дублирования:

  • https://sobaka.com/index.php?page=catalog
  • https://sobaka.com/catalog

Неполные дубли

Неполные дубли – страницы, выборочно дублирующие фрагменты контента. Их тяжелее обнаружить, особенно если у вас интернет-магазин, где много схожих по описанию товаров. К тому же URL у неполных дублей разный.

В чем опасность дублей?

Скриншот из Яндекс.Вебмастера сайта с серьезными проблемами и дублированием контента.

Наложение санкций

В худшем случае поисковые системы исключают ваш сайт, в лучшем – снизят ранжирование страниц на поиске. Это происходит из-за того, что робот не понимает, что вы ведете технические работы или у вас серьезные проблемы, поэтому плодиться несколько одинаковых страниц. Чем больше таких страниц, тем больше поисковые боты думают, что сайт не достоин быть в выдаче.

Увеличение времени на обход страниц

При множестве дублей робот может так и не добраться до основного контента. Особенно опасно на сайтах, где сотни/тысячи страниц. В поисковике не будет отображаться желаемая страница. Вы вкладываете силы и время на продвижение одной страницы, но это не будет давать должного результата.

Проблема с индексацией

В Яндекс Вебмастере можно увидеть проблему с индексацией. Когда ваши страницы добавляются/удаляются, то в поисковой выдаче нет постоянства. Дубли сменяют друг друга и не успевают набрать достаточного веса, чтобы показываться по поисковым запросам.

Низкие позиции в поисковых системах

Страницы с одинаковым контентом отвечают на одинаковые запросы. Поисковая система не может определиться, что важней, а в худшем случае, вообще не покажет никакую. Ведь есть сайты конкурентов с конкретными страницами, отвечающими на данный запрос.

Причины возникновения дублей

  1. CMS “плодит” дубли – самая распространенная проблема. Например, материал был написан для нескольких рубрик, но их домены входят в адрес сайта. Возникает следующая ошибка:
    1. sobaka.site.com/number1/info
    2. sobaka.site.com/number2/info
  2. Невнимательность так же может привести к дублям. Например, если вы просто скопировали страницу и забыли запретить индексирование на вторую.
  3. Технические разделы могут возникнуть из-за CMS. Например, когда на сайте есть разделы, фильтры, каталоги и подкаталоги. На Bitrix или Joomla могут сгенерироваться сайты с одной и той же информацией.
  4. В интернет-магазинах товар часто находится в нескольких категория и доступен по разным URL:
    1. magazin.com/category1/product1
    2. magazin.com/category1/subcategory1/product1
    3. magazin.com/product1/
    4. magazin.com/category2/product1
  5. Технические ошибки возникают при ошибочной генерации ссылок и настройках в разных CMS случаются ошибки, которые приводят к дублированию страниц. Может произойти зацикливание: sobaka.com/tools/tools/tools/…/…/…

Ошибка:

  • sobaka.com/rubric.php
  • sobaka.com/rubric.php?ajax=Y

Поиск дублей страниц

Ручной поиск
  1. Первое, что можно сделать для быстрого обнаружения – сделать поиск по запросу «site:ваш сайт» в Яндекс/Google и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.
  2. Конкретно для систем Google можно воспользоваться расширенным поиском. Необходимо ввести сайт с конкретной страницей – гугл выдаст дубли страниц. Так проходим по каждой странице на сайте.
  3. Еще один надежный способ обнаружения – ручной ввод возможных адресов сайта. На практике выглядит так:
  4. Берем страницу сайта sobaka.com/blog и подставляем php, html, index.php, index.html или просто слэш.

Яндекс Вебмастер

Простой способ найти дубли через Яндекс Вебмастер

  1. Переходим в Вебмастер и нажимаем СТРАНИЦЫ В ПОИСКЕ
  2. Выбираем ПОСЛЕДНИЕ ИЗМЕНЕНИЯ
  3. Выгружаем архив – смотрим на статус страниц. Если обнаружен дубль, тогда вы увидите DUPLICATE.
Поиск дублей через Яндекс Вебмастер

Можно не выгружать, а воспользоваться фильтром прямо в Яндекс.Вебмастер и просматривать существующие дубли прямо в браузере онлайн.

Выбираем фильтр по статусу «Дубль»

Google Search Console

Через Google Search Console дубликаты можно увидеть еще быстрее.

  1. Заходим на вкладку ПОКРЫТИЕ
  2. Выбираем ИСКЛЮЧЕННЫЕ и смотрим на сведения
  3. В списке будут указаны страницы, которые являются копией.
Поиск дублей через Google Console

Как избавиться от дублей

Естественно, все зависит от движка, который вы используете. В большинстве случаев следует применять следующие действия.

  • Скрыть дубли от поисковых роботов (одна страница = одна ссылка), и исключить все остальные варианты страниц.
  • Настройка Redirect 301 всех вариантов на одну существующую страницу.
  • Запретить индексацию адресам с GET-параметрами в robot.txt
  • Поставить re=canonical для страниц фильтров, каталогов, пагинцаций и т.п

Программы и сервисы для нахождения дублей

Рассмотрим популярные программы и сервисы для проверки дублей онлайн или на своем компьютере.

Парсер проиндексированных страниц от PromoPult

https://promopult.ru/tools/indexing_analysis.html

Интерфейс сервиса проверки проиндексированных страниц

Сервис позволяет быстро сопоставлять проиндексированные страницы Яндекса и Google.

Сервис Apollon

https://apollon.guru/

Проверяем предыдущий сервис на варианты дублей. Оказалось много!

Сервис позволяет быстро находить дубли с помощью перебора распространенных вариантов дублирования и показывает, на какую страницу происходит редирект.

Сервис Siteliner

https://www.siteliner.com/

Проверка в сервисе Siteliner

Сервис проверяет сайт на дубли онлайн и показывает количество оригинального контента и дублированного. Так же можно скачать полный список проиндексированных страниц.

Бесплатная тариф дает проверить 250 самых важных страниц вашего веб-сайта на основе внутренней структуры ссылок. Этого достаточно для большинства сайтов малого бизнеса и самостоятельной проверки.

Программа XENU

http://home.snafu.de/tilman/xenulink.html

Скриншот сканирования в программе Xenu

Через XENU можно провести проверку сайта и найти дубликаты страниц. Достаточно просто ввести URL. XENU найдет полные и частичные дубли сайта. Программа очень старая и не обновляется, но со своей работой справляется. Полностью бесплатна, легко сканирует большие сайты.

Программа Screaming Frog SEO Spider

www.screamingfrog.co.uk/seo-spider/

Найдены полные и частичные дубли страниц.

«Лягушка» — мощный инструмент для SEO-оптимизаторов . Сканирование 500 страниц происходит бесплатно, остальное – требует платной подписки. Находит полные и частичные дубли, но это всего лишь маленькая доля полезных вещий, которые позволяет делать программа.

Выводы

Дублирование страниц — серьезная проблема, особенно если сайт находится на SEO-продвижении. Это не надуманная проблема и в кабинетах вебмастеров Яндекс и Гугл есть предупреждения о дублировании контента.

Дубли можно легко найти с помощью программ. Если это технические страницы, то их желательно удалить. Если страницы важны для пользователя, то можно просто закрыть от индексации.

Самые простой способ перестраховаться от дублирования страниц — это использование метатега Canonical для указания основного адреса.

Как найти дубли страниц на сайте, как удалить, что это

     Дубли страниц – полный или частичный контент расположенный по двум адресам одновременно. Рассмотрим, почему они опасны для продвижения ресурса, как найти дубли страниц на сайте, удалить их с ресурса.

 

Копии страниц, как появляются?

     С проблемой дублей страниц сталкиваются многие сайты. Часто они встречаются в онлайн магазинах. Дубли страниц – это страницы, имеющие одинаковый контент, но разные урлы. Смотрите, как это выглядит:

     Проблема появляется из-за того, что тайтлы и дескрипшены никто не меняет. Поисковые системы на дубли реагируют негативно. Если в магазине стоит сортирока sort=alf, количество копий страниц значительно вырастает.

 

Зачем удалять дубли с сайта?

     Поисковые роботы делают индексацию по своим алгоритмам. Пользователь ищет определённую информацию, на сайте есть несколько вариантов с одинаковым контентом. Какая страница самая главная, и пойдёт на первом месте? Боты не понимают.

     В результате внутренний вес страницы снижается, сайт теряет траст, и хуже продвигается. Первое, что нужно сделать в случае подозрений, что имеются копии — проверка сайта на дубли страниц. Это делается инструментами вебмастера или специальными программами.

 

Проверка сайта на дубликаты страниц, чем делается?

     Анализ реальных, будущих страниц сайта входит в комплекс работ по продвижению ресурса. Поиск дублей страниц делается следующими сервисами:

  • Сканеры программы: Xenu, Netpeak spider. Они имеют небольшой минус. Если нет ссылки на страницу в доступе, программа её не видит;
  • Онлайн сервисы. В сети существуют платные сервисы по анализу сайтов. Бесплатные аналоги имеют ограничение функций. Оптимальный вариант проверки: Яндекс и Гугл вебмастер;
  • Проверяем по запросам. Проверку дублей можно делать своими руками, вбивая страницы в поиск и отслеживая повторяющиеся заголовки. Смотрите на рисунок: Под понятием urlsite.ru стоит понимать свой сайт;
  • Проверяем потенциальные копии. Удаление дублей страниц, пусть даже потенциальных, обязательная мера. Конкуренция в выдаче есть всегда. Вас могут подставить, купив ссылки на не проиндексированные копии страниц вашего сайта. Для продвижения такая ситуация – практически катастрофа. Лучше сразу найти дубликаты страниц на сайте и удалить их своими руками.

Как удалить дубли страниц на сайте, варианты?

     Удаление дублей при использовании разных CMS, имеет свою специфику. Рассмотрим, что можно сделать в каждом случае.

 

Дубли страниц wordpress, что делать?

     Алгоритм работы простой:

  1. Проверьте, настроены ли у вас редиректы. Их нужно настраивать со страниц с адресом www на странички без этой приставки. Или же редирект настраивается наоборот.
  2. Проверьте работу плагина All in One SEO Pack, в нём должна стоять галочка Канонические урлы.
  3. Проверьте настойки роботс. Многие проблемы начинаются с его недоработок.
  4. Просмотрите наличие дублей страниц такого типа, как на рисунке:  С каждым из этих понятий связана определённая техническая возможность. Перед тем, как удалить проиндексированы страницы дубли сайта, проверьте их с помощью site.

     Проработайте все настройки, обратите внимание на разделы комментарии, каталоги и рубрики. На wordpress дубликат страниц устраняется достаточно просто.

 

Дубли страниц joomla 3, что делать?

     Движки генерируют большое количество копий страниц, так случается. С joomla дубли страниц удаляются довольно просто.

     На сайт устанавливается расширение SEF Wizard, которое сделает работу вместо вас. Расширение удаляет ID лишних урлов, таких как com_content,  com_tags  и com_contact.

     С помощью проги настраивается редирект 301 на нужные страницы или же пользователю будет выдавать 404 ошибку вместо копии. Находится инструмент на официальном сайте Джумла, откуда и скачивается.

     Включается плагин следующим путём: Админ панель. Ищем «Компоненты», выбираем SEF Wizard и пользуемся в работе.

 

Opencart дубли страниц, как удалить?

     В опен карт больше всего проблем создают копии главной страницы. Что такое дубли страниц на сайте? Одна и та же информация, которая располагается под разным адресом.

     Избавиться от проблемы можно, используя редактирование файла .htaccess. В его конце прописываем код, как на рисунке, только вместо чужого домена прописываем домен своего сайта. Проблем с дублями страниц на опенкарте у вас не будет.

 

Резюме в таблице

1. Что такое дубли страниц на сайте?Одинаковый контент, находящийся по разным адресам
2. Чем опасны дубли?Наличие дублей страниц на сайте приводит к понижению его в позициях, усложняет продвижение
3. Как избавиться от проблемы?Используйте плагины, сделайте анализ сайта. При наличии копий страниц воспользуйтесь инструкциями выше

Как найти дубли страниц: обзор рабочих способов

Чем опасны дубликаты страниц, какими они бывают и откуда берутся, как их удалить и организовать контроль в дальнейшем?

Представьте два одинаковых апельсина, какой из них больше отвечают ключевой фразе «внешний вид апельсина»? В той же ситуации оказываются Яндекс и Google, когда сталкиваются с дубликатами. В результате падает трафик, наблюдаются скачки по ключевым запросам, ухудшается ранжирование, понижается место в выдаче. Негативные моменты можно перечислять долго, но все они лишь демонстрируют опасность дублей. С этим явлением нужно бороться и сразу пресекать, пока ситуацию можно поправить без существенной потери позиций.

Виды дубликатов

Чтобы впредь не допускать ошибок, вызванных не достаточным уровнем подготовки, рассмотрим какие существуют дубликаты:

  1. Полный дубль – одна и та же информация размещается по нескольким URL.
  2. Частичный дубль – повторяется только часть контента.

Из этого следует два вывода:

  • при создании каждой страницы необходимо использовать полностью уникальные тексты, копирование информации не допускается;
  • чтобы найти полные и частичные дубликаты нужно использовать разные методики.

6 причин возникновения полных дублей

  1. Не выбрано главное зеркало, соответственно поисковики пытаются индексировать как версию с приставкой www, так и без нее.
  2. Запись о главной странице может содержаться одновременно в нескольких директориях, например, index, index/, index.php, index.php/, index.html, index.html/. Необходимо установить основной URL, а другие адреса закрыть от индексации.
  3. Реферальные ссылки формата ?ref=… должны использовать корректный 301 редирект, но часто это правило игнорируется, в результате создается дубль.
  4. Неправильная иерархия, когда одна и та же страница доступна как в каталоге, так и в отдельной директории.
  5. Ошибки при настройке страницы 404 или бесконечные дубли, когда код выдает бесконечное множество ссылок типа: http://mysite.com/набор_латиницы.
  6. Ошибки в работе utm и gclid, в результате которых создаются копии страниц с этими метками и без них.

Полные дубли в лучшем случае понизят ранжирование отдельных страниц, а в худшем приведут к санкциям со стороны поисковиков. В последствии выйти из-под фильтра будет проблематично.

Откуда берутся частичные дубли

Частичные дубли не наносят на столько сильного вреда, но в долгосрочной перспективе могут оказать еще более пагубное воздействие на сайт. Распространенные причины:

  1. Настройка фильтрации и страниц пагинации без использования скриптов. В этом случае при переходе с основной страницы категории на вторую, третью или десятую, происходит дублирование метаданных:
  1. Описанная проблема характерна и для отзывов. Если не используются скрипты или плагины происходит создание нового URL, при этом вся остальная информация, кроме самого текста отзыва, дублируется с материнской страницы.
  2. PDF версии страниц также дублируют весь SEO контент при этом создают новые URL. Более того, на них присутствуют текст и графические материалы, что приближает их полным дублям.
  3. HTML слепки AJAX. Использование этой технологии предполагает перенаправление ботов на HTML страницы, если при внедрении технологии допущены ошибки кода, роботы будут обрабатывать две страницы вместо одной.

Инструментарий

  1. Команда site:url_главной. Позволяет визуально оценить поисковую выдачу и посмотреть какие страницы дублируются. Подходит только для проектов до нескольких десятков URL.
  1. Для машинного поиска используйте: Seo Spider, Netpeak Spider или Xenu. Приложения запускают на сайт поисковых ботов, которые индексируют все страницы сайта и сравнивают их по метаданным, выявляя дубли.
  1. Поисковая Консоль Google показывает количество страниц с потенциальными дублями по SEO-заголовкам. Это быстрый способ проверить есть ли проблемы.
  1. Ручной поиск хотя и является своего рода демонстрацией профессионализма SEO, но носит показательный характер. Особенно, если проверить нужно большой проект с тысячами страниц.

Способы борьбы с дублями страниц

Процедура сводится к выполнению всего 5 простых действий, для которых не нужны глубокие познания в программировании или специализированные навыки. Каждый вариант сам по себе решает часть проблем, но применять нужно все в совокупности, чтобы не только решить текущие проблемы, но и оградится от них в дальнейшем.

  1. Аннигиляция – просто удалите статичные дубли страниц, актуально для полных дубликатов.
  2. Запрет индексации через robots.txt позволяет исключить служебные страницы из общей поисковой выдачи.
  1. Корректировка ассоциации 301 редиректов в системном файле htaccess, позволяет устранить проблемы с иерархией.
  2. Использование rel=canonical для закрепления канонических страниц и запрета создания частичных дубликатов при пагинации, фильтрации, использовании utm и gclid.
  1. Табы с отзывами и печатные версии страниц выкидываются из поиска путем закрытия от индексации тегами nofollow или noindex. Яндекс и Google по-разному реагируют на команды, поэтому корректность работы проверьте вручную.

Хотя дубликаты способны нанести непоправимый ущерб, их выявление не составляет больших проблем. Достаточно один раз правильно настроить системные файлы и скрипты, и раз в неделю выполнять системную диагностику на предмет сбоев. Этот нехитрый способ гарантирует полное уничтожение дублей и предохранит от их появления в будущем.

Автор: София Лупол

чем плохи дубликаты, как найти и удалить

 

Дубли страниц — весьма распространенная SEO-ошибка, которая может возникать вследствие некорректных настроек CMS, изменения структуры сайта и ошибок, допущенных вебмастерами. Наличие дубликатов может повлечь за собой серьезные последствия и свести все усилия, связанные с продвижением веб-проекта, на нет. В текущей статье мы рассмотрим, чем плохи дубли страниц, как найти их и убрать.

Что такое дубли страниц сайта и почему от них нужно избавиться

Дубли страниц — это определенные страницы сайта, содержащие частично или полностью одинаковый контент.

По сути, это два или больше уникальных URL-адреса с одинаковым или отчасти повторяющимся содержанием.

Чем плохи дубли страниц? Когда на сайте есть несколько одинаковых страниц, поисковые системы не могут понять, какую из них нужно показывать пользователям по релевантному запросу. Вследствие вместо приоритетных страниц в основном поиске могут оказаться дубли, которые наоборот нужно убрать из сайта и исключить из поиска.

Если ничего не предпринимать и оставить все на самотек, понадеявшись на алгоритмы поисковых систем, последствия могут быть очень серьезными:

  • Проблемы с индексацией. Допустим, вы владелец интернет-магазина с несколькими тысячами страниц, на каждую из которых из-за неправильных настроек системы управления сайтом автоматически генерируется по одному дубликату. При таких обстоятельствах общий размер сайта увеличивается, а количество страниц, которые поисковый робот может просканировать на сайте за один раз, остается прежним. Таким образом во время очередного визита новые нужные страницы могут остаться не у дел.
  • Изменения релевантной страницы в выдаче. Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.
  • Неправильное распределение внутреннего ссылочного веса. В процессе наполнения сайта очень важно связывать страницы между собой, делать так называемую внутреннюю перелинковку. Правильная внутренняя перелинковка положительно влияет на поведенческие факторы, качество индексации, распределение статического и динамического веса между страницами. Однако, если изменить структуру проекта, образуются неправильные внутренние ссылки, ведущие на страницы (дубли), которые поисковики могут посчитать более значимыми.
  • Потеря естественной внешней ссылочной массы. Если опубликованный на вашем ресурсе материал будет действительно интересным и полезным, есть вероятность того, что пользователь захочет поделиться им с друзьями. Как мы знаем, получение естественных ссылок — сложный процесс, требующий внимания к деталям, анализа множественных факторов, знаний и навыков. Кроме того — это дорого (если задачу поручить линкбилдеру) и времязатратно (если заниматься этим самому). И тут вдруг вашим контентом хотят безвозмездно поделиться. Стоит ли пренебрегать такой возможностью?

Статья по теме: Что такое крауд-маркетинг, кому он нужен и где его заказать

Очевидно, дубликаты страниц на сайте оказывают негативное влияния на продвижение, следовательно, этому вопросу нужно уделять должное внимание.

Виды дублей

Как выше уже было сказано, дубликаты страниц бывают двух типов: полные и частичные.

Полные дубли

Полные дубли — страницы с полностью одинаковым контентом, доступные по разным URL.

Чтобы было проще ориентироваться, рассмотрим самые распространенные полные дубли страниц:

  • Версия с/без www. Возникает, если пользователь не указал главное зеркало — адрес, который участвует в результатах поиска.

https//www.site.com

https//site.com

  • Дубли страниц с html и https протоколом.

http//site.com

https//site.com

  • Дубли страниц с и без слеша «/» в конце URL.

https//site.com

https//site.com/

  • Страницы с и без суффиксов index.php, index.html, home.php, home.html.

https://site.com

https://site.com/index.php

https://site.com /index.html

https://site.com/home.php

https://site.com/home.html

  • Проблемы с иерархией разделов, которые генерируют копии.

https://site.com/catalog/dir/products

https://site.com/catalog/products

https://site.com/products

https://site.com/dir/products

  • URL-адреса страниц в верхнем и нижнем регистрах.

https://site.com/category

https://site.com/CATEGORY

https://site.com/Category

  • Дополнительные UTM-метки, которые используются, чтобы передавать данные для анализа рекламы и источника переходов. Создаются с помощью генератора UTM, либо просто руками. Всё зависит от того, какие именно переходы вам нужно отслеживать. Добавляются в конце URL через знак вопроса «?».

https://site.com/winter_sale?utm_source=google&utm_medium=search&utm_campaign=zhenskie-hudi&utm_content=ad1&utm_term=zhenskie-hudi-s-kapyushonom

  • Страницы с GET-параметрами. Позволяют передать определенные показатели, например, номер товара или номер заказа. В URL-адресе обязательно содержится знак «?», после которого следует GET-параметр. Если интернет-магазин отдает ответ с кодом 200 на любые GET-параметры, которые не определены заранее, возникают дубли.

https://site.com/products/man/shirts/blue

https://site.com/products/man?category=shirts&color=blue

  • Неправильно настроенная страница 404 приводит к появлению дублей.

https://site.com/gun-50381-gun

https://site.com/1897-???

Учтите, на месте выделенного текста могут быть любые другие символы.

  • Непереведенные языковые версии или неправильная их реализация.

https://site.com/category/accessories

https://site.com/en/category/accessories

  • Первая страница пагинации каталога товаров интернет-магазина или доски объявлений, блога. Она зачастую соответствует странице категории или общей странице раздела pageall.

https://site.com/catalog

https://site.com/catalog/page1

  • Множественное добавление слешей «/////////» в конце URL и между вложенностями.

https://site.com/catalog/product

https://site.com/catalog/product//////

https://site.com/catalog//////product

Полные дубли обычно возникают по нескольким причинам:

  • Технические ошибки в CMS, а также неправильные настройки, из-за которых образовываются синонимы в окончаниях названия URL.
  • Некорректный переход на HTTPS протокол. Если внести изменения и не указать поисковикам об этом, идентичный контент будет отображаться по двум протоколам.
  • Редизайн, изменения в структуре, перенос сайта на другую CMS. Все это приводит к смене адресов, однако старые страницы могут оставаться доступными.

Частичные дубли

Частичные дубли — страницы с похожим контентом и общей семантикой, которые решают одни и те же задачи пользователей, но не являются полными дублями.

Найти их гораздо сложнее чем предыдущие, однако и проблем они доставляют меньше.

Чаще всего это:

  • Дубли на страницах фильтров, сортировок, поиска и пагинации.
 

    Например, постраничная навигация, формирующаяся на страницах, где размещено большое количество информационных постов, карточек товаров, обсуждений на форумах и т. д. URL-адрес немного изменяется, но title и description остаются прежними.

https://site.com

https://site.com/page/2

  • Дубли на страницах отзывов, комментариев, характеристик. Например, страницы с комментариями, где создается дополнительный параметр в адресе, но контент остается прежним.

https://site.com/category/t-shirts

https://site.com/category/t-shirts?razmer=1

  • Дубли на карточках товаров и страницах категорий (каталогов). Частыми виновниками возникновения дублей являются одинаковые описания товаров, оставленные на общей странице товаров в каталоге и на отдельных страницах карточек товаров. Например, в каталоге на странице категории под каждым товаром есть фрагмент описания товара (смотрите скриншот).
  • Наличие версии для печати, PDF для скачивания, полностью соответствующей основным страницам.

https://site.com/blog/design

https://site.com/blog/design/print

  • Сгенерированные AJAX слепки страниц.

https://site.com/#/page

https://site.com/?escaped_fragment_=/page

  • Синонимические текстовые дубли, которые возникают из-за неправильной группировки ключевых слов. Ситуация довольно распространённая при наполнении e-commerce проектов, когда одинаковые товары или услуги описываются с помощью синонимов. В результате в рамках одного сайта публикуется несколько страниц с одинаковым смыслом, но при этом их URL, title, description и h2 отличаются. Например, на сайте есть статья «10 преимуществ шугаринга», где расписаны достоинства данной процедуры, и отдельная статья «Плюсы шугаринга». Скорее всего информация в материалах будет пересекаться или, еще хуже, повторяться и правильнее было бы написать одну объёмную статью на эту тему.

Частичные дубли обычно возникают по нескольким причинам:

  • Неправильная настройка или осознанные действия в оформлении страниц. Например, в интернет-магазине используется одинаковый текст для описания различных товаров.
  • Ошибки при внедрении фильтра по каталогу. Распространенной является ситуация, при которой страницы товаров, отличающихся лишь одним параметром (цвет, размер), становятся дубликатами.
  • Одинаковый контент на всех страницах из-за неправильной структуры.
  • Умышленное дублирование, когда частичные дубли создают намеренно, чтобы ранжироваться по похожим запросам на разных страницах.

Как найти дубли страниц

Итак, мы уже выяснили, что такое дубли, какими они бывают и какое влияние они оказывают на поисковое продвижение. Самое время поговорить о том, как их обнаружить. Поиск дублей страниц осуществляется ручным способом или с помощью специальных программ и онлайн-сервисов.

Проверка дублей страниц ручным способом

Ручной мониторинг выдачи целесообразно применять при анализе небольших проектов (до 200 страниц). Чтобы узнать количество проиндексированных страниц, используйте оператор «site:».

Для этого в поисковой строке, например Google, пропишите запрос:

site:yoursite.com

Разумеется, вместо «yoursite.com» нужно указать доменное имя вашего сайта, иначе вы запросите проверку индекса западной площадки по созданию сайтов Yoursite.com 🙂

После отображения результатов общего индекса нужно внимательно изучить их на наличие копий. Обратите внимание на то, что Google показывает примерные результаты, т. е. в действительности цифры могут отличаться.

На последней странице результатов поиска вы увидите ссылку «Показать скрытые результаты». Нажмите на нее, чтобы ознакомиться с результатами, которые Google счел очень похожими на те, которые он привел выше. В ходе анализа обратите внимание на необычные заголовки и URL-адреса страниц, которые вызывают подозрение.

Чтобы сравнить результаты общего индекса с основным, добавьте в конце команды амперсанд «&»:

site:yoursite.com/&

Сопоставив разницу между двумя результатами, можно определить, какое количество страниц находится в дополнительном индексе.

Если вы хотите проверить коммерческий веб-проект (интернет-магазин, сайт услуг) на наличие дублей страниц в блоге, используйте оператор:

site:yoursite.com/blog

Выявить ошибки индексации на страницах рубрик WordPress поможет команда:

site:yoursite.com/category

Если у вас есть подозрения, что какая-то конкретная страница имеет дубли, используйте оператор:

site:yoursite.com «Фрагмент текста со страницы, которая вызывает подозрения»

О том, что данная страница почти наверняка имеет дубли говорит несколько результатов в выдаче.

Проверить страницы на совпадающие заголовки поможет команда:

site:yoursite.com intitle:ваш title

На сайте могут быть тысячи страниц, а поэтому выполнить их анализ надлежащим образом даже при самом огромном желании, используя всего лишь поисковые операторы — задача практически невыполнимая. Гораздо умнее, быстрее и проще воспользоваться специальными онлайн сервисами и десктопными программами, о которых мы поговорим ниже.

Проверка дублей страниц с помощью сервиса «Яндекс.Вебмастер»

О том, что такое «Яндекс.Вебмастер» и как добавить туда сайт, написано сотни текстов. Мы не станем повторяться и расскажем куда нужно зайти и на что обратить внимание, чтобы обнаружить дубли страниц сайта.

Итак, последовательность действий такова:

  • перейдите во вкладку «Индексирование»;
  • выберите подкатегорию «Страницы в поиске»;
  • нажмите по ссылке «Исключенные».

Обратите внимание на желтые цифры, расположенные возле статуса «Дубль». Это, по мнению «Яндекса», и есть копии. Наведите курсор мыши на гистограмму, чтобы ознакомиться с историей изменений поисковой выдачи.

Поиск дублей страниц онлайн

Apollon

Бесплатный, простой в использовании сервис, предоставляющий возможность проверить сайт на дубли онлайн. Все что нужно — перейти по ссылке, в соответствующем поле указать URL-адрес, нажать кнопку «Отправить» и немного подождать.

Вы можете ввести до пяти URL (каждый с новой строки), что очень удобно при анализе крупных интернет-магазинов, когда нужно выполнить анализ главной страницы, страницы категорий, товаров, целевых и служебных страниц (карта, с указанием местоположения, оплата, доставка и т. д.).

Процесс обработки данных занимает несколько секунд. В итоге вы получите пять удобных таблиц (при условии добавления пяти URL, как в нашем примере) с подробной информацией о каждом адресе.

Чтобы было проще обнаружить отличия можно отметить чекбокс «Показать отличия от проверяемого URL».

Ознакомившись с вышеуказанным примером можно прийти к заключению, что на сайте присутствуют дубли с суффиксами home, home.php и home.html, которые обязательно нужно удалить.

Для информационных и новостных порталов можно проверить, например, дубли главной страницы, страницы разделов и тегов, отдельных информационных публикаций или новостей и служебных страниц (контакты, карта сайта, страница FAQ).

SE Ranking

SEO платформа с широким функционалом, оснащенная всевозможными инструментами для SEO и онлайн-маркетинга. Сервис платный, но есть бесплатный 14-дневный триал, которого будет достаточно, чтобы проверить дубли страниц и принять соответствующие меры. Сервис позволяет проверить наличие у сайта зеркала с «www» или без «www» в адресе, обнаружить страницы с одинаковым контентом и дублирующимися метатегами title и description, которые могут быть признаками копий.

Для детального ознакомления с проблемой, кликните по ссылке с выпадающим текстом «Подробнее». В нашем примере решение проблемы — 301 редирект в файле .htaccess, который расположен в корневой директории вашего сайта. Кто не знает, под корневой директорией подразумевается папка (каталог), в которой находятся все файлы ресурса.

Итак, чтобы воспользоваться сервисом SE Ranking, перейдите по ссылке, пройдите регистрацию и добавьте свой проект. Чтобы было проще разобраться, мы подготовили для вас подробную пошаговую инструкцию.

Дальнейшие действия сводятся к нескольким простым шагам:

    1. Перейдите на вкладку «Анализ сайта».

    1. Выберите добавленный ранее проект.

    1. Запустите проверку или ознакомьтесь с результатами, которые появятся в течение кратчайшего времени (зависит от размеров проекта) при условии, что в процессе его добавления и настроек переключатель «Анализ сайта» остался включенным.

      Известие об завершении анализа вы получите на E-mail, указанный при регистрации. Как видно со скриншота, в процессе анализа SE Ranking обнаружил 92 страницы с дублирующимся title.

  1. Нажмите на значок в виде ссылки, чтобы посмотреть на каких URL расположены одинаковые метатеги title.

Поиск дублей страниц с помощью программ

Если по каким-то причинам проверка сайта на дубли страниц онлайн вас не устраивает, можно выполнить их поиск с помощью стационарных программ.

Netpeak Spider

Замечательная программа, которая есть на «вооружении» у многих агентств интернет-маркетинга и SEO-компаний. В первой половине октября 2020 года стала доступной бесплатная версия Netpeak Spider, в которой доступен практически весь функционал без ограничений по времени использования, количеству URL и с возможностью кастомизации настроек. Если раньше после окончания пробного периода и/или окончания платного тарифа, доступ к программе был заблокирован, то теперь вы можете беспрепятственно открыть краулер и продолжить пользоваться его инструментами без подписки!

Что касается ограничений, то в бесплатной версии нет возможности экспортировать отчёты, копировать и фильтровать данные, сохранять проекты и использовать дополнительные фичи. Получается, что даже если в результате анализа в ошибках отобразятся дубли, в бесплатной версии программы придется анализировать вкладку «Все результаты», чтобы посмотреть, какие URL являются копиями, так как отфильтровать данные не получится.

На момент написания этой статьи анализатор умел определять более 100 ключевых ошибок внутренней оптимизации, включая:

  • битые страницы;
  • дубликаты текста;
  • дубликаты title, description и h2;
  • битый редирект;
  • большое время ответа сервера и т. д.

О том, как пользоваться программой Netpeak Spider, у нас написано подробное наглядное руководство. Переходите по вышеприведенной ссылке, изучайте информацию и берите статью в закладки, чтобы не потерять.

Вкратце:

    1. Посетите сайт разработчика, пройдите регистрацию и установите на компьютер Netpeak Launcher — десктопную программу для управления продуктами Netpeak Software.
    2. Запустите Netpeak Launcher и установите через нее Netpeak Spider (вместо «Запустить» у вас будет «Установить»).

    1. Запустите анализатор, вставьте в поле URL-адрес, который вы намереваетесь проверить, после чего нажмите кнопку «Старт».

  1. Обратите внимание на правую область программы, где расположены отчеты проверки, с которыми можно более подробно ознакомиться. Для этого наведите курсор мыши на ошибку и кликните по ней левой кнопкой мыши.

Полезное: Как проверить сайт на SEO-ошибки

Xenu

Xenu’s Link Sleuth — 100 % бесплатная программа для внутреннего технического аудита, которая умеет определять битые ссылки, дубли страниц, распознавать скрытые внешние ссылки, а также ссылки, возвращающие редирект. Отсутствие русского языка — пожалуй единственный ее недостаток.

Для скачивания программы, перейдите на сайт разработчика и нажмите «download».

Откройте скачанную на ПК ZIP-папку и нажмите «Setup», чтобы продолжить установку.

Чтобы проверить сайт на дубли страниц с помощью Xenu, следуйте дальнейшей инструкции:

  1. Запустите программу, закройте модальное окно («Close») и нажмите по ярлыку, напоминающему изображение файла.

  1. Укажите URL-адрес проекта.

  1. Дождитесь окончания сканирования. Выберите «Да», если хотите открыть отчет локально в окне браузера, «Нет», если планируете продолжить работу в пользовательском интерфейсе программы.

  1. Ознакомьтесь с результатами. В процессе анализа обратите внимание на повторяющиеся заголовки и мета-описания, которые могут указывать на дубли страниц.

Полезное: Раскрутка сайта самостоятельно: полный пошаговый гайд по продвижению

Как удалить дубли страниц

После обнаружения дублей, первое, что необходимо сделать — найти причину, из-за которой они появляются, и постараться ее устранить.

Выделяют четыре основных метода удаления дублей:

  1. <meta name=»robots» content=»noindex»>;
  2. 301 редирект;
  3. rel=»canonical»;
  4. robots.txt.

Метатег robots

Позволяет задать роботам правила загрузки и индексирования определенных страниц сайта. Учитывается поисковой системой «Яндекс» и Google.

Метатег <meta name=»robots» content=»noindex» /> следует разместить в HTML-коде дублирующихся страниц в разделе <head>.

Пример:

<!DOCTYPE html>
<html><head>
<meta name=»robots» content=»noindex» />
(…)
</head>
<body>(…)</body>
</html>

Заданное для атрибута content значение noindex запрещает поисковым системам показывать страницу в результатах поиска.

Больше информации о специфике и применении метатега robots вы найдете в справочных материалах Google и «Яндекс».

301 редирект

Несомненно, один из самых действенных и известных методов устранения дублей, который позволяет автоматически перенаправить пользователей с одной страницы на другую. 301 редирект говорит поисковым системам о том, что старый URL-адрес имеет новый путь на постоянной основе. Со временем два или больше документа «склеиваются» в один, на который ведет перенаправление.(.*)$ http://%1/$1 [R=301,L]

Переадресация с одной статической страницы на другую осуществляется за счет добавления строки:

Redirect 301 /old-page http://yoursite.com/new-page

где:

  • old-page — страница, с которой происходит редирект;
  • new-page — страница, на которую установлен редирект.

Атрибут rel=»canonical»

Укажите каноническую страницу, чтобы показать поисковым системам, какую страницу нужно индексировать при пагинации, сортировке, попадании в URL GET-параметров и UTM-меток. Этот способ уместен, когда удалять страницу нельзя и её нужно оставить открытой для просмотра. Учитывается поисковой системой «Яндекс» и Google.

Указывая каноническую ссылку, мы указываем адрес страницы, предпочтительной для индексации. Атрибут rel=»canonical» нужно прописать между тегами <head>…</head> на всех страницах, которые являются дублями.

Например, страница доступна по двум адресам: yoursite.com/pages?id=2 и yoursite.com/blog.

Если предпочитаемый URL — /blog, добавьте в HTML-код страницы /pages?id=2 элемент link:

<link rel=»canonical» href=»http://www.example.com/blog»/>

Больше информации о специфике применения атрибута rel=»canonical» вы найдете в справочных материалах Google и «Яндекс».

Файл robots.txt

Еще одно решение — запретить роботам индексировать дубликаты, дописав в файл robots.txt директиву Disallow. Чаще всего используется в тех случаях, когда нужно запретить индексацию служебных страниц и дублей.

Например, закрыть страницы пагинации от индексации Joomla поможет:

Учтите, директивы в robots.txt носят рекомендательный характер и могут быть проигнорированы поисковыми роботами, но как правило, они учитывают данное указание.

Итог

Дубли страниц — проблема из разряда «крупногабаритных и тяжеловесных». Если вовремя не отреагировать, все дальнейшие усилия по продвижения могут быть сведены на нет. Надеемся, представленные в этой статье методы помогут оптимизировать ваш ресурс и занять топовые места в поисковой выдачи.

Обнаружили в тексте грамматическую ошибку? Пожалуйста, сообщите об этом администратору: выделите текст и нажмите сочетание горячих клавиш Ctrl+Enter

 

Не ленитесь, поделитесь!

Понравилась статья? Угостите админа кофе.

Средство проверки дублированного содержимого / средство обнаружения плагиата

Средство проверки дублированного содержимого / обнаружение плагиата.

Обновления: 1. Средство проверки дублированного содержимого теперь также может обрабатывать ввод обычного текста, помимо ввода URL. 2. Щелкнув поле расширенных параметров, вы можете выбрать вариант поиска дублирующегося содержимого на основе нескольких точек данных (выделение текста). 3. И я изменил способ представления возвращаемых результатов.

Используйте средство проверки дублированного контента, чтобы найти внутренний и внешний дублированный контент для определенной веб-страницы.Дублированный контент — важная проблема SEO, потому что поисковые системы стараются отфильтровать как можно больше дубликатов, чтобы обеспечить лучший поиск. Этот инструмент может обнаруживать два типа (текстового) повторяющегося контента. Типы дублированного контента:

  1. Внутренний дублированный контент. Это означает, что один и тот же текст находится на нескольких страницах по одному и тому же URL-адресу.
  2. Внешний дублированный контент. В этом случае один и тот же текст находится на нескольких доменах.

Почему важно предотвращать дублирование контента?

Как упоминалось выше, поисковые системы не любят дублированный контент / плагиат, потому что пользователи не заинтересованы в просмотре страницы результатов поиска, содержащей несколько URL-адресов, каждая из которых содержит более или менее одинаковое содержание.Чтобы этого не произошло, поисковые системы пытаются определить исходный источник, чтобы они могли показать этот URL-адрес для соответствующего поискового запроса и отфильтровать все дубликаты. Как мы знаем, поисковые системы довольно хорошо справляются с фильтрацией дубликатов, но все же довольно сложно определить исходную веб-страницу. Может случиться так, что когда один и тот же блок текста появляется на нескольких веб-сайтах, алгоритм решит, что страница с наивысшим авторитетом / наивысшим доверием будет отображаться в результатах поиска, даже если это не исходный источник.В случае, если Google обнаруживает дублированный контент с целью манипулирования рейтингом или обмана пользователей, Google внесет корректировки в рейтинг ( Panda filter ) или сайт будет полностью удален из индекса Google и результатов поиска.

Как работает программа проверки дублированного контента?

  • Найдите проиндексированный повторяющийся контент, используя ввод URL или ТЕКСТА.
    • Используйте ввод URL для извлечения основного содержания статьи / текста, находящегося в теле веб-страницы. Элементы навигации удалены, чтобы уменьшить шум (в противном случае многие страницы были бы ошибочно идентифицированы как внутренние дубликаты.)
    • Используйте ввод текста, чтобы получить больше контроля над вводом.
  • Выберите дополнительные параметры, чтобы выбрать одну или несколько точек данных, используемых для обнаружения повторяющихся страниц. Выбор нескольких точек данных даст вам более точные и даже лучшие результаты сопоставления. (Эти точки данных автоматически извлекаются из содержимого страницы или ввода текста).
  • Подобный контент извлекается, возвращается и помечается как: входной URL, внутренний дубликат, внешний дубликат.
  • Экспорт результатов в.CSV. и используйте электронную таблицу Excel / Open Office, чтобы просматривать, редактировать или сообщать о своих результатах.

Как использовать эти результаты?

Внутренние дубликаты В большинстве случаев вы начнете решать проблемы внутренних дубликатов. Потому что эти проблемы существуют в вашей собственной контролируемой среде (на вашем веб-сайте). Для удаления внутренних дубликатов можно использовать разные методы, в зависимости от характера проблемы. Некоторые примеры:

  • Минимизировать повторение шаблонов
  • Использовать постоянное перенаправление 301
  • Использовать канонический тег
  • Использовать обработку параметров в Инструментах Google для веб-мастеров
  • Запретить индексирование URL.

Внешние дубликаты Внешние дубликаты — это отдельная история, потому что вы не можете просто внести изменения в свой собственный сайт и решить проблему. Некоторые примеры удаления внешних дубликатов:

  • Обратитесь к веб-мастерам и попросите их удалить копии вашего контента.
  • Если другой сайт дублирует ваш контент / в нарушение закона об авторских правах и обращение к нему не решает проблему, вы можете использовать эту форму, чтобы уведомить Google: https: // support.google.com/legal/troubleshooter/1114905.

Ограничения инструмента

  • Этот инструмент автоматически извлекает текст из веб-страницы для использования в качестве входных данных для обнаружения дублированного контента. Это не всегда именно тот блок текста, который нужно проверять на наличие дубликатов. В этом случае лучше использовать текстовое поле для ввода.
  • Новое содержимое необходимо проиндексировать, прежде чем его можно будет вернуть с помощью этого инструмента. Если странице / контенту меньше 2 дней, шансы получить какие-либо результаты невелики.
  • Не все дубликаты, найденные в Интернете, возвращаются этим инструментом. Но по сравнению с другими инструментами возвращает довольно большую сумму.

Внешние ресурсы:

Пожалуйста, поделитесь