Дубли страниц на сайте проверка онлайн: как быстро найти дубли страниц — SEO на vc.ru

Содержание

как быстро найти их и удалить, основные способы и методы — руководство от SEO.RU

Почему дубли страниц — это плохо?

Дубли — это страницы с одинаковым содержимым, т.е. они дублируют друг друга.

Причины, по которым страницы дублируются, могут быть разными:

автоматическая генерация;
ошибки в структуре сайта;
некорректная разбивка одного кластера на две страницы и другие.

Дубли страниц — это плохо для продвижения и раскрутки сайта, даже несмотря на то, что они могут появляться по естественным причинам. Дело в том, что поисковые роботы хуже ранжируют страницы, контент которых мало чем отличается от других страниц. И чем больше таких страниц, тем больше сигналов поисковым ботам, что это сайт не достоин быть в топе выдачи.

Что происходит с сайтом, у которого есть дубликаты страниц?

Снижается его релевантность. Обе страницы с одинаковым контентом пессимизируются в выдаче, теряют позиции и трафик.
Снижается процент уникальности текстового контента. Из-за этого понизится уникальность всего сайта.
Снижается вес URL-адресов сайта. По каждому запросу в выдачу поиска попадает только одна страница, а если таких одинаковых страниц несколько, все теряют в весе.
Увеличивается время на индексацию. Чем больше страниц, тем больше времени нужно боту, чтобы индексировать ваш сайт. Для крупных сайтов проблемы с индексацией могут сильно сказаться на трафике из поиска.
Бан от поисковых систем. Можно вообще вылететь из выдачи на неопределенный срок.

В общем, становится понятно, что дубли никому не нужны. Давайте разбираться, как найти и обезвредить дублирующиеся страницы на сайте.

Как найти дубли страниц?

Кирилл Бузаков,
SEO-оптимизатор компании SEO.RU:

«Когда мы получаем в работу сайт, мы проверяем его на наличие дублей страниц, отдающих код 200. Разберем, какие это могут быть дубли.

Возможные типы дублей страниц на сайте

Дубли страниц с протоколами http и https.

Например: https://site.ru и http://site.ru
Дубли с www и без.

Например: https://site.ru и https://www.site.ru
Дубли со слешем на конце URL и без.

Например: https://site.ru/example/ и https://site.ru/example
Дубли с множественными слешами в середине либо в конце URL.

Например: https://site.ru/////////, https://site.ru/////////example/
Прописные и строчные буквы на различных уровнях вложенности в URL.

Например: https://site.ru/example/ и https://site.ru/EXAMPLE/
Дубли с добавлением на конце URL:
- index.php;
- home.php;
- index.html;
- home.html;
- index.htm;
- home.htm.
Например: https://site.ru/example/ и https://site.ru/example/index.html
Дубли с добавлением произвольных символов либо в качестве нового уровня вложенности (в конце или середине URL), либо в существующие уровни вложенности.

Например: https://site.ru/example/saf3qA/, https://site.ru/saf3qA/example/ и https://site.ru/examplesaf3qA/
Добавление произвольных цифр в конце URL в качестве нового уровня вложенности.

Например: https://site.ru/example/ и https://site.ru/example/32425/
Дубли с добавлением «звездочки» в конце URL.

Например: https://site.ru/example/ и https://site.ru/example/*
Дубли с заменой дефиса на нижнее подчеркивание или наоборот.

Например: https://site.ru/defis-ili-nizhnee-podchyorkivanie/ и https://site.ru/defis_ili_nizhnee_podchyorkivanie/
Дубли с некорректно указанными уровнями вложенности.

Например: https://site.ru/category/example/ и https://site.ru/example/category/
Дубли с отсутствующими уровнями вложенности.

Например: https://site.ru/category/example/ и https://site.ru/example/

Как обнаружить дубли страниц?

Поиск дублей страниц можно произвести разными способами. Если вы хотите собрать все-все дубли и ничего не упустить, лучше использовать все нижеперечисленные сервисы совместно. Но для поиска основных достаточно какого-то одного инструмента, выбирайте, какой вам ближе и удобнее.

Парсинг сайта в специализированной программе

Для поиска дубликатов подходит программа Screaming Frog SEO Spider. Запускаем сканирование, а после него проверяем дубли в директории URL → Duplicate:

Кроме того, в директории Protocol → HTTP проверяем страницы с протоколом http — есть ли среди них те, у которых Status Code равен 200:
Онлайн-сервисы.

Первый, подходящий нашим целям сервис, — это ApollonGuru.
- Выбираем 5-7 типовых страниц сайта. Например, набор может быть таким: главная, разводящая, карточка товара/страница услуги, статья в блоге, а также другие важные страницы в зависимости от типа сайта.
- Вносим их в поле «Поиск дублей страниц» и нажимаем кнопку «Отправить»:
- Дубли с 200 кодом ответа сервера (смотрим столбец «Код ответа сервера») берем в работу:
  
  Кроме того, необходимо проверять, что с дублей настроены прямые 301 редиректы на основные версии этих же страниц.

Также проверка дублей сайта возможна онлайн-сервисом Check Your Redirects and Statuscode, но он подходит только в том случае, если нужно проанализировать один URL-адрес:

Панели веб-мастеров Яндекса и Google.

Найти дублирующиеся страницы можно с помощью собственных инструментов поисковиков — Яндекс.Вебмастера и Google Search Console.

В Яндекс.Вебмастере анализируем раздел «Индексирование», далее — «Страницы в поиске»:

Там можно увидеть текущую индексацию сайта и искомые дубли страниц:

В Search Console анализируем раздел «Покрытие», а именно пункт с исключенными из индекса страницами:

Собираем все дубли в одну таблицу или документ. Затем отправляем их в работу программисту:

Старайтесь подробнее объяснить программисту задачу, так как адресов может быть много».

Как убрать дубли страниц на сайте?

Евгений Костырев,
веб-программист компании SEO.RU:

«С дублирующимися страницами бороться можно разными способами. Если есть возможность, стоит использовать ручной метод. Но такая возможность есть не всегда, потому что здесь нужны серьезные навыки программирования: как минимум, нужно хорошо разбираться в особенностях CMS своего сайта.(.*)index\.(php|html|htm)$ http://site.ru/$1 [R=301,L]

Если же сайт использует Nginx, то правила прописываются в файле nginx.conf. Для перенаправления также нужно прописывать правила с помощью регулярных выражений, например:

location = /index.html {
return 301 https://site.com
}

Вместо index.html можно указать любой другой URL-адрес страницы вашего сайта, с которого нужно сделать редирект.

На этом этапе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дубли, но и вообще весь сайт из всего интернета.

Создание канонической страницы

Использование canonical указывает поисковому пауку на ту единственную страницу, которая является оригинальной и должна быть в поисковой выдаче.

Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом оригинальной страницы:

<link rel= “canonical” href= «http://www.site.ru/original-page.html”>

Можно прописывать их вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress это YoastSEO или AllinOneSEOPack.

В 1С-Битрикс это делается с помощью языка программирования PHP в соответствующих файлах. Такая же история и с CMS Joomla: без вмешательства программиста или собственных навыков программирования здесь не обойтись.

Директива Disallow в robots.txt

В файле robots.txt содержатся инструкции для поисковых краулеров, как именно индексировать сайт.

Читать по теме: Как правильно заполнить файл robots.txt: критически важные моменты

Если на сайте есть дубли, можно запретить краулеру их индексировать с помощью директивы:

User-agent: *
Disallow: site.ru/contacts.php?work=225&s=1

Такой способ практически не требует навыков программиста, однако он не подходит, если дублей много: очень много времени уйдет на изменение robots.txt каждого дубля».

Выбирайте способ, исходя из собственных навыков программирования и личных предпочтений, и не давайте поисковикам повод сомневаться в релевантности и качестве вашего сайта.

SEO инструменты для анализа сайта онлайн

Автор Андрей Облаский На чтение 3 мин. Обновлено 12.04.2016

Аналитическая работа над сайтом – это залог его успешной оптимизации. Существуют десятки seo параметров для анализа, условно их можно разделить на три категории: внутренний аудит, анализ внешних сео факторов, анализ аудитории.
Внутренний аудит подразумевает исследование таких параметров, как код страниц, скорость загрузки, безопасность, наличие карты сайта и роботс файла и т.д.
Анализ внешний предполагает исследование конкурентов в поисковой системе, качество ссылочной массы, видимость в выдаче поисковиков и т.п.
Анализ аудитории – это исследование данных по поведению пользователей на сайте, конверсии. Рассмотрим эти и другие пункты подробнее.

Код сайта и битые ссылки

Чистота кода на данном этапе считается наиболее важным seo показателем в отношении ранжирования в поисковой выдаче Яндекс или Гугл. Грамотно написанный сайт, хорошая архитектура, отсутствие битых ссылок – это уже серьезная заявка на присутствие в выдаче по конкурентным запросам. Проверить бесплатно код можно с помощью онлайн валидатора (validator.w3.org). Этот инструмент проверяет валидность страниц и дает рекомендации по устранению ошибок, можно осуществлять проверку не только кода, но и css.
Битые ссылки приводят к дезориентации пользователей и снижают трастовость сайта, поэтому избавляться от них в целях оптимизации нужно обязательно, например, с помощью инструмента brokenlinklookup.com

Скорость загрузки

Еще один важный seo показатель – это скорость загрузки сайта. Оценить можно с помощью сервиса pr-cy.ru/speed_test/. Удобен тем, что позволяет сравнить время получения отклика со своего сайта с сайтами-конкурентами. Если у вас установлен счетчик google analytics, в разделе “Поведение” > “Обзор скорости загрузки сайта” можно оценить изменение скорости загрузки сайта по дням.

Дубли страниц

Проверить бесплатно наличие в выдаче дублей можно с помощью онлайн сервиса copyscape.com, программа выведет страницы, дублирующие вбитый вами адрес на материал. Проверить можно и вручную, для этого введите в строку поиска Яндекс или Гугл точную выдержку с сайта в кавычках. Поисковик предоставит вам данные на все страницы, находящиеся у него в индексе, содержащие этот материал. Весь дублирующий контент, кроме оригинала, необходимо закрывать от индексации в роботс-файле или, если это не существенные страницы, избавляться от них.

Структура сайта с точки зрения оптимизации

Если для вашего сайта не существует семантического ядра, в соответствии с которым страницы оптимизированы, он не сможет быть представлен в выдаче поисковиков, а значит, трафика от Яндекс или Гугл на сайт ждать нет смысла. Проанализируйте семантическое ядро, подберите ключевики для тайтлов страниц, рубрик, заголовков статей и самого контента.

Оценка видимости сайта в выдаче

С помощью программы SiteAuditor или онлайн сервиса cy-pr.com проанализируйте сайт с точки зрения видимости в поисковой системе Гугл или Яндекс. Оба сервиса предоставляют возможность увидеть наложены ли фильтры, сколько страниц представлено в выдаче, какие показатели трастовости присвоены, по каким ключам и как ранжируются страницы, какова статистика показов. Эти seo данные дают широкие возможности для дальнейшей работы по увеличению трафика на сайт с поисковиков.

Внешние и внутренние ссылки

Проверить входящие, исходящие и внутренние ссылки можно с помощью инструмента pr-cy.ru/link_extractor/ или на сайте www.megaindex.ru (в разделе “внешние ссылки”). Введя урл сайта, вы получите полный перечень ссылок с «якорями» и текстовым окружением. Выполнять эту работу нужно регулярно, чтобы избежать накопления плохой ссылочной массы, ведущей под фильтр в поисковой системе или снижающей вес страниц самого сайта, что негативно сказывается на темпах продвижения сайта.

Что такое дубли страниц сайта? Как их найти и удалить из выдачи?

Некоторые SEO ошибки критично опасны и могут свести все усилия на нет. Одна из таких — дубли страниц. Они крайне негативно воспринимаются поисковыми роботами и существенно усложняют поисковое продвижение сайта. Поэтому важно убрать дубли страниц на сайте как можно быстрее.

Почему это так важно?

Когда на веб-сайте есть две одинаковых страницы, поисковики не могут понять, какую из них нужно показывать пользователям по релевантному запросу. И даже учитывая, что боты изучают и другие параметры, им все равно трудно решить, какой из дублей нужно выбирать.

Поэтому нужно найти и закрыть дубли страниц сайта, иначе вы столкнетесь с проблемами:

может снизиться рейтинг всего веб-сайта;
снижение позиции ключевых фраз;
скачки позиций из-за того, что система постоянно меняет релевантность между несколькими страницами.

Виды дубликатов

Чтобы эффективно искать дубли страниц и избавляться от них, нужно знать, каких видов они бывают.

Существует два типа:

полные дубликаты — копия страницы, размещенная на разных URL адресах;
частичные — дублируется часть содержимого.

Полные дубли

Это может быть:

одинаковые страницы по одинаковым URL адресам с www и без;
дубли страниц с html и https;
копии, созданные из-за реферальных ссылок;
проблемы с иерархией разделов, которые генерируют копии;
неправильно настроенная страница 404, создающая дубликаты;
дубли страниц без слеша в конце url.

Частичные дубли

Они обычно появляются из-за особенностей системы управления сайтом, и найти их сложнее.

Чаще всего это:

Копии, созданные страницами фильтров, сортировок и пагинации. Например, когда пользователь применяет фильтр товаров, URL адрес немного изменяется, и поисковые роботы индексируют эту страницу как отдельную. Но от смены адреса в данном случае контент не изменился.
Блоки комментариев и описаний. Здесь практически та же ситуация — переход к блоку отзывов, например, создает дополнительный параметр в адресе, но страница остается та же.
Печать и PDF для загрузки. Такие страницы полностью копируют содержимое веб-сайта.
Сгенерированные AJAX слепки страниц.

Как обнаружить копии?

Можно проверить сайт на ошибки несколькими способами:

Промониторить выдачу с помощью оператора “site:”

Это метод, позволяющий проверить дубли страниц сайта вручную. Выдачу, отфильтрованную оператором, нужно изучить визуально и выявить копии.

Программы

Существуют разные инструменты для вебмастеров, позволяющие быстро просканировать веб-сайт. Это может быть проверка сайта на дубли страниц онлайн или с помощью десктопных программ. Они выгрузят полный список адресов, который можно будет затем отсортировать и найти дубликаты.

Консоль Google

Google Search Console отображает список повторов мета-описаний и тэгов. Они могут быть признаками копий.

Как избавиться от дубликатов?

Первый и самый очевидный метод — удалить дубли страниц со слешем и другими частями URL адреса, которые создают копии. Также можно запретить роботам индексировать дубликаты, дописав условия в файл “robots.txt”. Это сработает со служебными страницами, которые повторяют содержимое основных.

Еще одно решение — настроить 301 редирект со страницы-дубля на соответствующую корректную страницу сайта. Это поможет с ошибками в иерархии разделов и reff-метками. Также можно проставить тэг “rel=canonical”, что решит проблему с фильтрами, сортировками и пагинацией. А если у вас на веб-сайте есть версии для печати, блоки с отзывами и другой информацией, воспользуйтесь тегом meta name=»robots» content=»noindex, nofollow». Это позволит скрыть подобные блоки от поисковых ботов.

Чаще всего копии создаются самой системой управления сайтом, поэтому лучше, чтобы выявлением дубликатов и их устранением занимался опытный специалист. Наша команда веб-студии Артджокер обладает большим опытом и крепкими знаниями в поисковой оптимизации и продвижении сайтов. Мы сможем обнаружить все ошибки, которые мешают раскрутке вашего ресурса, и исправить их. Также мы составим эффективную стратегию продвижения, которая позволит быстро добиться желаемых результатов.

Как найти дубли страниц на сайте. Проблема дублирования страниц.

Одинаковый контент на страницах – это опасность для любого сайта и серьезная проблема для SEO. Казалось бы, что в этом страшного? Одинаковый контент может привести попасть под санкции систем Яндекс и Google, понизив позиции. Дубли необходимо быстро находить, удалять и не допускать повторных появлений.

Виды дублей

Существует два вида дублей: полные и неполные

Полные дубли

Полные дубли – страницы, полностью повторяющие контент. Они ухудшают ранжирование и к ним плохо относятся поисковые системы.

Фактически, полные дубли – самая частая и серьезная проблема. Обычно, это страница, доступная по нескольким адресам: техническому адресу, через другую категорию, с параметрами в URL. То есть она получилась в результате неправильной настройки CMS.

Пример полного дублирования:

https://sobaka.com/index.php?page=catalog
https://sobaka.com/catalog

Неполные дубли

Неполные дубли – страницы, выборочно дублирующие фрагменты контента. Их тяжелее обнаружить, особенно если у вас интернет-магазин, где много схожих по описанию товаров. К тому же URL у неполных дублей разный.

В чем опасность дублей?

Скриншот из Яндекс.Вебмастера сайта с серьезными проблемами и дублированием контента.

Наложение санкций

В худшем случае поисковые системы исключают ваш сайт, в лучшем – снизят ранжирование страниц на поиске. Это происходит из-за того, что робот не понимает, что вы ведете технические работы или у вас серьезные проблемы, поэтому плодиться несколько одинаковых страниц. Чем больше таких страниц, тем больше поисковые боты думают, что сайт не достоин быть в выдаче.

Увеличение времени на обход страниц

При множестве дублей робот может так и не добраться до основного контента. Особенно опасно на сайтах, где сотни/тысячи страниц. В поисковике не будет отображаться желаемая страница. Вы вкладываете силы и время на продвижение одной страницы, но это не будет давать должного результата.

Проблема с индексацией

В Яндекс Вебмастере можно увидеть проблему с индексацией. Когда ваши страницы добавляются/удаляются, то в поисковой выдаче нет постоянства. Дубли сменяют друг друга и не успевают набрать достаточного веса, чтобы показываться по поисковым запросам.

Низкие позиции в поисковых системах

Страницы с одинаковым контентом отвечают на одинаковые запросы. Поисковая система не может определиться, что важней, а в худшем случае, вообще не покажет никакую. Ведь есть сайты конкурентов с конкретными страницами, отвечающими на данный запрос.

Причины возникновения дублей

CMS “плодит” дубли – самая распространенная проблема. Например, материал был написан для нескольких рубрик, но их домены входят в адрес сайта. Возникает следующая ошибка:
1. sobaka.site.com/number1/info
2. sobaka.site.com/number2/info
Невнимательность так же может привести к дублям. Например, если вы просто скопировали страницу и забыли запретить индексирование на вторую.
Технические разделы могут возникнуть из-за CMS. Например, когда на сайте есть разделы, фильтры, каталоги и подкаталоги. На Bitrix или Joomla могут сгенерироваться сайты с одной и той же информацией.
В интернет-магазинах товар часто находится в нескольких категория и доступен по разным URL:
1. magazin.com/category1/product1
2. magazin.com/category1/subcategory1/product1
3. magazin.com/product1/
4. magazin.com/category2/product1
Технические ошибки возникают при ошибочной генерации ссылок и настройках в разных CMS случаются ошибки, которые приводят к дублированию страниц. Может произойти зацикливание: sobaka.com/tools/tools/tools/…/…/…

Ошибка:

sobaka.com/rubric.php
sobaka.com/rubric.php?ajax=Y

Поиск дублей страниц

Ручной поиск

Первое, что можно сделать для быстрого обнаружения – сделать поиск по запросу «site:ваш сайт» в Яндекс/Google и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.
Конкретно для систем Google можно воспользоваться расширенным поиском. Необходимо ввести сайт с конкретной страницей – гугл выдаст дубли страниц. Так проходим по каждой странице на сайте.
Еще один надежный способ обнаружения – ручной ввод возможных адресов сайта. На практике выглядит так:
Берем страницу сайта sobaka.com/blog и подставляем php, html, index.php, index.html или просто слэш.

Яндекс Вебмастер

Простой способ найти дубли через Яндекс Вебмастер

Переходим в Вебмастер и нажимаем СТРАНИЦЫ В ПОИСКЕ
Выбираем ПОСЛЕДНИЕ ИЗМЕНЕНИЯ
Выгружаем архив – смотрим на статус страниц. Если обнаружен дубль, тогда вы увидите DUPLICATE.

Поиск дублей через Яндекс Вебмастер

Можно не выгружать, а воспользоваться фильтром прямо в Яндекс.Вебмастер и просматривать существующие дубли прямо в браузере онлайн.

Выбираем фильтр по статусу «Дубль»

Google Search Console

Через Google Search Console дубликаты можно увидеть еще быстрее.

Заходим на вкладку ПОКРЫТИЕ
Выбираем ИСКЛЮЧЕННЫЕ и смотрим на сведения
В списке будут указаны страницы, которые являются копией.

Поиск дублей через Google Console

Как избавиться от дублей

Естественно, все зависит от движка, который вы используете. В большинстве случаев следует применять следующие действия.

Скрыть дубли от поисковых роботов (одна страница = одна ссылка), и исключить все остальные варианты страниц.
Настройка Redirect 301 всех вариантов на одну существующую страницу.
Запретить индексацию адресам с GET-параметрами в robot.txt
Поставить re=canonical для страниц фильтров, каталогов, пагинцаций и т.п

Программы и сервисы для нахождения дублей

Рассмотрим популярные программы и сервисы для проверки дублей онлайн или на своем компьютере.

Парсер проиндексированных страниц от PromoPult

https://promopult.ru/tools/indexing_analysis.html

Интерфейс сервиса проверки проиндексированных страниц

Сервис позволяет быстро сопоставлять проиндексированные страницы Яндекса и Google.

Сервис Apollon

https://apollon.guru/

Проверяем предыдущий сервис на варианты дублей. Оказалось много!

Сервис позволяет быстро находить дубли с помощью перебора распространенных вариантов дублирования и показывает, на какую страницу происходит редирект.

Сервис Siteliner

https://www.siteliner.com/

Проверка в сервисе Siteliner

Сервис проверяет сайт на дубли онлайн и показывает количество оригинального контента и дублированного. Так же можно скачать полный список проиндексированных страниц.

Бесплатная тариф дает проверить 250 самых важных страниц вашего веб-сайта на основе внутренней структуры ссылок. Этого достаточно для большинства сайтов малого бизнеса и самостоятельной проверки.

Программа XENU

http://home.snafu.de/tilman/xenulink.html

Скриншот сканирования в программе Xenu

Через XENU можно провести проверку сайта и найти дубликаты страниц. Достаточно просто ввести URL. XENU найдет полные и частичные дубли сайта. Программа очень старая и не обновляется, но со своей работой справляется. Полностью бесплатна, легко сканирует большие сайты.

Программа Screaming Frog SEO Spider

www.screamingfrog.co.uk/seo-spider/

Найдены полные и частичные дубли страниц.

«Лягушка» — мощный инструмент для SEO-оптимизаторов . Сканирование 500 страниц происходит бесплатно, остальное – требует платной подписки. Находит полные и частичные дубли, но это всего лишь маленькая доля полезных вещий, которые позволяет делать программа.

Выводы

Дублирование страниц — серьезная проблема, особенно если сайт находится на SEO-продвижении. Это не надуманная проблема и в кабинетах вебмастеров Яндекс и Гугл есть предупреждения о дублировании контента.

Дубли можно легко найти с помощью программ. Если это технические страницы, то их желательно удалить. Если страницы важны для пользователя, то можно просто закрыть от индексации.

Самые простой способ перестраховаться от дублирования страниц — это использование метатега Canonical для указания основного адреса.

Как найти дубли страниц на сайте, как удалить, что это

Дубли страниц – полный или частичный контент расположенный по двум адресам одновременно. Рассмотрим, почему они опасны для продвижения ресурса, как найти дубли страниц на сайте, удалить их с ресурса.

Копии страниц, как появляются?

С проблемой дублей страниц сталкиваются многие сайты. Часто они встречаются в онлайн магазинах. Дубли страниц – это страницы, имеющие одинаковый контент, но разные урлы. Смотрите, как это выглядит:

Проблема появляется из-за того, что тайтлы и дескрипшены никто не меняет. Поисковые системы на дубли реагируют негативно. Если в магазине стоит сортирока sort=alf, количество копий страниц значительно вырастает.

Зачем удалять дубли с сайта?

Поисковые роботы делают индексацию по своим алгоритмам. Пользователь ищет определённую информацию, на сайте есть несколько вариантов с одинаковым контентом. Какая страница самая главная, и пойдёт на первом месте? Боты не понимают.

В результате внутренний вес страницы снижается, сайт теряет траст, и хуже продвигается. Первое, что нужно сделать в случае подозрений, что имеются копии — проверка сайта на дубли страниц. Это делается инструментами вебмастера или специальными программами.

Проверка сайта на дубликаты страниц, чем делается?

Анализ реальных, будущих страниц сайта входит в комплекс работ по продвижению ресурса. Поиск дублей страниц делается следующими сервисами:

Сканеры программы: Xenu, Netpeak spider. Они имеют небольшой минус. Если нет ссылки на страницу в доступе, программа её не видит;
Онлайн сервисы. В сети существуют платные сервисы по анализу сайтов. Бесплатные аналоги имеют ограничение функций. Оптимальный вариант проверки: Яндекс и Гугл вебмастер;
Проверяем по запросам. Проверку дублей можно делать своими руками, вбивая страницы в поиск и отслеживая повторяющиеся заголовки. Смотрите на рисунок: Под понятием urlsite.ru стоит понимать свой сайт;
Проверяем потенциальные копии. Удаление дублей страниц, пусть даже потенциальных, обязательная мера. Конкуренция в выдаче есть всегда. Вас могут подставить, купив ссылки на не проиндексированные копии страниц вашего сайта. Для продвижения такая ситуация – практически катастрофа. Лучше сразу найти дубликаты страниц на сайте и удалить их своими руками.

Как удалить дубли страниц на сайте, варианты?

Удаление дублей при использовании разных CMS, имеет свою специфику. Рассмотрим, что можно сделать в каждом случае.

Дубли страниц wordpress, что делать?

Алгоритм работы простой:

Проверьте, настроены ли у вас редиректы. Их нужно настраивать со страниц с адресом www на странички без этой приставки. Или же редирект настраивается наоборот.
Проверьте работу плагина All in One SEO Pack, в нём должна стоять галочка Канонические урлы.
Проверьте настойки роботс. Многие проблемы начинаются с его недоработок.
Просмотрите наличие дублей страниц такого типа, как на рисунке: С каждым из этих понятий связана определённая техническая возможность. Перед тем, как удалить проиндексированы страницы дубли сайта, проверьте их с помощью site.

Проработайте все настройки, обратите внимание на разделы комментарии, каталоги и рубрики. На wordpress дубликат страниц устраняется достаточно просто.

Дубли страниц joomla 3, что делать?

Движки генерируют большое количество копий страниц, так случается. С joomla дубли страниц удаляются довольно просто.

На сайт устанавливается расширение SEF Wizard, которое сделает работу вместо вас. Расширение удаляет ID лишних урлов, таких как com_content, com_tags и com_contact.

С помощью проги настраивается редирект 301 на нужные страницы или же пользователю будет выдавать 404 ошибку вместо копии. Находится инструмент на официальном сайте Джумла, откуда и скачивается.

Включается плагин следующим путём: Админ панель. Ищем «Компоненты», выбираем SEF Wizard и пользуемся в работе.

Opencart дубли страниц, как удалить?

В опен карт больше всего проблем создают копии главной страницы. Что такое дубли страниц на сайте? Одна и та же информация, которая располагается под разным адресом.

Избавиться от проблемы можно, используя редактирование файла .htaccess. В его конце прописываем код, как на рисунке, только вместо чужого домена прописываем домен своего сайта. Проблем с дублями страниц на опенкарте у вас не будет.

Резюме в таблице

1. Что такое дубли страниц на сайте?	Одинаковый контент, находящийся по разным адресам
2. Чем опасны дубли?	Наличие дублей страниц на сайте приводит к понижению его в позициях, усложняет продвижение
3. Как избавиться от проблемы?	Используйте плагины, сделайте анализ сайта. При наличии копий страниц воспользуйтесь инструкциями выше

Как найти дубли страниц: обзор рабочих способов

Чем опасны дубликаты страниц, какими они бывают и откуда берутся, как их удалить и организовать контроль в дальнейшем?

Представьте два одинаковых апельсина, какой из них больше отвечают ключевой фразе «внешний вид апельсина»? В той же ситуации оказываются Яндекс и Google, когда сталкиваются с дубликатами. В результате падает трафик, наблюдаются скачки по ключевым запросам, ухудшается ранжирование, понижается место в выдаче. Негативные моменты можно перечислять долго, но все они лишь демонстрируют опасность дублей. С этим явлением нужно бороться и сразу пресекать, пока ситуацию можно поправить без существенной потери позиций.

Виды дубликатов

Чтобы впредь не допускать ошибок, вызванных не достаточным уровнем подготовки, рассмотрим какие существуют дубликаты:

Полный дубль – одна и та же информация размещается по нескольким URL.
Частичный дубль – повторяется только часть контента.

Из этого следует два вывода:

при создании каждой страницы необходимо использовать полностью уникальные тексты, копирование информации не допускается;
чтобы найти полные и частичные дубликаты нужно использовать разные методики.

6 причин возникновения полных дублей

Не выбрано главное зеркало, соответственно поисковики пытаются индексировать как версию с приставкой www, так и без нее.
Запись о главной странице может содержаться одновременно в нескольких директориях, например, index, index/, index.php, index.php/, index.html, index.html/. Необходимо установить основной URL, а другие адреса закрыть от индексации.
Реферальные ссылки формата ?ref=… должны использовать корректный 301 редирект, но часто это правило игнорируется, в результате создается дубль.
Неправильная иерархия, когда одна и та же страница доступна как в каталоге, так и в отдельной директории.
Ошибки при настройке страницы 404 или бесконечные дубли, когда код выдает бесконечное множество ссылок типа: http://mysite.com/набор_латиницы.
Ошибки в работе utm и gclid, в результате которых создаются копии страниц с этими метками и без них.

Полные дубли в лучшем случае понизят ранжирование отдельных страниц, а в худшем приведут к санкциям со стороны поисковиков. В последствии выйти из-под фильтра будет проблематично.

Откуда берутся частичные дубли

Частичные дубли не наносят на столько сильного вреда, но в долгосрочной перспективе могут оказать еще более пагубное воздействие на сайт. Распространенные причины:

Настройка фильтрации и страниц пагинации без использования скриптов. В этом случае при переходе с основной страницы категории на вторую, третью или десятую, происходит дублирование метаданных:

Описанная проблема характерна и для отзывов. Если не используются скрипты или плагины происходит создание нового URL, при этом вся остальная информация, кроме самого текста отзыва, дублируется с материнской страницы.
PDF версии страниц также дублируют весь SEO контент при этом создают новые URL. Более того, на них присутствуют текст и графические материалы, что приближает их полным дублям.
HTML слепки AJAX. Использование этой технологии предполагает перенаправление ботов на HTML страницы, если при внедрении технологии допущены ошибки кода, роботы будут обрабатывать две страницы вместо одной.

Инструментарий

Команда site:url_главной. Позволяет визуально оценить поисковую выдачу и посмотреть какие страницы дублируются. Подходит только для проектов до нескольких десятков URL.

Для машинного поиска используйте: Seo Spider, Netpeak Spider или Xenu. Приложения запускают на сайт поисковых ботов, которые индексируют все страницы сайта и сравнивают их по метаданным, выявляя дубли.

Поисковая Консоль Google показывает количество страниц с потенциальными дублями по SEO-заголовкам. Это быстрый способ проверить есть ли проблемы.

Ручной поиск хотя и является своего рода демонстрацией профессионализма SEO, но носит показательный характер. Особенно, если проверить нужно большой проект с тысячами страниц.

Способы борьбы с дублями страниц

Процедура сводится к выполнению всего 5 простых действий, для которых не нужны глубокие познания в программировании или специализированные навыки. Каждый вариант сам по себе решает часть проблем, но применять нужно все в совокупности, чтобы не только решить текущие проблемы, но и оградится от них в дальнейшем.

Аннигиляция – просто удалите статичные дубли страниц, актуально для полных дубликатов.
Запрет индексации через robots.txt позволяет исключить служебные страницы из общей поисковой выдачи.

Корректировка ассоциации 301 редиректов в системном файле htaccess, позволяет устранить проблемы с иерархией.
Использование rel=canonical для закрепления канонических страниц и запрета создания частичных дубликатов при пагинации, фильтрации, использовании utm и gclid.

Табы с отзывами и печатные версии страниц выкидываются из поиска путем закрытия от индексации тегами nofollow или noindex. Яндекс и Google по-разному реагируют на команды, поэтому корректность работы проверьте вручную.

Хотя дубликаты способны нанести непоправимый ущерб, их выявление не составляет больших проблем. Достаточно один раз правильно настроить системные файлы и скрипты, и раз в неделю выполнять системную диагностику на предмет сбоев. Этот нехитрый способ гарантирует полное уничтожение дублей и предохранит от их появления в будущем.

Автор: София Лупол

чем плохи дубликаты, как найти и удалить

Дубли страниц — весьма распространенная SEO-ошибка, которая может возникать вследствие некорректных настроек CMS, изменения структуры сайта и ошибок, допущенных вебмастерами. Наличие дубликатов может повлечь за собой серьезные последствия и свести все усилия, связанные с продвижением веб-проекта, на нет. В текущей статье мы рассмотрим, чем плохи дубли страниц, как найти их и убрать.

Что такое дубли страниц сайта и почему от них нужно избавиться

Дубли страниц — это определенные страницы сайта, содержащие частично или полностью одинаковый контент.

По сути, это два или больше уникальных URL-адреса с одинаковым или отчасти повторяющимся содержанием.

Чем плохи дубли страниц? Когда на сайте есть несколько одинаковых страниц, поисковые системы не могут понять, какую из них нужно показывать пользователям по релевантному запросу. Вследствие вместо приоритетных страниц в основном поиске могут оказаться дубли, которые наоборот нужно убрать из сайта и исключить из поиска.

Если ничего не предпринимать и оставить все на самотек, понадеявшись на алгоритмы поисковых систем, последствия могут быть очень серьезными:

Проблемы с индексацией. Допустим, вы владелец интернет-магазина с несколькими тысячами страниц, на каждую из которых из-за неправильных настроек системы управления сайтом автоматически генерируется по одному дубликату. При таких обстоятельствах общий размер сайта увеличивается, а количество страниц, которые поисковый робот может просканировать на сайте за один раз, остается прежним. Таким образом во время очередного визита новые нужные страницы могут остаться не у дел.
Изменения релевантной страницы в выдаче. Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.
Неправильное распределение внутреннего ссылочного веса. В процессе наполнения сайта очень важно связывать страницы между собой, делать так называемую внутреннюю перелинковку. Правильная внутренняя перелинковка положительно влияет на поведенческие факторы, качество индексации, распределение статического и динамического веса между страницами. Однако, если изменить структуру проекта, образуются неправильные внутренние ссылки, ведущие на страницы (дубли), которые поисковики могут посчитать более значимыми.
Потеря естественной внешней ссылочной массы. Если опубликованный на вашем ресурсе материал будет действительно интересным и полезным, есть вероятность того, что пользователь захочет поделиться им с друзьями. Как мы знаем, получение естественных ссылок — сложный процесс, требующий внимания к деталям, анализа множественных факторов, знаний и навыков. Кроме того — это дорого (если задачу поручить линкбилдеру) и времязатратно (если заниматься этим самому). И тут вдруг вашим контентом хотят безвозмездно поделиться. Стоит ли пренебрегать такой возможностью?

Статья по теме: Что такое крауд-маркетинг, кому он нужен и где его заказать

Очевидно, дубликаты страниц на сайте оказывают негативное влияния на продвижение, следовательно, этому вопросу нужно уделять должное внимание.

Виды дублей

Как выше уже было сказано, дубликаты страниц бывают двух типов: полные и частичные.

Полные дубли

Полные дубли — страницы с полностью одинаковым контентом, доступные по разным URL.

Чтобы было проще ориентироваться, рассмотрим самые распространенные полные дубли страниц:

Версия с/без www. Возникает, если пользователь не указал главное зеркало — адрес, который участвует в результатах поиска.

https//www.site.com

https//site.com

Дубли страниц с html и https протоколом.

http//site.com

https//site.com

Дубли страниц с и без слеша «/» в конце URL.

https//site.com

https//site.com/

Страницы с и без суффиксов index.php, index.html, home.php, home.html.

https://site.com

https://site.com/index.php

https://site.com /index.html

https://site.com/home.php

https://site.com/home.html

Проблемы с иерархией разделов, которые генерируют копии.

https://site.com/catalog/dir/products

https://site.com/catalog/products

https://site.com/products

https://site.com/dir/products

URL-адреса страниц в верхнем и нижнем регистрах.

https://site.com/category

https://site.com/CATEGORY

https://site.com/Category

Дополнительные UTM-метки, которые используются, чтобы передавать данные для анализа рекламы и источника переходов. Создаются с помощью генератора UTM, либо просто руками. Всё зависит от того, какие именно переходы вам нужно отслеживать. Добавляются в конце URL через знак вопроса «?».

https://site.com/winter_sale?utm_source=google&utm_medium=search&utm_campaign=zhenskie-hudi&utm_content=ad1&utm_term=zhenskie-hudi-s-kapyushonom

Страницы с GET-параметрами. Позволяют передать определенные показатели, например, номер товара или номер заказа. В URL-адресе обязательно содержится знак «?», после которого следует GET-параметр. Если интернет-магазин отдает ответ с кодом 200 на любые GET-параметры, которые не определены заранее, возникают дубли.

https://site.com/products/man/shirts/blue

https://site.com/products/man?category=shirts&color=blue

Неправильно настроенная страница 404 приводит к появлению дублей.

https://site.com/gun-50381-gun

https://site.com/1897-???

Учтите, на месте выделенного текста могут быть любые другие символы.

Непереведенные языковые версии или неправильная их реализация.

https://site.com/category/accessories

https://site.com/en/category/accessories

Первая страница пагинации каталога товаров интернет-магазина или доски объявлений, блога. Она зачастую соответствует странице категории или общей странице раздела pageall.

https://site.com/catalog

https://site.com/catalog/page1

Множественное добавление слешей «/////////» в конце URL и между вложенностями.

https://site.com/catalog/product

https://site.com/catalog/product//////

https://site.com/catalog//////product

Полные дубли обычно возникают по нескольким причинам:

Технические ошибки в CMS, а также неправильные настройки, из-за которых образовываются синонимы в окончаниях названия URL.
Некорректный переход на HTTPS протокол. Если внести изменения и не указать поисковикам об этом, идентичный контент будет отображаться по двум протоколам.
Редизайн, изменения в структуре, перенос сайта на другую CMS. Все это приводит к смене адресов, однако старые страницы могут оставаться доступными.

Частичные дубли

Частичные дубли — страницы с похожим контентом и общей семантикой, которые решают одни и те же задачи пользователей, но не являются полными дублями.

Найти их гораздо сложнее чем предыдущие, однако и проблем они доставляют меньше.

Чаще всего это:

Дубли на страницах фильтров, сортировок, поиска и пагинации.

Например, постраничная навигация, формирующаяся на страницах, где размещено большое количество информационных постов, карточек товаров, обсуждений на форумах и т. д. URL-адрес немного изменяется, но title и description остаются прежними.

https://site.com

https://site.com/page/2

Дубли на страницах отзывов, комментариев, характеристик. Например, страницы с комментариями, где создается дополнительный параметр в адресе, но контент остается прежним.

https://site.com/category/t-shirts

https://site.com/category/t-shirts?razmer=1

Дубли на карточках товаров и страницах категорий (каталогов). Частыми виновниками возникновения дублей являются одинаковые описания товаров, оставленные на общей странице товаров в каталоге и на отдельных страницах карточек товаров. Например, в каталоге на странице категории под каждым товаром есть фрагмент описания товара (смотрите скриншот).
Наличие версии для печати, PDF для скачивания, полностью соответствующей основным страницам.

https://site.com/blog/design

https://site.com/blog/design/print

Сгенерированные AJAX слепки страниц.

https://site.com/#/page

https://site.com/?escaped_fragment_=/page

Синонимические текстовые дубли, которые возникают из-за неправильной группировки ключевых слов. Ситуация довольно распространённая при наполнении e-commerce проектов, когда одинаковые товары или услуги описываются с помощью синонимов. В результате в рамках одного сайта публикуется несколько страниц с одинаковым смыслом, но при этом их URL, title, description и h2 отличаются. Например, на сайте есть статья «10 преимуществ шугаринга», где расписаны достоинства данной процедуры, и отдельная статья «Плюсы шугаринга». Скорее всего информация в материалах будет пересекаться или, еще хуже, повторяться и правильнее было бы написать одну объёмную статью на эту тему.

Частичные дубли обычно возникают по нескольким причинам:

Неправильная настройка или осознанные действия в оформлении страниц. Например, в интернет-магазине используется одинаковый текст для описания различных товаров.
Ошибки при внедрении фильтра по каталогу. Распространенной является ситуация, при которой страницы товаров, отличающихся лишь одним параметром (цвет, размер), становятся дубликатами.
Одинаковый контент на всех страницах из-за неправильной структуры.
Умышленное дублирование, когда частичные дубли создают намеренно, чтобы ранжироваться по похожим запросам на разных страницах.

Как найти дубли страниц

Итак, мы уже выяснили, что такое дубли, какими они бывают и какое влияние они оказывают на поисковое продвижение. Самое время поговорить о том, как их обнаружить. Поиск дублей страниц осуществляется ручным способом или с помощью специальных программ и онлайн-сервисов.

Проверка дублей страниц ручным способом

Ручной мониторинг выдачи целесообразно применять при анализе небольших проектов (до 200 страниц). Чтобы узнать количество проиндексированных страниц, используйте оператор «site:».

Для этого в поисковой строке, например Google, пропишите запрос:

site:yoursite.com

Разумеется, вместо «yoursite.com» нужно указать доменное имя вашего сайта, иначе вы запросите проверку индекса западной площадки по созданию сайтов Yoursite.com 🙂

После отображения результатов общего индекса нужно внимательно изучить их на наличие копий. Обратите внимание на то, что Google показывает примерные результаты, т. е. в действительности цифры могут отличаться.

На последней странице результатов поиска вы увидите ссылку «Показать скрытые результаты». Нажмите на нее, чтобы ознакомиться с результатами, которые Google счел очень похожими на те, которые он привел выше. В ходе анализа обратите внимание на необычные заголовки и URL-адреса страниц, которые вызывают подозрение.

Чтобы сравнить результаты общего индекса с основным, добавьте в конце команды амперсанд «&»:

site:yoursite.com/&

Сопоставив разницу между двумя результатами, можно определить, какое количество страниц находится в дополнительном индексе.

Если вы хотите проверить коммерческий веб-проект (интернет-магазин, сайт услуг) на наличие дублей страниц в блоге, используйте оператор:

site:yoursite.com/blog

Выявить ошибки индексации на страницах рубрик WordPress поможет команда:

site:yoursite.com/category

Если у вас есть подозрения, что какая-то конкретная страница имеет дубли, используйте оператор:

site:yoursite.com «Фрагмент текста со страницы, которая вызывает подозрения»

О том, что данная страница почти наверняка имеет дубли говорит несколько результатов в выдаче.

Проверить страницы на совпадающие заголовки поможет команда:

site:yoursite.com intitle:ваш title

На сайте могут быть тысячи страниц, а поэтому выполнить их анализ надлежащим образом даже при самом огромном желании, используя всего лишь поисковые операторы — задача практически невыполнимая. Гораздо умнее, быстрее и проще воспользоваться специальными онлайн сервисами и десктопными программами, о которых мы поговорим ниже.

Проверка дублей страниц с помощью сервиса «Яндекс.Вебмастер»

О том, что такое «Яндекс.Вебмастер» и как добавить туда сайт, написано сотни текстов. Мы не станем повторяться и расскажем куда нужно зайти и на что обратить внимание, чтобы обнаружить дубли страниц сайта.

Итак, последовательность действий такова:

перейдите во вкладку «Индексирование»;
выберите подкатегорию «Страницы в поиске»;
нажмите по ссылке «Исключенные».

Обратите внимание на желтые цифры, расположенные возле статуса «Дубль». Это, по мнению «Яндекса», и есть копии. Наведите курсор мыши на гистограмму, чтобы ознакомиться с историей изменений поисковой выдачи.

Поиск дублей страниц онлайн

Apollon

Бесплатный, простой в использовании сервис, предоставляющий возможность проверить сайт на дубли онлайн. Все что нужно — перейти по ссылке, в соответствующем поле указать URL-адрес, нажать кнопку «Отправить» и немного подождать.

Вы можете ввести до пяти URL (каждый с новой строки), что очень удобно при анализе крупных интернет-магазинов, когда нужно выполнить анализ главной страницы, страницы категорий, товаров, целевых и служебных страниц (карта, с указанием местоположения, оплата, доставка и т. д.).

Процесс обработки данных занимает несколько секунд. В итоге вы получите пять удобных таблиц (при условии добавления пяти URL, как в нашем примере) с подробной информацией о каждом адресе.

Чтобы было проще обнаружить отличия можно отметить чекбокс «Показать отличия от проверяемого URL».

Ознакомившись с вышеуказанным примером можно прийти к заключению, что на сайте присутствуют дубли с суффиксами home, home.php и home.html, которые обязательно нужно удалить.

Для информационных и новостных порталов можно проверить, например, дубли главной страницы, страницы разделов и тегов, отдельных информационных публикаций или новостей и служебных страниц (контакты, карта сайта, страница FAQ).

SE Ranking

SEO платформа с широким функционалом, оснащенная всевозможными инструментами для SEO и онлайн-маркетинга. Сервис платный, но есть бесплатный 14-дневный триал, которого будет достаточно, чтобы проверить дубли страниц и принять соответствующие меры. Сервис позволяет проверить наличие у сайта зеркала с «www» или без «www» в адресе, обнаружить страницы с одинаковым контентом и дублирующимися метатегами title и description, которые могут быть признаками копий.

Для детального ознакомления с проблемой, кликните по ссылке с выпадающим текстом «Подробнее». В нашем примере решение проблемы — 301 редирект в файле .htaccess, который расположен в корневой директории вашего сайта. Кто не знает, под корневой директорией подразумевается папка (каталог), в которой находятся все файлы ресурса.

Итак, чтобы воспользоваться сервисом SE Ranking, перейдите по ссылке, пройдите регистрацию и добавьте свой проект. Чтобы было проще разобраться, мы подготовили для вас подробную пошаговую инструкцию.

Дальнейшие действия сводятся к нескольким простым шагам:

Перейдите на вкладку «Анализ сайта».

Выберите добавленный ранее проект.

Запустите проверку или ознакомьтесь с результатами, которые появятся в течение кратчайшего времени (зависит от размеров проекта) при условии, что в процессе его добавления и настроек переключатель «Анализ сайта» остался включенным.

Известие об завершении анализа вы получите на E-mail, указанный при регистрации. Как видно со скриншота, в процессе анализа SE Ranking обнаружил 92 страницы с дублирующимся title.

Нажмите на значок в виде ссылки, чтобы посмотреть на каких URL расположены одинаковые метатеги title.

Поиск дублей страниц с помощью программ

Если по каким-то причинам проверка сайта на дубли страниц онлайн вас не устраивает, можно выполнить их поиск с помощью стационарных программ.

Netpeak Spider

Замечательная программа, которая есть на «вооружении» у многих агентств интернет-маркетинга и SEO-компаний. В первой половине октября 2020 года стала доступной бесплатная версия Netpeak Spider, в которой доступен практически весь функционал без ограничений по времени использования, количеству URL и с возможностью кастомизации настроек. Если раньше после окончания пробного периода и/или окончания платного тарифа, доступ к программе был заблокирован, то теперь вы можете беспрепятственно открыть краулер и продолжить пользоваться его инструментами без подписки!

Что касается ограничений, то в бесплатной версии нет возможности экспортировать отчёты, копировать и фильтровать данные, сохранять проекты и использовать дополнительные фичи. Получается, что даже если в результате анализа в ошибках отобразятся дубли, в бесплатной версии программы придется анализировать вкладку «Все результаты», чтобы посмотреть, какие URL являются копиями, так как отфильтровать данные не получится.

На момент написания этой статьи анализатор умел определять более 100 ключевых ошибок внутренней оптимизации, включая:

битые страницы;
дубликаты текста;
дубликаты title, description и h2;
битый редирект;
большое время ответа сервера и т. д.

О том, как пользоваться программой Netpeak Spider, у нас написано подробное наглядное руководство. Переходите по вышеприведенной ссылке, изучайте информацию и берите статью в закладки, чтобы не потерять.

Вкратце:

Посетите сайт разработчика, пройдите регистрацию и установите на компьютер Netpeak Launcher — десктопную программу для управления продуктами Netpeak Software.
Запустите Netpeak Launcher и установите через нее Netpeak Spider (вместо «Запустить» у вас будет «Установить»).

Запустите анализатор, вставьте в поле URL-адрес, который вы намереваетесь проверить, после чего нажмите кнопку «Старт».

Обратите внимание на правую область программы, где расположены отчеты проверки, с которыми можно более подробно ознакомиться. Для этого наведите курсор мыши на ошибку и кликните по ней левой кнопкой мыши.

Полезное: Как проверить сайт на SEO-ошибки

Xenu

Xenu’s Link Sleuth — 100 % бесплатная программа для внутреннего технического аудита, которая умеет определять битые ссылки, дубли страниц, распознавать скрытые внешние ссылки, а также ссылки, возвращающие редирект. Отсутствие русского языка — пожалуй единственный ее недостаток.

Для скачивания программы, перейдите на сайт разработчика и нажмите «download».

Откройте скачанную на ПК ZIP-папку и нажмите «Setup», чтобы продолжить установку.

Чтобы проверить сайт на дубли страниц с помощью Xenu, следуйте дальнейшей инструкции:

Запустите программу, закройте модальное окно («Close») и нажмите по ярлыку, напоминающему изображение файла.

Укажите URL-адрес проекта.

Дождитесь окончания сканирования. Выберите «Да», если хотите открыть отчет локально в окне браузера, «Нет», если планируете продолжить работу в пользовательском интерфейсе программы.

Ознакомьтесь с результатами. В процессе анализа обратите внимание на повторяющиеся заголовки и мета-описания, которые могут указывать на дубли страниц.

Полезное: Раскрутка сайта самостоятельно: полный пошаговый гайд по продвижению

Как удалить дубли страниц

После обнаружения дублей, первое, что необходимо сделать — найти причину, из-за которой они появляются, и постараться ее устранить.

Выделяют четыре основных метода удаления дублей:

<meta name=»robots» content=»noindex»>;
301 редирект;
rel=»canonical»;
robots.txt.

Метатег robots

Позволяет задать роботам правила загрузки и индексирования определенных страниц сайта. Учитывается поисковой системой «Яндекс» и Google.

Метатег <meta name=»robots» content=»noindex» /> следует разместить в HTML-коде дублирующихся страниц в разделе <head>.

Пример:

<!DOCTYPE html>
<html><head>
<meta name=»robots» content=»noindex» />
(…)
</head>
<body>(…)</body>
</html>

Заданное для атрибута content значение noindex запрещает поисковым системам показывать страницу в результатах поиска.

Больше информации о специфике и применении метатега robots вы найдете в справочных материалах Google и «Яндекс».

301 редирект

Несомненно, один из самых действенных и известных методов устранения дублей, который позволяет автоматически перенаправить пользователей с одной страницы на другую. 301 редирект говорит поисковым системам о том, что старый URL-адрес имеет новый путь на постоянной основе. Со временем два или больше документа «склеиваются» в один, на который ведет перенаправление.(.*)$ http://%1/$1 [R=301,L]

Переадресация с одной статической страницы на другую осуществляется за счет добавления строки:

Redirect 301 /old-page http://yoursite.com/new-page

где:

old-page — страница, с которой происходит редирект;
new-page — страница, на которую установлен редирект.

Атрибут rel=»canonical»

Укажите каноническую страницу, чтобы показать поисковым системам, какую страницу нужно индексировать при пагинации, сортировке, попадании в URL GET-параметров и UTM-меток. Этот способ уместен, когда удалять страницу нельзя и её нужно оставить открытой для просмотра. Учитывается поисковой системой «Яндекс» и Google.

Указывая каноническую ссылку, мы указываем адрес страницы, предпочтительной для индексации. Атрибут rel=»canonical» нужно прописать между тегами <head>…</head> на всех страницах, которые являются дублями.

Например, страница доступна по двум адресам: yoursite.com/pages?id=2 и yoursite.com/blog.

Если предпочитаемый URL — /blog, добавьте в HTML-код страницы /pages?id=2 элемент link:

Больше информации о специфике применения атрибута rel=»canonical» вы найдете в справочных материалах Google и «Яндекс».

Файл robots.txt

Еще одно решение — запретить роботам индексировать дубликаты, дописав в файл robots.txt директиву Disallow. Чаще всего используется в тех случаях, когда нужно запретить индексацию служебных страниц и дублей.

Например, закрыть страницы пагинации от индексации Joomla поможет:

Учтите, директивы в robots.txt носят рекомендательный характер и могут быть проигнорированы поисковыми роботами, но как правило, они учитывают данное указание.

Итог

Дубли страниц — проблема из разряда «крупногабаритных и тяжеловесных». Если вовремя не отреагировать, все дальнейшие усилия по продвижения могут быть сведены на нет. Надеемся, представленные в этой статье методы помогут оптимизировать ваш ресурс и занять топовые места в поисковой выдачи.

Обнаружили в тексте грамматическую ошибку? Пожалуйста, сообщите об этом администратору: выделите текст и нажмите сочетание горячих клавиш Ctrl+Enter

Не ленитесь, поделитесь!

Понравилась статья? Угостите админа кофе.

Средство проверки дублированного содержимого / средство обнаружения плагиата

Средство проверки дублированного содержимого / обнаружение плагиата.

Обновления: 1. Средство проверки дублированного содержимого теперь также может обрабатывать ввод обычного текста, помимо ввода URL. 2. Щелкнув поле расширенных параметров, вы можете выбрать вариант поиска дублирующегося содержимого на основе нескольких точек данных (выделение текста). 3. И я изменил способ представления возвращаемых результатов.

Используйте средство проверки дублированного контента, чтобы найти внутренний и внешний дублированный контент для определенной веб-страницы.Дублированный контент — важная проблема SEO, потому что поисковые системы стараются отфильтровать как можно больше дубликатов, чтобы обеспечить лучший поиск. Этот инструмент может обнаруживать два типа (текстового) повторяющегося контента. Типы дублированного контента:

Внутренний дублированный контент. Это означает, что один и тот же текст находится на нескольких страницах по одному и тому же URL-адресу.
Внешний дублированный контент. В этом случае один и тот же текст находится на нескольких доменах.

Почему важно предотвращать дублирование контента?

Как упоминалось выше, поисковые системы не любят дублированный контент / плагиат, потому что пользователи не заинтересованы в просмотре страницы результатов поиска, содержащей несколько URL-адресов, каждая из которых содержит более или менее одинаковое содержание.Чтобы этого не произошло, поисковые системы пытаются определить исходный источник, чтобы они могли показать этот URL-адрес для соответствующего поискового запроса и отфильтровать все дубликаты. Как мы знаем, поисковые системы довольно хорошо справляются с фильтрацией дубликатов, но все же довольно сложно определить исходную веб-страницу. Может случиться так, что когда один и тот же блок текста появляется на нескольких веб-сайтах, алгоритм решит, что страница с наивысшим авторитетом / наивысшим доверием будет отображаться в результатах поиска, даже если это не исходный источник.В случае, если Google обнаруживает дублированный контент с целью манипулирования рейтингом или обмана пользователей, Google внесет корректировки в рейтинг ( Panda filter ) или сайт будет полностью удален из индекса Google и результатов поиска.

Как работает программа проверки дублированного контента?

Найдите проиндексированный повторяющийся контент, используя ввод URL или ТЕКСТА.
- Используйте ввод URL для извлечения основного содержания статьи / текста, находящегося в теле веб-страницы. Элементы навигации удалены, чтобы уменьшить шум (в противном случае многие страницы были бы ошибочно идентифицированы как внутренние дубликаты.)
- Используйте ввод текста, чтобы получить больше контроля над вводом.
Выберите дополнительные параметры, чтобы выбрать одну или несколько точек данных, используемых для обнаружения повторяющихся страниц. Выбор нескольких точек данных даст вам более точные и даже лучшие результаты сопоставления. (Эти точки данных автоматически извлекаются из содержимого страницы или ввода текста).
Подобный контент извлекается, возвращается и помечается как: входной URL, внутренний дубликат, внешний дубликат.
Экспорт результатов в.CSV. и используйте электронную таблицу Excel / Open Office, чтобы просматривать, редактировать или сообщать о своих результатах.

Как использовать эти результаты?

Внутренние дубликаты В большинстве случаев вы начнете решать проблемы внутренних дубликатов. Потому что эти проблемы существуют в вашей собственной контролируемой среде (на вашем веб-сайте). Для удаления внутренних дубликатов можно использовать разные методы, в зависимости от характера проблемы. Некоторые примеры:

Минимизировать повторение шаблонов
Использовать постоянное перенаправление 301
Использовать канонический тег
Использовать обработку параметров в Инструментах Google для веб-мастеров
Запретить индексирование URL.

Внешние дубликаты Внешние дубликаты — это отдельная история, потому что вы не можете просто внести изменения в свой собственный сайт и решить проблему. Некоторые примеры удаления внешних дубликатов:

Обратитесь к веб-мастерам и попросите их удалить копии вашего контента.
Если другой сайт дублирует ваш контент / в нарушение закона об авторских правах и обращение к нему не решает проблему, вы можете использовать эту форму, чтобы уведомить Google: https: // support.google.com/legal/troubleshooter/1114905.

Ограничения инструмента

Этот инструмент автоматически извлекает текст из веб-страницы для использования в качестве входных данных для обнаружения дублированного контента. Это не всегда именно тот блок текста, который нужно проверять на наличие дубликатов. В этом случае лучше использовать текстовое поле для ввода.
Новое содержимое необходимо проиндексировать, прежде чем его можно будет вернуть с помощью этого инструмента. Если странице / контенту меньше 2 дней, шансы получить какие-либо результаты невелики.
Не все дубликаты, найденные в Интернете, возвращаются этим инструментом. Но по сравнению с другими инструментами возвращает довольно большую сумму.

Внешние ресурсы:

Пожалуйста, поделитесь ❤ Инструменты SEO, инструменты SEO
Использование средства проверки дублированного контента для поиска скрытых проблем на сайте
Даже если вы думаете, что постоянно создаете уникальный контент, вам может понадобиться средство проверки дублированного контента. Многие веб-сайты непреднамеренно публикуют повторяющийся контент, и эта скрытая ошибка может привести к ухудшению пользовательского опыта и даже к снижению вашей позиции в поисковом рейтинге.
Поэтому используйте средство проверки дублированного контента, чтобы выяснить, где на вашем сайте может скрываться повторяющийся контент, и как его идентифицировать и удалить.
Используйте средство проверки дублированного контента, чтобы найти повторяющийся контент на вашем сайте и узнать, как его удалить. Нажмите, чтобы твитнуть
Зачем нужна программа проверки дублированного содержимого
Дублированный контент может существовать двумя способами:
Повторяющийся контент на сайте повторяется на нескольких страницах вашего сайта
Дублированный контент вне сайта — это когда один и тот же контент существует на разных сайтах
Повторяющееся содержимое может быть легко идентифицировано или менее заметно.Он может существовать как точная копия на целевой странице или в сообщении в блоге, или он может быть скрыт в коде страницы как повторяющиеся метаописания. Часто создается по:
Очевидные ошибки , например, скопированный или извлеченный контент
Непреднамеренные ошибки , например, несколько вариантов одного и того же URL-адреса или отдельные версии вашего сайта, например www.sitename.com и sitename.com
Средство проверки дублированного содержимого может проверить наличие очевидных и не столь очевидных ошибок на вашем сайте, сканируя все страницы, включая элементы HTML, такие как теги заголовков и метаописания.Инструменты онлайн-плагиата могут помочь в выявлении дублированного контента за пределами сайта.
Хотя дублирующийся контент не приведет к штрафу за поиск, он может сбивать с толку как пользователей, так и поисковые системы. Y Вам следует использовать средство проверки дублированного контента, чтобы убедиться, что ваш контент уникален и оригинален, а также следовать рекомендациям по поисковой оптимизации. , и чтобы избежать:
Обеспечение неудобств для пользователей, которые не хотят читать один и тот же контент дважды.
Запутывает поисковые системы, которые не знают, как ранжировать страницы с одинаковым или очень похожим содержанием, что приводит к снижению рейтинга обеих страниц.
Почему существует повторяющееся содержимое?
Повторяющееся содержимое может быть использовано злонамеренно. Пытаясь заполнить сайт контентом, издатели «очищают» или копируют и вставляют контент с других сайтов. В других случаях издатели могут использовать дублированный контент SEO, чтобы попытаться манипулировать поисковыми системами и повысить рейтинг в поиске.
В то время как некоторые тактики черного SEO преднамеренно злоупотребляют дублированным контентом, в большинстве случаев публикация дублированного контента не является преднамеренным действием.Издатели не знают, что делают ошибку.
Существуют также законные причины для публикации повторяющегося контента (повторная публикация на сайтах гостевых блогов, распространение контента, использование разных версий одной и той же копии и т. Д.). Вы можете использовать дублированный контент таким образом, если следуете передовым методам, которые позволяют поисковым системам знать, что он преднамеренный, например, с помощью канонического тега.
Как проверить дублирующийся контент на веб-сайте
Самый эффективный способ проверить страницы на дублирование контента — это использовать программное обеспечение или инструменты SEO, которые могут обнаружить проблемы на вашем сайте.Поскольку дублированный контент иногда может скрываться там, где вы его не видите или не заметите, автоматическая проверка дублированного контента может помочь вам обнаружить каждую строку идентичной копии.
Alexa предлагает автоматическую проверку дубликатов текста как часть нашего инструмента аудита SEO. Инструмент сканирует ваш сайт и выявляет любые экземпляры дублированного контента на нем.
Он также создает отчет с каждым URL-адресом, который включает случаи повторения содержимого, так что вы можете легко идентифицировать и исправлять страницы.
Инструмент также углубляется в ваш сайт и сообщает о повторяющихся мета-описаниях SEO. Он сканирует каждое мета-описание на вашем сайте и включает в себя список всех URL-адресов, которые используют одну и ту же копию, чтобы помочь вам улучшить свой мета-тег SEO.
Если вы знаете, как проверять наличие дублированного контента на веб-сайте, следующим шагом будет решение этих проблем. В зависимости от ошибок вы можете исправить проблемы по:
Использование тегов rel + canonical
Использование 301 редиректа
Использование метатегов noindex
Установка предпочтительного домена в консоли Google
Настройка обработки параметров в Google Console
Изменение содержания
Отчеты Alexa содержат советы по устранению проблем, обнаруженных на вашем сайте.
Выявление повторяющегося содержания — это первый шаг к исправлению вашего сайта, чтобы он стал более привлекательным как для читателей, так и для поисковых систем. Поэтому используйте средство проверки дублированного контента, чтобы убедиться, что вы выявили все проблемы на своем сайте, а затем составьте план решения этих проблем.
Используйте средство проверки дублированного содержимого на своем сайте
Перестаньте задаваться вопросом, где на вашем сайте может скрываться дублированный контент. Получите доступ к средству проверки дублированного контента, а также к другим инструментам SEO-анализа, конкурентного анализа и исследования ключевых слов, воспользовавшись пробной версией расширенного плана Alexa.Подпишитесь на бесплатную пробную версию и получите доступ к инструменту SEO Audit Tool, который сканирует ваш сайт и составляет отчет о любых случаях дублирования контента на вашем сайте.
Дублированный контент [SEO 2021] — Moz
Что такое дублированный контент?
Дублированный контент — это контент, который появляется в Интернете более чем в одном месте. Это «единое место» определяется как местоположение с уникальным адресом веб-сайта (URL). Таким образом, если одно и то же содержание отображается более чем на одном веб-адресе, у вас есть дублированный контент.
Хотя технически это и не является штрафом, дублированный контент все же может иногда влиять на рейтинг в поисковых системах. Когда существует несколько частей, как это называет Google, «в значительной степени похожего» контента в более чем одном месте в Интернете, поисковым системам может быть сложно решить, какая версия более релевантна данному поисковому запросу.
Почему важно дублировать контент?
Для поисковых систем
Дублированный контент может представлять три основных проблемы для поисковых систем:
Они не знают, какую версию (и) включить / исключить из своих индексов.
Они не знают, следует ли направлять метрики ссылок (доверие, авторитет, текст привязки, равенство ссылок и т. Д.) На одну страницу или сохранять их разделенными между несколькими версиями.
Они не знают, какие версии ранжировать по результатам запроса.
Для владельцев сайтов
При наличии дублированного контента владельцы сайтов могут понести рейтинг и потерять трафик. Эти потери часто происходят из-за двух основных проблем:
Чтобы обеспечить наилучшее качество поиска, поисковые системы редко показывают несколько версий одного и того же контента и поэтому вынуждены выбирать, какая версия с наибольшей вероятностью будет лучшим результатом.Это уменьшает видимость на каждые дубликатов.
Ресурс ссылок может быть еще больше разбавлен, потому что другим сайтам также придется выбирать между дубликатами. вместо всех входящих ссылок, указывающих на один фрагмент контента, они ссылаются на несколько частей, распределяя ссылочный вес между дубликатами. Поскольку входящие ссылки являются фактором ранжирования, это может повлиять на видимость части контента при поиске.
Чистый результат? Часть контента не достигает такой видимости при поиске, как в противном случае.
Как возникают проблемы с дублированием контента?
В подавляющем большинстве случаев владельцы веб-сайтов намеренно не создают дублированный контент. Но это не значит, что этого нет. На самом деле, по некоторым оценкам, до 29% Интернета — это дублированный контент!
Давайте рассмотрим некоторые из наиболее распространенных способов непреднамеренного создания дублированного контента:
1. Варианты URL
Параметры URL, такие как отслеживание кликов и некоторый код аналитики, могут вызывать проблемы с дублированным контентом.Это может быть проблемой, вызванной не только самими параметрами, но и порядком, в котором эти параметры появляются в самом URL-адресе.
Например:
Точно так же идентификаторы сеанса являются обычным создателем дублированного контента. Это происходит, когда каждому пользователю, посещающему веб-сайт, назначается другой идентификатор сеанса, который хранится в URL-адресе.
Удобные для печати версии содержимого также могут вызывать проблемы с дублированием содержимого при индексировании нескольких версий страниц.
Один из уроков здесь состоит в том, что, когда это возможно, часто полезно избегать добавления параметров URL или альтернативных версий URL (информация, которую они содержат, обычно может передаваться через скрипты).
2. HTTP против HTTPS или WWW против страниц без WWW
Если ваш сайт имеет разные версии на «www.site.com» и «site.com» (с префиксом «www» и без него), и один и тот же контент живет в обеих версиях, вы фактически создали дубликаты каждой из этих страниц. То же самое относится к сайтам, которые поддерживают версии как по адресу http: //, так и по адресу https: //.Если обе версии страницы активны и видны поисковым системам, вы можете столкнуться с проблемой дублирования контента.
3. Скопированный или извлеченный контент
Контент включает не только сообщения в блогах или редакционные материалы, но и страницы с информацией о продуктах. Скреперы, повторно публикующие контент вашего блога на своих сайтах, могут быть более привычным источником дублированного контента, но также существует общая проблема для сайтов электронной коммерции: информация о продукте. Если на многих разных веб-сайтах продаются одни и те же товары, и все они используют описания этих товаров производителем, идентичный контент оказывается в нескольких местах в Интернете.
Как исправить проблемы с дублированным контентом
Устранение проблем с дублированным контентом сводится к одной и той же центральной идее: определение того, какой из дубликатов является «правильным».
Всякий раз, когда контент на сайте можно найти по нескольким URL-адресам, он должен быть канонизирован для поисковых систем. Давайте рассмотрим три основных способа сделать это: с помощью перенаправления 301 на правильный URL, атрибута rel = canonical или с помощью инструмента обработки параметров в Google Search Console.
301 редирект
Во многих случаях лучший способ борьбы с дублированием контента — это настроить 301 редирект с «дублированной» страницы на исходную страницу контента.
Когда несколько страниц с высоким потенциалом ранжирования объединяются в одну страницу, они не только перестают конкурировать друг с другом; они также создают более сильный сигнал актуальности и популярности в целом. Это положительно повлияет на способность «правильной» страницы занимать высокий рейтинг.
Rel = «canonical»
Другой вариант работы с дублированным контентом — использование атрибута rel = canonical. Это сообщает поисковым системам, что данную страницу следует рассматривать как копию указанного URL-адреса, и все ссылки, показатели контента и «рейтинг», которые поисковые системы применяют к этой странице, должны фактически быть зачислены на указанный URL.
Атрибут rel = «canonical» является частью заголовка HTML веб-страницы и выглядит следующим образом:
Общий формат:
... [другой код, который может быть в заголовке HTML вашего документа ] ... ... [другой код, который может быть в заголовке HTML вашего документа] ...
Атрибут rel = canonical должен быть добавлен в заголовок HTML каждой повторяющейся версии страницы с заменой части «URL-адрес ОРИГИНАЛЬНОЙ СТРАНИЦЫ» выше ссылкой на исходную (каноническую) страницу.(Убедитесь, что вы сохраняете кавычки.) Атрибут передает примерно такое же количество ссылок (рейтинг), что и перенаправление 301, и, поскольку он реализован на уровне страницы (а не на сервере), часто требуется меньше времени для разработки. воплощать в жизнь.
Ниже приведен пример того, как канонический атрибут выглядит в действии:
Использование MozBar для идентификации канонических атрибутов.

Здесь мы видим, что BuzzFeed использует атрибуты rel = canonical, чтобы приспособиться к использованию параметров URL (в данном случае, отслеживания кликов).Несмотря на то, что эта страница доступна по двум URL-адресам, атрибут rel = canonical гарантирует, что все показатели ссылочного веса и содержания присваиваются исходной странице (/ no-one-does-this-anymore).
Meta Robots Noindex
Один метатег, который может быть особенно полезен при работе с дублированным контентом, — это мета-роботы, при использовании со значениями «noindex, follow». Обычно называемый Meta Noindex, Follow и технически известный как content = «noindex, follow», этот метатег роботов можно добавить в заголовок HTML каждой отдельной страницы, которая должна быть исключена из индекса поисковой системы.
Общий формат:
... [другой код, который может быть в заголовке HTML вашего документа] ... ... [другое код, который может быть в заголовке HTML вашего документа] ...
Метатег robots позволяет поисковым системам сканировать ссылки на странице, но не позволяет им включать эти ссылки в свои индексы. Важно, чтобы дублированную страницу можно было сканировать, даже если вы говорите Google не индексировать ее, потому что Google явно предостерегает от ограничения доступа для сканирования дублированного контента на вашем веб-сайте.(Поисковые системы любят видеть все в случае, если вы допустили ошибку в своем коде. Это позволяет им делать [вероятно, автоматизированный] «вызов для суждения» в других неоднозначных ситуациях.)
Использование мета-роботов — особенно хорошее решение для проблем с дублированием контента, связанных с разбивкой на страницы.
Предпочитаемый домен и обработка параметров в Google Search Console
Google Search Console позволяет вам установить предпочтительный домен вашего сайта (например, http://yoursite.com вместо http: // www.yoursite.com) и укажите, должен ли робот Googlebot сканировать различные параметры URL по-разному (обработка параметров).
В зависимости от вашей структуры URL-адреса и причины проблем с дублированным контентом, настройка предпочтительного домена или обработки параметров (или и того, и другого!) Может предоставить решение.
Главный недостаток использования обработки параметров в качестве основного метода работы с дублированным контентом заключается в том, что вносимые вами изменения работают только для Google. Любые правила, введенные с помощью Google Search Console, не повлияют на то, как Bing или сканеры любой другой поисковой системы интерпретируют ваш сайт; вам нужно будет использовать инструменты для веб-мастеров для других поисковых систем в дополнение к настройке параметров в Search Console.
Дополнительные методы работы с дублирующимся контентом
Поддержание единообразия при внутренних ссылках по всему веб-сайту. Например, если веб-мастер определяет, что канонической версией домена является www.example.com/, то все внутренние ссылки должны вести на http: // www. example.co … вместо http: // example.com/pa … (обратите внимание на отсутствие www).
При распространении содержимого убедитесь, что веб-сайт синдикации добавляет обратную ссылку на исходное содержимое, а не на вариант URL.(Для получения дополнительной информации ознакомьтесь с нашим выпуском Whiteboard Friday о работе с дублированным контентом.)
Чтобы добавить дополнительную защиту от парсеров контента, крадущих кредит SEO для вашего контента, целесообразно добавить самореференциальную rel = canonical ссылку на ваш контент. существующие страницы. Это канонический атрибут, указывающий на URL-адрес, на котором он уже находится, цель которого — помешать усилиям некоторых парсеров.

Самостоятельная ссылка rel = canonical: URL-адрес, указанный в теге rel = canonical, совпадает с URL-адресом текущей страницы.

Хотя не все парсеры будут переносить полный HTML-код своего исходного материала, некоторые сделают это. Для тех, кто это делает, самореференциальный тег rel = canonical гарантирует, что версия вашего сайта будет считаться «оригинальной» частью контента.
Продолжайте учиться
Приложите свои навыки к работе
Сканирование сайта Moz Pro может помочь выявить дублирующийся контент на сайте. Попробовать >>
Siteliner, Copyscape | Дублированный контент SEO
ВНИМАНИЕ: Дублированный контент не влечет за собой штрафов за ваш сайт !!
Гуглеры знают, что пользователи хотят разнообразия результатов поиска, а не одной и той же статьи снова и снова, поэтому они предпочитают объединить и показать только одну версию.
Google действительно разработал алгоритмы для предотвращения влияния дублированного контента на веб-мастеров. Эти алгоритмы группируют различные версии в кластер, отображается «лучший» URL-адрес в кластере, и они фактически объединяют различные сигналы (например, ссылки) со страниц в этом кластере на отображаемую. Они даже зашли так далеко, что сказали: «Если вы не хотите беспокоиться о сортировке из-за дублирования на своем сайте, вы можете позволить нам позаботиться об этом».
Дублированный контент не является основанием для действий, если его намерение не состоит в манипулировании результатами поиска.
Самое худшее, что может случиться из-за этой фильтрации, — это то, что в результатах поиска будет отображаться менее желательная версия страницы.
Google пытается определить исходный источник контента и отобразить его.
Если кто-то копирует ваш контент без разрешения, вы можете запросить его удаление, подав запрос в соответствии с Законом о защите авторских прав в цифровую эпоху.
Не блокировать доступ к повторяющемуся контенту. Если они не могут просканировать все версии, они не смогут объединить сигналы.(эти пули позаимствованы у Searchengineland).
Что считается повторяющимся содержимым?
Если контент появляется в любом месте в Интернете более одного раза, он классифицируется как дублированный контент . Если контент реплицируется на одном веб-сайте или на нескольких URL-адресах, он классифицируется как повторяющийся контент. Даже на одном веб-сайте может быть дублированный контент, что приводит к снижению позиции в выдаче для важного контента. Мы не хотим использовать слово «штраф», но на самом деле, если вы дублируете свой собственный контент на нескольких страницах, это, в конце концов, заставит Google поместить одни страницы в поисковую выдачу и исключить другие.Штраф? Не совсем, но похоже на то. Простое решение — изменить содержимое на последующих страницах, чтобы оно было привязано к конкретной странице и было помечено как исходное. Существует множество мифов о дублированном контенте, убедитесь, что вы знаете, что сказал об этом AHREFS и что Moz говорит о дублированном контенте.
Помните, что дублирующийся контент возникает не только при копировании копии с другого веб-сайта, это также копия, которая находится на вашем собственном веб-сайте по нескольким URL-адресам. Оба типа дублированного контента могут негативно повлиять на SEO веб-сайта, и, хотя его относительно легко исправить, многие люди не знают о влиянии дублированного контента.
Определение дублированного контента в Google довольно четкое, и для многих, кто ищет способы улучшить SEO своего веб-сайта, это идеальное место для использования в качестве ориентира. Часто исправление повторяющихся заголовков, h3s, копий и метаданных может привести к быстрому улучшению SEO.
Определение повторяющегося контента — это основные области контента, которые в значительной степени похожи или прямо соответствуют другому контенту, который содержится в одном домене или публикуется в нескольких доменах.Это не имеет большого значения, если вы являетесь автором, и, во-вторых, что еще более важно, у вас самый сильный веб-сайт! Ситуация становится еще более мрачной, если кто-то опережает вас по ВАШЕМУ контенту, или наоборот. Есть способы сообщить об этом в Google. Примечание: нужно ли вам искать термины интернет-маркетинга, которые мы используем в этой статье?
Примеры дублированного контента
Это все примеры дублированного контента, которые не считаются вредоносными.
Версии страниц веб-сайта только для печати
Страницы, которые не индексируются поисковыми системами
Форумы для обсуждения, которые генерируют страницы, оптимизированные для Интернета и мобильных устройств
Товары в магазине, представленные с множеством отличительных URL-адресов ( при условии, что относительные канонические значения настроены правильно)
Страницы, относящиеся к исходному содержимому
Меню, разделы нижнего колонтитула, некоторые боковые панели и другие области содержимого, не входящие в основную область «уникального содержимого» веб-сайта
Содержимого достаточно Гео-модификаторы, измененные h2s, h3s и копия — даже если они извлечены из одного набора файлов
HTTP и HTTPS
www и не www
Параметры и фасетная навигация
Идентификаторы сеанса
Завершающие слэши
Альтернативные версии страниц, такие как m.или AMP-страниц, или распечатайте
Пагинация
Страна / языковая версия
Если на вашем веб-сайте есть разные страницы, содержание которых в основном одинаково, существует множество способов сообщить Google о предпочитаемом URL-адресе. Это также обычно называется Canonicalization .
Контент, скопированный у его автора и вставленный на веб-сайт или в блог, также может называться контентом, плагиатом. В этой ситуации человек, копирующий контент, заставляет его отображаться как исходный контент.Очищенный блог или блок контента редко попадают в эту категорию. Обычно Google может выяснить, кто является автором, парсеры обычно не пытаются быть самозванцами, они обычно просто пытаются предложить информацию своим пользователям. И снова проблема возникает, когда очищенный материал превосходит исходный материал. На всякий случай просто добавьте ссылку на оригинал или, если это целый фрагмент другого материала, просто отнесите сообщение к первоисточнику. Обычно привилегии получить очень легко, если только контент не дает одному веб-сайту конкурентного преимущества перед другим.Тем не менее, эту информацию чаще всего можно использовать с доверием.
Когда веб-разработчик очищает контент и помещает его в другой домен, чтобы украсть работы другой компании, это может в крайних случаях привести к штрафам и полному удалению из поисковых систем. Подобные практики могут разрушить пользовательский опыт и являются вредоносными, именно по этой причине Google вводит штрафы, чтобы как защитить пользовательский опыт, так и наказать любого, кто пытается использовать нечестные методы для получения трафика или повышения SEO своих веб-сайтов. .Надлежащая атрибуция должна использоваться, когда информация заимствуется из других онлайн-источников. Обычно в ситуации, когда кто-то занимается плагиатом вашего веб-сайта и выдает себя за вас, это не то, на что дается указание, потому что автор совершает нарушение, которое, когда его поймают, приведет к штрафу.
Оператор расширенного поиска Google для поиска повторяющегося содержания
Если вы хотите проверить, была ли информация скопирована с вашего сайта без указания авторства, просто используйте простой оператор Google, такой как intext:, и включите фрагмент контента, который вам интересен.Дополнительные операторы поиска Google, которые могут помочь вам найти дублированный контент, извлеченный с вашего сайта, включают: intitle :, allintitle :, inurl :, allinurl :, allintext :. Но, честно говоря, большинство людей не беспокоится об этом — большинство крупных блогов постоянно копируются. Уловка, чтобы получить что-то от этой тактики, заключается в том, чтобы включить прочную структуру входящих ссылок, чтобы вы могли получить некоторый трафик или авторитет в таких ситуациях.
Является ли повторяющееся содержимое плохим?
Да? Нет? Может быть.Это действительно зависит от ситуации. Google довольно открыто заявляет о том, что реального наказания за дублирующийся контент нет, так как Интернет дублируется примерно на 30%. Что бы они сделали, просто удалили 30% контента со своих серверов? Как бы они выбрали?
Почти 30% онлайн-контента — это дублированный контент. В злонамеренных случаях это может вызвать путаницу с поисковыми системами, поскольку они не знают, какая версия контента должна быть ранжирована (в зависимости от авторитета). Честно говоря, дублирование контента на нескольких сайтах обычно связано с кражей данных, когда кто-то, даже если это было сделано невиновно, украл или скопировал контент с другого веб-сайта или источника.
Существует множество законов об авторском праве и инструментов, которые можно использовать для обнаружения плагиата. Помните, что плагиат намного хуже, чем простая очистка или даже перепрофилирование контента на другом веб-сайте. Нарушение распространяется не только на письменные слова, но и на другие формы мультимедиа, такие как изображения и видеоконтент. Есть много мест, где можно получить бесплатный контент для использования, но большинство мест стоит и / или требует указания авторства.
Если вы скопировали контент или дублировали контент на своем веб-сайте, это может привести к ряду ключевых проблем.Это не только считается ленивым в сегодняшних интернет-сетях, но в некоторых случаях может создавать непрофессиональный или неэтичный имидж вашей компании или компании вашего клиента! Еще хуже.
Вы бы купили продукты компании, которая сознательно крадет и копирует работу других?
Я знаю, что да, верно? Похоже, что телефонные компании каждый день грабят друг друга. Но на секунду подумайте об этом в отношении онлайн-контента. Если вы надеетесь стать следующим авторитетом в области контента, дублирование контента — не выход.Мы не говорим, что нужно избегать распространения оригинального контента на вашем веб-сайте, мы говорим, что при этом используйте правильную атрибуцию. Будьте честны, когда дело доходит до размещения других материалов на вашем URL. Где граница с гуглом? При крайнем скрапинге / плагиате Google и другие поисковые системы могут вручную наложить штраф на ваш URL, что нанесет ущерб прибыльности вашей компании из-за органического поискового трафика.
Цель любого сайта — привлечение и информирование. Когда у вас есть дублированный контент на вашем сайте, вы теряете огромную возможность привлечь трафик на свой сайт, особенно когда поисковая система не отображает ваш / url вместе с контентом.Это действительно риск, приносящий мало пользы.

Таким образом, дублирующийся контент может быть плохим для вашего веб-сайта и для ваших онлайн-усилий. Если вы хотите улучшить свое SEO, вы можете начать с обновления содержимого своего веб-сайта и убедиться, что любой повторяющийся контент удален и заменен оригинальной и привлекательной копией, которая актуальна для вашей аудитории и уникальна для вашего бизнеса.
Что такое тонкое содержимое?
Хотя цель этой статьи — рассказать о способах обнаружения дублированного контента, кажется целесообразным быстро охватить другую категорию контента, которая считается плохой для SEO.Поскольку тонкое содержимое может быть вызвано дублированием содержимого. Узнайте больше о хороших блогах от Yoast и о том, как избежать тонкого контента.
С момента первого появления Google Panda и последующих обновлений того, как Google оценивает веб-сайт; Параллельно существовала тема наказания веб-сайтов за некачественный контент.
Тонкое содержимое — это контент, который практически не представляет ценности для посетителя. В дальнейшем это можно определить как некачественные страницы на веб-сайте или в магазине электронной коммерции.Примеры тонкого содержимого включают автоматически сгенерированное содержимое, повторяющиеся страницы и дорвеи. Если на вашем веб-сайте есть страница, на которой пользователи не остаются слишком долго или которая явно отталкивает людей от вашего сайта, это иногда является индикатором для пауков, что страница содержит тонкое содержание.
Проще говоря, если страница не представляет ценности для посетителя и отталкивает людей от вашего сайта, есть проблемы с вашим контентом, которые вы захотите быстро решить.
Как Google измеряет тонкое содержание?
Многое из того, что измеряет Google, автоматизировано.Когда дело доходит до измерения тонкого контента, Google использует один конкретный показатель.
«Время до долгого клика» эффективно, когда человек нажимает на результат на странице поиска Google, а затем остается на целевом сайте в течение некоторого времени. Скажем, например; Если вы найдете понравившуюся статью, возможно, вы захотите посмотреть на сайте более полезную информацию. Затем, допустим, вы нажимаете на бесполезную ссылку, что означает, что вы гораздо быстрее возвращаетесь в Google, чтобы найти другой сайт, который предоставляет более полные или более полезные данные.Последнее называется коротким щелчком.
Чтобы убедиться, что вас не наказывают за тонкое содержимое, используйте следующие указатели:
Старайтесь избегать использования дублированного контента на своем сайте
Постарайтесь предоставить информацию, которая актуальна для ваших клиентов или потенциальных клиентов. клиенты
Убедитесь, что заголовки и описания ваших страниц соответствуют тому, что на самом деле присутствует на веб-странице
Постарайтесь, чтобы у вас было не менее 350 слов на странице
Убедитесь, что ваш контент отвечает на любые вопросы, которые могут возникнуть у посетителя
9 Инструменты для обнаружения повторяющегося содержимого
1.Siteliner
Siteliner занимает первое место в нашем списке, потому что он проверяет наличие дублированного контента на сайте и сообщает вам, какой именно текст воспроизводится на какой странице. Он также проверяет веб-контент на плагиат и многое другое. Он очень прост в использовании; вы просто вставляете URL-адрес сайта, который хотите просмотреть, и нажимаете на поиск.
Кроме того, он также сообщает вам другую информацию, такую как время загрузки для каждой страницы, количество слов, присутствующих на каждой странице, неработающие ссылки, перенаправления и многое другое.Скорость сканирования зависит от размера сайта, который вы ищете, и результаты отображаются максимум в течение нескольких минут.
Siteliner позволяет вам проверять области, которые могут содержать тонкий контент или контент, который находится по нескольким URL-адресам на вашем веб-сайте, а также позволяет вам видеть самые сильные страницы. У него есть алгоритм, который сравнивает все страницы сайта с учетом IBL и показывает, какие страницы самые сильные.
После составления отчета вы можете отправить его по электронной почте или бесплатно загрузить копию полного отчета.Бесплатная версия Siteliner ограничена одним сканированием отдельного сайта в месяц. Однако, если вам нужно сделать больше, цены на премиум-сервис будут чрезвычайно разумными. Вам нужно добавить минимум 10 долларов на баланс, а затем взимается минимальная плата за каждую отсканированную страницу, всего 1 цент за страницу.
Siteliner предоставляется той же компанией, которая обслуживала веб-сайт Copyscape.
2. Screaming Frog
Screaming Frog сканирует веб-сайт так же, как и Google.Это позволяет пользователям обнаруживать множество проблем с дублированным контентом, а также ряд других полезных функций, таких как проблемы с параметрами URL-адресов и многое другое.
Мы используем Screaming Frog Premium для проверки следующих технических проблем SEO:
Проблемы с протоколом: http / https
Коды ответа: 4xxs, 5xxs
URI: Мы проверяем стандартизацию нашего стиля
Заголовки страниц: отсутствуют , дубликат, длина, кратные
Метаописания: отсутствует, дубликат, длина, кратные
Ключевые слова мета: не рекомендуется
h2s: отсутствует, дублируется, длина, кратные
h3s: отсутствует, дубликат, длина, кратное
Изображения: размер, замещающий текст, длина замещающего текста
Канонические значения: убедитесь, что установлены наши канонические значения.
В каждый из этих разделов встроено множество функций, а также многие другие функции, которые мы не используем регулярно.
Хотя они предлагают платную услугу, также можно использовать бесплатную версию своего продукта, которая будет сканировать до 500 URI. Как только вы определитесь, какая версия вам нужна, загрузите программное обеспечение на свой компьютер. Примечание: бесплатная версия предоставляет достаточно «кредитов» для сканирования подавляющего большинства сайтов.
3. Plagspotter
Признанный одним из главных конкурентов популярной программы проверки плагиата Copyscape, Plagspotter становится все популярнее, и не без оснований.Это инструмент обнаружения контента, разработанный компанией Devellar. Использовать Plagspotter просто, и, как и многие другие в том же пространстве, они предлагают как платную, так и бесплатную версии.
Вы просто вводите URL-адрес веб-сайта, который нужно проверить, и затем анализируется его содержимое. За одноразовый поиск не взимается плата и нет ограничений в отношении объема возвращаемых результатов. Copyscape, который является ближайшим конкурентом, ограничивает количество бесплатных результатов только десятью, так что в этом аспекте Plagspotter значительно превосходит по производительности.С точки зрения скорости получения результатов, он уступает многим другим доступным средствам проверки на плагиат. Если у вас есть большой сайт, который нужно сканировать, это может быть не лучший инструмент для использования прямо сейчас. С учетом сказанного, его пользовательский интерфейс яркий, а дизайн удобен и прост в навигации. У него, безусловно, многообещающее будущее, поскольку это довольно новый продукт на рынке, и в процессе разработки обещано много новых функций.
Единственный важный момент, который нужно решить с помощью Plagspotter, — это то, что он не будет проверять дублирующийся контент на сайте.Он будет проверять только скопированный контент на других веб-сайтах, и это в основном только средство проверки на плагиат.
4. iThenticate
iThenticate — известный поставщик профессиональных инструментов для борьбы с плагиатом, пользующихся признанием как в академическом мире, так и в Интернете. Их основная цель — помочь авторам, редакторам и исследователям обеспечить уникальность своей работы до публикации. Он был разработан компанией Turnitin, которая является высоко оцененной компанией по проверке плагиата для ученых, ученых и образовательных учреждений по всему миру.
Помимо проверки опубликованных веб-страниц, он также проверяет базу данных, содержащую более 50 миллионов документов и журналов. Он предлагает простой в использовании облачный сервис, который быстро дает результаты.
Единственным недостатком услуги по сравнению с другими программами проверки дублированного контента является ее стоимость. Хотя любые купленные вами кредиты действительны в течение 12 месяцев, минимальный кредит, который вы можете добавить, составляет 100 долларов США, что покрывает только 1 документ на сумму до 25000.
Если вы хотите проверить веб-сайт на наличие дублированного контента, это не лучший сервис.Однако, если у вас есть большой текстовый файл, который вы хотите опубликовать, они предлагают исключительно тщательное обслуживание, которому нет равных.
5. Copyscape
Copyscape — это имя, с которым когда-нибудь сталкивается большинство людей. Их функция плагиата — это то, чем они наиболее известны, и они предлагают услугу, которая одновременно проста в использовании и имеет ценность.
Особенно хорош для проверки содержимого на внешнее дублирование.Одна из лучших особенностей сервиса Copyscape — возможность экспортировать информацию в файл CSV.
У них есть дополнительная услуга под названием Copy Sentry. Он ежедневно сканирует Интернет, чтобы убедиться, что ваш контент не был скопирован или опубликован в Интернете. Если он будет найден, вы получите мгновенное уведомление со всеми связанными подробностями.
Хотя Copyscape имеет прочную репутацию средства проверки на плагиат, он также может помочь вам найти внутренне дублированный контент на вашем собственном сайте.Создав частный индекс контента, вы можете легко узнать, есть ли на сайте репликация. Хотя они и предлагают эту услугу, их дочерняя компания Siteliner предлагает гораздо более простой способ сделать это.
Copyscape взимает 3 цента за поиск до 200 слов, с дополнительной оплатой в размере 1 цента за каждые 100 слов для их премиум-сервиса, и вам необходимо добавить минимум 10 долларов на счет, чтобы начать работу.
Они предлагают бесплатную услугу, премиальную услугу и ежедневную услугу обновления (Copysentry).Если вы хотите узнать больше о законах об авторском праве в вашей стране или о том, как бороться с кражей авторских прав, у них также есть огромный банк информации, который вы также можете просмотреть бесплатно.
Оно признано лучшим программным обеспечением для борьбы с плагиатом в мире и входит в группу Indigo Stream Technologies.
6. Moz
Что касается поиска инструментов, которые могут помочь обнаружить внутреннее дублированное содержимое, Moz хорошо известен этим и многим другим. Moz в первую очередь рассматривается как платный инструмент SEO.Тем не менее, у них есть ряд инструментов SEO и инструментов местного маркетинга, которые они бесплатно предлагают на своем веб-сайте.
Вам необходимо использовать одну из платных услуг MOZ, чтобы воспользоваться функцией внутренней проверки дублированного контента; его можно легко найти и использовать с помощью функции MOZ Crawler. Если вы воспользуетесь этой службой, то обнаружите, что она не только проверяет наличие внутреннего дублированного контента, но также выполняет поиск по метаданным. Любой дублированный контент будет помечен как приоритетный, и с помощью этого инструмента легко быстро найти местоположение дублированного контента на вашем сайте.
Он также дает вам возможность экспортировать отчет, который нравится многим, так как это немного упрощает решение проблем.
7. Консоль поиска Google
Как и следовало ожидать, где-то в этом списке должен был быть не кто иной, как король всех поисковых систем. Помимо поиска проблем с дублирующимся контентом, вы также можете использовать консоль поиска Google, чтобы выявлять проблемы, которые могут быть вызваны «тонким контентом» *.
* Другой способ, которым люди обычно называют тонкое содержимое, — это страницы низкого качества, которые не приносят никакой пользы читателю.Сюда могут входить дорвеи, автоматизированный контент и дублируемые страницы.
Есть четыре ключевых области, на которых следует сосредоточиться, если вы используете Google Search Console для помощи с тонким или повторяющимся содержанием.
Параметры URL — Здесь Google сообщит вам, если возникнут какие-либо проблемы с индексированием или сканированием вашего веб-сайта. Это быстрый и простой способ определить параметры URL-адреса, которые приводят к дублированию технически созданных URL-адресов.
Улучшения в HTML — Здесь Google обнаружит дублированные URL-адреса с тегами заголовков и метаописаниями.
Статус индекса — Здесь Google отобразит график трафика, охватывающий страницы в пределах своего исторического индекса. Это особенно полезно при проверке всплесков вверх. Если вы не публиковали новый контент на своем сайте, эти всплески указывают на некачественные URL-адреса и повторяющиеся UR, которые, возможно, попали в индекс Google.
В целом, Google Search Console немного более техничен, чем другие средства проверки дублированного контента. Однако для тех, кто знает, как его использовать, он может оказаться очень показательным и может помочь вам сразу найти источник проблем с дублированным контентом.
8. Маленькие инструменты SEO
Это чистая проверка на плагиат. Пользоваться им быстро и легко. Главный недостаток этой услуги — надоедливая реклама, разбросанная по всему сайту. Если вы можете пройти через это, и вам нужен простой сайт, который проверяет скопированный контент, небольшие инструменты SEO предлагают именно это.
Вы можете загружать файлы из облака, выбирать файл с Google Диска или Dropbox и загружать либо Docx, либо текстовый файл. Помимо этих параметров, вы можете быстро скопировать и вставить текст в поле поиска.
9. Duplichecker
Это инструмент, специально проверяющий на плагиат и позволяющий выполнять поиск в DocX, текстовых файлах, URL-адресах и текстовых файлах. Он обеспечивает неограниченный бесплатный поиск после регистрации и один бесплатный поиск, если вы не хотите регистрироваться. Он не будет искать на сайте дублированный контент, но поможет вам узнать, есть ли на вашем сайте какой-либо контент, который присутствует где-либо еще в Интернете.
Как исправить проблемы с дублированным контентом
Теперь, когда вы знаете лучшие инструменты для обнаружения дублированного и скопированного контента на веб-сайте, вы можете приступить к исправлению ситуации.
На этом этапе важно напомнить вам, что плагиризация большого количества контента, очистка / дублирование контента и тонкое содержимое — это разные вещи.
Скопированный или плагиатский контент
Единственный способ справиться с контентом, скопированным из другого места в Интернете, — это переписать и обновить этот контент, чтобы он стал полностью уникальным. Для многих людей, которые, возможно, написали контент для своего веб-сайта несколько лет назад, обновление контента на веб-сайте всегда полезно периодически.Однако, если контент не является оригинальным, то первое, что вам нужно сделать, это нанять профессионального копирайтера для создания SEO-дружественной копии для вас; или самостоятельно переписать содержание. Это исправление, быстро исправьте проблему.
Владельцы контента и копирайтеров могут получить доступ к инструментам, которые будут искать и находить плагиат автоматически. Итак, копируются ли это изображения, видео или слова, вам необходимо убедиться, что любые их экземпляры полностью удалены с вашего веб-сайта.
Как удалить экземпляры дублированного контента на веб-сайте
Если вы скопировали сообщение с другого веб-сайта, скорее всего, это не так уж важно.Лучше всего канонизировать контент или добавить атрибуцию. Если вы сделаете это в больших масштабах, это может привести к проблемам с SEO. Создание уникального контента на вашем собственном веб-сайте — это самый быстрый способ завоевать популярность в поисковой выдаче, если вы не пишете о контенте, не имеющем отношения к теме вашего сайта, или даже о релевантном контенте, который требует более сильного веб-сайта для ранжирования этого контента.
Тонкое содержимое
Тонкое содержимое заставляет поисковые роботы определять, какую страницу ранжировать для материала.Дублированный контент, скопированный с других сайтов, может вызвать это и даже информацию, которая хранится на нескольких URL-адресах в одном домене. Оба эти фактора приводят к тонкому содержанию, высокому показателю отказов и, в конечном итоге, к потере позиции в поисковой выдаче. Ключ состоит в том, чтобы содержание в «областях содержания» страницы было высококачественным, длинным, оригинальным, уникальным и всегда зеленым. Чем больше вы можете изменить дублированный контент, который находится на других сайтах и в других местах на вашем собственном сайте, тем лучше будет оптимизация вашего сайта и больше шансов, что вы дадите своему сайту место в дополнительных поисковых запросах.Если вам интересно, почему у вас 50-страничный веб-сайт, а поисковая консоль Google индексирует только несколько из них, часто это и есть виновник.
Redirect 301
Действительно эффективный способ решить проблемы с дублированием контента на веб-сайте — использовать 301 редирект. Избавьтесь от этих страниц вместе и 301 перенаправьте этот старый URL-адрес на имя и улучшенный URL-адрес. Это полностью постоянное перенаправление, которое передает ссылочный вес на другую страницу. Когда вы перенаправляете с 301, это не повлияет отрицательно на вашу SEO, и вы не должны терять трафик, который шел бы по старому URL.Иногда страница с дублированным контентом является лучшим ярлыком. В этом случае переделайте эту страницу и перенаправьте более исходный URL-адрес публикации на эту, конечно, исправьте содержимое на лучшем слаге.
Meta No Index
Этот метод удаления дублированного контента наиболее полезен, когда вам нужно решить проблемы со страницами, которые индексируются поисковой системой. Точный термин «без индекса, nofollow» вводится, и это позволяет роботам знать, что конкретная страница не должна индексироваться поисковой системой.Вы можете сделать это на отдельных страницах или в файле /robots.txt.
Canonical Linking
Это лучший способ информировать поисковые системы о том, что определенная страница должна рассматриваться как копия указанного URL-адреса страницы, которую вы хотите сохранить на своем сайте. Выбирая чужой материал, используйте эту стратегию.
Если вам нужна помощь в поиске и исправлении дублирующегося контента на вашем веб-сайте или вы хотите найти лучший способ улучшить свое SEO, наша профессиональная команда поможет вам быстро исправить ситуацию.Поскольку многие наши предприятия зависят от эффективной поисковой оптимизации, создание вашего контента с целью ранжирования является ключевым моментом.

SEO: как обнаруживать и исправлять повторяющиеся страницы содержимого
Дублированный контент остается обычным препятствием, когда дело доходит до увеличения органического поискового трафика на сайтах розничных продавцов.
Вот некоторые из преимуществ устранения дублированного контента для повышения эффективности SEO по сравнению с другими маркетинговыми действиями, такими как создание ссылок, контент-маркетинг или продвижение контента:
Консолидацию дублированного контента можно выполнить относительно быстро, так как это требует небольшого набора технических изменений;
Вы, вероятно, увидите улучшение рейтинга в течение нескольких недель после внесения коррекции;
Новые изменения и улучшения вашего сайта быстрее воспринимаются Google, поскольку ему приходится сканировать и индексировать меньше страниц, чем раньше.
Объединение дублированного содержания не означает избежания штрафных санкций Google. Речь идет о налаживании ссылок. Ссылки важны для эффективности SEO, но если ссылки попадают на повторяющиеся страницы, они вам не помогут. Они пропадают.
Повторяющееся содержимое разбавляет ссылки
Один и тот же контент, доступный по нескольким URL-адресам, снижает репутацию. Источник: Google.
Я нашел лучшее объяснение этому много лет назад, когда Google опубликовал SEO-аудит (PDF), который он провел на своих собственных сайтах.
В верхней части иллюстрации выше три страницы одного и того же продукта. Каждый из них накапливает ссылки и соответствующую репутацию страницы. Google и другие основные поисковые системы по-прежнему рассматривают качество и количество ссылок со сторонних сайтов как своего рода одобрение. Они используют эти ссылки для определения приоритетов, насколько глубоко и часто они посещают страницы сайта, сколько они индексируют, сколько они ранжируются и насколько высоко они ранжируются.
Репутация главной страницы, также известной как каноническая страница, снижается, поскольку две другие страницы получают часть репутации.Поскольку у них одинаковое содержание, они будут конкурировать за одни и те же ключевые слова, но большую часть времени в результатах поиска будет отображаться только одно. Другими словами, эти ссылки на другие страницы теряются.
Нижняя часть иллюстрации показывает, что, просто объединяя дубликаты, мы увеличиваем количество ссылок на каноническую страницу и ее репутацию. Мы их вернули.
Результаты могут быть впечатляющими. Я наблюдал 45-процентный рост дохода по сравнению с прошлым годом — более 200 000 долларов менее чем за два месяца — за счет удаления дублированного контента.Дополнительный доход поступает от гораздо большего количества страниц продуктов, которые ранее не получали рейтинга и не получали трафик из поисковых систем из-за дублирования контента.
Как обнаружить повторяющееся содержимое
Чтобы определить, есть ли на вашем сайте повторяющееся содержание, введите в Google site: yoursitename.com и проверьте, сколько страниц указано в списке.
Введите в Google «site: yoursitename.com» и проверьте, сколько страниц указано в списке.
Продукты должны составлять основную часть страниц на большинстве сайтов розничных продавцов.Если Google перечисляет гораздо больше страниц, чем продуктов у вас, вероятно, на вашем сайте дублированный контент.
Если ваши XML-карты сайта являются исчерпывающими, вы можете использовать Google Search Console и сравнить количество страниц, проиндексированных в ваших XML-картах сайта, с общим количеством проиндексированных страниц в Статусе индекса.
Пример дублирования содержимого
One Kings Lane — это магазин мебели и товаров для дома. Используя диагностический инструмент, я вижу, что Onekingslane.com имеет более 800 000 страниц, проиндексированных Google.Но, похоже, проблема с дублированием контента.
Во время навигации по сайту я обнаружил страницу продукта — синий коврик — без канонического тега для объединения дублированного контента. Когда я поискал в Google название продукта — «Fleurs Rug, Blue», оказалось, что оно занимает первое место.
One Kings Lane занимает первое место в Google по запросу «Fleurs Rug, Blue», несмотря на отсутствие канонических тегов.
Но когда я щелкнул по этому списку поиска, я перешел на другую страницу. Идентификаторы товаров разные: 4577674 против 2747242.Я получаю одну страницу во время навигации по сайту, другая проиндексирована, и ни одна из них не имеет канонических тегов.
Это, вероятно, вызывает ухудшение репутации, даже несмотря на то, что страница занимает первое место по запросу «Fleurs Rug, Blue». Но большинство страниц продуктов ранжируются по сотням ключевых слов, а не только по названию продукта. В этом случае разбавление, вероятно, приведет к тому, что страница будет ранжироваться по гораздо меньшему количеству терминов, чем могла бы в противном случае.
Однако дублированный контент — не самая большая проблема в этом примере. Когда я нажал на результат поиска, я попал на несуществующую страницу.
Если щелкнуть результат поиска по синему коврику, появится страница с ошибкой.
Страницы больше не существует. Google, скорее всего, исключит этот продукт из результатов поиска.
Даже если One Kings Lane перестроит страницу продукта, присвоив ей новый идентификатор продукта, Google может потребоваться несколько недель, чтобы получить его, поскольку робот Googlebot должен просканировать не менее 800 000 страниц на всем сайте.
Исправление повторяющегося содержимого
Устаревшая тактика устранения дублированного контента — блокировать поисковые системы от сканирования дублирующихся страниц в файле robots.txt файл. Но это не закрепляет репутацию дубликатов на канонических страницах. Это позволяет избежать штрафов, но не восстанавливает ссылки. Когда вы блокируете повторяющиеся страницы с помощью robots.txt, эти повторяющиеся страницы по-прежнему накапливают ссылки и репутацию страницы, что не помогает сайту.
Вместо этого ниже представлены рецепты решения наиболее распространенных проблем с дублированием контента с использованием перенаправления 301 в Apache. Но сначала полезно понять варианты использования постоянной переадресации и канонических тегов.
Канонические теги и перенаправления объединяют дублированные страницы. Но перенаправления обычно более эффективны, потому что поисковые системы редко их игнорируют, а перенаправленные страницы не нужно индексировать. Однако вы не можете (или не должны) использовать переадресацию для объединения рядом с дубликатами, таких как один и тот же товар в разных цветах или товары, перечисленные в нескольких категориях.
Лучшее объединение дублированного контента — это то, что вам не нужно делать. Например, вместо создания иерархии сайтов с site.com / category1 / product1 , просто используйте site.com/product1 . Это избавляет от необходимости объединять продукты, перечисленные в нескольких категориях.
Обычная переадресация URL-адресов
Ниже приведены рецепты перенаправления Apache для решения пяти распространенных проблем с дублированием контента.
Я буду использовать mod_rewrite, и предполагаю, что он включен на вашем сайте
RewriteEngine On # Это включит возможность перезаписи
Я также буду использовать htaccess checker для проверки моих правил перезаписи./?(.*) https://www.webstore.com/$1 [R = 301, L]
Проверяет, установлено ли соединение уже не по протоколу HTTPS.
Обратите внимание, что это правило также касается редкого случая дублирования IP, когда сайт также доступен через IP-адрес.
Это правило также будет работать в редких случаях дублирования IP-адресов, когда сайт также доступен через IP-адрес.
Для следующих примеров мы предположим, что у нас есть полный сайт, использующий HTTPS.
Дублирование конечной косой черты./] +) /? $ https://www.webstore.com/$1/ [R = 301, L]
Это правило добавляет недостающие косые черты в конце.
Этот их удаляет:
RewriteEngine On # Это включит возможность перезаписи % {REQUEST_FILENAME}! -F # Это проверяет, не добавляем ли мы косые черты к файлам, т. Е. /Index.html/ будет неверным RewriteRule (. +) / $ Https://www.webstore.com/$1 [R = 301, L]
Это правило удаляет отсутствующие в конце косые черты.
Дублирование файлов. Распространенным случаем дублирования файла является индексный файл каталога. В системах на основе PHP это index.php . В системах .NET это default.aspx . Мы хотим удалить этот индексный файл каталога, чтобы избежать дублирования.
% {REQUEST_FILENAME} -f # Это необязательно и проверяет, затрагиваем ли мы только файлы RewriteRule (. *) /? Index.php $ https://www.webstore.com/$1 [R = 301, L]
Это правило удаляет этот индексный файл каталога.
Дублирование старых страниц.category / product.php /product-%1.html? [R = 301, L] # Обратите внимание, что на совпадения регулярных выражений из RewriteCond ссылаются с использованием%, но на те, что в RewriteRule, ссылаются с использованием $
Это правило запрещает доступ к URL-адресам, не поддерживающим поисковые системы, без перенаправления.
Перенаправления один-к-одному
В приведенных выше примерах я предполагаю, что идентификаторы продуктов одинаковы для обоих URL-адресов — канонической версии и дубликата. Это позволяет использовать одно правило для сопоставления всех страниц продукта.Однако часто идентификаторы продуктов не совпадают или в новых URL идентификаторы не используются. В таких случаях вам потребуются взаимно-однозначные сопоставления.
Но массовые однозначные сопоставления и перенаправления сильно замедлят работу сайта — по моему опыту, в 10 раз медленнее.
Чтобы преодолеть это, я использую приложение под названием RewriteMap. Конкретный MapType , который следует использовать в этом случае, — это тип DBM, который представляет собой хэш-файл, который обеспечивает очень быстрый доступ.
Когда используется MapType DBM, MapSource — это путь файловой системы к файлу базы данных DBM, содержащий пары ключ-значение, которые будут использоваться при сопоставлении.Это работает точно так же, как карта txt, но намного быстрее, потому что DBM индексируется, а текстовый файл — нет. Это обеспечивает более быстрый доступ к желаемой клавише.
Процесс заключается в сохранении файла однозначного сопоставления в текстовый файл. Формат описан ниже. Затем используйте инструмент Apache httxt2dbm для преобразования текстового файла в файл DBM, как показано в следующем примере.
$ httxt2dbm -i productsone2one.txt -o productsone2one.map
После создания файла DBM укажите на него ссылку в правилах перезаписи.(. *) $ $ {products: $ 1 | NOTFOUND} [R = 301, L] #this ищет любой устаревший URL-адрес на карте, а 301 перенаправляет на заменяющий URL-адрес, также найденный в файле # если сопоставления нет в файле dbm, сервер вернет 404
Как правило, обратитесь к карте и назовите ее продукты . Затем используйте карту в правиле перезаписи. В этом случае, если URL-адрес устаревшего продукта не соответствует, я возвращаю ошибку 404, поэтому я могу найти эти страницы в консоли поиска Google и добавить их на карту.Если мы вернем ту же страницу, это создаст цикл перенаправления. Существуют более сложные решения, которые могут решить эту проблему, но они выходят за рамки данной статьи.
20 лучших средств проверки повторяющегося содержимого
Опубликовано 2 октября 2019 г. в Content. Tagged: дублирование контента, плагиат.
Плагиат по сей день остается большой проблемой в Интернете. Некоторые копируют из Википедии, а другие могут украсть вашу собственную работу. Кроме того, нанимаемые вами авторы контента могут случайно или намеренно использовать плагиат для своих статей.Вот почему так важна проверка дублированного текста, и вот двадцать лучших средств проверки дублированного контента.
1. Инструменты обзора SEO
Инструменты обзора SEO Средство проверки дублированного содержимого считается одним из лучших средств проверки дублированного содержимого, доступных в настоящее время в Интернете. Он может обрабатывать как обычный текст, так и ввод URL. Инструменты проверки SEO также находят как внутренний, так и внешний дублированный контент для одной конкретной веб-страницы. Внутренний дублированный контент — это контент, который находится на нескольких страницах по одному и тому же URL-адресу, в то время как внешний относится к одному и тому же тексту, найденному в разных доменах.
2. Copyscape
Copyscape часто называют самой популярной программой проверки дублированного контента. Copyscape предлагает несколько инструментов, таких как Copyscape (онлайн-проверка на плагиат), Copyscape Premium (платная, более мощная программа проверки плагиата), Copysentry (инструмент, который отправляет вам по электронной почте ежедневные или еженедельные отчеты о том, были ли ваши страницы скопированы в Интернет), и другие особенности.
3. Dupli Checker
Dupli Checker на самом деле предлагает не только проверку на плагиат, но и некоторые другие ценные инструменты, доступные на своем веб-сайте.К ним относятся такие вещи, как инструмент перефразирования, проверка обратных ссылок, счетчик слов, проверка авторитетности домена, обратный поиск изображений и положение ключевых слов.
4. Siteliner
Siteliner — это бесплатная программа проверки дублированного контента, которая фокусируется на плагиате контента на внутренних страницах вашего веб-сайта. Он специализируется на сканировании и анализе трех основных факторов, которые влияют на рейтинг вашего сайта: дублированный контент, неработающие ссылки, мощность страницы и отчеты.
5.Hive Digital
Hive Digital на данный момент считается наиболее полной онлайн-проверкой плагиата. В нем анализируются семь наиболее распространенных факторов, влияющих на текущие и потенциальные проблемы с контентом. Hive Digital на самом деле является агентством цифрового маркетинга, которое предоставляет различные услуги по поисковой оптимизации и маркетингу, но их инструмент для создания дублированного контента бесплатный и очень эффективный.
6. Copyleaks
Copyleaks использует передовую технологию искусственного интеллекта для сканирования вашего текста и обнаружения плагиата и сообщения о содержании.Он также находит перефразированный контент и подтверждает оригинальность на каждом языке. Copyleaks идеально подходит для академического использования, то есть для студентов, университетов и школ.
7. Малые инструменты SEO
Маленькие инструменты SEO Программа проверки дублированного контента является бесплатной и была разработана с учетом глубоких исследований. Кроме того, он предлагает множество инструментов для написания и редактирования, включая проверку на плагиат, переписывание статей, проверку орфографии, счетчик слов и средство смены регистра текста.
8. Paper Rater
Paper Rater — это онлайн-инструмент для проверки на плагиат, который использует специальные алгоритмы для обнаружения скопированного текста. Он также обнаруживает грамматические ошибки в вашем тексте и предлагает инструмент для корректуры, чтобы отредактировать ваш текст и улучшить его.
9. Scanmyessay
Scanmyessay также известен как Viper Plagiarism Checker. Он обнаруживает плагиат и дублированный контент и используется тысячами людей по всему миру.Одним из самых больших преимуществ Scanmyessay является то, что он поддерживает более пятидесяти языков, включая английский, китайский, испанский, арабский и многие другие.
10. Grammarly
Grammarly в основном известен своей проверкой грамматики, но на самом деле также имеет средство проверки на плагиат, которое дает вам отчет после сканирования вашего текста. Он обнаруживает плагиат с миллиардов веб-страниц в дополнение к академическим базам данных ProQuest.
11.Prepostseo
Онлайн-программа проверки плагиата и дублирования контента Prepostseo идеально подходит для проверки оригинальности вашего контента. Вы можете скопировать и вставить свой текст или загрузить файл. На их веб-сайте также есть множество других инструментов, таких как счетчик слов, обратный поиск изображений, создание обратных ссылок, обрезка изображений, проверка авторитетности домена, проверка грамматики, инструмент перефразирования, индексатор Google, изображение в текст и многое другое.
12. Text Mechanic
Text Mechanic предоставляет вам все виды различных текстовых инструментов, включая средство проверки дублированного контента.Существуют также другие, такие как генератор комбинации строк, экстрактор столбцов с разделителями, замена текста, добавление разрыва строки, добавление префикса / суффикса, счетчик слов и многое другое.
13. Quetext
Quetext обслуживает более 2 миллионов пользователей, обнаруживая плагиат с помощью своей технологии DeepSearch. Между прочим, у него один из самых приятных интерфейсов среди всех средств проверки плагиата и дублирования текста в этом списке.
14. Плагиат
Плагиат — еще одна отличная бесплатная программа для проверки дублированного контента. У него упрощенный дизайн, но это не должно вас пугать, поскольку, тем не менее, он все еще довольно эффективен. Кроме того, существуют мобильные версии для Android, Moodle и BlackBerry, а также настольная версия для Windows. Он также работает как веб-инструмент.
15. Webconfs
Webconfs определяет процент содержимого и сходство между двумя страницами.Если эти цифры слишком велики, значит, у вашего сайта проблемы с поисковым рейтингом. Webconfs также имеет инструменты для проверки скорости страницы, подсчета слов, кодирования и декодирования URL, проверки подозрительных доменов, поиска битых ссылок и так далее.
16. Bibme
Bibme улучшает структуру предложений, пунктуацию, стили письма и грамматику. Он также проверяет отсутствие цитат и непреднамеренного плагиата, а также добавляет цитаты и библиографию для нескольких стилей и типов источников.
17. PlagiarismChecker.com
Проверка на плагиат также имеет упрощенный дизайн, как и Plagiarisma. Это позволяет вам искать несколько фраз в вашем контенте, не вводя кавычек или специальных операторов. К тому же это абсолютно бесплатно.
18. Plagramme
Plagramme поддерживает восемнадцать языков, включая английский, немецкий, итальянский, французский, испанский, голландский, португальский, русский и другие.Он бесплатный и работает по логике процентной оценки. Этот инструмент идеально подходит как для студентов, так и для учителей.
19. Детектор плагиата
Детектор плагиата анализирует ваш контент в соответствии с лексической частотой, совпадающими фразами и выбором слов для обнаружения плагиата или скопированного текста. Студентам особенно полезно сохранять оригинальность текста на высоком уровне.
20. Plagium
И последнее, но не менее важное: Plagium анализирует текст, URL-адреса или файлы.Помимо обнаружения повторяющегося текста, он также применяет правила синтаксиса и употребления слов для улучшения вашей грамматики. Рекомендуется для маркетологов, но может быть полезен и другим профессионалам.
Заключительные мысли
В общем, существует множество средств проверки дублированного контента на выбор, но они наиболее популярны среди пользователей Всемирной паутины. Обязательно попробуйте их и посмотрите, какой из них лучше всего соответствует вашим потребностям.
Об авторе
Кристин Сэвидж питает, зажигает и придает силы, используя магию слова.Наряду с получением степени в области творческого письма, Кристин приобретала опыт работы в издательской индустрии, обладая знаниями в области маркетинговой стратегии для издателей и авторов. Сейчас она работает внештатным писателем в Studicus и GrabMyEssay. Вы можете найти ее на Facebook.
Комментарии закрыты.
7 инструментов, которые помогут вам найти дублирующийся контент на веб-сайте
Аудит сайта
17 ноября 2017 г.
Наличие дублированного контента на вашем веб-сайте может привести к снижению рейтинга в поисковых системах.Наиболее важные поисковые системы, такие как Google и Bing, используют сложную и проницательную стратегию вознаграждения веб-страниц.
С высочайшим качеством уникального контента путем добавления их в свои индексы. При удалении веб-страниц с точным или «в значительной степени похожим» содержанием из поисковой выдачи.
В следующей статье представлен обзор повторяющегося содержимого. Как это может повлиять на вашу позицию в поисковой системе списков.
Мы также составили исчерпывающий список инструментов, которые вы можете использовать, чтобы убедиться, что ваш веб-сайт соответствует требованиям.Соответствует руководящим принципам поисковой системы и предоставляет пользователям аутентичный контент.

Что такое дублированный контент и почему это важно?
В статье « Дублированное содержимое » в Справочном центре Google Search Console говорится, что:

«Дублированное содержимое относится к основным блокам содержимого внутри или между доменами. Они либо полностью соответствуют другому контенту, либо в значительной степени похожи ».

Дублирование частей контента, например, блочного цитирования текста из другого источника (как это сделано выше) или веб-сайтов электронной коммерции, цитирующих поставщиков, при условии, что общие описания продуктов неизбежны.
Однако серьезные проблемы возникают, когда на значительном количестве веб-страниц вашего сайта размещается контент, аналогичный другим страницам в Интернете.
Хотя Google не налагает штрафов за дублированный контент, это влияет на репутацию вашего сайта в поисковых системах по ряду причин:
a) Поисковые системы не отображают несколько версий одного и того же материала; вместо этого они выбирают текст, который они считают наиболее подходящим для запроса. Это снижает видимость вашей страницы. B) Входящие ссылки, которые могли указывать на ваш контент, вместо этого делятся на дубликаты, уменьшая ссылочный вес.Это разжижение влияет на рейтинг вашего сайта, поскольку входящие ссылки являются основным решающим фактором для видимости сайта
Как возникают проблемы с дублированием?

В большинстве случаев дублированный контент не создается владельцами веб-сайтов намеренно. Несмотря на это, исследование, проведенное Raven Tools, показало, что и 29% сайтов сталкиваются с проблемами дублирования контента.
Ниже приведены несколько способов, которые могут привести к непреднамеренному созданию дублированного контента:

Варианты URL
Иногда одна и та же страница вашего веб-сайта находится в нескольких местах.Например, на веб-сайте электронной коммерции на странице есть. Найден предмет женской одежды на распродаже — как в разделе «Женская одежда», так и в разделе «Распродажа».
Идентификаторы сеанса — еще одна причина дублирования контента. Различные веб-сайты электронной коммерции используют идентификаторы сеанса для отслеживания поведения пользователей. Однако, когда каждому пользователю назначается другой идентификатор сеанса. Он создает дубликат основного URL-адреса страницы, на которой был применен идентификатор сеанса.
WWW и не-WWW страницы
Если у вашего сайта две разные версии, одна с префиксом www, а другая без префикса www, и каждая версия имеет одинаковое содержание, они обе конкурируют друг с другом за рейтинг в поисковых системах.
Скопированный контент
Есть несколько веб-сайтов, которые могут заниматься плагиатом, копируя сообщения в блогах или повторно публикуя редакционные материалы. Практика, которая привела к дублированию контента и нахмурилась.
Однако различные веб-сайты электронной коммерции также создают дублированный контент. Когда они продают те же товары на других сайтах, используйте стандартное описание продукта, предоставленное производителем.

Как исправить проблемы с дублированием?
Ниже приведены несколько технических решений для решения проблемы дублирования:

Канонический URL
Использование канонического URL на каждой дублированной странице помогает поисковой системе определить исходную страницу, которую следует проиндексировать, и предотвращает дублирование URL от регистрации.Следовательно, все ссылки, показатели контента и другие факторы ранжирования, относящиеся к исходной странице.
На каждой дублированной странице помогает поисковой системе определить исходную страницу, которая должна быть проиндексирована, и предотвращает регистрацию повторяющихся URL-адресов. Следовательно, все ссылки, показатели контента и другие факторы ранжирования относятся к исходной странице.

301 редирект
В большинстве случаев реализация 301 перенаправления является наиболее подходящим вариантом для предоставления приоритета исходной странице.Постоянное перенаправление 301 направляет. Пользователи и поисковые системы переходят на исходную страницу независимо от URL-адреса, который они вводят в браузере.
Применение редиректа 301 к наиболее ценной странице. Помимо всего прочего, дублированные страницы не дают различным страницам конкурировать друг с другом за рейтинги. А также усиливает фактор релевантности исходной страницы.

Meta Noindex, следуйте.
Включив метатег Noindex follow Meta в заголовок HTML страницы, вы можете предотвратить индексирование страницы поисковой системой.Поисковые системы могут сканировать страницу при обнаружении тега или заголовка. Они сбросят страницу, чтобы предотвратить ее включение в поисковую выдачу.

Перезапись содержимого
Простой способ выделить ваш контент. В частности, описания продуктов с других веб-сайтов электронной коммерции должны дополнять общую историю вашей формулировкой.
Это нацелено на конкретную аудиторию и ее проблемы. Включите свое уникальное торговое предложение в контент, описывая продукт, чтобы побудить пользователей покупать у вас.
Чтобы получить более полное представление о том, как создается дублированный контент и как вы препятствуете его созданию или как вы можете исправить проблемы, прочитайте этот блог Нила Пателя, эксперта по маркетингу, консультанта и докладчика.
Инструменты для обнаружения дублированного контента
Прежде чем вы сможете внедрить решения для противодействия эффектам дублированного контента, вам необходимо провести аудит контента вашего веб-сайта, чтобы определить, что необходимо исправить.
Обнаружение дублирующихся материалов может быть трудоемким и трудоемким процессом; следующие инструменты могут упростить процесс и помочь вам найти дублированный контент на вашем веб-сайте:
Moz Site Crawl Tool
Moz — широко известное имя в области SEO, входящего маркетинга, контент-маркетинга и создание ссылок.В дополнение к этим услугам Moz также предлагает инструмент Site Crawl , который очень полезен для выявления дублированного контента страниц на веб-сайте.
Инструмент распознает дублированный контент как высокоприоритетную проблему, поскольку повышенное соотношение дублированного и уникального контента может значительно снизить доверие к веб-сайту в индексе Search Engine Indexing .
Инструмент также позволяет экспортировать страницы с дублированным материалом, что упрощает определение неизменяемого, которое необходимо реализовать.
Инструмент Moz — это платный инструмент с 30-дневным бесплатным пробным периодом.

Siteliner
Siteliner — фантастический инструмент для проведения глубокого анализа дублированных страниц и близости их взаимосвязи. Устройство идентифицирует не только скопированные страницы, но и определенные области текста, которые копируются.
Эта функция полезна в некоторых случаях, когда большие объемы текста дублируются, а вся страница может не дублироваться.Он также предлагает быстрый способ получить представление о страницах, которые содержат больше всего внутреннего дублированного контента.

Copyscape
Copyscape — один из старейших инструментов для борьбы с плагиатом, который в основном важен для аудита содержимого веб-сайтов с целью выявления дублированного содержимого внешних редакций.
Он сканирует карту сайта и сравнивает существующий URL по отдельности с индексом Google, чтобы проверить наличие дубликатов на ваших страницах.
Он экспортирует данные в виде файла CSV и ранжирует страницы по дублированному содержимому, причем наиболее реплицируемой странице назначается наивысший приоритет.
Вы также можете приобрести подписку на инструмент за символическую плату, чтобы проверить на плагиат содержимое, создаваемое в документе Word.

Screaming Frog
Screaming Frog — это лягушка, пользующаяся большой популярностью среди продвинутых специалистов по поисковой оптимизации, потому что, помимо прочего, для дублирования контента она выявляет потенциальные технические проблемы, неправильное перенаправление и сообщения об ошибках.
Он создает исчерпывающий отчет о сканировании вашего сайта и отображает все заголовки, URL-адреса, код состояния и количество слов, что упрощает просмотр и сравнение заголовков и URL-адресов для выявления реплик.
Страницы с низким количеством слов могут быть рассмотрены на предмет качества и перезаписаны в случае низкого качества, в то время как столбец статуса может помочь определить страницы с ошибками 404, которые необходимо удалить.

Консоль поиска Google
Консоль поиска Google может использоваться для обнаружения различных проблем с дублированным контентом некоторыми способами:
1. Она идентифицирует определенные URL-адреса с дублированными тегами заголовка и метаописанием2. В разделе Index Status необычно высокий индекс для вашего сайта может указывать на проблемы с дублированием контента

3.Раздел параметров URL-адреса может помочь вам определить, испытывает ли Google трудности при сканировании и индексировании вашего сайта, который ссылается на технически созданные дублированные URL-адреса
Поисковая консоль Google предлагает высокий уровень инструментов расследования, несравнимых по качеству с инструментами, предоставляемыми другими поисковыми системами. как Bing. Однако, по сравнению с Screaming frog, он предлагает ограниченные возможности и отсутствие дополнительных сведений. Услугу можно установить на вашем веб-сайте бесплатно.
Duplichecker
Duplichecker — один из лучших бесплатных инструментов для проверки на плагиат, который позволяет выполнять полезный поиск текста и URL-адресов, чтобы исключить плагиат в вашем тексте.
Инструмент разрешает неограниченное количество поисков после регистрации и позволяет один бесплатный пробный поиск. Весь процесс сканирования в короткие сроки; однако время зависит от длины текста и размера файла.
По качеству инструмент уступает продвинутым платным инструментам, например, предоставляемым Moz.

Plagspotter
Plagspotter — еще один инструмент для борьбы с плагиатом, который предлагает бесплатные услуги.Поиск URL-адресов, выполняемый этим устройством, является тщательным и быстрым, и выдает источники дублированного контента для дальнейшего изучения.
В дополнение к бесплатному поиску URL-адресов, он также предлагает множество ценных функций в доступной платной версии, включая полное сканирование сайта, мониторинг плагиата и пакетный поиск. Вы также можете подписаться на их бесплатную 7-дневную пробную версию.
Заключение

Дублированный контент, внутренний или внешний, может существенно повлиять на рейтинг вашего сайта в поисковых системах и общую видимость вашего сайта.Следовательно, крайне важно создавать аутентичный, надежный, интересный и уникальный контент в меру ваших возможностей.
Несмотря на опыт Google в обнаружении непреднамеренного дублирования, лучше всего защищать ваш контент от плагиата посредством периодической проверки контента веб-сайта с помощью инструментов для творчества и последующего исправления обнаруженных проблем.
RoboAuditor — это встраиваемый инструмент SEO Audit Tool, , который генерирует в 4 раза больше потенциальных клиентов с уже имеющимся у вас трафиком.

Теги: Скопированный контент, Поиск повторяющегося контента
Автор
Рахул М
Компьютерщик, который любит цифровой маркетинг и CRM.Использование инструментов построения, помогающих предприятиям и маркетологам обеспечивать рост
.
No related posts.

textrunet.ru — Жизнь диктует — я записываю

Дубли страниц на сайте проверка онлайн: как быстро найти дубли страниц — SEO на vc.ru

как быстро найти их и удалить, основные способы и методы — руководство от SEO.RU

Почему дубли страниц — это плохо?

Как найти дубли страниц?

Возможные типы дублей страниц на сайте

Как обнаружить дубли страниц?

Как убрать дубли страниц на сайте?

Создание канонической страницы

Директива Disallow в robots.txt

SEO инструменты для анализа сайта онлайн

Код сайта и битые ссылки

Скорость загрузки

Дубли страниц

Структура сайта с точки зрения оптимизации

Оценка видимости сайта в выдаче

Внешние и внутренние ссылки

Что такое дубли страниц сайта? Как их найти и удалить из выдачи?

Как найти дубли страниц на сайте. Проблема дублирования страниц.

Виды дублей

Полные дубли

Неполные дубли

В чем опасность дублей?

Наложение санкций

Увеличение времени на обход страниц

Проблема с индексацией

Низкие позиции в поисковых системах

Причины возникновения дублей

Поиск дублей страниц

Как избавиться от дублей

Программы и сервисы для нахождения дублей

Парсер проиндексированных страниц от PromoPult

Сервис Apollon

Сервис Siteliner

Программа XENU

Программа Screaming Frog SEO Spider

Выводы

Как найти дубли страниц на сайте, как удалить, что это

Как удалить дубли страниц на сайте, варианты?

Как найти дубли страниц: обзор рабочих способов

Виды дубликатов

6 причин возникновения полных дублей

Откуда берутся частичные дубли

Инструментарий

Способы борьбы с дублями страниц

чем плохи дубликаты, как найти и удалить

Что такое дубли страниц сайта и почему от них нужно избавиться

Виды дублей

Полные дубли

Частичные дубли

Как найти дубли страниц

Проверка дублей страниц ручным способом

Проверка дублей страниц с помощью сервиса «Яндекс.Вебмастер»

Поиск дублей страниц онлайн

Apollon

SE Ranking

Поиск дублей страниц с помощью программ

Netpeak Spider

Xenu

Как удалить дубли страниц

Метатег robots

301 редирект

Атрибут rel=»canonical»

Файл robots.txt

Итог

Средство проверки дублированного содержимого / средство обнаружения плагиата

Средство проверки дублированного содержимого / обнаружение плагиата.

Почему важно предотвращать дублирование контента?

Как работает программа проверки дублированного контента?

Как использовать эти результаты?

Ограничения инструмента

Внешние ресурсы: