Как найти дубли страниц: как быстро найти дубли страниц — SEO на vc.ru

Содержание

Как на сайте найти дубли страниц? — SEO-блог

Отсутствие дублированного контента — один из критериев оценки качества сайта. Продуктовые эксперты справочного форума для вебмастеров Google Евгений Кобзарь и Вячеслав Вареня расскажут, как при помощи программ Netpeak Spider и Checker найти дубли страниц сайта в индексе.

Существует достаточно вариантов поиска дублей страниц на сайте, которые, в основном, предполагают сканирование и поиск одинаковых данных в заголовке h2 и мета-данных.

В этой статье мы предложим свой вариант поиска дублей по URL в случаях, когда проставлены ссылки с utm-меткам, когда в URL используются знаки вопросов, а также когда сайт генерирует не понятные URL рандомно.

Основной используемый софт — Netpeak Checker.

В Netpeak Checker есть встроенный инструмент «Парсер поисковых систем». Его мы и будем использовать.

Используя Netpeak Checker и оператор site:, вы можете получить информацию по дублям страниц сайта, которые находятся в индексе. К тому же, информация будет получена быстро и в виде таблицы для удобной дальнейшей работы с дублями.

Итак, нам понадобится:
Софт — Netpeak Spider и Netpeak Checker.
Прокси — чем больше, тем лучше.
Таблица Google Sheets.

Для каких сайтов подходит данный метод поиска дублей?

Данный метод поиска дублей подходит для небольших (до 3 000 страниц) интернет-магазинов, блогов, сайтов компаний.

Процедура поиска дублей следующая:

1. Чтобы начать искать дубли страниц, нам нужен список самих страниц. Запускаем Netpeak Spider.

2. Переходим во вкладку «Список URL» → «Загрузить из Sitemap» вставляем Sitemap сайта, который будем проверять, и вытягиваем все URL.

3. Вы, как владелец сайта, или человек, который взялся за данную процедуру, должны знать, сколько примерно у вас URL на сайте должно индексироваться. Открываем поиск Google, вбиваем запрос site:domain.com → смотрим, сколько примерно страниц в индексе.

4. Считаем количество URL. В нашем примере их 500.

Если страниц менее 500 на порядок → значит не все URL проиндексированы.

Если страниц +- 500 → отлично.

Если страниц больше 500 → значит есть URL, которых не должно быть в индексе.

5. Открываем таблицу Google Sheets, в первой ячейке первого столбца прописываем site:, во второй столбец вставляем URL  сайта, которые мы вытянули с помощью Netpeak Spider, в третьем столбце пишем формулу “=сцепить($A$1;B1)”. Формулу растягиваем по всем 500 ячейкам, согласно URL сайта.

Удаляем протокол https:// через замену (сочетание клавиш Ctrl+H).

Шаблон таблицы Google находится по ссылке, можете скопировать себе документ и использовать.

6. Копируем данные третьего столбца.

7. Запускаем Netpeak Checker и в нём открываем инструмент «Парсер ПС». Переходим к настройкам, добавляем прокси. Затем вставляем скопированные запросы, запускаем парсер — ждём, когда парсер соберёт нужные данные.

Примечание

Если у вас древовидная структура сайта (всё по папкам), то при запросах категорий вы будете получать и URL, вложенные в эту категорию, и эти же URL при запросе главной и самих URL непосредственно — это побочный эффект, просто подчистите данные.

Иногда CMS строит страницы сайтов и из блоков, и блокам дает URL (сайты на Drupal). В результате URL этих блоков попадают в индекс. Этих URL в Sitemap не будет. Вы о них не будете знать, но именно данный метод покажет, что есть и то, чего не должно быть в индексе.

Плюс метода → из Netpeak Checker вы можете выгрузить результаты в MS Excel, что очень удобно для дальней обработки и анализа данных.

Для удаления дублей можно использовать инструмент удаление URL, а именно скрываем на 90 дней. Нужно отметить, что сотрудники Google в отношении наличия дублей страниц в индексе считают, что с этим особо не стоит заморачиваться.

Навигация по записям

Дубли страниц: все, что необходимо знать

Дубликаты страницы – это копии, которые содержат полностью идентичный или повторяющийся контент. Зачастую именно из-за наличия таких копий сайт находится на низких позициях в поиске. Именно поэтому важно знать, что представляют собой дубли, откуда они берутся и как от них избавиться.

Полные копии появляются тогда, когда существует несколько адресов одной страницы. Устранить эту проблему можно, настроив редирект 404 или выбрав главное зеркало сайта. Нередко они создаются в автоматическом порядке системой управления сайтов.

Частичные копии страниц могут быть результатом багов в системе, также причиной данного дефекта может быть специфика самой CMS. Нередко нежелательными дублями становятся служебные страницы, не закрытые от индексации.

Какой вред для SEO?

Если на сайте есть много дублей одной страницы, они начинают между собой соперничать. Поисковые системы хранят несколько копий, но выводят в результаты только одну из них. И если ею окажется не основная страница, а ее копия, то позиции сайта резко упадут. Наличие дублей отрицательно сказывается на факторах поведенческих, а большое количество одинаковых страниц вовсе может привести к неполной индексации. Также следует знать, что роботы поисковых систем реже переходят на сайты с дубликатами, что в свою очередь, также плачевно сказывается на поисковом продвижении.

Как определить дубли страниц на сайте?

Это можно делать несколькими способами.

  • Сервисы для вебмастеров. В Гугле это Google Search Console, а в Яндексе – Яндекс.Вебмастер. К дублям можно отнести страницы с совпадающими метатегами и метаописанием. В сервисе Яндекс.Вебмастер подобные страницы можно найти во вкладке «Инексирование» в категории дублей.
  • Специальные инструменты. В интернете существуют специализированные платформы, которые также позволяют определить копии страниц по совпадающим метатегам. К популярным инструментам, который позволит быстро справиться с данной проблемой, относится Screaming Frog.
  • Расширенные операторы Google – site и inurl. С их помощью можно найти перечень повторяющихся страниц, проиндексированных поисковой системой Google.
  • Ручной поиск. Данный способ подходит, если речь идет о небольшом сайте.
  • Инструменты веб-аналитики. Один из популярных сервисов – Serpstat.

Удаление дублей страниц

Устранить копии страниц, которые препятствуют продвижению сайта в органическом поиске, можно разными путями:

  • Удалить все статические страницы, в которых копируется контент. Также необходимо убрать все внутренние ссылки.
  • Запретить сканирование дубликатов. Поставить запрет на сканирование и индексацию можно в файле robots.txt. Таким образом можно убрать копии, связанные с поиском и фильтрами.
  • Настроить редиректы в конфигурационном файле htaccess. Это позволит избавиться от копий главной страницы и реферальных ссылок.
  • Атрибут rel=“canonical” – его можно разместить на html-странице между любыми тегами. С помощью этого атрибута можно указать приоритетность страницы. Именно её поисковые системы будут отображать на странице результатов поиска, она будет приоритетной среди одинаковых страниц.
  • Помощь разработчика – если правильно настроить движок или систему управления сайтом, то можно навсегда избавиться от нежелательных копий.

Источники дублей Joomla. Примеры наиболее вероятностных источников дублей на сайте.

 

 


У тех вебмастеров, кто занимается оптимизацией сайта, на пути встает проблема:  Как найти и убрать дубли страниц сайта. Если вовремя не заняться искоренением дублей страниц сайта, то их количество будет расти в геометрической прогрессии. Что в свою очередь будет отрицательно отражаться на поведенческих факторах сайта.

После долгой, упорной, кропотливой и нудной борьбы с дублями страниц сайта пришел к очевидному, бытовому выводу: Нужно бороться не со следствием возникновения дублей, а устранять причину их возникновения.

 Так как движок CMS Joomla изначально не приспособлен для SEO, то большая ручная работа убрать дубли страниц сайта возлагается на вебмастера.   

Все дубли страниц, которые появились в результате сканирования сайта поисковыми роботами, являются следствием незнания и не корректной работы вебмастера.

На каждой странице сайта довольно много ссылок, которые получаются при создании самой страницы плюс ссылки  шаблона сайта (плагинов, модулей и других расширений). И почти каждая ссылка на отдельной странице может породить дубль, а то и N –ое количество дублей.

 Все страницы: действующие, дубли страниц на сайте  или дубли какой-либо функции расширения загружаются, накапливаются и хранятся в КЭШе поисковых систем. По истечении определенного времени, производится анализ по всем существующим дублям. И поисковики опускают страницы в ТОП выдаче.

И прежде, чем приступать к проблеме  как убрать дубли страниц сайта, необходимо проанализировать выдачу страниц в поиске Яндекса и Google. В первую очередь конечно используя инструменты Панели вебмастера Яндекса и Google. И на основании полученных  данных приступать к избавлению сайт-дубли. 

Некоторые ссылки можно запретить в файле robots, а некоторые ссылки удалить навсегда.

Вот наиболее вероятностные источники дублей на сайте:

Форма входа
component/users/?view=reset
component/users/?view=remind
component/users/?view=registration
Форму входа можно удалить или откорректировать в файле robots.

 Модуль “Коментарии”

Ссылка категории материала
Ссылка категории  настраивается при создании материала.

Ссылка категории пункта меню
тип меню материал
тип меню список категории
 тип меню блок категории
Ссылка категории  настраивается при создании пункта меню.

В результате грамотной работы по созданию сайта, можно исключить все негативные последствия. И тем самым обеспечить спокойную работу по продвижению и оптимизации сайта.

Источниками дублей страниц сайта может быть заголовок h2 и title !!!

Почему? Ответ:  Оказывается, я сам писал об этом в начале данной статьи.

Большое внимание уделял проблеме: как убрать дубли страниц сайта (устранению явных дублей).
А выяснил, что еще существуют скрытые, неявные дубли, о которых мало информации в прессе.

Это я обнаружил в процессе работы по SEO оптимизации сайта. Провел  SEO аудит сайта на бесплатном сервисе Мегаиндекс и был ужасно удивлен, увидев результаты анализа сайта.

О сервисе Магаиндекс смотрите на странице: Сервис Мегаиндекс

Если при создании материала и пункта меню оставить не заполненные поля:
Мета-тег Description
Мета-тег Keywords
Title tag
они автоматически заполнятся аналогичными данными из Главного пункта меню.

К примеру Если создать 10 страниц с  незаполненными полями, то получится 10 страниц с одинаковыми ключевыми словами, описанием, заголовком h2.

А это, некоторые поисковые боты, посчитают за дубли страниц сайта.

 

По данной теме читайте следующие статьи:

Что такое redirect-301
Файл robots.txt для Joomla 2.5
robots.txt. Удаление дублей в Joomla 2.5
robots.txt Ошибки и рекомендации
robots.txt Как устранить дубли для сайта Joomla 2.5

Дубли страниц Joomla 2.5
Плагин для удаления дублей Shnodoubles 

Как найти и удалить дубли страниц на сайте

Дубли – это страницы сайта с одинаковым содержимым, они могут полностью повторять контент друг друга или частично. Часто они становятся причиной низких позиций ресурса. Мы хотим рассказать, почему могут возникать дубли и как от них избавится.

Полные дубликаты могут возникать, когда страница доступна под несколькими адресами, то есть не выбрано главное зеркало или не настроен 404 редирект. Часто их автоматически создает CMS в процессе разработки.

Частичные дубли часто получаются в результате ошибки разработчика или из-за особенностей CMS. Это могут быть страницы пагинации и сортировок с разными URL или ошибочно открытые для индексации служебные страницы.

В чем опасность

По сути, страницы одного сайта начинают соперничать друг с другом. Google и Яндекс не хранят в собственной базе несколько идентичных страниц, а выбирают только одну, наиболее релевантную. Они могут выбрать копию нужной вам страницы, в результате чего, позиции резко проседают. Из-за дубликатов страдают поведенческие факторы и естественный ссылочный вес, становится труднее собирать статистические данные.

Если дубликатов много, то поисковик может попросту не успеть проиндексировать их полностью. При этом следующей индексации придется ждать дольше, так как поисковые боты реже переходят на ресурс, где контент повторяется. А это также значительно замедляет продвижение.

Как найти дубли страниц

Сервисы для вебмастеров

Существует несколько способов. Наиболее простой – воспользоваться сервисами Google Search Console или «Яндекс.Вебмастер». Распознать дубликаты проще всего по повторяющимся метатегам title и description.

Для этого в панели инструментов Search Console перейдите в раздел «Оптимизация HTML» пункт «Повторяющееся метаописание», где будет указано количество таких страниц, а также их URL.

В вебмастере Яндекса, страницы с одинаковым метаописанием можно найти в разделе «Индексирование», а именно «Вид в поиске», где необходимо выделить исключенные страницы и выбрать категорию «Дубли».

Существует также много других сервисов для подобных задач, например Netpeak Spider или Screaming Frog. С их помощью можно получить полный список адресов страниц и автоматически выделить среди них те, у которых совпадают метатеги.

При помощи операторов ПС

При помощи оператора site: для Google или host: для Яндекса, можно вручную искать повторяющийся контент на страницах поисковой выдачи. Для этого введите в поисковую строку оператор перед адресом вашего сайта, а дальше нужный отрывок текста в кавычках (site:address.com”…”). Таким образом вы сможете отыскать не только полные, но и частичные дубли.

Если использовать оператор с адресом без текста, в выдаче вы увидите все проиндексированные страницы собственного ресурса. По одинаковым заголовком можно легко определить копии.

Как исправить

Удалить вручную. Подходит для борьбы с полными копиями, которые возникли в результате ошибок. Для этого достаточно найти их URL и удалить при помощи CMS.

Закрыть от индексации. Для этого в файле robot.txt следует использовать директиву disallow. Таким образом вы сможете закрыть индексацию указанных типов страниц.

При помощи тега rel=canonical. Позволяет решить проблему с разными адресами страниц пагинации и др.

Настроить редирект 301. Редирект перенаправляет со всех похожих URL на один основной.

Как борются с дубликатами в Elit-Web

Когда к нам на продвижение приходят сайты, разработанные не у нас, технические ошибки, в том числе дубли, – один из первых пунктов проверки.

Многим не удается найти все копии страниц. Автоматический поиск осуществляется исключительно по метатегам. А чтобы искать при помощи контента, необходимо знать, какой именно текст может повторятся. Потому даже после работ по внутренней оптимизации, могут остаться ошибки.

Мы устраняем ошибки, используя все доступные методы проверки. Также наши специалисты ориентируются на саму специфику CMS и работ, проведенных на сайте, чтобы удостоверится, что на сайте не осталось дублей. А потому если у вас возникли проблемы с продвижением, мы уверены, что сможем помочь.

Что такое дубли страниц?

Дубли — веб-страницы с одинаковым содержанием, но разными адресами. Данная проблема возникает как из-за недоработки или ошибки вебмастера, так и в результате автоматической генерации.

Почему стоит избегать дублей?

Дубликаты негативно влияют на продвижение сайтов из-за того, что уникальность контента на этих страниц равна нулю.

Допустим, вы на своем сайте опубликовали статью, поисковики проиндексировали ее. Буквально через неделю по результатам анализа обратных ссылок вы обнаруживаете, что на эту статью ссылаются в других блогах.

Благодаря этому профиль ссылок растет, но позиции статьи по ключевым запросам никак не меняются. А все потому, что авторы других блогов ссылаются на дубль страницы.

Дубли приводят к:

  1. Неправильной идентификации релевантной страницы — той, что наиболее точно отражает информацию по поисковому запросу. Допустим, у продвигаемой страницы есть дубликат. Вы вкладываете средства, благодаря чему она появилась в Топ-10 поисковой выдаче, но в какой-то момент робот исключает ее из индекса и заменяет на дубликат. Из-за этого оригинальная страница привлечет меньше трафика.
  2. Увеличению времени, которое тратится на переобход сайта поисковыми роботами. У робота ограниченное время на сканирование сайта. Если дублей будет много, то он не сможет дойти до оригинальной страницы, что приведет к более длительной индексации.
  3. Наложению санкций поисковыми системами. Поисковой алгоритм может посчитать, что дубли создаются намеренно, чтобы манипулировать результатами выдачи.
  4. Увеличению трудозатрат. Особенно это актуально, если не удалять дубли сразу после обнаружения. Если их накопиться слишком много, то физически устранить все будет сложно. А это приведет к появлению ошибок.

Виды дублей страниц

Дубли могут быть полными и частичными. Последние сложнее обнаружить, однако они влияют на ранжирование сайта.

Полные дубли

Они имеют идентичное содержание, однако доступны по разным URL-адресам. Примеры полных дублей:

  1. Адреса могут содержать слэши и быть без них, например: https://site-name.ru/catalog или https://site-name.ru//////catalog.
  2. Наличие двух протоколов: https://site-name.ru/catalog и http://site-name.ru/catalog.
  3. Наличие www или его отсутствие: https://site-name.ru/catalog и https://www.site-name.ru/catalog/
  4. Адрес с одним из окончаний: index.htm, index.php, index.html, home, default.asp, default.aspx, например, https://site-name.ru/home.
  5. Использование букв разного регистра, например, https://site-name.ru/catalog и https://site-name.ru/Catalog.
  6. Изменение иерархической структуры URL-адреса, например, https://site-name.ru/catalog/igrushki_dlya_devochek и https://site-name.ru/igrushki_dlya_devochek/catalog
  7. Наличие в адресе utm-меток (дают аналитическую информацию) и других, реферальных ссылок, например, https://site-name.ru/?yclid=321.

Частичные дубли

На них размещен одинаковый контент, но с некоторыми отличиями в элементах. Примеры:

  1. Дубликаты на карточках товаров и страницах категорий.
     Чтобы предупредить образование дублей, рекомендуется использовать разные описания товаров.
  2. Дубликаты могут появляться на страницах для печати, скачивания или поиска.

Как найти дубли страниц?

  1. Проверить, доступен ли сайт сразу по двум протоколам: HTTP (http://site-name.ru/) и HTTPS (https://site-name.ru/). Если в окне браузера открываются обе версии, то проблема с дублями точно существует.
  2. Проверить доступность сайта со слэшем в конце (https:/site-name.ru/) и без него (https://site-name.ru).
  3. Проверить, доступен ли сайт с WWW (https://www.site-name.ru/) и без этих букв (https://site-name.ru/).
  4. Воспользоваться специальными инструментами для вебмастеров Яндекс и Google. Наличие дубликатов можно увидеть в разделе «Оптимизация HTML» в Google Search Console:
    Или «Индексирование — Проверить статус URL», если работа проводится в Яндекс.Вебмастер. Для поиска дубликата страницы, нужно ввести ее адрес в специальное поле.В появившемся результате нужно нажать кнопку «Подробнее», после чего можно увидеть адрес дубликата:
  5. Выполнить расширенный поиск Google, для чего в расширенном поиске нужно ввести адрес главной страницы сайта. Система предоставит общий список страниц в индексе. Если же указать адрес не главной страницы, а той конкретной, которая проверяется на наличие дублей, то в списке будут все дубликаты в индексе. Выглядит это так.
  6. Воспользоваться бесплатной версией инструмента Screaming Frog SEO Spider, которая дает возможность просканировать до 500 URL, чего вполне достаточно для небольшого веб-проекта. Доступна и платная версия. Оба варианта ищут не только дубликаты по адресам, но и идентичные title и description.
  7. Воспользоваться программой Netpeak Spider. Она легко находит дубли страниц, текста, метатег и даже заголовков Н1.
  8. Воспользоваться программой Xenu Link Sleuth, которая способна найти полные дубли и выполнить аудит сайта.
  9. Посетить seo-платформу Serpstat, там есть блок анализа дублированного контента на сайте.

Удаление дублей страниц

301 редирект

Это автоматическое перенаправление старой страницы на новую. После настроек редиректа боты видят, что по данному URL страница не доступна и перенесена на другой адрес. Благодаря этому удается передать ссылочный вес с дубликата на оригинал.

Данный метод эффективен в том случае, если дубли появились из-за:

  • проблем с использованием слэшей в адресе;
  • наличия букв разного регистра;
  • изменения иерархической структуры адреса.

Например, 301 редирект способен перенаправить бота с https://site-name.ru////catalog на https://site-name.ru/catalog.

Файл robots.txt

С помощью этого файла вебмастер может рекомендовать ботам те страницы, которые лучше посетить и те, что не стоит сканировать. Для этого используется директива «Disallow».

User-agent: *
Disallow: /stranica

Если дубль был проиндексирован или на него есть ссылки, то страница все равно будет в поисковой выдаче. Инструкции в robots.txt имеют рекомендательный характер, поэтому гарантии удаления дублей нет.

Метатеги

Чтобы этот метод сработал, нужно на дублях в блоке <head> разместить один из этих тегов:

  1. Метатег <meta name="robots" content="noindex, nofollow> запрещает роботу индексировать документ и переходить по ссылкам. В отличие от файла robots.txt этот метатег является прямой командой, поэтому поисковой робот не будет ее игнорировать.
  2. Метатег <meta name="robots" content="noindex, follow> запрещает роботу только индексировать документ, а переход по ссылкам — нет.

Атрибут rel=«canonical»

Атрибут поддерживается только поисковой системой Google, в то время как Яндекс этот тег проигнорирует.

Данный метод используется в том случае, если страницу удалять нельзя и ее нужно оставить доступной для просмотра, например, на страницах сортировок или фильтров.

Также этот тег используется для удаления дубликатов, в адресе которых имеются utm-метки, или если на странице контент представлен на нескольких языках.

Указывать нужно адрес той страницы, которая должна индексироваться. Например, на сайте интернет-магазина есть категория «Игрушки для девочек». В ней можно выполнить фильтрацию товаров по бренду, цене, возрасту, типу.

Для них канонической является общая страница категории. Чтобы сделать ее такой, в ее HTML-коде необходимо разместить атрибут rel=«canonical» между тегами<head>…</head>. Например, <link rel=«canonical» href=»https://puzat.ru/» />.

Что нужно знать о дублях страниц?

  1. Дубли — разные страницы сайта с одинаковым контентом.
  2. Возникают дубликаты из-за ошибок вебмастера, изменения структуры сайта или автоматической генерации.
  3. Наличие дублей на сайте может привести к ухудшению индексации, изменению позиций в выдаче поисковой системы, уменьшению ссылочной массы.
  4. Найти дубли помогут программы Screaming Frog SEO Spider и Netpeak Spider, инструменты для вебмастеров от Яндекса и Google.
  5. Удалить дубликаты можно с помощью 301 редирект, файла robots.txt и прямых команд роботу поисковиков.

Как избавиться от дублей контента? 📜 Перевод статьи специалиста MOZ 📰 Ant-Team.ru

Перевод статьи с портала MOZ.

Что такое дубли страниц и как их удалить? И почему вообще они могут стать проблемой для вашего сайта?

В этой статье Меган, специалист по обучению в команде Moz, проведет несколько интересных аналогий, которые помогут вам ответить на эти вопросы! 

Рисунок 1. Дубли

Дубли контента — довольно распространенная проблема, которая может навредить вашему сайту.

Что такое дубли страниц

По сути, это контент, который появляется более чем в одном месте в интернете. Однако здесь не все так просто. Даже если страницы не полностью идентичны, а просто похожи друг на друга, они могут считаться дублями. 

Дело не только в том, что видят пользователи, когда переходят на ваш сайт и сравнивают две страницы. Ведь помимо людей, контент на сайте просматривают поисковые системы и роботы. Поскольку они не могут видеть отображаемую страницу, то анализируют ее исходный код. Если код двух посадочных слишком похож, поисковый робот может подумать, что просматривает две версии одной и той же страницы. 

Представьте, что вы пришли в пекарню и увидели два кекса, которые выглядят почти одинаково. Как вы узнаете, какой именно кекс вы хотите попробовать? Нечто подобное происходит, когда поисковая система обнаруживает две слишком похожие страницы. 

Эта путаница может привести к проблемам с ранжированием, поскольку поисковые системы либо не смогут определить, какую страницу они должны ранжировать, либо начнут ранжирование неправильной страницы. В инструментах Moz мы установили 90%-ный порог для дублирующегося контента. Это означает, что любые страницы, код которых совпадает хотя бы на 90%, будут отмечены как дубли.

Решение

Теперь давайте разберемся, как поступать с дублями. Есть несколько способов убрать дублирующийся контент. 

301 редирект

Рисунок 2. 301 редирект

Первый способ — применить 301 редирект. Приведем пример. Допустим, у вас есть фильм, записанный на VHS-кассете. Само собой, в наше время посмотреть его будет весьма проблематично.

Поэтому вы должны быть уверены, что его цифровая версия доступна в интернете. На своем сайте вы можете перенаправлять пользователей со старых страниц на их обновленные версии. Это актуально в случае проблем, связанных с поддоменами или изменением протоколов, а также при обновлении контента, когда вы хотите исключить доступ пользователей к его старой версии.

Rel=canonicals

Рисунок 3. Rel=canonicals

Следующий вариант — использование на странице тега rel=canonicals. Допустим, вы работаете продавцом сладостей и предлагаете людям два вида печенья: с сахаром и шоколадной крошкой. Вы считаете печенье с сахаром просто бесподобным. Поэтому, когда покупатели спрашивают совета, вы указываете на печенье с сахаром, при этом у людей остается возможность попробовать и печенье с шоколадной крошкой.

Нечто подобное происходит, когда на своем сайте вы продаете два одинаковых товара разного цвета. Таким образом, посетители могут видеть оба товара, но вы должны использовать канонический тег, чтобы сообщить поисковым роботам, какая из посадочных на сайте должна иметь приоритет при ранжировании. 

Тег noindex

Рисунок 4. Тег noindex

Вы также можете отметить страницы тегом noindex.

Например, у вас может быть два издания вашей любимой книги. При этом вы предпочитаете читать и ссылаться на второе издание, поскольку оно более новое и актуальное. Но вы по-прежнему можете в любой момент взять в руки и старую книгу. Теги noindex сообщают поисковому роботу, что те могут сканировать этот дубль страницы, но не должны включать его в индекс. Этот способ будет полезен, когда текст, например, разбит на несколько посадочных. 

Добавить контент

Рисунок 5. Новый контент

Но что делать, если страницы, которые вообще не похожи друг на друга, помечаются как дубли? Они посвящены разным темам и должны рассматриваться как отдельные части контента. В этом случае вы можете добавить на каждую из них больше отличающегося контента, чтобы не сбивать с толку  поискового робота. Тогда страницы будут сильнее отличаться друг от друга. Это похоже на то, как если украсить вишней один кекс и цветной глазурью другой. 

Используйте Moz Pro для поиска и удаления дублей страниц

Если вам понадобится помощь в поиске дублей контента, воспользуйтесь инструментами Moz Pro — Site Crawl и On-Demand Crawl.

Оба инструмента отмечают страницы, являющиеся дублями, и позволяют экспортировать эти данные в CSV, чтобы вы могли анализировать их вне инструмента. Небольшой лайфхак: при экспорте этих данных в CSV группы дублирующегося контента подскажут вам, какие страницы считаются дублями. Любые урлы с одинаковым номером являются частью одной и той же группы дублей страниц.

Разумеется, это далеко не полный список способов удаления дублей страниц. Но я надеюсь, что статья поможет вам найти верное решение проблемы.

Автор: Меган Пахинуи (Meghan Pahinui)

P.s. Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов. Мы публикуем только полезный контент, например, как защитить форму обратной связи от спама, чего ждать от нового фактора ранжирования Google Core Web Vitals или что такое метрики тщеславия и почему они могут навредить вашему сайту.

как проверить и найти дубли страниц на сайте

Дублированный контент — проблема, которая затрагивает многие сайты. Это идентично выглядящие подстраницы с одинаковым содержанием, расположенные по разным URL-адресам. Какие проблемы это вызывает и как с этим бороться, расскажем далее.

Что такое дублирований контент

Это дублирование содержимого страницы по более чем одному URL-адресу в одном или нескольких доменах. Возникает не только в результате копирования контента. Источником проблемы может быть отсутствие переадресации или невозможность исключить тестовую версию сайта из индексации.

Алгоритмы Google понижают позиции страниц с некачественным содержанием. С уникальным, наоборот, поднимают в рейтинге, чтобы пользователь смог получить максимально точный ответ на запрос. Именно поэтому важно, чтобы контент был оригинальным, информативным и не дублированным.

Проблемы внутреннего и внешнего дублирования

Дубли могут возникать на одном или нескольких сайтах. Исходя из этого, их определяют как внутренние и внешние.

Внутреннее дублирование

Это дублирование контента по разным URL на одном сайте. В результате этого может возникнуть каннибализация фраз. Это ситуация, когда как минимум две подстраницы одного домена отображаются для одного и того же ключевого слова. Если дубль не убрать, то позиции в поисковой выдаче будут нестабильными. Почему так? Поисковик не будет знать, какую именно страницу показывать пользователю, поэтому сначала он выдаст одну, а потом вторую. В итоге обе они будут расценены как некачественные, что в свою очередь приведет к потере значимых мест в поисковом рейтинге.

Внешнее дублирование

Это копии контента, находящиеся на разных сайтах. Почему это происходит:

  • воровство контента;
  • размещение текста, скопированного с собственного сайта, в каталогах, блогах, социальных сетях и т. д.;

Дубль страницы в поддомене — также внешнее дублирование. Если контент дублируется в нескольких доменах, Google будет отображать на более высоких позициях страницу, которая лучше оптимизирована, создана раньше и ссылка на которую находится на большем количестве внешних ресурсов.

Причины внутреннего дублирования

Далее мы расскажем распространенные проблемы с внутренним дублированием, с которыми рано или поздно сталкивается практически каждый владелец сайта.

Дубль товара по разным URL

Различные варианты одного и того же продукта, расположенные на разных подстраницах — распространенное решение, используемое в электронной коммерции. Не было бы проблем, если бы описание каждого товара было уникальным. К сожалению, в большинстве случаев контент остается прежним. Ничего удивительного в этом нет, так как создание уникального описания для конкретной модели спортивной обуви, которая бывает 16 различных цветов, или создание оригинального текста для изоленты разной ширины, займет очень много времени. В итоге владелец сайта решает оставить все как есть, не задумываясь о последствиях.

Узнать есть ли дубли страниц на Вашем сайте?

Как бороться с проблемой дублирования контента

Если по какой-то причине написать уникальный текст не получается, можно использовать тег rel = canonical, ведущий к базовой версии продукта. Каноническая ссылка используется для указания роботам поисковой системы предпочтительной канонической страницы для тех же или похожих подстраниц. Используется в ситуациях, когда один и тот же контент повторяется по разным URL-адресам.

Альтернативный способ избавиться от дублирования — создать одну уникальную карточку товара с возможностью выбора конкретного варианта. Однако важно, чтобы при этом не изменялся URL-адрес. Все остальные подстраницы продукта должны быть перенаправлены на главную страницу.

Если же для каждого варианта товара собраны свои ключи, под них написан контент, нужно создать отдельные URL. Что это даст? Товар будет оптимизирован под отличительную черту, благодаря чему повысится его видимость в поисковых системах. Ключевые фразы с хвостами — это отличная возможность заполучить как можно больше потенциальных и состоявшихся клиентов. Люди, вводящие подробные фразы в окно поисковой системы, точно знают, что они ищут. Когда они находят страницу с желаемым товаром, шанс совершить покупку увеличивается.

Сайт доступен по многим адресам

Есть много причин, почему сайт появляется под несколькими URL-адресами в результатах поиска. Рассмотрим самые распространенные:

  1. Индексирование тестовой версии сайта

    Создание нового сайта или изменение существующего обычно сопровождается появлением тестовой версии, которая по-хорошему должна быть доступна только специалистам. Если она не закрыта от индексирования, ее просканирует робот, что в свою очередь приведет к дублированию страниц. Чтобы этого избежать, необходимо указать метатег noindex или ввести соответствующую директиву в файл robots.txt.

  2. Отображение домашней страницы по нескольким адресам

    Некоторые CMS создают несколько версий URL-адресов, например, адрес с «/» в конце и без, с «www» и без «www», адреса с параметрами «index.html», «index. php» и без них. Это означает, что один и тот же контент отображается по нескольким URL, например:

    • http://domen.com
    • http://www.domen.com
    • http://www.domen.com/index.html
    • http: // Domen.com/index.html
    • http://domen.com/index.php
    • http://www.domen.com/index.php

    Чтобы указать роботам поисковых систем оригинальную версию страницы, необходимо перенаправить на нее все остальные адреса, являющиеся ее копиями.

  3. Неправильная реализация SSL-сертификата

    К дублированию контента также может привести отсутствие редиректа, который необходимо настроить после установки SSL-сертификата. Страница с протоколом https и без него — это два разных URL, а значит, роботы поисковых систем посчитают их за две разные версии одного и того же сайта.

    Чтобы не дублировать контент, необходимо:

    • правильно настроить 301 редирект — с http на https для каждой подстраницы;
    • убедиться, что на сайте нет внутренних ссылок с протоколом http, для этого проверьте канонические ссылки, графические файлы, гиперссылки;
    • обновить sitemap.xml, создав новый файл с текущими URL-адресами.

Необходимо также добавить версию сайта с протоколом https в Google Search Console и отправить обновленный файл sitemap.xml.

Неоптимизированные страницы сортировки и фильтрации

Неправильная оптимизация сортировки и фильтрации также приводит к появлению дублей. Почему так? Обратите внимание, что сортировка и фильтрация изменяют только ту часть сайта, где размещены товары, само содержимое остается прежним. Если при перезагрузке страницы добавляется параметр сортировки или фильтра, создаются ее копии.

Как решить проблему с копированием контента

Самый простой способ — использовать тег rel = canonical. Однако страницы фильтрации и сортировки могут по-прежнему отображаться в результатах поиска. Если нужно убрать их из индекса, нужно использовать метатег noindex.

Другой способ — запретить индексирование сортировки и фильтрации в файле robots.txt. Для этого используют директиву, которая блокирует доступ роботам поисковых систем к определенным страницам. Это также позволяет сэкономить краулинговый бюджет.

Прежде чем запрещать поисковикам индексировать определенные страницы, стоит посмотреть, не потеряется ли изрядная доля трафика. Если он все же сократится, то можно оптимизировать их под ключевые слова с хвостами и уже таким способом получать новых посетителей.

Внутренний поиск и копии

Проблемы с дублированием также могут быть связаны с плохо реализованным поиском на сайте. Его использование иногда приводит к созданию новой страницы, то есть дубликата уже существующей, оптимизированной под поисковый запрос. Чтобы решить проблему, нужно добавить в файл robots.txt директивы, которые закроют доступ роботам к страницам внутреннего поиска.

Неоптимизированные страницы пагинации

Пагинация используется для разделения содержимого страницы на несколько частей и размещения их на отдельных подстраницах. Это могут быть товары, статьи в блоге, огромный список категорий и мн. др.

Проблемы, которые возникают из-за неоптимизированной пагинации:

  1. Одинаковый контент

    Если пагинация неоптимизированная, на каждой новой странице будет отобраться тот же самое содержимое, что и на первой.

  2. Без различия тегов заголовков

    При создании новой страницы автоматически устанавливаются заголовки страниц. Нужно сделать так, чтобы в названии добавлялось какое-либо примечание. Чаще всего добавляют номер страницы.

  3. Дубликат первой страницы

    Бывает, что первая страница доступна по двум разным адресам. Например, главная категории domain.ua/kategorii и страница с нумерацией пагинации domen.ua/kategorii -1. Эти два адреса имеют идентичное содержимое, то есть один из них — дубль. В этой ситуации лучше всего удалить повторяющуюся страницу и выполнить 301-редирект на ее основной адрес.

Создавая пагинацию на сайте, сразу проследите за тем, чтобы не генерировались дубли.

Неправильная реализация языковых версий

На сайте с разными языковыми версиями появляются дубли из-за отсутствия переводов для каждой из них. Например, в английской текст публикуется полностью или частично на украинском языке. Чтобы предотвратить появление дублей, необходимо как можно быстрее перевести контент на язык, соответствующий конкретной стране. Также нужно в нужно указать атрибуты hreflang (в HTML-тегах, ХML-картах и HTTP-заголовках) и alternate (в теге link) на всех страницах. Благодаря им поисковые системы будут знать, что у сайта несколько языковых версий.

Как создается внешнее дублирование

Внешнее дублирование не всегда связано с воровства контента. Случаи бывают разные, поэтому мы рассмотрим их подробнее.

Копирование описаний товаров с сайтов производителей

Копипаст описаний продуктов — распространенная практика. Однако мало, кто задумывается, что копирование текста с сайта производителя может обернуться проблемой. Если товаров сотни и создавать для каждого из них уникальное описание не хочется, тогда нужно сделать его для приоритетных позиций. Учитывая, что с сайтов производителей копируют многие, то у вас в таком случае появится как минимум одно преимущество перед конкурентами. Уникальный контент больше ценится поисковиком, соответственно, у такого сайта возрастает вероятность получить место повыше.

Размещение описаний на сайтах сравнения цен

Тут все просто. Чтобы избежать дублирования контента, нужно подготовить отдельные уникальные описания.

Создание нескольких похожих или одинаковых сайтов

Дубли могут появиться при наличии субдомена, то есть версии сайта, созданной, например, под конкретный регион. Контент в таком случае копируется с основной страницы. Поэтому если появилась необходимость в создании субдомена, нужно также написать новые тексты.

Выводы

С проблемой дублированного контента сражаются многие. Иногда дубли возникают там, где их никто не ожидает, поэтому нужно всегда просматривать сайт на их наличие. А чтобы предупредить их появление, необходимо создавать уникальный контент для каждой страницы.

КОМПЛЕКСНЫЙ АУДИТ САЙТА

Профессиональный комплексный аудит сайта — глобальный анализ вашего проекта ✔ Подробный отчет с перечнем ошибок и рекомендаций для улучшения ✔ Увеличение конверсий

Получить консультацию

Наш менеджер свяжется с Вами в ближайшее время

Отправить заявку

Дублированный контент | поисковая выдача

Что такое дублированный контент?

Дублированный контент — это когда две части контента абсолютно одинаковы или похожи. Это может быть контент на одном веб-сайте или на двух разных веб-сайтах.

Для наглядности вот определение Google «дублированного контента».

Дублированный контент обычно относится к существенным блокам контента внутри или между доменами, которые либо полностью соответствуют другому контенту, либо заметно похожи.

Очевидно, что случаи дублирования контента будут связаны с кражей у других, но в большинстве случаев это происходит в «незловещих» контекстах.

Вот несколько хороших примеров.

  • Версия веб-страницы только для печати (также известная как версия для печати)
  • Дискуссионные форумы с мобильной версией
  • Коммерческие товары с различными URL-ссылками (социальными, партнерскими и т. д.)

Как дублированный контент влияет на SEO?

Google не хочет индексировать неоригинальный контент — им нужен оригинальный, уникальный и информативный контент.

Это то, что Google (и другие поисковые системы) хочет видеть в поисковой выдаче, а не вырезанные и вставленные копии контента.

Они даже указывают это в своих правилах дублирования контента.

Скопированная веб-страница не является страницей с «отдельной информацией».

Далее они подчеркивают потенциальные негативные последствия дублирования контента для SEO.

В результате может пострадать рейтинг сайта или сайт может быть полностью удален из индекса Google, и в этом случае он больше не будет отображаться в результатах поиска.

Дублированный контент может снизить ваши позиции в поисковой выдаче или полностью исключить вас из индекса.

Вот почему это важно в отношении SEO и почему мы должны заняться этим.

Передовая практика

Проверьте, какие страницы вашего сайта проиндексированы

Вам необходимо узнать, какие страницы вашего сайта индексируются. Это первый шаг, который вы должны сделать.

Всегда рекомендуется проверять, какие страницы вашего веб-сайта отображаются в Google.

Вы можете проверить проиндексированные страницы через Google Search Console.

Однако самый простой способ — это проверить через поиск Google.

Для этого выполните поиск « site:yourwebsite.com»

Должен появиться весь ваш рейтинг, проиндексированные страницы.

Сравните количество результатов с количеством имеющихся у вас страниц.

Вы должны быть в состоянии найти любые «домашние» экземпляры дублированного контента.

В качестве альтернативы вы можете использовать инструмент, специально разработанный для поиска внутреннего дублированного контента, например Siteliner.

Это даст вам обзор вашего веб-сайта с анализом дублированного контента.

Существует премиум-версия, но вы должны быть защищены бесплатной версией.

Вывод: Используйте Google Search Console, «site:yourwebsite.com» или Siteliner, чтобы узнать, какие страницы вашего сайта индексируются.

Найдите в Интернете повторяющийся контент

Вы выполнили внутреннюю проверку дубликатов содержимого, теперь пришло время для внешней проверки.

Люди часто копируют ваш контент и публикуют его как свой собственный. К сожалению, иногда поисковые системы выдают оригинал, а не копию/дубликат.

Итак, давайте выследим эти подделки — сделаем это с помощью Copyscape.

Copyscape — это инструмент для борьбы с плагиатом, который может помочь вам узнать, кто ворует ваш контент.

Просто введите адрес своего веб-сайта в строку поиска Copyscape, и появятся 10 страниц, копирующих ваш контент.

Вы можете нажать на каждый результат, и он покажет точные скопированные слова (выделены розовым цветом) и процент.

Все, что меньше 40%, на самом деле не о чем беспокоиться.

Вывод: Используйте Copyscape, чтобы найти людей, копирующих ваш контент.

Проверьте свой веб-сайт на правильное перенаправление

Люди часто бывают удивлены, узнав, что у них есть несколько версий одного и того же веб-сайта.

Если у вас есть несколько версий вашего веб-сайта, поисковые системы, такие как Google, будут рассматривать это как ситуацию с дублированным содержимым.

Редко, но бывает.

Существует 2 распространенных сценария, в которых это может произойти .

  1. Переключение с HTTP на HTTPS.
  2. WWW-сайт, отделенный от не-WWW (www.google.com vs google.com)

Вы должны убедиться, что все варианты вашего сайта существуют, перейдите на один и тот же.

Раньше эту проблему можно было решить с помощью Google Search Console, но это уже не так.

18 июня 2019 г. Google удалил параметр «предпочтительный домен».

В качестве альтернативы они предложили 4 стратегии, которые вы могли бы использовать.

  • Канонический тег (страницы HTML)
  • Канонический тег (HTTP-заголовок)
  • Карта сайта
  • 301 атрибут перенаправления

Канонический тег и атрибут перенаправления 301 будут рассмотрены позже в этом посте.

Вывод: Перенаправьте все версии вашего сайта (http/https/www) на одну.

Используйте тег Canonical (когда это имеет смысл)

Тег canonical ( rel=canonical ) — это элемент HTML, который позволяет Google узнать, какая страница является исходной.

По сути, это говорит о том, что «это оригинальный контент, а не другие».

Когда вы сообщаете об этом Google, вы просите их сканировать, индексировать и ранжировать эту веб-страницу/контент. Вы говорите Google игнорировать других.

Это один из самых простых и эффективных способов устранения дублирующегося контента.

Существует два способа использования тега canonical.

  1. Добавлено в исходный код HTML
  2. Добавлено в заголовок HTTP

Добавление в заголовок HTTP немного сложнее — я расскажу только о HTML.

Вы можете вручную вставить тег прямо в HTML.

Вот пример от CNN.

<ссылка rel"canonical" href="вставить ссылку">

Просто скопируйте пример и вставьте нужную ссылку.

Однако проще сделать это с помощью подключаемого модуля платформы CMS.

WordPress SEO Plugin Yoast имеет каноническую форму тега для страниц/сообщений.

Вывод: Используйте тег canonical (rel=canonical), чтобы сообщить поисковым системам, что страница является оригинальной.

Используйте перенаправление 301

Перенаправление 301 — это HTML-код, который навсегда изменяет направление ссылки.

Это как для пользователей, так и для поисковых систем.

Использование перенаправления 301 перенесет «сок ссылки» (капитал ссылки) на новую ссылку.

Он сообщает поисковым системам: «Эй, все, что вы просканировали, проиндексировали и оценили на этой странице? Пожалуйста, отправьте это на эту другую страницу».

Перенаправление 301 используется, когда вы хотите обновить существующую страницу, создав новую страницу.Он объединяет две страницы в смысле SEO.

Благодаря перенаправлению 301 новая страница получит всю SEO-ценность старой.

Чтобы использовать перенаправление 301, вам необходимо получить доступ к файлу htaccess вашего веб-сайта — это может быть техническим.

Опять же, проще использовать плагин CMS.

У WordPress есть из чего выбрать.

Вывод: Используйте переадресацию 301 для перенаправления пользователей и поисковых систем на новую обновленную страницу.

Используйте домен верхнего уровня для контента для конкретной страны

Домен верхнего уровня — это конечная часть адреса веб-сайта (домена) — расширение «.раздел «com».

Существует 2 типа доменов верхнего уровня.

  1. Общие домены верхнего уровня (gTLD)
  2. Национальные домены верхнего уровня (ccTLD)

Общие домены верхнего уровня являются более распространенными/универсальными, такими как com, org и net.

Домены верхнего уровня с кодом страны различаются в зависимости от конкретного региона.

Например, в Южной Африке используется za.

Австралия использует au.

Важно, что если у вас есть дублированный контент для разных стран и языков, вы можете быть оштрафованы.

Здесь пригодится правильный ccTLD.

ccTLD помогает сообщить Google, что у вас есть несколько версий вашего веб-сайта и содержимого по определенной причине.

Google даже рекомендует его в своем руководстве по дублированию контента.

Чтобы помочь нам предоставить наиболее подходящую версию документа, по возможности используйте домены верхнего уровня для обработки контента для конкретной страны. Например, мы с большей вероятностью узнаем, что http://www.example.de содержит контент, ориентированный на Германию, чем http://www.example.com/de  или  http://de.example.com .

ccTLD подходит только в том случае, если ваш веб-сайт работает в нескольких странах.

Использование нДВУ имеет и некоторые недостатки.

Их обслуживание может быть довольно дорогим.

Для каждого отдельного веб-сайта нДВУ необходимо создать собственный авторитет домена — это может занять время.

Если нДВУ не подходят для ваших нужд, поддомены и подкаталоги — ваш следующий лучший выбор.

Вывод: Используйте домен верхнего уровня с кодом страны для борьбы с региональными проблемами дублирования контента.

Использование тега Noindex на страницах категорий и тегов (WordPress)

Если вы используете WordPress, вы заметите, что страницы категорий и тегов создаются автоматически.

Страницы категорий и тегов помогают посетителям сайта и поисковым системам ориентироваться в вашем контенте.

Проблема с этими страницами заключается в том, что они часто вызывают проблемы с дублированием содержимого.

Чтобы бороться с этим, вам нужно поразить эти страницы тегом noindex .

Тег noindex — это HTML-тег, указывающий Google (и другим поисковым системам) не индексировать эту страницу

По сути, вы говорите им: «Не добавляйте эту веб-страницу в свою поисковую систему, она мне там не нужна».

Также важно заметить разницу между noindex, follow и noindex, nofollow .

Тег index на самом деле связан с тегом Follow ⁠ — все это происходит в метатеге robots.У каждой страницы есть метатег robots, он находится в заголовке вашего HTML.

В метатеге robots существует множество других тегов, а не только индекс и подписка.

Разница между noindex, follow и noindex, nofollow проста.

Noindex, следуйте = Не индексируется поисковыми системами, но значение SEO по-прежнему передается через ссылки на странице.

Noindex, nofollow = Не индексируется поисковыми системами, через ссылки на странице не передается значение SEO.

Итак, что касается страниц категорий и тегов WordPress, создающих дублированный контент, мы будем использовать noindex, следуйте.

Добавьте в заголовок HTML вашей страницы.

Если это слишком сложно для вас, просто сделайте это с помощью SEO-плагина, такого как Yoast.

Вывод: Используйте тег noindex на страницах категорий и тегов (WordPress) для борьбы с дублированием контента.

Последние мысли

Дублированный контент — это проблема, которая может существенно повлиять на ваши усилия по поисковой оптимизации.

Жизненно важно знать, как с ним бороться.

Следуйте этим рекомендациям, чтобы полностью избежать дублирования контента.

Чтобы узнать больше о SEO, продолжайте читать руководства в нашем учебном центре и присоединяйтесь к нашей группе вдохновителей здесь: SERP University.

Как найти URL-адреса с повторяющимися заголовками страниц?

Заголовок страницы — это краткий текст, описывающий страницу, который можно увидеть на вкладке браузера посетителя и в поиске Google (или других поисковых системах).Это важная часть информации, которая позволяет роботу Googlebot ранжировать страницу и помогает посетителю перемещаться по результатам поиска.

Название страницы должно быть уникальным для каждой страницы и каждого URL-адреса страницы. Если один и тот же заголовок страницы используется для многих страниц, это влияет на SEO и приводит посетителей в замешательство. Это как если бы несколько книг имели одинаковое название и разное содержание. Вы бы не смогли различить их с первого взгляда.

Так что хорошо бы, чтобы заголовки ваших страниц были уникальными и не дублировались.Теперь, если вам нужно проверить наличие дубликатов, вы можете использовать настраиваемые отчеты в Piwik PRO.

Найти повторяющиеся заголовки страниц

Чтобы найти повторяющиеся заголовки, выполните следующие действия:

  1. Перейдите в Меню  >  Аналитика .
  2. Перейдите к  Пользовательские отчеты .
  3. Нажмите  Добавить новый отчет .
  4. Выберите следующий тип отчета:  Explorer . Мы используем этот тип, потому что нам нужно создавать вложенные таблицы.
  5. Назовите отчет.
  6. Выберите параметр  Видимость  :  Автор  или  Все пользователи . Параметр Все пользователи позволяет поделиться этим отчетом с другими участниками команды.
  7. Выберите следующие параметры: название страницы и URL страницы . Перетащите элементы из меню аттракциона в левую точку сброса.
  8. Добавьте несколько показателей, например, сеансов и просмотров страниц .
  9. В Измерения фильтра установите следующий фильтр: Тип события — Просмотр страницы.

    Примечание: Мы добавляем этот фильтр, чтобы убедиться, что в отчет включены только страницы, записанные с просмотрами страниц.

  10. Нажмите  Создать отчет .
  11. Теперь выберите диапазон данных для отчета.
  12. Посмотрите список заголовков страниц.
  13. Щелкните заголовок страницы.
  14. Просмотр URL-адресов страниц, связанных с заголовком страницы.

    В нашем случае у нас есть URL двух страниц, /product-tour и /blog/product-tour для заголовка одной страницы, Product Tour . Похоже, кто-то создал запись в блоге с названием страницы Обзор продукта , которое также используется для страницы с описанием продукта. Как только мы это узнаем, мы можем исправить заголовок страницы для сообщения в блоге и убрать дубликаты.

  15. Проверьте заголовки других страниц в этом отчете.

Время от времени запускайте этот отчет, чтобы содержание вашего веб-сайта было хорошо организовано и оптимизировано для поисковой оптимизации и посетителей.Хорошая практика, удачи.

Как найти дублированный контент на вашем веб-сайте

Дублированный контент может негативно повлиять на поисковую оптимизацию. Когда две страницы веб-сайта слишком похожи, Google не знает, какая страница важнее, и поэтому не знает, какую страницу следует включить в индекс.

Что такое дублированный контент и каковы причины?

Дублированное содержимое создается, когда одно и то же содержимое страницы можно найти по разным URL-адресам.Существует множество причин, по которым на веб-сайтах может появляться дублированный контент. Например:

  • Существует две разные версии URL из-за версии для печати
  • Существует две версии URL-адреса из-за наличия версии в http и одной версии в https.
  • Один и тот же контент используется в разных категориях.
  • Похожий или повторяющийся контент появляется в разных категориях (например, в интернет-магазинах)

Если на вашем сайте есть дублирующийся контент, убедитесь, что он устранен.Есть много способов сделать это, например, с помощью канонического тега. Однако, во-первых, важно определить, где у вас есть дублированный контент на вашем сайте. В этой статье мы покажем вам, как это сделать.

Как определить дублированный контент

С отчетом Ryte легко определить дублирующийся контент. Отчет идентифицирует дублированный контент на вашем сайте с помощью отпечатка пальца, который рассчитывается на основе контента сайта. Отпечаток пальца используется только для содержимого сайта, а не для исходного кода.Кроме того, мы избавляемся от всех чисел перед вычислением отпечатка пальца, поскольку одно число потенциально может изменить отпечаток пальца. Если на одном сайте отображаются разные показатели, например «Как быстро сайт загружался?», это приведет к тому, что каждый раз будут разные отпечатки пальцев — это предотвращается путем исключения чисел.

Затем мы используем этот отпечаток, чтобы сравнить его с другой страницей. Как только мы находим другой URL с таким же отпечатком, мы сообщаем об этом нашим пользователям в «Отчете о дублирующемся содержании».Мы сравниваем только индексируемые страницы: страницы, которые указывают на другую страницу с каноническим или подобным (Robots.txt Block, Noindex, …) не включаются.

Что такое «Похожий контент»?

После прочтения определения «Дублирующийся контент» вы поймете, что всего одна переменная цифра будет означать, что две страницы больше не классифицируются как дублирующийся контент. Вот почему у нас также есть отчет: «Похожий контент». Цель состоит в том, чтобы обнаружить очень похожие страницы, которые, например, отличаются в 2-3 предложениях и не предлагают никакой дополнительной ценности.Другим примером могут служить страницы продуктов, такие как «Adidas Shoe Size 39» и «Adidas Shoe Size 40» — единственное различие заключается в указании размера, но на самом деле никакой дополнительной ценности нет.

Так устроен отчет: на графике суммируется количество всех найденных похожих страниц Near Duplicates на странице.

Рисунок 1: Поиск повторяющегося содержимого

Если вы нажмете на более подробный вид (увеличение рядом с числом в списке), вы увидите страницы с дублирующимся содержимым.

Рисунок 2: Найти похожий контент

Если вы знакомы с патентами Google, то знаете, что алгоритмы «Похожий контент» очень важны. Они помогают поисковым системам с настройкой их поисковых роботов. Если на сайте постоянно отображается похожий контент, не несущий никакой дополнительной ценности, поисковые системы предпочтут инвестировать свои ресурсы в домены, где они с большей вероятностью найдут ценный контент.

Если страница слишком похожа на предыдущую, поисковые роботы игнорируют эти сайты и их ссылки.

Как решить проблему дублирования контента

В общем, решить проблему дублирования контента несложно. После определения ваших повторяющихся и похожих URL-адресов вы должны сначала решить, действительно ли необходимы оба URL-адреса — будет ли этого достаточно, чтобы объединить контент на одной странице? Если необходимы оба URL-адреса, самый простой способ решить проблему — использовать канонический тег, указывающий на наиболее релевантную страницу. Канонический тег показывает Google, какая страница важнее, поэтому какую страницу следует проиндексировать.Вы можете найти другие способы обработки дублирующегося контента в этой статье.

Заключение

Дублированный и похожий контент на вашем веб-сайте может негативно повлиять на ваш веб-сайт с точки зрения SEO, поскольку Google не ясно, какой URL-адрес важнее. Поэтому вы можете обнаружить, что менее важная страница оказывается в индексе. С отчетом Ryte вы можете легко определить дублирующийся и похожий контент.

Идентифицируйте дублированный контент на вашем веб-сайте с помощью Ryte БЕСПЛАТНО

Начинай сейчас!

Как найти и выделить повторяющиеся абзацы в документе Word?

Как найти и выделить повторяющиеся абзацы в документе Word?

Как найти и выделить повторяющиеся абзацы в документе Word?

Предположим, у вас есть большой документ Word, который может состоять из сотен страниц. Теперь вы хотите проверить наличие повторяющихся абзацев, а затем выделить их, чтобы выделить их, чтобы иметь возможность работать с повторяющимися предложениями.Как быстро и легко найти и выделить повторяющиеся абзацы в документе Word?

Найдите и выделите повторяющиеся абзацы в документе Word с кодом VBA