Поиск дублей страниц сайта: как быстро найти дубли страниц — SEO на vc.ru

Содержание

влияние на продвижение, поиск и удаление

Привет, друзья! Сейчас оптимизация сайта под поисковые системы это по большому счету систематический труд по его развитию, нежели применение каких-то секретных действий и технологий. Одним из таких систематических мероприятий является удаление из выдачи поисковиков дублей контента. Вот об этом действии и пойдет речь в сегодняшнем материале.

В первую очередь, нужно ответить на вопрос, почему дубли страниц негативно сказываются на его продвижении. На это есть несколько причин:

  1. Размывается внутренний ссылочный вес. Это происходит в том случае, когда в структуре сайта некорректные линки ссылаются на дубли страниц вместо того, чтобы увеличивать «значимость» продвигаемых документов.
  2. Смена релевантных страниц. Например, вы продвигаете карточку товара, текст которой полностью дублируется в категории. Поисковая система раздел может посчитать более релевантным. Итого получится, что вместо того, чтобы пользователь сразу попадал на товар, он направляется в общую категорию, где продвигаемый продукт может просто потеряться среди других. Потенциальный клиент может превратиться в уходящего посетителя.
  3. Уникальный контент, который представлен только в одном месте, ценнее того, который дублируется во множестве веб-документов.

В основном дубли появляются из-за особенностей систем управления контентом (CMS), либо из-за действий вебмастера, который копирует тексты или создает практически идентичные документы. Они бывают полными или частичными (здесь я не беру в расчет момент, когда тексты копируются на другие сайты). Полные — это когда контент полностью идентичен под другим URL, частичные — когда частично.

На мой взгляд, если один и тот же кусок контента частично дублируется в нескольких документах на сайте в пределах 10-15%, то ничего страшного. Если же больше 50%, то с этим уже нужно что-то делать.

Соотношение «реальных» страниц с количеством проиндексированных

Иногда встречаю фразы типа:

Яндекс плохо индексирует блог. В индексе всего лишь 50 страниц. А вот Google хорошо. У него 1250 страниц.

На первый взгляд какая-то проблема с индексацией в отечественном поисковике, но после уточняющего вопроса о количестве опубликованных постов, все становится на свои места. Оказывается у автора в блоге всего лишь 30 записей. Это говорит о том, что с Яндексом все в порядке, а вот в Гугле большое количество дублей. В связи с этим нужно сначала соотнести количество «реальных» страниц на сайте, которые могут быть полезны пользователю и (или) поисковику, а также не запрещены к индексации, с количеством проиндексированных. Как это сделать?

И снова пример на основе блога. Сейчас количество проиндексированных документов выглядит следующим образом.

Google занес в индекс в 2 раза больше страниц. Кто прав? Начинаю считать примерное количество нормальных страниц на сайте.

  • 1011 постов;
  • 20 категорий;
  • главная;
  • 8 пунктов меню;
  • 120 страниц пагинации (навигация внизу на главной и в категориях)

Еще штук 30 различных файлов, которые я загружал (здесь же, например, флэш баннеры). Итого получаем, что нормальных страниц в блоге около 1200. Яндекс ближе всего оказался к истине. Эти дополнительные 150 документов я так и не смог найти (в этом поисковике можно просматривать только 1000 результатов выдачи).

Google, несмотря на то, что показывает цифру в 2730, в SERP выдает только 700-800. Зато в опущенных результатах находятся подобные вещи.

Даоса уже давно на блоге нет, а документы с feed на конце запрещены в robots.txt. Предполагаю, что добрая половина от цифры 2730 это и есть фиды и ссылки daos.

Как искать дубли страниц?

От последствий и причин перехожу к методам поиска дублей на сайте.

1) Полный анализ проиндексированных документов. Способ сводится к тому, чтобы просмотреть все страницы, которые включены в индекс. Для этого нужно ввести запрос 

site:vash-domen.ru и просмотреть все результаты (для Яндекса не более 1000, у Google — непонятно).

Чаще всего нужно анализировать URL’ы и искать среди них нетипичные. Например, у вас стоит ЧПУ, а в выдаче встретился URL с каким-нибудь таким окончанием me&catid2012220&offsetsort=price. Скорее всего, подобный документ нужно запретить к индексации.

2) Проверка внутренних ссылок, создающих дублированные страницы. Мне встречались CMS, которые создавали дубли документов внутренними ссылками, то есть ссылались не на основной материал, а на дубликат. Например, представьте, если в WordPress в анонсе поста заголовок ссылался на страницу записи (http://myblog.ru/moya-zapis/), а ссылка «Читать далее» на какую-нибудь страницу типа http://myblog.ru/moya-zapis/content/. Подобные вещи нужно либо удалять, либо превращать в адекватные (можно в принципе и продублировать линк, если он стоит на картинке или добавить якорь #).

Подобные ссылки можно смотреть самому или воспользоваться специальным софтом. Программа Xenu умеет обходить все линки на сайте, ища битые (нерабочие). Она на английском, но пользоваться ею несложно.

Сначала нужно скачать Xenu (кнопка Download) и установить ее на компьютер. Далее запустить, нажать File -> Check URL. Затем введите в первое поле адрес своего ресурса http://vashdomen.ru/ и нажмите «ОК». Программа начнет ходить по ссылкам и фиксировать рабочие, нерабочие, внутренние, внешние, заголовки, description и так далее.

Xenu выдаст результаты в зависимости от объема ресурса. Мой блог программа анализировала 29 минут 

.

После завершения утилита предложит создать карту для сайта и сразу залить ее по ftp. Это можно не делать. Нужно сохранить результаты. File -> Export to TAB separated file. Это позволит сохранить все данные в текстовый файлик. Далее его содержимое можно скопировать в Excel, чтобы легче было производить анализ. Можно также отсортировать URL’ы по алфавиту.

Я например, увидел, что в rel=’shortlink’ есть урлы вида ?p=43242, но они все имеют 301-редирект на соответствующие материалы с ЧПУ.

3) Поиск по кусочкам текста. Одна из самых стандартных процедур. Она заключается в том, что берется кусок текста из структурной единицы (например, предложение с 7-12 словами) и ищется в кавычках в Яндексе или Google в поиске по сайту.

Запрос имеет следующий вид site:vashdomen.ru «кусок-текста». Я вставил одно предложение из кейса по созданию и распределению семантического ядра. Яндекс нашел 3 документа, которые его содержат. Это собственно сама запись и 2 ее анонса: на главной и в категории. Дублирующие анонсы небольшие, поэтому бояться нечего. Если взять, например, какое-нибудь нижнее предложение из того же материала, то найдется только страница самого поста, так как искомый кусок текста в анонсы не попадает 

.

Что я подразумеваю под структурной единицей? Все просто — это главная, категории, меню, карточка товара (пост, статьи и так далее). Желательно подобным образом проверить не менее 10 документов из каждой структурной единицы.

4) Использование языков запросов. Аналогично 3-му пункту. Только поиск производится в заголовках (тег title) и в URL документах ресурса. Как правило, у дублирующих друг друга страниц эти элементы очень схожи. Примеры поиска:

а) Для Яндекса — site:vashdomen.ru title:(продвижение сайтов)

Этот запрос будет искать вхождение «продвижение сайтов» в теге title. Альтернатива для Google — 

site:vashdomen.ru intitle:продвижение сайтов.

б) Для Яндекса и Гугла — site:sosnovskij.ru inurl:prodvizhenie

Этот запрос будет искать прямое вхождение «prodvizhenie» в URL документов.

Как убирать дубли?

Есть несколько способов удаления дублей сайта из поисковой выдачи. Для некоторых случаев может подойти какой-то один, для других — комплекс из всех пунктов.

1) Meta name=»robots». Самый эффективный метод для документов, для которых не подходят пункты 2-4. Подробнее можно прочитать в этом эксперименте.

2) Ручное удаление. Если вручную была создана дублирующая статья (запись, карточка) или html-страничка, то ее также нужно вручную удалить.

3) 301-редирект. Стандартная процедура для склеивания полностью идентичных документов (например, доступность с www и без www).

4) Атрибут rel=»canonical». Этот атрибут сейчас понимает и Google, и Яндекс. Он призван давать поисковому роботу информацию о предпочитаемой странице среди множества схожих по содержанию документов. Например, в интернет-магазине в категории чемоданов есть несколько сортировок: по цене, дате добавления, популярности и так далее. Поисковая система может проиндексировать данные сортировки. Так вот, чтобы среди подобных документов алгоритм ПС выбрал главную страницу категории в качестве канонической (грубо говоря, самой релевантной), нужно указать rel=»canonical» для всех подобных, которые копируют ее.

Например, есть URL’ы:

— http://internet-magazin-chemodanov.ru/chernye-chemodany
— http://internet-magazin-chemodanov.ru/chernye-chemodany&sort=price
— http://internet-magazin-chemodanov.ru/chernye-chemodany&sort=date
— http://internet-magazin-chemodanov.ru/chernye-chemodany&sort=popular

На 3-х последних урлах в пределах тега head нужно вставить следующий код:

В таком случае поисковики предпочтут первую страницу в качестве самой релевантной. В современных движках (например, WordPress) данный атрибут уже включен в структуру создания документов.

5)

robots.txt. Этот файл запретит поисковому роботу индексировать определенное содержание ресурса. В первую очередь, нужно поискать стандартный robots.txt для вашей системы управления сайтом («robots.txt для …» — вместо троеточия название вашей CMS). Как правило, он уже должен оградить ресурс от индексирования основных документов, которые дублируют содержание.

Для частных ситуаций нужно уметь пользоваться директивой disallow и спецсимволами «*» и «$» (не стоит забывать и про host). Подробно об этом можно почитать в помощи Яндекса. Если брать ситуацию с чемоданами, то robots.txt мог выглядеть так:

User-agent: *
Disallow: /*sort=

Только тут нужно быть уверенным, что кусок «sort=» не используется при построении URL’ов у нормальных страниц с полезным содержанием. Иначе и они будут запрещены к индексации.

Возникали ли у вас проблемы с поиском дублей и их удалением? Как справились с задачей? Поделитесь своим опытом. С нетерпением жду ваши комментарии 

.

поиск, причины появления и удаление

Краткое содержание статьи:

Техническая оптимизация сайта включает в себя множество различных этапов. Особое место среди этих пунктов занимает отслеживание и устранение дублей страниц. Они могут быть полными и неполными. Например, в первом случае это зеркала главной страницы — site.ru и www.site.ru. Неполные дубли проявляются, как одинаковые участки текстов на разных URL-адресах. Такие копии важно найти и удалить.

Опасность дублей на сайте

Поисковые системы негативно реагируют на совпадающий материал в пределах одного ресурса. Из-за их появления могут понизиться позиции сайта или появиться фильтры. Вот основные опасные моменты, которые возникают на портале, если поисковый робот обнаружит дубль страницы:

  1. Определение неверных релевантных URL-адресов в поисковой выдаче. Робот не может точно определить, какая страница является реальной, а где дубль. Из-за этого начинают скакать позиции, сайт опускается всё ниже.
  2. Неправильное распределение ссылочного веса. Закупка внешних ссылок заканчивается тем, что происходит путаница с URL-адресами. Появляются рекомендации пользователей интернета на дубли, а не на основной ресурс. Робот такое поведение расценивает плохо, отправляет сайт под фильтр.
  3. Контент становится неуникальным. Копии текстов и картинок — это негативное влияние на ранжирование всего портала. Поэтому нельзя вставлять одинаковую информацию на разных URL-адресах. Продвигайте страницы сайта по разным ключевым запросам.
  4. Поисковики Google и Яндекс могут наложить санкции на портал. Манипуляции с дублями страниц воспринимаются роботами этих систем, как способ манипуляции для попадания в верхние строчки выдачи. Не хотите фильтров — боритесь с таким контентом!

 К сожалению, многие владельцы сайтов не знают об опасности дублей страниц. В целях экономии они используют одинаковые тексты на страницах и потом удивляются, почему их ресурс занимает нижние строчки в поисковой выдаче.

Как появляются дубли страниц на сайте?

Перед тем, как заняться их поиском, нужно понять причину их появления. Дубли страниц на сайте чаще всего возникают по следующим причинам:

  1. Применение системы управления контентом. Сбой возникает, когда запись на портале может относиться к различным рубрикам или разделам. При этом их домены включены в адрес сайта самой записи. Часто такое встречается на информационных ресурсах или в блогах. Поэтому важно контролировать работу CMS.
  2. Ошибки в технических разделах. Часто такое можно встретить в системах управлениях Bitrix и Joomla. Происходит это при нелогичной генерации одной из функций сайта — регистрации, фильтра или внутреннего поиска. В этом случае появляются дубли, но URL страницы не учитывается.
  3. Человеческий фактор. С любым сайтом работают люди, которые пишут тексты и проводят оптимизацию каждой страницы. Но даже специалист может ошибиться или где-то полениться. Часто такое происходит с текстами, когда нет времени писать разный контент.
  4. Технические ошибки. Если к несовершенной работе системы управления контентом добавить человеческий фактор, то возникают странно прописанные адреса. Часто они являются дублями каких-то страниц.

Невозможно избавиться от дубликатов на сайте, если не уметь их находить. Поэтому каждый владелец ресурса должен понимать, как это делается.

Поиск дублей

Копии на портале можно искать несколькими проверенными способами:

  • использование программы XENU (Xenu Link Sleuth). Она поможет отыскать не только дубли, но и битые ссылки. Программу используют для поиска полных копий. XENU требует скачивания на свой компьютер, разработана только для операционной системы Windows. С установкой программы не должно возникнуть сложностей. Во время ввода страницы для проверки, обращайте внимание на наличие символом слеш «/» в конце.
  • с помощью расширенного поиска Google. В строку поиска нужно вставить адрес главной или интересующей страницы. После этого система предложит полный список страниц, которые проиндексированы. Проанализировав его, можно отыскать копии.
  • с помощью web-мастерской Google. Владельцу сайта нужно будет пройти регистрацию. Увидеть копии страниц можно в разделе «Оптимизация Html». Ещё там будет представлен список одинаковых <Title>. Но неполные дубли этим методом не отыщешь.
  • за счёт seo-платформа Serpstat. Для работы придётся пройти регистрацию.Выбираем раздел «Аудит сайта», потом «Суммарный отчёт». В течение определённого времени система покажет дублей Title, Description, h2. В бесплатной версии ресурса имеются ограничения, но информации достаточно для выявления копий.

Отыскав все дубли страницы, и проанализировав причины их появления, можно смело начать их удалять. Ни в коем случае не игнорируйте эти пункты, иначе копии снова начнут возникать на портале.

Простые способы удалить дубли страниц на сайте

Копии в Title, Description и h2 исправляются в ручном режиме. А дубли страниц устраняем этими способами:

  1. Через robots.txt — это самый лёгкий вариант. Необходимо только прописать нужные директивы.
  2. Воспользоваться 301 редиректом. С помощью этой директивы можно перенаправить роботов поисковых систем с дубля на оригинальную страницу. 301 редирект сообщает о том, что странички больше не существует.
  3. Link rel=»canonical» — вариант подходит для страниц с разными URL, но одинаковыми тестами. В код имеющегося дубля необходимо внедрить следующий тег — <link=»canonical» href=»http://site.ru/cat1/page.php»>. Он указывает на страницу, которая нуждается в индексации.

Попасть под фильтры Panda и АГС может любой сайт с дублями. Поэтому от копий нужно избавляться в первую очередь. В противном случае это отразиться на ранжировании. Вы потеряете позиции в поисковой выдаче, следовательно, и потенциальные клиенты или читатели не смогут находить ваш ресурс.

Если самостоятельно отыскать и удалить дубли страниц на сайте не получается, то обратитесь за помощью к специалистам компании Grand-SEO.

Рассказать друзьям:

Дубли страниц сайта — поиск и устранение дубликатов страниц


Чем опасны дубли страниц 

Во всех поисковых системах дублированные страниц негативно влияют на продвижение, так как поисковики видят несколько полностью релевантных страниц для одного и того же запроса, и в результаты органической выдачи будут добавляться постоянно разные страницы. Известно, что из-за дубликатов позиции проседают на 10-30 пунктов буквально за 2-3 недели. Чтобы избежать этого, советуем хотя бы 1 раз в месяц проверять контент и мета-теги. Как найти дубли страниц сайта — читайте в этой статье.

Поиск дубликатов страниц

1. Фразы в кавычках

Простой и доступный способ найти дубли страниц в Яндексе, хотя далеко не самый эффективный.

— выделяем 5-7 слов без знаков препинаний и заглавных букв;;
— включаем расширенный поиск по сайту;
— ставим весь текст в кавычки и копируем в адресную строку Яндекса.

В результатах выдачи получаем страницы, где есть точное вхождение данной фразы. Если есть 2 или более страниц — верный сигнал того, что у нас есть дублированный контент.

2. Сервер для проверки уникальности текста

На наш взгляд, наиболее эффективный способ поиска дублированного контента. Копируем текст и заливаем его на проверку уникальности в любой автоматический сервер. На выходе имеем полную картину о дубликатах. 

— какие именно куски текста имеют дубликаты;
— адреса одинаковых страниц;

Чтобы не попасть под различные фильтры поисковых систем, делаем такую проверку для продвигаемых страниц ежемесячно. Для небольшого сайта поиск дубликатов таким образом занимает не много времени, но позволяет избежать неприятностей.

3. Программы-пауки

Бесплатные программы-пауки, которые определяют на каждой странице (даже те, которые не в индексе) мета-теги и теги h2.Вбиваем УРЛ сайта, и программа начинает парсить данные. В зависимости от количества страниц, процесс занимает до нескольких часов. В результатах получаем таблицу с множеством столбцов. Нас интересуют только мета-теги: title, description, keyword, тег h2 и адреса страниц:

Проверяем глазами – на одинаковые значения и устраняем ошибки. Этот способ хорош тем, что позволяет найти не только дублированный контент, но и одинаковые мета-теги. А как говорилось в предыдущих статьях, за идентичные мета-теги вырастает вероятность наложения фильтра, особенно это касается Google. 
Читаем статью: продвижение cайта в Google.

4. Гугл Вебмастер: оптимизация HTML

Полезный инструмент для поиска дублей находится в панели Гугл-вебмастер. Заходим в панель для веб-мастеров Google и переходим в раздел – “Вид в поиске”, там выбираем вкладку – “Оптимизация HTML”. Гугл сообщает нам о дубликатах мета-тегов и предоставляет рекомендации по их устранению.

5. Ручная проверка выдачи

Длительный и затруднительный способ, который требует много внимания.  Но если есть желания и силы, то можно и воспользоваться. Данный метод позволяет найти дубли страниц, которые существуют из-за технических проблем с сайтом. Например, распространенная ошибка — сайт доступен по адресам www. site.com ww.site.com site.com. Довольно редко, но вероятность есть. 

Как убрать дубли страниц  

1. Если дублируется контент, то достаточно переписать текст, через некоторое время поисковики проиндексируют сайт, и дублированный контент исчезнет из основного поиска.
2. При наличие одинаковых мета-тегов, находим причину (возможно, происходит автоматическая генерация) и устраняем неполадки.
3. Если дубли страниц образуются вследствие действия фильтров, то закрываем подобные страницы в файле robots.txt. Особенно характерно для интернет-магазинов.
Читаем статью: как увеличить продажи интернет-магазина

А теперь рассмотрим типичные дубли для наиболее популярных CMS: Joomla и Openstat.

Joomla — дубли страниц

Для любых версий этой CMS наиболее характерны 2 типа дубликатов. Давайте рассмотрим подробнее, как убрать дубли страниц Joomla.
1. Дубли главной страницы 
В следствии технических ошибок сайта, на Joomla появляются дубликаты или полу-дубликаты главной страницы. Обязательно проверяем “морду” любым из предложенных способов и устраняем проблемы. Чаще всего необходимо закрыть дубли в файле robots.txt

2. Дубли модуля статей
Для Joomla существуют много модулей для статей, которые дублируют контент новых статей на одну страницу – Статьи. То есть на одной страницы мы получаем сразу все материалы. В более современных версиях такого уже не встретишь.
Чтобы устранить проблему – просто закрываем общую страницу статей от индексации.

Дубли страниц Opencart

Для данного CMS характерно наличие множества фильтров, которые создают дублированный контент. Чтобы решить проблему – закрываем все подобные фильтры от индикации.

Дублированные страницы – характерная проблема абсолютно для всех сайтов без исключения. Используйте вышеприведенные методы для поиска дубликатов, ежемесячно делайте мониторинг сайта и устраняйте проблемы, тогда степень доверия поисковых система к вашему ресурсу останется на высоком уровне.

Дубли страниц на сайте — что это такое. Поиск и удаление

Дубли страниц, что это такое, какое влияние они оказывают на поисковое продвижение сайта и как можно избежать этих дублей. Все эти вопросы по понятным причинам волнуют сайтостроителей.

Содержание:

Что такое дубли страниц

Если открыть главную страницу блога, то, как обычно, увидим анонсы последних записей. Часто бывает так, что если набрать в поисковой строке адрес домена/page/1, то есть страница первая, то можно увидеть здесь то же самое содержимое, что и на главной странице сайта.

Это явление и называется дубли контента, то есть страницы с частично или полностью повторяющимся содержимым.

То, что дубли страниц не приносят ничего хорошего сайту, можно догадаться ничего больше не зная о них. Таких дублей на самом деле может быть очень много.

Каждая страница сайта обладает каким-то статическим весом, что непосредственно напрямую влияет на ее позиции в выдаче. Если на том же самом хосте появляется дубликат страницы, то статический вес страницы размывается.

Контент на странице становится для поисковых систем не уникальным, и они задерживают или занижают позиции страниц в выдаче. Поэтому нужно как можно раньше начать бороться с проблемой наличия дублей на сайте.

Откуда дубли вообще берутся? В большинстве случаев они генерируются самой системой WordPress. Это различные категории, метки, результаты поиска, комментарии и другое.

Не будем говорить, что виновата в этом система движка. Скорее всего, вина исходит от того, кто настраивал или наоборот не настраивал ее.

Первое, что нужно проверить, настроен ли редирект со второстепенного зеркала сайта на главное. Для этого перед URL главной страницы сайта введем тройное www.

Если открывается та же самая страница, значит редирект на главное зеркало не настроен, поэтому страницы с www и без www являются полными дублями.

Таким образом, все страницы сайта, по сути, дублируются. Это конечно нехорошо и надо все исправить. Исправить это можно либо в настройках web-сервера, либо в файле .htaccess.txt. Проверить также нужно страницы index.php и index.html.

Для этого на главной странице сайта в адресной строке введем https://webentrance.ru/index.php. Снова открывается та же самая страница. Проверим https://webentrance.ru/index.html, здесь такой страницы не существует.

Затем можно зайти в какой-либо раздел, например, Windows-7. Нужно проверить, есть ли редирект со страниц со слешем. То есть, если приставить к адресу страницы слеш и открывается та же самая страница, то так же необходимо сделать редирект через настройки веб-сервера.

Откроем любую страницу и посмотрим, что изменится, если к адресу ввести .html или .php. Открывается та же самая страница. Введем в адрес страницы случайные символы. Если открывается та же страница, то это значит, что не работает на сайте перенаправление на страницу с 404 ошибкой.

Еще несколько вещей, которые могут привести к дублям на вашем сайте. Это страницы с сортировкой, группировкой или фильтром какого-то товара. Все они имеют различные приставки к URL в виде различных параметров. Эти параметры собственно и создают дубликаты страниц.

Нужно помнить, что любой URL, который отличается от текущего, является другой страницей. Пусть даже их содержание абсолютно идентично. Поэтому такие страницы нужно закрывать в файле robots.txt, чтобы поисковый робот их не видел. И чтобы они ни в коем случае не попадали в индекс поисковых систем.

Вот основные причины, по которым появляются дубликаты страниц. Здесь может быть, как уже говорилось, два решения:

1. Закрыть их в robots.txt.

2. Решить проблему с помощью файла .htaccess.txt.

Ищем дубли страниц

Есть два способа для поиска дублей страниц. Во-первых, копируем URL и пишем в Яндексе команду site:webentrance.ru без http.

Таким образом, Яндекс покажет нам все страницы, которые есть на данный момент в индексе.

Наша задача просмотреть в выдаче все URLы и найти подозрительные. То есть просматриваем сайт и ищем несоответствие. Возможны ошибки URL и т. д. и здесь очень просто найти дубли страниц.

Поиск дублей страниц с помощью сервисов

Второй способ это софт и различные сервисы, например, Google веб-мастер. Заходим в него и во вкладке Оптимизация, выбираем Оптимизация html. Нам показывают те страницы, на которых есть одинаковые мета-теги.

Скорее всего, они и являются дубликатами. Как уже было сказано, самый простой способ избавиться от дубликатов, это закрыть их в файле robots.txt.

Произойдет это конечно не сразу, но через какое-то время можно будет заметить, что дубли выбыли из индекса. Вскоре можно будет заметить эффект в позициях ресурса в поиске и трафике, поэтому это необходимо сделать.

Для определения дублей страниц, уже проиндексированных поисковыми системами, можно перейти в Яндекс.Вебмастер, перейти в раздел Индексирование сайта и проверить, какие страницы ресурса находятся в поиске поисковой системы.

Здесь надо увидеть главную страницу блога, где адресом является просто домен. Затем должны быть все страницы, которые доступны в верхнем меню и все до одной статьи.

Если сайт небольшой, порядка 100 страниц, то его можно без труда просмотреть и понять, какие именно страницы находятся в индексе и ничего лишнего здесь быть не должно.

Не должно быть никаких page, категорий, никаких тегов. Здесь же можно посмотреть исключенные страницы и документы, запрещенные файлом robots.txt. Это обычно все результаты поиска и т. д.

Перейдем в настройки плагина All in SEO Plugin Options и ставим галочки Использовать параметр ‘noindex’ для рубрик, для архивов, для архива меток.

Чтобы посмотреть файл robots.txt, достаточно набрать после домена через слеш robots.txt. Здесь особо ничего закрывать не надо, кроме каких-то служебных файлов.

В результате этой работы в поиске должны остаться только необходимые страницы, которые будут быстрее индексироваться поисковыми системами.

Другие записи по теме:

Дубли страниц — найти и обезвредить!

 

Дубли страниц — это дублирующие друг друга страницы в рамках одного ресурса, которые содержат схожий полностью или частично схожий контент, а также могут быть проиндексированы поисковыми системами и не имеют ограничения для добавления в индексируемую базу данных поисковых систем. Например, многие CMS системы генерируют однотипные страницы с контентом, который дублируется — это и является дублями искомой страницы. Такие страницы способны значительно снизить метрические показатели посещаемости сайта и в целом снизить эффективность продвижения сайта. Поэтому необходимо знать, как находить и распознавать их, дабы вовремя устранять потенциальную угрозу.

Определение дублей страниц

Под дублями в SEO подразумевают страницы, наполнение которых тождественно в большей или меньшей мере, но находятся они не на одном URL-адресе. Различают четкие и нечеткие.

Какую угрозу для продвижения сайта несут дубли страниц?

  • Позиции страниц, соответствующих запросам, стабильно перескакивают, так как поисковик не может однозначно выбрать нужную страничку для показа.
  • Страдает ранжирование от пониженной доли страничек с контентом высокой уникальности.
  • Вес ссылок размывается, поскольку они распределяются по дублям страниц.
  • Почему появляются дублирующие страницы?
  • Неправильно работающая система управления сайтом приводит к тому, что причиной появления дублей становится CMS.
  • Вредит продвижению сайта факт, при котором какая-либо опция генерирует адреса с одинаковым наполнением касательно странички, не имеющей параметров в URL.
  • Результаты человеческой деятельности, как-то: текстовые фрагменты, имеющие сквозной характер; сквозные блоки; публикации, дублирующие друг друга.
  • Плод несовершенного функционирования CMS и человеческих ошибок, примером чего служат неправильно прописанные и в итоге зацикленные ссылки.

Поиск дублей страниц на ресурсе

Для улучшения SEO показателей оптимально нейтрализовать это опасное для сайта явление, что можно сделать в несколько шагов.

  • С помощью программ NetPeak Spider или аналогичных софт-инструментов проводим сканирование сайта и сортировку по тегу мета. Обратить внимание, помимо совпадающих данных, стоит на отсутствующие метаданные, что является рекомендацией к закрытию от индексирования для эффективности продвижения сайта.
  • Далее ищем копии, не показанные парсером, для чего нам понадобится вкладка «Оптимизация HTML» в личном кабинете web-мастера Google.

В завершении придется искать копии в ручном режиме, просматривая параметрические адреса и неразделимые алиасы.

Устранение проблемы дублирующихся страниц

Искоренение причины и результатов имеющихся изъянов принесет положительные результаты, что можно сделать таким образом:

  1. Добавить директиву в robots.txt.
  2. В ситуации, когда нужно сохранить страницу открытой для индексирования, а дубли страниц единичны, можно выставить настройки 301 direct с копии на первоначальную страничку.
  3. Если публикация размещена по разным адресам, то в код всех постов встраивается тег link rel=”canonical”.
  4. Работа с параметрами url в Google Search Console – в этом поможет вкладка «Сканирование».

Отдельно следует сказать и о пагинации: разделы с несколькими страничками не подпадают под определение дубля страницы, так как содержимое их отличается уникальностью, и распознаются поисковиками. Для них можно встроить элементы микроразметки. Хэштеги в URL не подлежат индексации, поэтому их присутствие также не должно волновать SEO-специалиста.

 

 

Автор статьи:

Маргарита МеликянSEO, Интернет-маркетинг

SEO по-деталям, ведь в деталях кроется истина…

Также читайте в нашем блоге:

 

Пробег страницы: 1331

Поиск дублей страниц и их устранение

Дубли страниц могут присутствовать на любых сайтах, независимо от того сколько им лет и из скольких страниц они состоят. Для обычного посетителя они не представляют абсолютно никаких неудобств, такие страницы содержат необходимую ему информацию, а больше ему ничего и не нужно.

Если же посмотреть на URL адреса таких страниц, то можно заметить, что они отличаются. Поэтому поисковые системы и воспринимают их как абсолютно разные страницы, со всеми вытекающими отсюда негативными последствиями. В этой статье мы рассмотрим, как производить поиск дублей страниц, какие инструменты и методы их поиска существуют и как от них избавиться.

Наличие дублей страниц может негативно сказаться на ранжировании этих же страниц в поисковых системах.

Потому как эти страницы являются по сути одинаковыми, то теряется их уникальность, а это уже большой минус. Поисковая система не может понять какая из них более релевантная и какую из них нужно ранжировать выше. Поэтому высокие позиции в поисковой выдаче таким страницам занять очень тяжело.

Тот ссылочный вес который планировалось передать данной странице может просто напросто «размыться», а может даже оказаться на той странице, которой, изначально его никто не собирался передавать.

Среди некоторых SEO специалистов бытует мнение, что небольшое количество страниц, не оказывает негативного воздействия, но наличие на сайте 40 — 50 % страниц которые дублируются может создать некоторые трудности. 

Из своего опыта могу сказать, что при появлении дубля той или иной страницы в индексе Яндекса значительно снижаются позиции данной страницы по продвигаемому запросу. Именно поэтому я считаю, что эта проблема очень актуальна и сколько бы дублей страниц у вас не было нужно регулярно проверять сайт на дубли страниц и устранять их.

Разновидности и причины появления дублей страниц

В целом можно выделить 2 разновидности дублей страниц это полные дубли (четкие) и неполные (нечеткие).

Полные дубли  — это страницы с абсолютно одинаковым содержимым но с разными URL адресами. URL адреса могут отличаться расширением.

Например:

http://webmastermix.ru/uroki-i-stati.html
http://webmastermix.ru/uroki-i-stati.htm
http://webmastermix.ru/uroki-i-stati.php

 

Или иметь различные индентификаторы сесий и параметры.

Например:

http://webmastermix.ru/uroki-i-stati.html?start=5

Причины появления:

1. В большинстве случаев полные дубли появляются из за различных технических недоработок CMS, на которых создаются сайты. Причем такие недоработки встречаются как у популярных так и менее популярных движков. Способы устранения таких дублей будут зависеть от вида CMS, используемых плагинов и расширений и для каждого сайта их необходимо рассматривать в отдельности.

2. Следующей причиной появления четких дублей может быть произведенный редизайн, смененная структура сайта или смена используемого движка сайта на новый. Получается, что страницы поменяли свои адреса, но и по старым URL адресам могут выдаваться определенные страницы, но совсем не те, что были по ним доступны ранее.

3. Еще одной причиной возникновения четких копий может быть не внимательность веб-мастера, контент менеджера или администратора ресурса.

Примером могут быть дубли главной страницы вида:

http://webmastermix.ru/
http://webmastermix.ru/index.html
http://webmastermix.ru/default.html

Нечеткие дубли — это страницы содержимое кторых очень похоже или содержит большие части текста из других  страниц.

Такие страницы возникают в следующих случаях:

1. Самый распространенный вариант, когда основное содержимое страницы сайта настолько мало, что содержимое его сквозных частей, таких как футер, хедер и боковые колонки, превышает его. В качестве примера можно привести страницы галереи, карточки товаров в интернет магазине имеющие описание в 1 — 2 предложения.

2. Страницы на которых полностью или только частично повторяются определенные части текста в любых последовательностях. Примером таких страниц могут быть страницы рубрик, где текст анонса статьи присутствует как на странице рубрики или нескольких рубрик, так и в полной версии статьи. Еще в качестве примера можно привести страницы с результатами поиска по сайту, а так же страницы различных фильтров поиска, например товаров в интернет магазинах.

Методы определения и поиска дублей страниц

Разновидности и причины появления дублей мы рассмотрели, теперь рассмотрим как найти дубли страниц и какие способы для этого существуют.

Поиск по фрагментам текста

Такая проверка очень проста и сводится к тому, чтобы вы скопировали небольшую часть текста страницы, вставили ее в поисковую строку и произвести поиск по своему сайту. Для этого можно взять 10 — 15 первых слов текста страницы, которую необходимо проверить. Слишком большой текст не берите, потому как в поисковиках есть определенное ограничение по символам, которые можно вводить для поиска.

Для поисковой системы Яндекс, зайдите в расширенный поиск, в поле «Я ищу» укажите текст, а в поле «На сайте» адрес вашего сайта и произведите поиск.

После этого визуально просмотрите результаты поиска и найдите те страницы на которых точно повторяется этот текст. Я нашел 2 таких страницы:

В данном случае у меня нашлись нечеткие дубли двух категорий на которых расположен один и тот же анонс материала. Как вы видите саму страницу с данным материалом, тоже показало, но полного повторения данного текста на ней нет. Все потому, что я всегда пишу специальный текст который и является анонсом к статье и не использую в качестве анонса введение к статье.

Такой же поиск можно произвести и в Google. Для этого текст который нужно проверить вставьте в кавычках и через пробел  укажите область поиска: site:vash-sait.ru

Естественно если  сайт состоит из большого числа страниц, то проверить их все будет очень сложно и долго по времени. Чтобы ускорить весь этот процесс можно воспользоваться специальной программой, которая известна многим оптимизаторам — это  Xenu’s Link Sleuth.

Проверка дублей при помощи программы Xenu’s Link Sleuth

Скачать программу можно на сайте разработчика: http://home.snafu.de/tilman/xenulink.html#Download

Установите и запустите программу. После этого перейдите в пункт меню File >> Check URL, введите адрес вашего сайта и нажмите кнопку «ОК».

После этого программа начнет ходить по ссылкам вашего сайт и находить все указанные на его страницах ссылки, не зависимо от того рабочие они или нет. Кроме этого она определит тип документов, его заголовки, description и еще много всего. В зависимости от размера сайта, программа может работать продолжительное время, у меня были случаи до 30 — 40 минут. После окончания работы перед вами будет список всех ссылок вашего сайта.

Дубли можно искать двумя способами по найденным URL адресам страниц и по найденным заголовкам страниц. 

Чтобы искать по URL адресам кликните по табулятору «Address» и отсортируйте все найденные адреса по алфавиту. Найдите в списке ссылки именно своего сайта и визуально просматривая их найдите, те которые выглядят иначе, чем обычные адреса сайта. Если на сайте используется ЧПУ, можно искать URL адреса содержащие и отличающиеся наличием и отсутствием идентификаторов и параметров.

На приведенном скриншоте я выделил страницы, которые в принципе могут быть дублями страницы: http://webmastermix.ru/web-design.html. Но именно вот эти страницы закрыты от индексации у меня на сайте.

Чтобы искать страницы по заголовку, нужно кликнуть по табулятору «Title» и отсортировать заголовки по алфавиту. Теперь задача найти одинаковые заголовки. Потому как страницы с четкими дублями, о которых шла речь выше, будут иметь одинаковые заголовки.

Недостатком применения данной программы является то, что она показывает все предполагаемые дубли не зависимо от того, есть они в индексе поисковиков или нет. Поэтому каждый раз необходимо проверять на предмет индексации найденные страницы. Но есть еще один способ проверить дубли страниц и он позволяет проверять и видеть только те страницы, которые находятся в индексе той или иной поисковой системы.

Анализ всех проиндексированных страниц

Данный метод основан на том, чтобы просмотреть  все старницы определенного сайта которые есть в индексе той или иной поисковой системы. Чтобы увидеть все страницы вашего сайта необходимо в поисковой строке Яндекса указать: host:vash-sait.ru | host:www.vash-sait.ru или Google указать: site:vash-sait.ru | site:www.webmastermix.ru

Полученную выдачу необходимо исследовать на предмет наличия всяких не типичных ссылок. Опять же если на сайте используется ЧПУ, то можно искать такие ссылки которые заканчиваются различными идентификаторами сессий и параметрами.

Но такой способ тоже имеет свои недостатки, потому как все представленные страницы не будут упорядочены, чтобы их упорядочить по URL или заголовку можно применить языки запросов.

Использование языков запросов для анализа проиндексированных страниц

Поиск дублей осуществляется так же как и в прошлом примере, но здесь мы можем вывести проиндексированные статьи по содержимому определенных слов или словосочетаний в Title или URL адресе страницы. Выше я уже упоминал, что именно заголовок и URL является одинаковым у полных дублей.

Что бы произвести поиск по содержимому заголовка, необходимо в поисковой строке указать следующее:

Для Яндекса: site:vash-sait.ru title:(уроки html)

Для Google:  site:vash-sait.ru intitle:уроки html

— где «уроки html» полный Title определенной страницы или отдельные слова из Title определенной страницы.

Так же можно производить поиск в URL адресах страниц сайта. Для этого в поисковой строке необходимо прописать, как для Яндекса так и для Google следующее: site:vash-sait.ru inurl:lessons-joomla

— в данном случае будут выведены все URL в которых присутствует — lessons-joomla.

Избавляемся от дублей страниц

Способы избавления от дублей страниц зависят от того, что это за страницы и каким образом они попали в индекс поисковой системы. Есть ряд мероприятий применив которые можно избавиться от дублей страниц. В некоторых случаях достаточно будет применить одно из них в других же понадобится комплекс мероприятий. В целом можно произвести следующее мероприятия:

1. Если та страница которая является дублем была создана вами вручную, то также в ручную вы можете ее удалить.

2. При помощи файла Robots.txt можно управлять индексацией всего сайта. Для запрета индексации определенных страниц или каталогов используется директива: «Disallow». Таким способом хорошо избавляться от дублей тех страниц, которые лежат в определенной директории сайта. 

Например, чтобы закрыть от индексации страницы тегов URL которых содержит: /tag/, нужно в фале robots.txt указать следующее:

Еще таким способом хорошо избавляться от дублей адреса которых содержат идентификатор сессии и в них используется знак «?». Чтобы запретить индексацию все страниц в адресах которых содержится вопросительный знак «?», достаточно в фале robots.txt прописать следующее:

3. Использование 301 редиректа. При помощи редиректа 301 можно производить автоматическую переадресацию посетителей сайта и роботов поисковых систем с одной страницы сайта на другую. Данный редирект дает понять роботам поисковых систем, что данная страница навсегда перенесена на другой адрес и больше по данному адресу не доступна.

В результате поисковыми системами производится склеивание страниц доступных по двум или более адресам, в страницу доступную только по одному адресу указанному при настройке 301 редиректа. Подробнее о 301 редиректе читайте в статье: «Как настроить 301 редирект в htaccess и в скриптах — более 18 примеров использования».

4. Использование атрибута rel=»canonical». Данный атрибут, употребленный на определенных страницах сайта, которые имеют одинаковое или очень мало отличимое содержимое дает понять какую страницу считать основной из множества похожих документов. понимают данный атрибут ПС Яндекс и Google.

Чтобы его задать необходимо в HTML код страницы между тегами <head>…</head> поместить следующее:

<link href="http://webmastermix.ru/seo-optimization.html" rel="canonical" />

— где  http://webmastermix.ru/seo-optimization.html является канонической ссылкой и если у данной страницы будут присутствовать дубли вида:

http://webmastermix.ru/seo-optimization.html?start=5
http://webmastermix.ru/seo-optimization.html?start=6
http://webmastermix.ru/seo-optimization.html?start=7
 

Но на всех этих страницах будет указан атрибут  rel=»canonical», пример которого приведен выше, то за основную страницу будет считаться именно страница с адресом: http://webmastermix.ru/seo-optimization.html

Во многих популярных CMS, например WordPress или Joomla данный атрибут генерируется сразу при создании страниц.

Самые распространенные причины автоматического появления дублей и избавление от них 

Страницы пагинации

В рубриках и категориях сайта выводить большое количество материалов на одной странице не удобно. Поэтому как правило их выводят в виде многостраничных каталогов, где каждая страница имеет свой адрес, но содержимое этих страниц может дублироваться.

Чаще всего дублируются мета теги описаний и анонсы статей. Особенно плохо когда анонсы статей или описания товаров большие по объему и берутся непосредственно из начальной части статьи. Т. е. они будут фигурировать и на страницах пагинации и в полной версии статьи.

Избавиться от такого типа дублей можно одним из следующих способов:

1. Запретить индексацию страниц в файле Robots.txt — для Яндекса данный метод работает отлично, но вот Google может игнорировать robots.txt и все равно индексировать такие страницы, как от этого избавится читайте ниже, где будет идти речь о страницах с результатами поиска и фильтров.

2. Использовать атрибут  rel=»canonical», в котором указать основной адрес для всех этих страниц — в некоторых CMS он используется по умолчанию.

3. Что касается частичных дублей, то анонсы статей необходимо делать уникальными, а не брать текст из вводной части статьи.

Страницы поиска и применения фильтров

Поиск присутствует на любом сайте и поэтому страницы с результатами поиска, на которых так же частично дублируется контент, могут легко попасть в индекс ПС.

Фильтры, как правило используются когда нужно отсортировать материалы или товары в интернет магазине по определенным параметрам.

Страницы результатов поиска и сортировки имеют динамических URL и создаются автоматически. Все это может порождать большое количество копий.

Избавится от таких клонов можно одним из следующих способов:

1. Закрыть от и индексации в robots.txt. Можно закрыть все страницы сайта содержащие определенные параметры. Как вариант можно закрыть все страницы, адреса которых содержат вопросительный знак «?». Как это сделать мы рассматривали выше. Этого будет вполне достаточно для ПС Яндекс, но может оказаться мало для Google и он продолжит их индексировать. Поэтому переходим к следующему способу.

2. Использование инструментов Google Webmaster. Если в панели Google Webmaster перейти в пункт «Сканирование» >> «Параметры URL» и кликнуть по ссылке «Настройка параметров URL». Перед вами появится ряд параметров, которые присутствуют в адресах страниц вашего сайта.

И здесь у вас есть возможно запретить для индексации адреса тех страниц сайта, которые содержат определенный параметр. Для этого, на против нужного вам параметра кликните по ссылке «Изменить».  Затем в выпадающем списке выбираете пункт «Нет, параметр не влияет на содержание страницы». Кликнув по «Показать примеры URL» откроются все ссылки которые содержат этот параметр и будут запрещены к индексации.

Как только удостоверились, что это именно те страницы которые вы хотели закрыть, нажимаете на кнопку «Сохранить».

Дубли возникающие из-за различных технических особенностей CMS 

Ввиду некоторых технических особенностей формирования URL адреса каждой страницы все CMS могут автоматически создавать различные дубли. Например в Joomla это происходит из-за того, что  одна и та же страница может быть получена несколькими способами. Если включены ЧПУ, такие страницы сразу видно. Потому, что если у вас есть страница с URL: http://ваш-сайт.ru/stranica.html, а помимо ее присутствует еще и страница: http://ваш-сайт.ru/stranica.html?view=featured, то она является копией первой страницы.

Способы борьбы:

1. Часть таких копий убирается средствами самой CMS, а те что остаются можно убрать одним или несколькими из предложенных выше способов.

2. Кроме этого в некоторых случаях придется использовать 301 редирект, чтобы склеить одни страницы с другими — все зависит от CMS.

Рекомендуем ознакомиться:

Подробности

Опубликовано: 12 Ноябрь 2013

Обновлено: 30 Ноябрь 2013

Просмотров: 17755

Как найти и удалить дубли страниц на сайте

Здравствуйте!

Если Ваш сайт очень медленно растёт в поисковых системах, делает один шаг вперёд, а затем два назад, при постоянном изменении позиций, то одной из причин такой нестабильности могут быть дубли страниц на сайте. Это когда, страницы имеют разные адреса (url), но при этом содержат один и тот же контент, полностью или частично.

Чтобы вернуть сайту стабильность и поднять в ТОП, необходимо найти и удалить дубли страниц. О том, как это сделать, мы расскажем в сегодняшней публикации.

Чем опасны дубли страниц на сайте?

Но для лучшего понимания, зачем находить и удалять дубли страниц, мы расскажем о том, как вред может нанести сайту дублированный контент из-за которого и так снижается доверие поисковых систем к сайту:

  1. Некорректная индексации. Допустим, у Вас большой новостной портал, на котором ежедневно публикуются по 10 новостей и статей. Если для каждой страницы будет существовать хотя бы один дубль, то объём сайта вырасти вдвое, а значит и поисковикам придётся больше времени тратить на обход ресурса. А если таких дублей 4-5? Поисковая система будет удалять дубли страниц из поиска и занижать позиции сайта.
  2. Неправильное определение веса страниц. С помощью внутренней оптимизации сайта, без применения внешней, можно добиться значительных результатов, в том числе за счёт правильно поставленных внутренних ссылок, которые передают вес нужной странице, с товаром или услугой, или продвигаемой по ВЧ-запросам. Соответственно при наличии дублей страниц, передаваемый рейтинг будет распыляться, а значимость страницы для ПС будет падать.
  3. Показ в результатах поиска нерелевантной страницы. Так же одной из проблем, которой грозят дубли страниц является показ в результатах поиска нерелевантной страницы (например, вместо страницы услуги, показывается прайс, где эта услуга упоминается).
    Таким образом, все усилия приложенные на продвижение определённой страницы (сюда относятся, как внешние, так и внутренние ссылки), пойдут к коту под хвост. Кроме того, в последствии поисковая система может ещё больше занизить рейтинг страницы, так как она нерелевантна запросу.
  4. Потеря естественных ссылок. Пользователь, который был на Вашем сайте и захотел поделиться ссылкой на его страницу, может как раз поделиться ссылкой на дубль, а не на ту, которую нужно. В итоге, такие ценные для SEO-продвижения естественные ссылки будут вести на дубликаты, которые не индексируются.

Дубли могут быть полными (одна и та же страница, доступ по разным адресам) и частичными (фрагмент контента одной страницы дублируется на других).

Проверка сайта на дубли страниц

Ну, что? Убедились во вредности дубликатов страниц? Значит пора проверить свой сайт на дубли страниц! Есть несколько стандартных процедур, которые помогут выявить дубли страниц.

1. Search Console.

Или Google Webmaster. Это один из самых лёгких способов, для поиска дублей страниц. Заходим в сервис, далее идём в раздел «Вид в поиске» и выбираем вкладку «Оптимизация HTML».

Здесь нам необходимо обратить внимание на следующие строчки:

  1. «Повторяющееся метаописание» — страницы с одинаковыми описаниями Description;
  2. «Повторяющиеся заголовки (теги title)» — список страниц с одинаковыми Title.

Данный подход выявления дублей основывается на том, что страницах может совпадать не только содержание, но и мета-данные. Просмотрев страницы, которые показываются в данном отчёте, мы довольно-таки просто обнаружим страницы, которые являются дубликатами.

2. Яндекс Вебмастер.

Периодически Яндекс индексирует новые страницы сайта или какие-то удаляет. Эта информация отражается, как на главной странице сервиса, так и в разделе «Индексирование» — «Страницы в поиске». Зайдите туда прямо сейчас.

Рядом с удалёнными из поисковой выдачи страницами (они выделены синим), есть комментарий, говорящий о причине исключения. Одним из возможных вариантов является «Дубль».

В данном случае это страница категории, которая содержит часть контента из постов в виде анонсов. Поэтому поисковая система считает её дублем.

3. Просмотр поисковой выдачи.

Промониторьте выдачу, используя специальный оператор «site:».

Довольно часто причиной возникновения дублей страниц становятся несовершенства систем управлений сайтом (CMS). Например, WordPress грешен тем, что может автоматически генерировать дубли страниц или в рубриках публиковать анонсы с частичным содержанием текста из самой статьи.

Также причины дубликатов могут быть в присутствующих на сайте версиях для печати или ускоренных страниц (AMP), пагинация, страницы с utm-метками, динамические урлы, страницы тегов, не добавленные описания товаров в интернет-магазине, не прописанные мета-теги.

Как удалить дубли страниц на сайте?
  1. Если на сайте, есть две страницы, у которых совпадают мета-теги, но при этом разное содержание — нужно просто изменить мета-описание.
  2. Закрыть от индексации рубрики, категории и страницы тегов, с помощью параметра Disallow в robots.txt. Либо, если не хотите терять возможный трафик, который могут принести эти разделы сайта, придумайте способ их уникализировать. Например, сделать так, чтобы вместо анонса отображался только заголовок, который является ссылкой на статью.
  3. Для ускоренных страниц, страниц с utm-метками и версий для печати задайте в настройках канонический URL.
  4. Действительно есть две одинаковые страницы — удалите одну из них (ту, что не ранжируется поисковыми системами например).
  5. Настройте 301-редирект для удалённых страниц, чтобы заходя по старому адресу на сайт, пользователь не попал на 404-ую страницу.

SEO: как обнаружить и исправить страницы с дублирующимся контентом

Дублированный контент остается распространенным препятствием, когда речь идет об увеличении органического поискового трафика на веб-сайтах розничных продавцов.

Вот некоторые из преимуществ устранения дублированного контента для повышения эффективности SEO по сравнению с другими маркетинговыми мероприятиями, такими как создание ссылок, контент-маркетинг или продвижение контента:

  • Консолидация дублированного контента может быть выполнена относительно быстро, так как требует небольшого набора технических изменений;
  • Скорее всего, вы увидите улучшение рейтинга в течение нескольких недель после внесения исправления;
  • Google быстрее улавливает новые изменения и улучшения вашего сайта, поскольку ему приходится сканировать и индексировать меньше страниц, чем раньше.

Консолидация дублированного контента не позволяет избежать штрафов Google. Речь идет о построении ссылок. Ссылки ценны для эффективности SEO, но если ссылки оказываются на дублирующихся страницах, они вам не помогут. Они идут впустую.

Дублированный контент разбавляет ссылки

Один и тот же контент, доступный по нескольким URL-адресам, подрывает репутацию. Источник: Google.

Лучшее объяснение этому я нашел много лет назад, когда Google опубликовал SEO-аудит (PDF), который он провел на своих сайтах.

В верхней части рисунка выше три страницы одного и того же продукта. Каждый из них накапливает ссылки и соответствующую репутацию страницы. Google и другие крупные поисковые системы по-прежнему рассматривают качество и количество ссылок со сторонних сайтов как своего рода одобрение. Они используют эти ссылки, чтобы определить, насколько глубоко и часто они посещают страницы сайта, сколько они индексируют, сколько они ранжируют и как высоко они ранжируются.

Репутация главной страницы, также известной как каноническая страница, размывается, потому что две другие страницы получают часть репутации.Поскольку у них одинаковый контент, они будут конкурировать за одни и те же ключевые слова, но большую часть времени в результатах поиска будет отображаться только одно из них. Другими словами, эти ссылки на другие страницы теряются.

Нижняя часть иллюстрации показывает, что, просто объединяя дубликаты, мы увеличиваем количество ссылок на каноническую страницу и ее репутацию. Мы восстановили их.

Результаты могут быть впечатляющими. Я наблюдал 45-процентное увеличение дохода по сравнению с прошлым годом — более 200 000 долларов США менее чем за два месяца — благодаря удалению дублирующегося контента.Дополнительный доход поступает от многих других страниц продуктов, которые ранее не ранжировались и не получали поисковый трафик из-за дублированного контента.

Как обнаружить повторяющийся контент

Чтобы определить, есть ли на вашем сайте дублированный контент, введите в Google site:yoursitename.com и проверьте количество страниц в списке.

Введите в Google «site:yoursitename.com» и проверьте, сколько страниц указано.

Продукты должны занимать большую часть страниц на большинстве сайтов розничной торговли.Если Google перечисляет намного больше страниц, чем у вас есть продуктов, ваш сайт, вероятно, содержит дублированный контент.

Если ваши XML-карты сайта являются исчерпывающими, вы можете использовать Google Search Console и сравнить количество страниц, проиндексированных в ваших XML-картах сайта, с общим количеством проиндексированных страниц в Статусе индексирования.

Пример дублирующегося содержимого

One Kings Lane — розничный продавец мебели и товаров для дома. Используя диагностический инструмент, я вижу, что Google проиндексировал более 800 000 страниц Onekingslane.com.Но, похоже, у него проблема с дублирующимся контентом.

При навигации по сайту я обнаружил страницу продукта — синий коврик — без канонического тега для объединения дублированного контента. Когда я искал в Google название продукта — «Fleurs Rug, Blue», — оказалось, что оно занимает первое место.

One Kings Lane занимает первое место в Google по запросу «Fleurs Rug, Blue», несмотря на отсутствие канонических тегов.

Но когда я нажал на этот список поиска, я перешел на другую страницу. Идентификаторы продуктов разные: 4577674 против 2747242.Я получаю одну страницу во время навигации по сайту, другая проиндексирована, и ни одна из них не имеет канонических тегов.

Это, вероятно, вызывает ослабление репутации, даже несмотря на то, что страница занимает первое место в поиске «Fleurs Rug, Blue». Но большинство страниц продуктов ранжируются по сотням ключевых слов, а не только по названию продукта. В этом случае разбавление, вероятно, приводит к тому, что страница ранжируется по гораздо меньшему количеству терминов, чем могла бы в противном случае.

Тем не менее, дублированный контент не является самой большой проблемой в этом примере. Когда я нажал на этот результат поиска, я перешел на несуществующую страницу.

При нажатии на результат поиска синего коврика открывается страница с ошибкой.

Страница больше не существует. Google, скорее всего, удалит этот продукт из результатов поиска.

Даже если One Kings Lane перестроит страницу продукта, присвоив ей новый идентификатор продукта, Google может пройти несколько недель, чтобы получить его, поскольку Googlebot должен просканировать не менее 800 000 страниц на всем сайте.

Исправление повторяющегося содержимого

Устаревшая тактика устранения дублирующегося контента — запретить поисковым системам сканировать дубликаты страниц в роботах.текстовый файл. Но это не закрепляет репутацию дубликатов в канонических страницах. Это позволяет избежать штрафов, но не восстанавливает ссылки. Когда вы блокируете дубликаты страниц через robots.txt, эти дубликаты по-прежнему накапливают ссылки и репутацию страницы, что не помогает сайту.

Вместо этого ниже приведены рецепты решения наиболее распространенных проблем с дублированием содержимого с помощью переадресации 301 в Apache. Но сначала полезно понять варианты использования постоянных перенаправлений и канонических тегов.

Канонические теги и перенаправления объединяют дубликаты страниц. Но перенаправления, как правило, более эффективны, потому что поисковые системы редко их игнорируют, а перенаправленные страницы не нужно индексировать. Однако вы не можете (или не должны) использовать перенаправления для объединения почти дубликатов, таких как один и тот же продукт в разных цветах или продукты, перечисленные в нескольких категориях.

Лучшая консолидация дублированного контента — это та, которую вам не нужно делать. Например, вместо создания иерархии сайтов с сайтом .com/category1/product1 , просто используйте site.com/product1 . Это устраняет необходимость объединять продукты, перечисленные в нескольких категориях.

Общие перенаправления URL-адресов

Ниже приведены рецепты перенаправления Apache для решения пяти распространенных проблем с дублированием содержимого.

Я буду использовать mod_rewrite и предполагаю, что он включен на вашем сайте

 RewriteEngine включен
 # Это активирует возможности перезаписи 

 

Я также буду использовать программу проверки htaccess для проверки правил перезаписи./?(.*) https://www.webstore.com/$1 [R=301,L]

Это проверяет, что соединение уже не HTTPS.

Обратите внимание, что это правило также относится к редкому случаю дублирования IP-адреса, когда сайт также доступен по IP-адресу.

Это правило также работает в редких случаях дублирования IP-адресов, когда сайт также доступен по IP-адресу.

В следующих примерах мы будем предполагать, что у нас есть полный сайт, использующий HTTPS.

Дублирование косой черты в конце./]+)/?$ https://www.webstore.com/$1/ [R=301,L]

Это правило добавляет отсутствующие косые черты в конце.

Этот убирает их:

 RewriteEngine включен
 # Это активирует возможности перезаписи

%{REQUEST_FILENAME} !-f
 # Это проверяет, что мы не добавляем слэши к файлам, т.е. /index.html/ будет неправильным

RewriteRule (.+)/$ https://www.webstore.com/$1 [R=301,L] 

Это правило удаляет отсутствующие косые черты в конце.

Дублирование файлов. Распространенным случаем дубликата файла является индексный файл каталога. В системах на основе PHP это index.php . В системах .NET это default.aspx . Мы хотим удалить этот индексный файл каталога, чтобы избежать дублирования.

 %{REQUEST_FILENAME} -f
 # Это необязательно и проверяет, что мы затрагиваем только файлы

RewriteRule (.*)/?index.php$ https://www.webstore.com/$1 [R=301,L] 

Это правило удаляет этот индексный файл каталога.

Дублирование старых страниц.категория/продукт.php /продукт-%1.html? [Р=301,Л] #Обратите внимание, что на совпадения регулярных выражений из RewriteCond ссылаются с помощью %, а на совпадения в RewriteRule ссылаются с помощью $

 

Это правило предотвращает доступ к недружественным для поисковых систем URL-адресам без перенаправления.

Индивидуальные перенаправления

В приведенных выше примерах я предполагаю, что идентификаторы продуктов одинаковы для обоих URL-адресов — канонической версии и дубликата. Это позволяет использовать одно правило для сопоставления всех страниц продуктов.Однако идентификаторы продуктов часто не совпадают или новые URL-адреса не используют идентификаторы. В таких случаях вам понадобятся сопоставления один к одному.

Но массовые сопоставления и перенаправления один к одному сильно замедляют работу сайта — по моему опыту, в 10 раз медленнее.

Чтобы преодолеть это, я использую приложение под названием RewriteMap. Конкретный тип MapType , который следует использовать в этом случае, представляет собой тип DBM, представляющий собой хэш-файл, обеспечивающий очень быстрый доступ.

Когда используется MapType DBM, MapSource представляет собой путь в файловой системе к файлу базы данных DBM, содержащему пары ключ-значение, которые будут использоваться в сопоставлении.Это работает точно так же, как карта txt, но намного быстрее, потому что DBM индексируется, а текстовый файл — нет. Это позволяет более быстрый доступ к нужной клавише.

Процесс заключается в сохранении файла сопоставления «один к одному» в текстовый файл. Формат описан ниже. Затем с помощью инструмента Apache httxt2dbm преобразуйте текстовый файл в файл DBM, как показано в следующем примере.

 $ httxt2dbm -i productsone2one.txt -o productsone2one.map 

 

После создания файла DBM укажите ссылку на него в правилах перезаписи.(.*)$ ${products:$1|NOTFOUND} [R=301,L] #это ищет любой устаревший URL-адрес на карте и 301 перенаправляет на замещающий URL-адрес, также найденный в файле #если отображения нет в файле dbm, сервер вернет 404

 

По сути, сделайте ссылку на карту и назовите ее products . Затем используйте карту в правиле перезаписи. В этом случае, если URL-адрес устаревшего продукта не соответствует, я возвращаю ошибку 404, чтобы найти эти страницы в Google Search Console и добавить их на карту.Если бы мы вернули ту же страницу, это создало бы цикл перенаправления. Существуют более сложные решения, которые могут решить эту проблему, но они выходят за рамки этой статьи.

Что такое дублированный контент и как он влияет на SEO?

 

Независимо от того, является ли дублирование контента на сайте случайным или результатом того, что кто-то украл блоки текста с ваших веб-страниц, с ним необходимо бороться и обращаться с ним правильно.

Неважно, управляете ли вы веб-сайтом для малого бизнеса или крупной корпорации; каждый сайт уязвим к угрозе, которую дублирующий контент представляет для SEO-рейтинга.

В этой статье я объясню, как найти дублированный контент, как определить, влияет ли он на вас внутри или в других доменах, и как правильно справляться с проблемами дублированного контента.

Что представляет собой дублированный контент?

Дублированное содержимое относится к блокам содержимого, которые либо полностью идентичны друг другу (полные дубликаты), либо очень похожи, также известные как общие или почти дубликаты. Почти дублированный контент относится к двум частям контента с незначительными различиями.

Конечно, наличие некоторого похожего содержания является естественным и иногда неизбежным (например, цитирование другой статьи в Интернете).

Различные типы дублированного контента

Существует два типа дублированного контента:

  • Внутренний дублированный контент — это когда один домен создает дублированный контент через несколько внутренних URL-адресов (на одном и том же веб-сайте).
  • Внешнее дублированное содержимое, также известное как дублирование между доменами, возникает, когда два или более разных домена имеют одну и ту же копию страницы, проиндексированную поисковыми системами.

Как внешнее, так и внутреннее дублированное содержимое может быть точным или почти дубликатом.

Является ли дублированный контент вредным для SEO?

Официально Google не налагает штрафов за дублированный контент. Тем не менее, он фильтрует идентичный контент, что имеет тот же эффект, что и штраф: потеря рейтинга для ваших веб-страниц.

Дублированный контент сбивает с толку Google и вынуждает поисковую систему выбирать, какую из идентичных страниц она должна ранжировать в верхних результатах.Независимо от того, кто создал контент, существует высокая вероятность того, что исходная страница не будет выбрана для первых результатов поиска.

Это лишь одна из многих причин, по которым дублированный контент вреден для SEO. Вот еще несколько очевидных причин, по которым дублированный контент — отстой.

Внутренние проблемы дублирования контента

Элементы на странице

Во избежание проблем с дублированием контента убедитесь, что каждая страница вашего сайта имеет:

  • уникальный заголовок страницы и метаописание в HTML-коде страницы
  • заголовки (h2, h3, h4 и т.д.), которые отличаются от других страниц вашего веб-сайта

Название страницы, метаописание и заголовки составляют минимальный объем содержимого на странице. Тем не менее, безопаснее держать ваш сайт подальше от серой зоны дублированного контента. Это также отличный способ заставить поисковые системы увидеть ценность ваших мета-описаний.

Если вы не можете написать уникальное мета-описание для каждой страницы, так как у вас слишком много страниц, то исключите ее. В большинстве случаев Google берет фрагменты из вашего контента и в любом случае представляет их как метаописание.Тем не менее, если вы можете, все же лучше написать собственное мета-описание, так как это критический элемент для повышения кликабельности.

Описания продуктов

Понятно, что создание уникальных описаний продуктов является сложной задачей для многих компаний электронной коммерции, поскольку написание оригинальных описаний для каждого продукта на веб-сайте может занять много времени.

Однако, если вы хотите занять место в рейтинге «Электрическая бас-гитара Rickenbacker 4003», вы должны выделить свою страницу продукта для Rickenbacker 4003 среди всех других веб-сайтов, предлагающих этот продукт.

Если вы продаете свои продукты через веб-сайты сторонних розничных продавцов или у других торговых посредников, предлагающих ваш продукт, предоставьте каждому источнику уникальное описание.

Если вы хотите, чтобы ваша страница описания продукта превзошла другие, ознакомьтесь с нашей статьей о том, как написать отличную страницу описания продукта.

Вариации товаров, такие как размер или цвет, в идеале не должны размещаться на отдельных страницах. Используйте элементы веб-дизайна, чтобы все варианты продукта хранились на одной странице.

Параметры URL

Еще одна распространенная проблема с дублированием контента на сайтах электронной коммерции (хотя и не только для электронной коммерции) связана с параметрами URL.

Некоторые веб-сайты используют параметры URL для создания вариантов URL-адресов страниц (например, ?sku=5136840, &primary-color=blue, &sort=popular), что может привести к тому, что поисковые системы будут индексировать разные версии URL-адресов, включая параметры.

Если на вашем веб-сайте используются параметры URL, ознакомьтесь со статьей генерального директора Portent Яна Лурье о дублировании параметров URL под названием «Дублирование унитаза смерти».

WWW, HTTP и завершающая косая черта

Часто упускаемая из виду область внутреннего дублированного контента находится вокруг URL-адресов с:

  • www (http://www.example.com) и без www (http://example. com)
  • http (http://www.example.com) и https (https://www.example.com)
  • косая черта в конце URL-адреса (http://www.example.com /) и без завершающей косой черты (http://www.example.com)

Быстрый способ проверить эти проблемы — взять часть уникального текста с наиболее ценных целевых страниц, поместить текст в кавычки, и найдите его в Google.Затем Google будет искать именно эту строку текста. Если в результатах поиска отображается более одной страницы, вам придется внимательно присмотреться, чтобы определить, почему это происходит, сначала рассмотрев возможность трех вариантов, перечисленных выше.

Если вы обнаружите, что на вашем веб-сайте есть конфликты www и не-www или конечная косая черта против неконечной косой черты, вам придется настроить перенаправление 301 с непредпочтительной версии на предпочтительную.

Примечание. Использование или неиспользование www или завершающей косой черты в URL-адресах не дает никаких преимуществ SEO.Это вопрос личных предпочтений.

Проблемы с дублированием внешнего контента

Если у вас есть значительный объем ценного контента, велика вероятность того, что он будет переиздан на другом веб-сайте. Как бы лестно это ни было, вам придется обойтись без него. Вот различные способы внешнего дублирования контента:

Очищенный контент

Очищенный контент — это когда владелец веб-сайта крадет контент с другого веб-сайта в попытке повысить органическую видимость своего сайта.Веб-мастера, которые очищают контент, также могут попытаться заставить машины «переписать» украденный контент.

Извлеченное содержимое иногда легко идентифицировать, поскольку скребки иногда не утруждают себя заменой фирменных терминов во всем содержимом.

Как действует ручное наказание: человек-рецензент в Google просматривает веб-сайт, чтобы определить, соответствует ли страница рекомендациям Google по обеспечению качества для веб-мастеров. Если вас пометили за попытку манипулировать поисковым индексом Google, вы либо обнаружите, что рейтинг вашего веб-сайта значительно ниже, либо он полностью удален из результатов поиска.

Если вы стали жертвой извлечения контента, сообщите об этом Google, сообщив о веб-спаме в разделе «Авторские права и другие юридические вопросы».

Синдицированный контент

Синдикация контента — это когда другой веб-сайт повторно публикует ваш контент, который, скорее всего, первоначально появился в вашем блоге. Это не то же самое, что удаление вашего контента из-за того, что вы добровольно поделились им на другом сайте.

Как бы безумно это ни звучало, синдицирование контента дает определенные преимущества.Это делает ваш контент более заметным, что может привести к увеличению трафика на ваш сайт. Другими словами, вы обмениваете контент и, возможно, рейтинг в поисковых системах на ссылки на ваш сайт.

Как проверить наличие дублирующегося контента

Если у вас есть веб-страницы с богатым контентом, рейтинг которых в поисковых системах снижается, вам следует проверить, не был ли ваш контент скопирован и использован на другом веб-сайте. Вот несколько способов сделать это:

Поиск с точным совпадением

Скопируйте несколько предложений текста с одной из ваших веб-страниц, заключите их в кавычки и выполните поиск в Google.Используя кавычки, вы говорите Google, что вам нужны результаты, которые возвращают именно этот текст. Если отображается несколько результатов, значит, кто-то скопировал ваш контент.

Copyscape

Copyscape — это бесплатный инструмент, который проверяет текст вашей веб-страницы на наличие дублирующегося контента, найденного на других доменах. Если текст на вашей странице был удален, URL-адрес, нарушающий правила, будет отображаться в результатах.

Вы против дублированного контента

Посмотрим правде в глаза; вы не так усердно работали над созданием оригинального контента, чтобы кто-то украл вашу работу и превзошел вас в результатах поиска.

Растущая угроза дублирования контента может показаться непреодолимой и, вероятно, потребует много времени для борьбы, но работа, связанная с управлением ею, будет стоить окупаемости инвестиций.

Если вы последуете данному совету и серьезно отнесетесь к управлению дублирующимся контентом, вы улучшите свой рейтинг и защитите себя от мошенников, воров и невежественных новичков.

Как искать и удалять внутренние повторяющиеся страницы

Как искать и удалять внутренние дубликаты страниц при оптимизации сайтов. Такое явление, как внутренние дубли страниц на сайте, может очень негативно сказаться на продвижении этого сайта в поисковых системах, так как в этом случае снижается ссылочный вес и релевантность продвигаемых страниц. Кроме того, наличие внутренних дублирующих страниц может снизить общую уникальность контента на сайте, ведь один и тот же текст появляется сразу на нескольких страницах. Оптимизация сайта предполагает поиск и удаление внутренних дубликатов страниц на сайте как одну из основных задач.

Внутренние дубликаты страниц.

Внутренние дубликаты страниц бывают полными (четкими) и частичными (нечеткими), обычно они появляются из-за особенностей используемых на сайте CMS. Также появлением дубликатов могут быть действия неопытного веб-мастера, намеренно копирующего тексты на страницах сайта или создающие идентичные страницы.

Чтобы исключить негативное влияние дублирующихся страниц на продвижение сайта в поисковых системах, необходимо попытаться найти все дубликаты на сайте и «закрыть» их для поисковых систем , например, с помощью robots.текстовый файл. Есть несколько способов найти такие страницы.

Поиск вручную.

Итак, можно искать дубликаты вручную путем анализа всех страниц, проиндексированных поисковыми системами. Для этого введите запрос «site:HTTP://имя_сайта.com» в строку поиска Яндекса или Google и просмотрите каждый результат поисковой выдачи. При обнаружении нетипичных URL-адресов страниц можно сделать вывод, что эти страницы являются дубликатами — необходимо вручную запретить их индексацию поисковыми системами.

Еще один способ найти внутренние дубликаты страниц на сайте — это использовать специальные программы, такие как Xenu. Эта программа анализирует все ссылки на сайте и показывает, какие из них рабочие, а какие нет. В программе Xenu можно получить полный список адресов страниц сайта в виде таблицы, в которой потом удобно анализировать данные о наличии дубликатов: если среди адресов страниц отличается всего несколько символов, то их стоит проверить.

Если сайт добавлен в Google Webmaster , то, в этом случае, поиск внутренних дубликатов страниц на сайте может осуществляться с его помощью. В меню вебмастера нужно найти такой пункт как «Оптимизация», а в нем — «HTML оптимизация» . В этом разделе представлены данные о дублирующихся заголовках и описаниях страниц — наиболее вероятных признаках дублирования страниц на сайте. Вам необходимо проанализировать страницы с повторяющимися заголовками и описаниями и, по возможности, удалить лишние.

Как удалить внутренние дубликаты на сайте из индекса поисковой системы?

Самый доступный способ — вручную удалить дубликаты страниц с сайта (если это возможно). При последующей индексации поисковые системы уже не будут учитывать удаленные страницы.

Также удалить дубликаты страниц из поисковой индексации можно с помощью так называемого 301 редиректа — стандартного способа «склейки» одинаковых документов. Например, редирект 301 используется в тех случаях, когда нужно «склеить» страницы, доступные с www или без него.

Редактирование файла robots.txt.

Редактирование файла robots.txt — еще один способ удалить дубликаты страниц из индексации. Вы можете поискать готовые настройки файла robots.txt для конкретных систем управления контентом. В этом случае все ненужное для индексации поисковыми системами уже «закрыто» директивами disallow, и остается только добавить на сайт кастомизированный файл robots.txt. При необходимости вы можете отредактировать файл robots.txt вручную, однако для этого необходимо уметь пользоваться его директивами.

Таким образом, методы поиска и удаления внутренних дубликатов страниц разнообразны, и вы можете по желанию использовать любой из них или все вместе. Однако следует отметить, что неумелое удаление дубликатов страниц может привести к еще худшим последствиям, чем наличие дубликатов на сайте, поэтому работу по оптимизации сайта в этом направлении лучше всего доверить профессионалам.

В компании веб-дизайна GCC MARKETING профессиональную оптимизацию сайта выполняют опытные специалисты.Перечень наших услуг по оптимизации сайтов и внутренних мероприятий, таких как устранение технических ошибок в коде сайта или оптимизация мета-тегов, а также внешних мероприятий: регистрация сайта в каталогах, работа с внешними ссылками.

Закажите оптимизацию вашего сайта в компании веб-дизайна GCC MARKETING прямо сейчас , чтобы ваш сайт мог работать эффективнее уже сегодня!

Для получения профессиональной помощи Свяжитесь с нами сегодня, профессиональное агентство SEO в Дубае.

Звоните 00971567300683

Как решить проблемы с дублирующимся контентом на вашем веб-сайте

Дублированный контент является серьезной проблемой SEO. Это связано с хитрыми ссылками и избеганием штрафов Google. Наличие дублированного контента может нанести ущерб органическому трафику любого сайта. Это понимают все, кто занимается SEO. Это не означает, что дублированного контента легко избежать. Несмотря на все ваши усилия, ваш сайт все еще может страдать от проблем с дублированием контента.

Это руководство поможет вам решить эти проблемы. Мы собираемся указать вам на основные способы возникновения дублированного контента. Затем мы подробно рассмотрим, что вы можете сделать, чтобы избежать и решить проблемы с дублированием контента. Однако сначала стоит объяснить, что такое дублированный контент и почему он имеет значение.

 

Дублированный контент и Google

Лучший способ объяснить, что такое дублированный контент, — посмотреть, как его определяет сам Google.В своих рекомендациях по поддержке дублированного контента они предлагают следующее определение:

.

 

«Основные блоки контента внутри или между доменами, которые либо полностью соответствуют другому контенту, либо заметно похожи».

 

Это достаточно просто, поэтому важно дублировать контент. Это из-за того, как это влияет на то, что Google стремится предоставить своим пользователям. Поисковая система стремится индексировать и отображать страницы с четкой информацией.Это часть их постоянного стремления обеспечить лучший пользовательский опыт.

Страницы с дублирующимся содержимым не считаются содержащими отдельную информацию. Таким образом, Google будет фильтровать эти дублирующиеся страницы. Это означает, что будет указана только одна из страниц с дублирующимся контентом. Это может оказать глубокое негативное влияние на органический трафик домена. Страницы, которые в противном случае привлекли бы больше трафика на сайт, вообще не будут перечислены.

Распространено заблуждение, что Google налагает штрафы за дублированный контент.Это не так, но если они заподозрят злонамеренное использование дублированного контента, они будут действовать. Это было бы, когда контент используется для манипулирования их рейтингом. В этом случае они:

 

‘Внесите соответствующие коррективы в индексацию и ранжирование задействованных сайтов. В результате может пострадать рейтинг сайта или сайт может быть полностью удален из индекса Google. В этом случае он больше не будет отображаться в результатах поиска».

 

К настоящему моменту должно быть очевидно, что вы хотите избежать дублирования контента на своем сайте.Даже если вы сделаете это осторожно, это все равно может произойти. Это может произойти разными способами.

Как может появиться дублированный контент

Как мы уже упоминали, дублированный контент может быть преднамеренно размещен в домене. Обычно как способ обмануть или манипулировать рейтингом Google. Теперь каждый SEO-специалист знает, насколько умны алгоритмы Google. Только самые глупые или невнимательные из них могут подумать, что такие манипуляции сойдут им с рук.

Гораздо чаще дублированный контент на сайте возникает естественным образом.Это будет связано либо с определенными техническими проблемами, либо с простой человеческой ошибкой. Важно понимать основные пути, по которым это может произойти. Это поможет вам выявить собственные проблемы с дублирующимся контентом. Это также облегчит выбор наилучшего возможного решения.

Причины дублирования контента, которые мы собираемся обсудить, следующие:

 

  • Параметры URL для фильтрации и отслеживания
  • Страница категории товаров кроссовер
  • Повторяющиеся описания продуктов
  • Технические проблемы с URL-адресами
  • Страницы для печати
  • Проблемы с созданием контента

 

Параметры URL для фильтрации и отслеживания Параметры URL-адреса

подобны суффиксам, добавляемым в конец URL-адреса страницы.Они возникают во многих ситуациях и часто не сильно меняют содержимое страницы или вообще не меняют его. Проблема в том, что для поисковой системы URL-адрес с другим параметром в конце является другим URL-адресом. Если контент, на который ссылаются «два» URL-адреса, одинаков, Google идентифицирует его как дублированный контент.

Ярким примером этого является фильтрация товаров на сайтах электронной коммерции. Почти все эти типы сайтов позволяют покупателям фильтровать продукты. Они могут захотеть показать только товары в определенном ценовом диапазоне или сделанные из определенного материала.Действие фильтрации продуктов добавляет к URL-адресу параметр URL. Однако показанный контент — продукты и т. д. — будет дублироваться в другом месте.

Другой пример касается отслеживания. Параметры отслеживания позволяют отслеживать источники посетителей вашего сайта. Это может иметь решающее значение для мониторинга рентабельности инвестиций в SEO. Они могут выглядеть примерно так: ‘/?source=rss’. Они не влияют на содержание страницы, но также воспринимаются поисковой системой как уникальный URL-адрес.

 

Страница категории продукта Кроссовер

Также проблемой, характерной для сайтов электронной коммерции, является пересечение страниц категорий.Многие сайты будут иметь разные страницы категорий, которые отображают в основном одни и те же продукты. Часто это делается из лучших побуждений и по понятным причинам.

 

Например, на сайте подарков могут быть категории «Подарки для него» и «Подарки на День отца». Эти две категории вполне могут привлекать разных клиентов. Однако продукты, отображаемые на страницах категорий, будут практически идентичными. Это все, что будет иметь значение для Google, и они вполне могут проиндексировать только одну из страниц.

 

Дублирование описаний продуктов

На один уровень ниже на сайтах электронной коммерции от страниц категорий находятся страницы продуктов. Они также могут быть распространенным источником проблем с дублированным содержимым. Посетители таких страниц ожидают увидеть краткое описание продукта. Это будет то, как свойства и характеристики продукта продаются покупателям.

Сайты, которые продают много товаров, часто не создают уникальных описаний для каждого из них. Многие фирмы просто копируют и вставляют общую информацию.Часто это было предоставлено поставщиком или производителем. Это приводит к большому количеству дублированного контента внутри и между разными доменами.

Самые большие проблемы в этом случае будут, если ваш сайт продает те же продукты, что и более крупный ритейлер, такой как Amazon. Скопированные описания могут привести к тому, что страница вашего продукта будет дублировать контент, найденный на Amazon. Google определенно проиндексирует страницу Amazon, а не вашу.

 

Технические проблемы с URL-адресами

Помимо параметров URL-адресов, существует несколько других технических проблем с URL-адресами, которые могут привести к проблемам с дублированием содержимого.Первый представлен в виде «идентификаторов сеансов». Они используются в URL-адресах, когда посетителям сайта предоставляется «сеанс». Часто это делается для того, чтобы они могли добавить товары в корзину и оставить их там.

Идентификаторы сеанса добавляются к каждой внутренней ссылке, когда посетитель перемещается по вашему сайту. Это создает множество URL-адресов, которые поисковая система может рассматривать как дублирующийся контент. Точно так же неаккуратные URL-адреса как часть CMS могут иметь аналогичный эффект. URL-адреса с параметрами для категории и статьи, которые меняют порядок, являются яркими примерами.

 

Страницы для печати

Ваша CMS вполне может создавать удобные для печати страницы. На эти страницы будут ссылаться на вашем сайте со страниц статей и в других местах. Google сможет найти эти страницы, если вы специально не остановите их (подробнее об этом позже).

Google будет фильтровать и индексировать только одну из дубликатов страниц. Это может быть оригинал или версия для печати. Вы хотите, чтобы ваша исходная страница ранжировалась, а не страница для печати.На последнем не будет всей вашей рекламы, ссылок и другого контента.

 

Проблемы с созданием контента

Большинство из вышеперечисленных причин дублирования контента являются техническими причинами. Где возникает человеческая ошибка, так это в области создания контента. Почти на каждом сайте в наши дни есть блог или подобный информационный ресурс. Это помогает им предоставлять полезную информацию посетителям. Блоги часто могут быть домом для большого количества дублированного контента.

 

Это может быть связано с тем, что вы доверяете создание контента тому, кому не должны.Кто-то, кто не понимает проблем, которые может вызвать дублирование контента. Они могут копировать или воссоздавать контент, не зная о проблемах SEO, которые они создают. Их ошибки могут быть такими же незначительными, как и при использовании одних и тех же тегов заголовков. Они могут быть такими большими, как прямое копирование контента с других сайтов.

 

Решение проблем с повторяющимся содержимым

Теперь у вас должно быть представление о том, откуда могут возникнуть проблемы с дублирующимся содержимым. Все вышеперечисленное является причиной тех проблем, которые являются общими для многих сайтов.Понимание их и знание того, какие из них повлияли на ваш сайт, имеет решающее значение. Это потому, что разные причины поддаются разным решениям.

Мы рассмотрим некоторые из лучших способов решения проблем с дублирующимся контентом. Мы будем отмечать, какие из проблем и причин, которые мы уже упоминали, лучше всего подходят для каждого решения по мере продвижения. Наши решения относятся к двум категориям:

 

  • Образовательные и профилактические решения
  • Практические решения и усилия по восстановлению

 

Образовательные и профилактические решения

В идеальном мире вы хотите избежать проблем с дублированием контента до того, как они возникнут.Знание причин проблем, которые мы обсуждали, является отличной отправной точкой. Наличие этих знаний может помочь вам предпринять шаги, чтобы ни один новый контент не столкнулся с теми же проблемами.

Вы можете, например, отключить идентификаторы сеансов в настройках вашей системы. Это предотвратит проблемы с повторяющимися URL-адресами, которые могут возникнуть. Вы можете вообще отказаться от включения страниц для печати на своем веб-сайте. В любом случае, сегодня у многих людей нет причин распечатывать страницы. Кампания по отслеживанию на основе хэштегов также может быть хорошей альтернативой отслеживанию на основе параметров.

Узнав о причинах дублирования контента, вы сможете обучать других. Среди них могут быть веб-разработчики или ваша продуктовая команда. Вы можете объяснить им вопросы, связанные с кроссовером в категориях продуктов. Таким образом, они будут знать, как расположить продукты соответствующим образом. Внештатные или штатные создатели контента также могут быть проинструктированы о том, как сохранять уникальность.

Это в идеальном мире. На самом деле вы не сможете решить все проблемы с дублирующимся контентом.В этих обстоятельствах вам нужны некоторые практические решения. Они помогут вам избавиться от проблем, от которых вы уже страдаете.

 

Практические решения и усилия по восстановлению

Наше руководство должно было показать вам, откуда могут возникнуть проблемы с дублированным содержимым. Теперь мы также предложили несколько советов, как избежать возникновения новых проблем. Осталось предложить несколько вариантов действий, если на вашем сайте уже есть проблемы с дублирующимся контентом.Перед вами открыто множество различных вариантов.

 

Канонические URL-адреса

Канонические URL-адреса могут помочь, если ваша проблема связана с тем, что разные URL-адреса ведут к одному и тому же контенту. Как и в случае параметров фильтрации или страниц категорий, как описано ранее. Канонический URL — это «правильный» URL. Это URL-адрес страницы, которую вы хотите, чтобы Google проиндексировал из тех, которые ведут к тому же контенту. Вы должны решить в каждом случае, что это за страница.

После определения Google легко сообщить, какая страница является вашим каноническим URL-адресом.Все, что вам нужно сделать, это добавить элемент HTML в раздел других страниц. Называется «канонический элемент ссылки» и выглядит так: «отн = канонический». Он укажет Google на выбранную вами страницу, когда за ней последует ее URL.

 

301 Перенаправление

Указание Google на канонические URL-адреса иногда описывается как использование «мягкой переадресации». Это в отличие от полноценных 301 редиректов. Вы также можете использовать их, если не можете или не хотите удалять повторяющийся контент.

Применение перенаправления 301 к URL-адресу направит Google на выбранную вами страницу. Тогда это будет та страница, которую проиндексирует поисковая система. Это может быть полезным решением проблемы перекрытия страниц категорий товаров.

Все, что вам нужно сделать, это определить, какая из категорий наиболее ценна для вас с точки зрения веб-трафика. Затем вы можете использовать переадресацию 301 с других дубликатов или перекрывающихся страниц в эту категорию.

 

Теги без индекса

Тег Noindex — это директива, которую можно добавить в исходный HTML-код страницы.Он явно сообщает Google, что вы не хотите, чтобы страница была проиндексирована. Это может помешать Google отфильтровать страницу, которую вы хотите проиндексировать, в пользу той, которую вы не хотите.

Теги Noindex — лучшее решение для проблем, вызванных страницами, удобными для печати. Вы должны применить тег Noindex к каждой из этих страниц. Это гарантирует, что исходная версия каждой страницы будет индексироваться Google.

 

Перезапись содержимого

Иногда проблемы с дублирующимся содержимым просто не имеют быстрого решения.Это тот случай, если ваша проблема связана с сообщениями в блогах или описаниями продуктов. Если они создали дублированный контент, вам нужно найти оскорбительную копию и переписать ее. Это решение отнимает много времени и сил. Другого способа справиться с проблемой просто нет.

 

Один из способов сэкономить немного времени и усилий — использовать бесплатный онлайн-инструмент, такой как Copyscape. Copyscape разработан, чтобы помочь вам писать контент, который не является плагиатом. Вы можете вставить URL-адрес на сайт, и он будет искать в Интернете дублированный контент.Это позволяет вам найти точные элементы вашего контента, которые вам нужно вырезать, заменить или переписать.

Полное руководство по дублированию контента и SEO

Дублированный контент может иметь разную форму и разную степень злонамеренности. Некоторые не так уж и плохи, но другие типы просто противны и являются настоящим врагом SEO!

В этом руководстве мы рассмотрим как внешние, так и внутренние проблемы дублирования содержимого. Мы рассмотрим, что такое дублированный контент на самом деле, каковы причины, как найти его на вашем собственном веб-сайте, а затем как вы можете это исправить.Все с большим гарниром кинометафор.

Содержание:

Мы все любим фильмы, верно? Ну, почти все мы. И большинство из нас видели классику на протяжении многих лет.

Но сталкивались ли вы когда-нибудь с фильмами, выпущенными продюсерской компанией The Asylum? Нет?

За прошедшие годы они выпустили несколько абсолютных жемчужин.

Некоторые из этих названий звучат знакомо, не так ли? Это потому, что они специализируются на грабежах популярных фильмов. Это не единственная производственная компания, которая делает это — некоторые также создают плакаты и другие рекламные материалы, предназначенные для того, чтобы обмануть потребителя, заставив его думать, что он покупает оригинальный товар.

У моей мамы даже есть несколько из них, и она каждый раз смущается.

Эти производственные компании часто попадают в беду, но рентабельность инвестиций должна быть довольно приличной, потому что они продолжают их вытеснять.

«Какое это имеет отношение к SEO и аудиту?» Я слышу, как ты плачешь. Что ж, это немного похоже на некоторые аспекты дублированного контента — в частности, внешний дублированный контент, который может доставить вам неприятности.

Тонкий, я знаю.

Позвольте мне принять мои интересы.

Я считаю, что клиенты могут быстро понять идею внешнего дублированного контента и понять, почему это плохо (отсюда ссылка на The Asylum), но им трудно понять внутренние проблемы с дублированием и то, как это может повлиять на их успех в поисковой оптимизации.

Итак, давайте продолжим — с более тонкими ссылками на мир кино.

Что такое дублированный контент?

Это очень похоже на то, на что это похоже, и если вы читаете это, вы, вероятно, имеете хорошее представление о том, что такое дублированный контент.Однако в духе ясности…

Дублированный контент — это когда у вас есть блок контента на одной веб-странице, который идентичен или почти идентичен другой веб-странице в прекрасном Интернете.

Дублирование содержимого почти неизбежно. Это случается, и это естественно, но это не значит, что вы не должны следить за этим и максимально смягчать его. Google не идеален, знаете ли.

Существует два типа дублированного или почти дублирующегося содержимого, о которых вам необходимо знать.

Внутренний дублированный контент

Внутренний дублированный контент — это когда на ВАШЕМ сайте есть более одной страницы, идентичной или почти идентичной одной (или нескольким) другим страницам на вашем сайте.

Внешний дублированный контент

Внешнее дублированное содержимое (часто называемое дублированием между доменами) — это когда на вашем сайте есть страница, которая дублируется на одном (или нескольких) других доменах. Эти сайты могут принадлежать вам, но во многих случаях это не так.

Почему дублированный контент вреден для SEO?

Несмотря на то, что для Google не существует такой вещи, как штраф за дублирование контента (см. раздел ниже, где я определенно опровергаю этот миф).Например, навсегда.

Так чем же это плохо для SEO?

Google не хочет, чтобы в результатах поиска было много похожих страниц. Поэтому они применяют фильтр к страницам, которые содержат дублированный или почти дублирующийся контент, и возвращают только ту страницу, которую они считают канонической или «истинной» версией. Но это не значит, что Google всегда понимает это правильно.

Кроме того, вы можете обнаружить, что некоторые из страниц, которые по существу дублируются, являются теми, которые вы хотите отображать в результатах поиска, и если Google отфильтровывает их, вы оставляете трафик на столе.

Это плохо для SEO, потому что вы можете потерять трафик и, в свою очередь, прибыль.

Слава означает финансовый успех, а финансовый успех означает безопасность. »
Стив Маккуин

Существует ли штраф за дублирование контента?

Давайте развенчаем этот SEO-миф прямо здесь и сейчас (хотя его развенчивали уже много раз).

Он все еще возвращается, как Джейсон в фильмах «Пятница 13-е».

Нет такой вещи, как штраф за дублирование контента, когда речь идет о контенте на вашем сайте.

Давайте перейдем прямо к прекрасному парню, Джону Мюллеру, за подтверждением этого.

«С таким дублирующимся контентом [Джон имел в виду дублированный контент верхнего и нижнего колонтитула] не так уж много отрицательной оценки, связанной с ним. Дело в том, что если мы находим одинаковую информацию на нескольких страницах в Интернете, и кто-то ищет именно эту часть информации, то мы пытаемся найти наиболее подходящую страницу.

Если у вас есть одинаковый контент на нескольких страницах, мы не будем показывать все эти страницы.Мы попробуем выбрать один из них и показать его. Так что это не значит, что с этим связан какой-то негативный сигнал. Во многих случаях это нормально, что у вас есть некоторое количество общего контента на некоторых страницах».

Джон Мюллер, Google SEO Office Hours, 2021

Как насчет страниц товаров?

«Очень распространенный случай, например, с электронной коммерцией. Если у вас есть продукт, и кто-то другой продает тот же продукт, или на веб-сайте, возможно, у вас есть нижний колонтитул, который вы используете на всех своих страницах, и иногда это довольно большой нижний колонтитул.Технически это дублированный контент, но мы можем с этим справиться. Так что это не должно быть проблемой».

Джон Мюллер, Google SEO Office Hours, 2021

Ну вот. Это не должно быть проблемой.

Значит, соскребать и копировать содержимое можно?

Воровать (в основном) плохо. В основном? На самом деле, нет ничего нового, но есть огромная разница между воровством и тем, что Остин Клеон называет «кради как художник».

«Нет ничего оригинального.Воруйте из любого места, которое резонирует с вдохновением или подпитывает ваше воображение. Поглотите старые фильмы, новые фильмы, музыку, книги, картины, фотографии, стихи, сны, случайные разговоры, архитектуру, мосты, дорожные знаки, деревья, облака, водоемы, свет и тени. Выбирайте для кражи только то, что говорит непосредственно с вашей душой. Если вы сделаете это, ваша работа (и кража) будет подлинной. Подлинность бесценна; оригинальности не существует».

Джим Джармуш, журнал MovieMaker, 2004 г.

Сокращенный контент, с другой стороны, является просто кражей, а не ремиксом.Не использовать другой контент в качестве трамплина. Таким образом, ему не место в результатах поиска Google.

Вот что сказал сотрудник Google Андрей Липатцев, когда пытался различать разные типы дублированного контента:

«Вы правильно поняли, что нет штрафов за дублирование контента… Я бы не стал говорить о штрафах за дублирование контента в целях спама, потому что тогда речь идет не о дублирующемся контенте, а о создании очень часто автоматизированным способом контента, который не так сильно дублируется как-то быстро и собрано из нескольких мест, а затем, возможно, так или иначе монетизировано…»

Андрей Липатцев, Google Duplicate Content Q&A, 2016

Есть.Является. Дубликат. Содержание. Пенальти.

Каковы причины дублирования контента?

Теперь вопрос. Есть грузы. Давайте совершим небольшое путешествие по некоторым наиболее распространенным из них, с которыми вы, вероятно, столкнетесь при аудите сайтов. Я разбил их на два основных раздела: во-первых, то, что мы считаем «настоящим» дублирующимся контентом, а во-вторых, дубликаты URL-адресов, которые, как правило, связаны с техническими проблемами.

Дублированный контент

Истинный дублированный контент — это когда один и тот же или похожий контент появляется на нескольких страницах.Вот некоторые из наиболее распространенных примеров.

Сменные фильтры

Аааааа. Это может быть сложно разгадать, и оно чаще всего встречается на сайтах электронной коммерции.

Если вы управляете сайтом электронной коммерции или когда-либо работали на нем, вы поймете важность фильтров. Они помогают пользователям перемещаться по категориям и просматривать только интересующие товары.

Они имеют решающее значение для сайтов электронной коммерции.

Однако неприятно, когда сайт не принимает во внимание тот факт, что фильтры могут создавать множество индексируемых дубликатов страниц.

Как выглядят такие повторяющиеся URL-адреса?

https://tomranks.com/category будет вашей главной страницей категории.

Но по мере того, как пользователь начинает переходить по ссылкам, могут начать появляться такие страницы:
https://tomranks.com/category/?brand=niceguy

И когда вы добавите больше, он может начать выглядеть так:
https://tomranks.com/category/?brand=nice?seo=no?prduct=3423424

Легко увидеть, как это может расти в геометрической прогрессии, и вы можете закончить с большим количеством индексируемых страниц, с которыми вы знаете, что делать.

Дальнейшее чтение:

Индексируемые страницы поиска

Это еще одна форма дублированного контента, с которой я регулярно сталкиваюсь. Такой дублированный контент создается, когда у вас есть функция поиска, которая создает новую страницу и служит для нее кодом состояния 200.

Обычно это выглядит примерно так:
https://markupwahlberg.com/?search=onedecentfilm

Проблема здесь в том, что большинство страниц результатов поиска очень похожи, а количество поисков (и, следовательно, страниц) потенциально бесконечно!

Стандартное содержимое

Стандартный контент относится к контенту, который появляется на большинстве, если не на всех, страницах вашего сайта.Чаще всего это содержимое верхнего и нижнего колонтитула.

Вот пара примеров. Если вы ведете блог, у вас будет одна и та же биография для писателей на многих страницах.

И почти каждый сайт в Интернете имеет дублированный контент на каждой странице сайта, потому что навигационный контент находится на многих страницах.

Как упоминалось ранее в этом руководстве, вы почти наверняка можете предположить, что Google может справиться с этим контентом и понять, что это необходимо для хорошего взаимодействия с пользователем.

Мой совет — не беспокойтесь о дублирующемся контенте.

Содержание описания продукта

Дублирование на страницах товаров очень распространено. В течение многих лет большинство сайтов электронной коммерции использовали описания продуктов, которые предоставляет производитель.

На это есть несколько причин:

  • Это проще
  • На сайтах часто есть сотни, если не тысячи продуктов, и написать для них уникальный контент — адская задача
  • Они не знают, как расставить приоритеты, для каких продуктов они должны написать уникальную копию
  • Иногда конкуренция настолько жесткая, что окупаемость инвестиций невелика

Вопрос о том, стоит ли иметь дело с дублирующимся контентом такого рода, зависит не только от простых ответов «да» или «нет».Это зависит от вашей вертикали, уровня конкуренции, вашего бюджета и того, что еще вам нужно сделать на сайте, чтобы повысить рентабельность инвестиций.

Давайте вернемся к тому, что сказал наш старый Джон Мюллер несколько лет назад:

«Дольше не обязательно лучше. Так что вопрос действительно в том, есть ли у вас что-то полезное для пользователя? Актуально ли это для людей, которые ищут? Тогда, может быть, мы попытаемся это показать».

Джон Мюллер, Google SEO Office Hours, 2015

Вращающийся контент

Вращающийся контент? Люди все еще делают это? Ответ один колоссальный Стив Остин «черт возьми!».

Работает? Не так много. Google намного умнее, чем это в настоящее время.

По большому счету 😉

Если вы никогда не сталкивались с генерируемым контентом, он берет существующий контент и запускает его через какое-то программное обеспечение, чтобы добавить синонимы и заменить текст. Не то, чтобы я когда-либо делал это. Я до сих пор вижу, что он используется в описаниях продуктов по сей день, хотя и не так часто, поскольку контент не часто появляется в Google.

Что Google может сказать по этому поводу?

«искусственное переписывание контента часто связано с созданием контента, когда вы просто делаете контент уникальным, но на самом деле вы не пишете что-то уникальное.Затем это часто приводит к низкому качеству контента на этих страницах. Таким образом, искусственное переписывание таких вещей, как замена синонимов и попытка сделать их уникальными, вероятно, более контрпродуктивно, чем на самом деле помогает вашему веб-сайту».

Джон Мюллер, Google SEO Office Hours, 2015

Тем не менее, я экспериментировал с программным обеспечением ИИ, которое в последнее время стало дешевле и доступнее, и в некоторых случаях есть возможность использовать его.

Страницы-заполнители

Страницы-заполнители — это обычно страницы, добавляемые в домен перед запуском сайта. Они часто используются для сбора информации по электронной почте перед запуском продукта или, по крайней мере, для привлечения интереса к продукту или сайту.

За прошедшие годы я видел несколько из них, где они размещались на одном URL-адресе, но никогда не удалялись, и часто они содержали много дублированного контента.

Это может выглядеть примерно так:
https://johnwayneyb77/launch

Сайт запускается, и содержимое этого URL-адреса очень похоже на содержание готовой домашней страницы, но начальная страница забывается и остается индексируемой. У вас будет еще больше проблем, если запуск продукта прошел хорошо и принес кучу ссылок из прессы, потому что ваш продукт просто потрясающий.

Целевые страницы контекстной рекламы

SEO и PPC разные. Мы знаем это, верно?

Иногда страницы сайта, над которым вы работаете, хороши для SEO, но не всегда хороши для PPC. В Boom мы часто создаем специальные целевые страницы для команды PPC, чтобы мы могли размещать на них тот контент, который помогает их конверсиям.

Я может и не PPCer (пробовал 10 лет назад, и просто попал в яму отчаяния, просто не моя сумка), но я прекрасно понимаю, что ребятам часто нужно что-то другое для их трафика приземлиться.

Но…

Это часто означает, что содержимое дублируется или почти дублируется. Всегда будьте в курсе того, над чем работают другие команды и есть ли у них созданные страницы, которые могут оказаться неприятными для вашего SEO.

Контент, ориентированный на разные страны/диалекты

Ах, классика. У вас есть веб-сайт. Вы находитесь в Великобритании, но продаете по всему миру. В США, в Европу (хотя сейчас это немного сложнее) и еще кучу всего.

Сейчас не время говорить о международной поисковой оптимизации или о том, почему кажется таким сложным не только объяснить, как работает hreflang, но и правильно реализовать его — я уверен, что мы рассмотрим это позже.

Сейчас я просто скажу, что если это не реализовано правильно, вы можете столкнуться с некоторыми проблемами с дублированием контента. Хотя контент *должен* быть другим (да, я видел британский контент на множестве международных страниц, которые не были переведены, и это никогда не переставало кипеть у меня в крови), вы видите дублирующиеся теги заголовков, метаописания и описания продуктов. . Все. . Время.

Распространение контента

Если вы раньше не слышали о синдикации контента, то это просто работа с влиятельными лицами, другими цифровыми издателями и партнерами по распространению контента для увеличения охвата вашего контента или ваших продуктов и услуг.

Хотя дополнительное внимание может быть полезным для вашего бренда или бизнеса, оно имеет свою цену.

Ага, вы уже догадались — дублированный контент.

Часто другие сайты, с которыми вы работаете, публикуют ваш контент. Слово за слово. Даже если у вас был контент на вашем сайте до того, как он был синдицирован, у вас все равно могут возникнуть проблемы. Часто Google больше доверяет многим из этих сайтов, и их контент может быть проиндексирован вместо вашего. Грр.

https://arnoldshwarzenggerisatwin.com/amazingballscontent  – это контент, который вы создали на своем сайте.

Но вы синдицировали его на другие сайты…
https://dannydevitoisatwin.com/amazingballscontent

И..
https://eddiemurphyisatwinortriplet.com/amazingballscontent

Дублирующиеся URL-адреса

Дублирующиеся URL-адреса — это непреднамеренное появление одной и той же страницы для нескольких URL-адресов. Давайте углубимся в некоторые примеры.

Без www против www и http против https

Можно подумать, что большинство людей уже разобрались с этим, но я до сих пор сталкиваюсь с ним довольно регулярно.Часто из-за неправильной настройки редиректов.

Хотя Google и другие поисковые системы обычно могут понять это, это быстрое решение, поэтому вы также можете обратиться к нему.

Это когда у вас есть и версия вашего сайта с www, и версия вашего сайта без www, живая и доступная для поисковых систем..

Вот так:
https://spamelaanderson.com
И
https://www.spamelaanderson.com

То же самое относится к вашим безопасным и незащищенным версиям URL-адресов:
http://spamelaanderson.com
И
https://spamelaanderson.com

См. также:
https://spamelaanderson.com
И
https://www.spamelaanderson.com

Дальнейшее чтение:

Параметры и варианты URL

Дублированный контент также может быть создан случайно с вариантами URL. Это включает (но не ограничивается) отслеживание кликов, код аналитики, идентификаторы сеансов и версии страниц для печати. Хотя Google довольно хорошо справляется с сортировкой, вам все равно нужно найти и, возможно, исправить такое дублирование.

Вот несколько примеров, наполненных очень веселыми каламбурами из фильмов.

Идентификаторы сеансов

https://alttagpacino/serp-ico?SessID=243432

То же, что:
https://alttagpacino/serp-ico

Варианты страниц для печати

https://glennclosetag/print/cookiesfortune

То же, что:
https://glennclosetag/cookiesfortune

Дальнейшее чтение:

Особенности CRM

Я рассказал о причудах CRM в недавнем посте на Sitebulb, так что нет особого смысла вдаваться здесь в подробности.Но некоторые CMS создают проблемы с дублированием контента из коробки. Удобно, да?

Одним из самых обсуждаемых является Shopify.

«Очень важно отметить, что, хотя Shopify создает дублированный контент, для консолидации требуется несколько шагов. В приведенных ниже примерах Shopify правильно использует канонический тег, чтобы указать, какой должна быть страница ранжирования. Это помогает Google объединить эти повторяющиеся URL-адреса в один.

Однако лучше не полагаться на канонические теги, поскольку они являются подсказками, а не директивами.По возможности старайтесь полностью удалять дублированный контент».

Крис Лонг, Как исправить Shopify Дублированный контент

Дальнейшее чтение:

Несовместимая внутренняя ссылка

Все мы люди. Мы все делаем ошибки. Одна распространенная человеческая ошибка = проблема с дублированием — это когда мы создаем внутренние ссылки. Вы должны убедиться, что все на сайте последовательны, когда они ссылаются, и они ссылаются на страницы, которые вы хотите проиндексировать и ранжировать.Что они не создают дубликаты случайно.

И не только люди. Инструменты, которые мы используем, также могут вызывать эти проблемы. У некоторых CMS есть свои особенности (как я уже рассказывал на Sitebulb). Убедитесь, что используемая вами технология не вызывает подобных проблем с дублированием контента.

Что я имею в виду? Давайте посмотрим на некоторые примеры.

Страница, которую вы хотите ранжировать:
https://sigourneydreamweaver.com/alien

Возможные проблемы с внутренними ссылками, которые могут привести к дублированию контента, если он связан следующим образом:
https://sigourneydreamweaver.com/Alien
https://sigourneydreamweaver.com/ALIEN
https://sigourneydreamweaver.com/alien/

«Все, чувак. Игра окончена, чувак. Игра окончена!»
Рядовой Хадсон

Дальнейшее чтение:

Несколько индексных страниц

Иногда ваш сервер может быть неправильно настроен, и это может привести к появлению нескольких версий любой страницы. Следите за этими маленькими мошенниками, когда вы проверяете сайты. Обычно их довольно легко обнаружить после сканирования сайта — они выглядят так:

.

https://charliechaplink.com/index.php
https://charliechaplink.com/index.asp
https://charliechaplink.com/index.html
https://charliechaplink.com/idex.aspx

Как определить дублированный контент на вашем веб-сайте

Теперь вы знаете, как на вашем сайте может появиться дублированный контент, и вам захочется узнать, как его найти, верно?

Не волнуйтесь; Дядя Уэйн прикроет твою спину. Давайте совершим краткий обзор некоторых инструментов, которые помогут вам определить все места, где вы можете найти дублированный контент.

Siteliner

Если вы только начинаете находить и устранять проблемы с дублированным содержимым, то Siteliner — отличное место для начала. Созданная теми же людьми, что и Copyscape (подробнее об этом ниже), это бесплатная программа для проверки сайта, которая покрывает дублированный контент.

Будет только отчет на 250 страницах, а что вы ожидали бесплатно?

Копискейп

Ах, добрый старый верный. Copyscape существует уже много лет и является дешевым способом поиска дублирующегося контента как на вашем сайте, так и на других сайтах, которые могли удалить ваш контент.Есть бесплатная версия, но платная версия (через кредиты) настолько дешевая, что вы можете купить премиум-версию.

Лампочка

Было бы неправильно, если бы я не упомянул Sitebulb здесь по нескольким причинам.

  1. Они платят мне миллион долларов каждый раз, когда я упоминаю их где-нибудь
  2. Это хорошо подходит для выявления дублированного контента, и это действительно инструмент, который я использую
  3. У Патрика на меня такое дерьмо, что я не хочу, чтобы мир увидел

Хотите узнать, как использовать Sitebulb для поиска дублирующегося контента? Конечно, вы делаете.Нажмите на эту тяжелую ссылку с якорным текстом, чтобы получить вкусности.

Кричащая лягушка

Нравятся лягушки больше, чем лампочки? С нами все в порядке. Нам нравятся ребята из Screaming Frog, и мы знаем, что многие из вас, ребята, используют старую Frog в течение многих лет (но дайте нам шанс, если хотите, с нашей супер-бесплатной пробной версией), и это может помочь вам определить, что надоедливый дублированный контент.

Если вы хотите проверить, как это сделать, вы можете щелкнуть эту текстовую ссылку без привязки здесь (даже я не такой хороший).

Ботифи

При работе с сайтами электронной коммерции ребята из Boom будут использовать Botify и Sitebulb для проверки дублирующегося контента. Несмотря на то, что в настоящее время это немного дорого, у него есть отличная функциональность для того, чтобы найти то, что вам нужно.

Пример сайта с небольшим дублированием:

Пример объекта, требующего дополнительного изучения:

Гугл

Инструменты хороши, но не инструменты делают человека (думаю, это сказал Марлон Брандо — или Барри Адамс, не помню), так что никогда не забывайте, что у вас под рукой есть Google.

Думаю, у них в индексе полно страниц в Интернете. Конечно, я где-то это слышал.

Если вам нужно провести выборочную проверку перед запуском инструментов, вы всегда можете взять фрагмент своего сайта и добавить к нему цитаты, чтобы узнать, что предлагает Google.

Простой.

Как бороться с дублирующимся контентом

Вау, ты зашел так далеко? Я тронут.

Теперь вы знаете, что такое дублированный контент, в чем его причина и как найти проблемы с дублирующимся контентом. Держу пари, вы хотите знать, как это исправить?

Попридержи лошадей, Джон Уэйн.Прежде чем мы перейдем к исправлениям технической реализации, нам нужно посмотреть, как вы справляетесь с этим — это то, что приводит вас к применению правильного технического исправления.

Также стоит отметить, что иногда лучше просто ничего не делать. Это облегчает жизнь, верно?

Возможно, у вас есть небольшой сайт с несколькими проблемами, и Google уже выяснил ваши проблемы с дублирующимся контентом. Это все здорово, вам не нужно исправлять то, что Google выяснил сам. Тем не менее, всегда стоит следить за обнаруженными проблемами.Гугл может быть забывчивым.

Хотя я бы не рекомендовал просто оставлять задачи. Рассмотрим основные доступные вам варианты.

У вас должна быть трилогия, верно?

Вот три основные области, о которых вам нужно подумать, когда вы решаете, как вы будете справляться с обнаруженными вами проблемами дублированного контента.

Объединить

Иногда лучший вариант — объединить содержимое. Вы берете существующие страницы с дублирующимся контентом и размещаете их на одном URL-адресе (и перенаправляете остальные на эту страницу с помощью переадресации 301).

Консолидация часто является хорошим выбором, если URL-адреса содержат внешние ссылки. Вы объедините сигналы ранжирования на одной странице.

Вот несколько примеров, когда это может быть лучшим способом действий.

Точные дубликаты страниц — это может быть что-то вроде не-www против www и http против https, упомянутых ранее в статье.

Семантически похожие страницы — один из самых распространенных типов семантически похожих страниц либо родом из старых времен «одно ключевое слово — одна страница».Если контент довольно старый, есть шанс, что какой-то SEO просто нашел и заменил некоторые слова, а остальная часть контента в значительной степени дублируется. Опять же, если страницы старые, то на них могут быть ссылки, указывающие на них. Просто убедитесь, что вы поняли, какую версию лучше всего сохранить.

Консолидация также может работать немного по-другому. Используя канонические файлы (которых мы вскоре коснемся), вы можете консолидировать сигналы для Google, а не объединять фактический контент.

Вот несколько примеров, когда этот тип консолидации может быть лучшим способом действий.

Целевые страницы PPC — хотя их можно легко настроить для индексации, вы также можете объединить сигналы, чтобы сообщить Google, что содержимое этих страниц очень похоже на то, что находится на главной целевой странице.

URL-адреса параметров — как вы уже знаете из руководства, эти страницы могут быть проблематичными. Объединение сигналов — это простой способ убедиться, что Google знает, что они являются дублирующимся контентом, и вы хотите, чтобы они обрабатывались соответствующим образом.

Страницы фильтров — продукты на сайте могут получать и получают внешние ссылки, поэтому консолидация сигналов часто является лучшим способом дублирования контента, вызванного фильтрами, необходимыми для пользователей на сайте электронной коммерции.

Удалить

В других случаях может потребоваться полностью удалить страницу. Вы хотите, чтобы это исчезло. Он не представляет никакой ценности для пользователей или поисковых систем. Уберите оттуда этих плохих парней.

Когда вы должны просто полностью отказаться от страницы? Вот вам пара примеров.

Сокращенный контент — Не знаю, слышали ли вы это, но некоторым SEO-специалистам нравится заниматься какой-нибудь хитростью. Особенно в те дни, когда мы еще не стали маяками маркетинговой индустрии, которыми мы являемся сейчас. Если на вашем сайте есть контент, скопированный с других сайтов, избавьтесь от него. Google знает, что вы сделали. Пришло время очистить и убить эти страницы.

Продукты с истекшим сроком годности — ладно, это немного исключение, но всегда полезно иметь примеры из реальной жизни.У нас был клиент с несколькими тысячами продуктов с истекшим сроком годности, которые никогда не возвращались.

Есть много способов справиться с просроченными продуктами. Это только один.

Большинство страниц на сайте этого клиента по-прежнему получали показы и трафик, поэтому на них были формы для захвата электронной почты. Проблема заключалась в том, что их серверная часть замедляла работу их продавцов.

Нехорошо.

Многие из них были почти дубликатами. Таким образом, после извлечения всех данных мы перенаправили некоторые из них, но там, где у нас были некоторые, которые почти не получали показов, И нам некуда было их перенаправить, мы просто убивали их ответом 410 «Ушел».Все оказалось набухшим.

Сделать уникальным

Наконец, у нас есть возможность сделать эти дубликаты уникальными. Если у страниц есть реальная причина для существования (т. е. они имеют объем поиска и полезны для пользователя), то вам придется засучить рукава и немного поработать над ними.

На самом деле важные страницы местоположения — если у вас есть несколько офисов или обычных магазинов, то у вас, вероятно, есть контактные страницы для каждого из них. Также есть большая вероятность, что они являются почти дубликатами и могут появиться в результатах поиска, если на них есть уникальный контент.Я бы рекомендовал сделать их уникальными следующими способами.

  • Уникальные теги заголовков
  • Уникальные метаописания
  • Проезд к месту, включая упоминание местных достопримечательностей
  • Уникальная копия
  • Подробная информация о команде и услугах, уникальных для этого места

Варианты продуктов с объемом поиска — никогда не наступит время, когда вы захотите проиндексировать все варианты страницы продукта — а индексируемые фильтры создают множество уникального контента, который не имеет смысла.

Но это не значит, что вы не хотите, чтобы *некоторые* из них были проиндексированы.

Хотите пример?

С удовольствием обязуюсь.

Бум работает с компанией, которая продает бытовую технику. На их старом сайте были фильтры, создававшие уникальные страницы — буквально сотни тысяч. Дублированный контент выходит из наших ушей. Но некоторые фильтры приводили к страницам с приличным объемом поиска вокруг них. Поэтому, когда мы переделали их сайт в WordPress, мы также создали плагин, который позволил нам полностью контролировать страницы фильтров.

По умолчанию фильтровать страницы, канонизированные обратно к их родительской странице. Но когда мы указываем, что страница должна быть уникальной, создается действительный URL-адрес (в отличие от обычного WordPress).

Оттуда мы можем создать:

  • Уникальный тег заголовка
  • Уникальное метаописание
  • Уникальный заголовок h2
  • Уникальный контент, который находится выше и/или ниже продуктов

Сейчас мы работаем с 1400 из них!

Технические исправления проблем с дублированием содержимого

Теперь, когда вы потратили некоторое время на изучение проблем, которые у вас есть, и того, как вы могли бы решить эти проблемы, вам нужно знать, КАК вы делаете эти исправления.

Вот краткий обзор некоторых технических реализаций, которые могут быть выполнены, чтобы избавить вас от кошмаров дублированного контента.

Канонизация

Тег canonical — иногда также называемый rel canonical — был введен в феврале 2009 года, кстати, примерно в то время, когда я как следует занялся SEO. Мне, как новичку, потребовалось некоторое время, чтобы прийти в себя. На самом деле, это довольно простая концепция.

Тег canonical — это способ сообщить поисковым системам, какую страницу вы хотите рассматривать как основную копию любой данной страницы.

Существует два типа канонических; давайте быстро взглянем на них.

Канонизация на вашем сайте

Вы можете использовать тег canonical на своем сайте, чтобы сообщить Google, что создаваемые страницы являются точными или почти дубликатами более сильной и важной страницы. По сути, вы говорите: «Окей, Google, я знаю, что эта страница очень похожа на другую страницу, и я хочу, чтобы вы проиндексировали и ранжировали именно эту страницу, пожалуйста, продолжайте».

Междоменная канонизация

Второй тип канонического — междоменный канонический.Это используется, когда один и тот же контент публикуется более чем в одном домене. Он используется, чтобы сообщить Google, какой контент вы хотели бы проиндексировать и ранжировать.

перенаправлений

Я довольно подробно рассказывал о перенаправлениях в недавнем руководстве по перенаправлениям, так что загляните туда, если хотите узнать больше.

Мета роботы noindex

В отличие от rel=canonical, noindex является директивой, а не предложением. Google может игнорировать канонические символы, если посчитает, что вы внедрили их неправильно или по ошибке.Когда дело доходит до noindex, Google будет делать именно то, что вы ему скажете. Так что используйте с осторожностью.

Также рекомендуется не переключаться между index и noindex, потому что это может запутать Google.

«В целом, я думаю, что эти колебания между индексированными и неиндексированными могут немного сбить нас с толку.

Потому что, если мы увидим страницу, которая не индексируется в течение длительного периода времени, мы предположим, что это что-то вроде страницы 404, и нам не нужно сканировать ее так часто.

Так что, вероятно, происходит то, что мы видим эти страницы как неиндексированные и решаем не сканировать их так часто, независимо от того, что вы отправляете в файле карты сайта.

Так что это то, где… колебание метаданных noindex здесь контрпродуктивно, если вы действительно хотите, чтобы эти страницы время от времени индексировались».

Джон Мюллер, Google рассказывает, как метатег Noindex может вызывать проблемы

Быстрый совет. Никогда не смешивайте Noindex и Rel=Canonical на одной странице. Google посылает смешанные сигналы. Смешанные сигналы никогда не бывают хорошими. Никогда не пересекайте ручьи. Не верите мне? Давайте проверим у Джона.

«Именно отсюда исходит совет о том, что не следует смешивать noindex и rel=canonical: для нас это очень противоречивые сведения. Обычно мы выбираем rel=canonical и используем его вместо noindex, но каждый раз, когда вы полагаетесь на интерпретацию компьютерным скриптом, вы уменьшаете вес своего ввода 🙂 (и SEO в значительной степени заключается в том, чтобы сообщать компьютерным скриптам ваши предпочтения).

Джон Мюллер, Reddit r/TechSEO, 2018

«Эгон: Не переходи ручьи.

Питер: Почему?

Эгон: Было бы плохо.

Питер: Я ничего не понимаю в хорошем/плохом. Что вы имеете в виду под «плохим»?

Эгон: Попробуй представить, что вся жизнь, какой ты ее знаешь, мгновенно останавливается, а каждая молекула в твоем теле взрывается со скоростью света.

Рэймонд: Полная инверсия протонов.

Питер: Это плохо. Хорошо. Хорошо, важный совет по безопасности, спасибо, Эгон.

Охотники за привидениями

Обработка параметров в Google Search Console

Да, это все еще актуально для тех, кто помнит старый не очень полезный GSC.

Он просто спрятан.

Эта функция в Google Search Console позволяет указать Google, как именно вы хотите, чтобы он обрабатывал различные параметры на вашем сайте. Как это работает — это совсем другое руководство — и кто знает, скоро ли Google откажется от него, поэтому позвольте мне просто отправить вас к другим хорошим руководствам.

Рекомендации по предотвращению дублирования контента

Консистенция

Как и во многих других вещах в жизни, постоянство имеет решающее значение. Особенно, когда вы работаете над сайтами приличного размера.

Создайте рабочие процессы и рекомендации для всех, кто работает над сайтом, и убедитесь, что они их придерживаются. Процессы и руководство должны быть предоставлены для следующего (как минимум).

  • Добавление уникальных тегов заголовков и оптимизация
  • Создание уникальных метаописаний и способы оптимизации
  • Создание уникальных тегов h2 и оптимизация
  • На какие версии страниц ссылаться (с косой чертой в конце и без)

Самоссылающиеся канонические символы для защиты от скребков

Помимо других технических причин, быстрый способ борьбы с ленивыми парсерами, которые копируют ваш контент, — это включить каноническую ссылку на себя на каждой странице вашего сайта.Хотя Google довольно хорошо разбирается в таких вещах, это легко реализовать на большинстве сайтов, поэтому вы можете включить его. Это сообщит Google, что вы являетесь первоначальным источником контента.

Хотя это зависит от сайта, стоит отметить, что ваш собственный сайт также может извлечь выгоду из канонических ссылок на себя.

Многие из ваших URL-адресов могут иметь идентификатор сеанса или параметры отслеживания. Они будут иметь тот же контент, что и исходный URL. Используя самоссылающиеся канонические ссылки для такого рода дублированного контента, вы немедленно даете Google намек на то, что знаете, что они дублируются.

Вот как это будет выглядеть:
https://jonathanpryceperlink.com?grrtrackingmadeuplicate

При наличии канонической ссылки на себя Google увидит в качестве исходного URL-адреса следующее:
https://jonathanpryceperlink.com

Уникальный контент продукта

Но, но Уэйн, так много. Да, я понимаю твою боль. Сайты электронной коммерции часто имеют тысячи продуктов. У кого есть время, чтобы написать весь этот контент? У кого есть бюджет, чтобы нанять штатного копирайтера? Некоторые делают, но далеко не все.

Есть несколько способов обойти это.

Возьмите свои лучшие продукты и перепишите описания с учетом конверсии, и посмотрите, что произойдет. Отслеживайте изменения в Google Search Console и смотрите, как они работают. Вам не обязательно делать их все за один раз.

Как вы решаете, над чем работать? Возьмите те, которые уже работают хорошо, убедитесь, что это продукты с хорошей наценкой, а также добавьте в уравнение объем поиска. Вставьте все это в таблицы Excel или Google и поиграйте с данными.

Что насчет ИИ? Ну, я недавно немного возился с этим. Становится лучше и доступнее. Я бы не советовал полностью избавляться от человеческой стороны (пожалуйста, не надо), но она может стать достойным трамплином для создания уникального масштабного контента.

Хотите несколько примеров? Конечно. Вот так.

Давайте придерживаться сайта бытовой техники. Все они были сгенерированы менее чем из 200 символов текста подсказки:

.

———————

Холодильник с морозильной камерой в американском стиле — отличный выбор, если вы ищете вместительный холодильник с дополнительными функциями, такими как лед и вода.Внутри холодильника вы найдете несколько прочных полок, в том числе…

———————

Холодильник с морозильной камерой в американском стиле изготовлен из качественных материалов, рассчитанных на долгий срок службы. Очень большая вместимость предоставит вам много места для любимых блюд вашей семьи. У вас не возникнет проблем с поиском идеального холодильника с морозильной камерой в американском стиле благодаря…

———————

Холодильники с морозильной камерой в американском стиле созданы для удовлетворения ваших потребностей.Они бывают разных размеров и могут быть найдены в конструкции морозильной камеры «бок о бок» или «верхнее дно». Большинство моделей будут включать в себя такие дополнительные функции, как диспенсеры для льда и воды, чтобы…

———————

Идеально? Неа. Попасть туда? да. Наблюдайте за этим пространством.

Вот несколько инструментов, которые вы можете попробовать:

Просто ради смеха, я увидел, как хорошо некоторые из них могут описать Sitebulb.

Sitebulb — единственный поисковый робот для веб-сайтов, который анализирует данные с точки зрения SEO, предоставляя вашим клиентам действенные проверки веб-сайтов.Он предназначен для SEO-консультантов и агентств, которые хотят тратить меньше времени на ручную проверку и больше времени на прибыльные задачи.

Sitebulb — это сканер веб-сайтов, который сканирует ваш сайт так же, как поисковый робот, находя все мертвые ссылки и страницы, на которые нет ссылок на других страницах. Sitebulb также собирает информацию о задней части сети…

«Любая достаточно продвинутая технология неотличима от магии.
Артур Кларк, три закона Кларка

Хорошо, вы там. Вы знаете, какие повторяющиеся проблемы могут возникнуть на сайте и как вы можете их исправить. Теперь вам просто нужно их исправить.

Теперь на вашем пути только два препятствия.

Убедить клиента и заставить разработчиков внедрить исправления.

Сообщите о проблемах с дублированным содержимым

Как вы, возможно, знаете из других моих постов на Sitebulb, я заинтересован в том, чтобы на самом деле реализовывать дерьмо.Аудит ничего не стоит, если что-то не реализовано. Аудит — это самое простое. SEO-специалисты знают свое дело. Но они не обязательно знают, как сообщить об этом клиентам. Они не знают, как убедить разработчиков внедрить исправления, даже если клиент дал согласие.

Итак, давайте посмотрим, как это сделать. Клиенты и разработчики — очень разные звери.

Как сообщать клиентам о проблемах с дублированным содержимым

Будь проще, глупый (KISS)

Да, это была забавная группа, но я сейчас не об этом, так что убери свой длинный язык и театральный грим.

KISS — это аббревиатура от «будь проще, тупица», которая была популяризирована ВМС США в 1960 году. На нее в первую очередь ссылаются, когда речь идет о дизайнерских работах, но она также применима и для получения поддержки от клиентов.

Клиенты заняты; клиенты часто не так много знают о SEO. Так что не тратьте время на обсуждение всех технических деталей. Вам нужно быстро донести свою точку зрения; слишком глубокое копание в данных приведет к тому, что клиент потеряет интерес и перейдет к тому, о чем будет его следующая встреча или какое важное решение он должен принять в этот день.

Чем меньше, тем лучше.

Покажите, как это может вписаться в более широкие цели компании

Это то, что волнует клиента. «Как это поможет моим бизнес-целям?» Электронная таблица и разговоры о пагинации, параметрах URL и истории скейпинга не приведут к тому, что ваши рекомендации будут подписаны. Перед презентацией вам нужно знать, каковы эти цели. Зная их, вы можете адаптировать свои рекомендации.

Это не каждый раз одно и то же, поверь мне.

Знать, что движет их лодкой

Скорее всего, вы попытаетесь получить согласие на исправление повторяющегося контента на раннем этапе отношений с клиентом.В Boom аудит — это одно из первых дел, которые мы берем на себя. Какие бы стратегии и тактики ни появились позже, они основаны на прочном фундаменте.

Это означает, что вы не будете знать их так хорошо. Так что найдите время, чтобы узнать. Поговорите с другими, кто имел с ними дело. Если у вас есть доступ к другим людям в команде, расспросите их (осторожно), чтобы узнать, что помогает получить одобрение.

Им нравятся данные? Аналогии? Как им нравятся вещи, которые им преподносят?

Зная это, можно увеличить шансы на то, что они одобрят ваши рекомендации.

Как сообщать разработчикам о проблемах с дублированным содержимым

Изучите жаргон разработчиков

Вы знаете, что означает схватка? Вы знаете, что значит работать agile? Вы знаете, что такое стори-пойнтинг?

Если нет, то самое время начать учиться. У команд разработчиков совершенно другой способ работы, чем у маркетинговых команд. Они берегут свое время. Работа происходит спринтами. Когда вы знаете, как на самом деле работает команда, с которой вы собираетесь работать, вы можете увидеть, как ваши рекомендации впишутся в нее.

Возможность корректировать свою работу помогает выполнять рекомендации, это помогает им выполняться так, как вы хотите, и это, безусловно, ускоряет их выполнение.

Разделите проблемы

Не существует универсального решения для устранения проблем с дублированием содержимого. Вы, наверное, поняли это сами, если дочитали эту статью до конца. Но команда разработчиков может не знать об этом. Так что вам нужно не только объяснить, почему это важно, но и объяснить им это.

Я не имею в виду снисходительное «это идет сюда» и «если вы нажмете эту кнопку, произойдет волшебство». Я говорю о том, чтобы принять каждое исправление и объяснить, почему это может потребоваться сделать именно так. Разработчики любят находить элегантные решения проблем. Но иногда вам нужно решать разные проблемы по-разному.

Понять их технологический стек

Я уже рассказывал об этом в своем посте о различиях и особенностях различных CMS. Если вы хотите, чтобы ваши рекомендации были реализованы, найдите время, чтобы узнать, что они используют.Некоторые CMS просто не имеют возможности развертывать определенные исправления. Некоторые CMS ограничены в возможностях команды разработчиков.

Если вы заранее знаете эти ограничения, вы можете быть уверены, что не требуете невозможного.

Понимание шкалы Андерсона-Алдерсона

Что-что?

Это взято из публикации Майка Кинга (также известного как ipullrank) на сайте Search Engine Land еще в 2017 году. Она демонстрирует сверхъестественный способ понять, как заставить разработчиков выполнять рекомендации по SEO, и вдобавок содержит ссылки на поп-культуру.Перфик.

Эм, «что?» Я слышу, как ты плачешь.

Давайте разберемся.

В статье Майк обсуждает двух вымышленных персонажей, Томаса Андерсона из фильма «Матрица» и Эллиота Алдерсона из телешоу «Мистер Робот».

Как указывает Майк в статье, Томас Андерсон немного ренегат, индивидуалист.

«У вас проблема, мистер Андерсон. Ты думаешь, что ты особенный. Вы считаете, что каким-то образом правила к вам не относятся.

Босс Томаса Андерсона, Матрица

Майк излагает это более красноречиво, чем я когда-либо мог, и я не хочу перефразировать.

«Разработчики Anderson — это тип сотрудников, которые живут на своих условиях и делают что-то только тогда, когда им хочется. Это индивидуалисты, которые будут спорить с вами о достоинствах руководств по стилю кода, о том, почему они полностью убрали метатеги из своей собственной CMS и почему они никогда не будут внедрять AMP — при этом ни одна строка их кода не подтверждается. против спецификаций, которые им дороги.

Они также являются разработчиками, которые закатывают глаза на ваши рекомендации или говорят о том, как они знают все «SEO-оптимизации», которые вы представляете, просто у них не было времени их сделать. Конечно, мистер Андерссссон.

Майк Кинг, Как заставить разработчиков выполнять рекомендации SEO

С другой стороны, у вас есть сторона шкалы Олдерсона, основанная на персонаже, которого Рами Малек, который вскоре станет Фредди Меркьюри, сыграл в «Мистере Роботе».Еще раз процитирую Майка.

«Олдерсон относится к тому типу людей, которые приходят в офис в 2 часа ночи, чтобы починить сломанные вещи, и даже заходят так далеко, что в ту же ночь прыгают на самолете компании, чтобы разобраться в последнем крахе сети.

Разработчики типа Алдерсона жаждут немедленно реализовать ваши рекомендации. Это не потому, что они обязательно заботятся о рейтинге, а потому, что они заботятся о том, чтобы быть хорошими в том, что они делают.

Этот тип разработчика внимателен и вызовет вас на ваш b.с. если не знаешь о чем говоришь. Так что не приходите с рекомендациями по асинхронному JavaScript, не понимая, как он работает».

Майк Кинг, Как заставить разработчиков выполнять рекомендации SEO

Я предлагаю вам пойти и прочитать статью, поскольку это потерянная жемчужина в мире статей о SEO, но все сводится к этому. Если вы хотите, чтобы ваши рекомендации были реализованы разработчиками с наименьшими затратами, вам нужно знать, что они за разработчик.Вы должны понимать, как они работают.

Чем больше времени вы потратите на изучение их и их процессов, тем больше вы сможете адаптировать к ним свои рекомендации и, что важно, заставить их действовать.

Завершение

Ну вот, поклонники Moz Читатели Sitebulb; это то, что я считаю достаточно исчерпывающим руководством по дублированию контента и тому, как с ним бороться. Но чему мы научились в нашем путешествии, Фродо?

  • Уэйн может вплести поп-культуру и фильмы почти во все, что он пишет, даже если иногда это кажется натянутым
  • Проблемы с дублирующимся контентом и их исправление очень тонкие — найдите время, чтобы выбрать лучший способ действий
  • Рекомендации по исправлению повторяющегося контента ничего не значат, если вы не можете реализовать их

Все это могло бы состоять из трех твитов, не так ли?

До следующего раза…

«Почему бы нам не подождать здесь немного… посмотрим, что произойдет…»
MacReady — The Thing

Дублированный контент и SEO: полное руководство

Что такое дублированный контент?

Дублированный контент — это контент, который похож или является точной копией контента на других веб-сайтах или на разных страницах того же веб-сайта. Наличие большого количества дублированного контента на веб-сайте может негативно повлиять на рейтинг Google.

Другими словами:

Дублированный контент — это контент, который дословно совпадает с контентом, который появляется на другой странице.

Но «Дублированный контент» также относится к контенту, который похож на другой контент… даже если он немного переписан.

Как дублированный контент влияет на SEO?

Как правило, Google не хочет ранжировать страницы с дублирующимся контентом.

На самом деле Google утверждает, что:

«Google изо всех сил старается индексировать и показывать страницы с четкой информацией».

Таким образом, если на вашем сайте есть страницы БЕЗ отдельной информации, это может повредить вашему рейтингу в поисковых системах.

В частности, вот три основные проблемы, с которыми сталкиваются сайты с большим количеством дублированного контента.

Меньше органического трафика: это довольно просто. Google не хочет ранжировать страницы, которые используют контент, скопированный с других страниц, в индексе Google.

(включая страницы на вашем сайте)

Допустим, у вас на сайте есть три страницы с похожим содержанием.

Google не уверен, какая страница является «исходной». Таким образом, все три страницы будут бороться за ранжирование.

Штраф

(чрезвычайно редко): Google заявил, что дублирование контента может привести к штрафу или полной деиндексации веб-сайта.

Однако это очень редкое явление. И это делается только в тех случаях, когда сайт намеренно очищает или копирует контент с других сайтов.

Так что, если на вашем сайте есть множество дубликатов страниц, вам, вероятно, не нужно беспокоиться о «штрафе за дублирование контента».

Меньше проиндексированных страниц: это особенно важно для сайтов с большим количеством страниц (например, сайтов электронной коммерции).

Иногда Google не просто понижает рейтинг дублированного контента. Он фактически отказывается индексировать его.

Таким образом, если на вашем сайте есть страницы, которые не индексируются, это может быть связано с тем, что ваш краулинговый бюджет тратится впустую на дублированный контент.

Лучшие практики

Следите за одним и тем же контентом по разным URL-адресам

Это наиболее распространенная причина появления проблем с дублированием содержимого.

Допустим, вы управляете сайтом электронной коммерции.

И у вас есть страница товара, на которой продаются футболки.

Если все настроено правильно, каждый размер и цвет этой футболки по-прежнему будет находиться на одном и том же URL-адресе.

Но иногда вы обнаружите, что ваш сайт создает новый URL-адрес для каждой новой версии вашего продукта… что приводит к ТЫСЯЧАМ дублирующихся страниц контента.

Другой пример:

Если на вашем сайте есть функция поиска, эти страницы результатов поиска также могут быть проиндексированы. Опять же, это может легко добавить на ваш сайт более 1000 страниц. Все они содержат дублированный контент.

Проверить проиндексированные страницы

Один из самых простых способов найти повторяющийся контент — посмотреть на количество страниц вашего сайта, проиндексированных в Google.

Вы можете сделать это, выполнив поиск site:example.com в Google.

Или проверьте проиндексированные страницы в Google Search Console.

В любом случае это число должно совпадать с количеством страниц, созданных вами вручную.

Например, у Backlinko проиндексировано 112 страниц:

Количество страниц, которые мы сделали.

Если бы это число было 16 000 или 160 000, мы бы знали, что многие страницы добавляются автоматически. И эти страницы, вероятно, будут содержать значительное количество дублированного контента.

Убедитесь, что ваш сайт правильно перенаправляет

Иногда у вас есть не просто несколько версий одной и той же страницы… но и одного и того же САЙТА.

Хотя это редкость, я много раз видел это в дикой природе.

Эта проблема возникает, когда «WWW»-версия вашего веб-сайта не перенаправляет на «не-WWW-версию».

(или наоборот)

Это также может произойти, если вы переключили свой сайт на HTTPS… и не перенаправили сайт HTTP.

Вкратце: все разные версии вашего сайта должны оказаться в одном месте.

Использовать 301 переадресацию

301 редиректы — это самый простой способ исправить проблемы с дублированием контента на вашем сайте.

(Кроме полного удаления страниц)

Итак, если вы обнаружили на своем сайте кучу дублирующихся страниц контента, перенаправьте их обратно на оригинал.

Как только робот Googlebot зайдет, он обработает перенаправление и проиндексирует ТОЛЬКО исходный контент.

(что может помочь исходной странице начать ранжироваться)

Следите за похожим контентом

Дублированный контент означает не ТОЛЬКО контент, который дословно скопирован откуда-то еще.

На самом деле Google определяет дублированный контент как:

Таким образом, даже если ваш контент технически отличается от существующего, вы все равно можете столкнуться с проблемами дублирования контента.

Это не проблема для большинства сайтов. Большинство сайтов имеют несколько десятков страниц. И они пишут уникальный материал для каждой страницы.

Но бывают случаи, когда может появиться «похожий» дублированный контент.

Допустим, вы управляете веб-сайтом, который учит людей говорить по-французски.

И вы обслуживаете большую часть Бостона.

Возможно, вы оптимизировали одну страницу услуг по ключевому слову: «Учите французский в Бостоне».

И еще одна страница, которая пытается попасть в рейтинг «Изучайте французский в Кембридже».

Иногда содержимое может быть технически другим. Например, на одной странице указано местоположение в Бостоне. А на другой странице есть адрес в Кембридже.

Но по большей части содержание очень похоже.

Технически это дублированный контент.

Сложно ли писать 100% уникальный контент для каждой страницы вашего сайта? Ага. Но если вы серьезно относитесь к ранжированию каждой страницы на своем сайте, это необходимо.

Используйте тег Canonical

Тег rel=canonical сообщает поисковым системам:

«Да, у нас есть куча страниц с дублирующимся контентом.Но ЭТА страница является оригиналом. На остальное можете не обращать внимания».

Google заявил, что канонический тег лучше, чем блокировка страниц с дублирующимся контентом.

(например, блокировка робота Googlebot с помощью файла robots.txt или тега noindex в HTML-коде веб-страницы)

Итак, если вы обнаружите на своем сайте кучу страниц с дублирующимся содержимым, вам нужно:

  • Удалить их
  • Перенаправить их
  • Использовать канонический тег

Использовать инструмент

Существует несколько инструментов SEO, которые имеют функции, предназначенные для обнаружения дублированного контента.

Например, Siteliner сканирует ваш веб-сайт на наличие страниц с большим количеством повторяющегося контента.

Объединение страниц

Как я уже говорил, если у вас много страниц с дублирующимся контентом, вы, вероятно, захотите перенаправить их на одну страницу.

(Или используйте канонический тег)

Но что, если у вас есть страницы с похожим содержанием?

Ну, вы можете создать уникальный контент для каждой страницы… ИЛИ объединить их в одну мега-страницу.

Например, предположим, что на вашем сайте есть 3 сообщения в блоге, которые технически различаются… но содержание в значительной степени одинаково.

Вы можете объединить эти 3 сообщения в один удивительный пост в блоге, который на 100% уникален.

Поскольку вы удалили часть повторяющегося контента со своего сайта, эта страница должна ранжироваться выше, чем остальные 3 страницы вместе взятые.

Noindex Тег WordPress или страницы категорий

Если вы используете WordPress, вы могли заметить, что он автоматически генерирует страницы тегов и категорий.

Эти страницы являются ОГРОМНЫМИ источниками дублированного контента.

Чтобы они были полезны пользователям, рекомендую добавить на эти страницы тег «noindex».Таким образом, они могут существовать без индексации поисковыми системами.

Вы также можете настроить WordPress так, чтобы эти страницы вообще не генерировались.

Узнать больше

Как Google обрабатывает дублированный контент?: Видео от Мэтта Каттса из Google о том, как Google рассматривает дублированный контент.

Миф о штрафе за дублированный контент: в этом посте рассказывается, почему большинству людей не нужно беспокоиться о «штрафе за дублированный контент».

Удалите дублированный контент с вашего веб-сайта для улучшения результатов SEO

Дублированный контент может создать множество проблем для поисковых систем, поэтому для достижения наилучших результатов поисковой оптимизации (SEO) вы должны удалить его со своего веб-сайта.

Контент в Интернете и на вашем собственном сайте может дублироваться намеренно или случайно. Какова бы ни была мотивация подражателя, вы не хотите, чтобы люди копировали ваш оригинальный контент, если вы можете им помочь.

Существует два основных типа дублированного контента:

  • Дублированный контент за пределами вашего домена. Этот тип возникает, когда два разных веб-сайта имеют одинаковый текст.

  • Дублированный контент внутри вашего домена. Этот второй тип относится к веб-сайтам, которые создают дублированный контент в пределах своего собственного домена (корень уникального URL-адреса сайта, например, www.domain.com).

Сайты могут иметь дублированный контент внутри вашего домена из-за их собственных ошибочных внутренних процедур связывания, и часто веб-мастера даже не осознают, что у них есть проблема. Если две или более страниц вашего собственного сайта дублируют друг друга, вы непреднамеренно уменьшаете вероятность того, что одна или другая страница будет включена в результаты поиска.

Вы можете столкнуться с дублированием контента на своем собственном сайте по разным причинам, например, иметь несколько URL-адресов, содержащих один и тот же контент; страницы для печати; страницы, которые создаются на лету с идентификаторами сеанса в URL-адресе; использование или предоставление синдицированного контента; проблемы, вызванные использованием локализации, незначительными изменениями контента или недружественной системой управления контентом; и архивы.

Вы всегда должны придерживаться наилучшей практики создания уникального оригинального контента на своем сайте.Держитесь подальше от того, что может быть в порядке с поисковыми системами, и играйте в безопасной гавани.

Чтобы сохранить ваш сайт в безопасной гавани, вот несколько способов избежать дублирования контента или удалить его с вашего собственного веб-сайта:

  • Теги Заголовок, Описание, Ключевые слова. Убедитесь, что каждая страница имеет уникальный тег заголовка, метатег описания и метатег ключевых слов в HTML-коде.

  • Теги заголовков. Убедитесь, что теги заголовков (с пометкой H#) в основном тексте отличаются от заголовков других страниц.Имея в виду, что все ваши заголовки должны использовать значимые, не общие слова, это немного упрощается.

  • Повторяющийся текст, например слоган. Если вам необходимо отображать на сайте повторяющееся предложение или абзац, например слоган компании, вам следует подумать о том, чтобы разместить этот слоган в виде изображения на большинстве страниц. Выберите одну веб-страницу, которая, по вашему мнению, должна ранжироваться по этому повторяющемуся контенту, и оставьте ее в виде текста на этой странице, чтобы поисковые системы могли ее просканировать.Если кто-то попытается найти этот контент, поисковые системы смогут найти этот уникальный контент на выбранной вами странице.

    Например, если у вас есть веб-сайт, посвященный модификации классических автомобилей, на котором используется слоган «Мы вернем грохот вашему классическому автомобилю», вы, вероятно, захотите отобразить его на своем сайте. Но вы должны сделать так, чтобы поисковые системы не видели повторения. Оставьте его в виде HTML-текста только на одной странице, например на домашней странице или на странице «О нас». Затем везде просто создайте изящную графику, которая позволит пользователям видеть слоган, но не поисковым системам.

  • Карта сайта. Убедитесь, что ваша карта сайта (страница, содержащая ссылки на страницы вашего сайта, например оглавление) содержит ссылки на URL-адрес предпочтительной страницы, если у вас есть похожие версии. Карта сайта помогает поисковым системам понять, какая страница является вашей канонической (лучшей или оригинальной) версией. Мэтт Каттс, руководитель группы веб-спама Google, определяет канонизацию как «процесс выбора лучшего URL-адреса из нескольких вариантов.» Канонический URL — это тот, который выбирается в конце процесса, а все остальные считаются дубликатами ( неканонический .)

  • Объединение похожих страниц. Если у вас есть целые страницы с похожим или идентичным текстом, решите, какую из них вы хотите сделать канонической для этого контента. Затем объедините страницы и отредактируйте содержимое по мере необходимости.

    Если вам необходимо объединить страницы в одну каноническую страницу, необходимо принять некоторые меры предосторожности (подробности см. в пронумерованном списке шагов ниже).Вы же не хотите случайно уничтожить любой ссылочный капитал, который вы, возможно, накопили. Ссылочный капитал относится к воспринимаемой экспертной ценности всех входящих ссылок, указывающих на вашу веб-страницу. Вы также не хотите, чтобы ссылки и закладки людей внезапно ломались, если они попытаются открыть вашу старую страницу.

При объединении двух страниц для создания одной основной канонической версии примите следующие меры предосторожности:

  1. Проверить наличие входящих ссылок.

    Сделайте ссылку: домен.com/yourpage .

Leave a Reply