Robots для wordpress: Правильный файл robots.txt для WordPress — важные правила при запрете индексации

Содержание

Правильный файл robots.txt для сайта на WordPress в 2022

Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.

Пример правильного файла robots.txt для сайта на WordPress

  • User-agent: *
  • Disallow: /cgi-bin
  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
  • Disallow: /wp-content/plugins/
  • Disallow: /wp-content/cache/
  • Disallow: /wp-content/themes/
  • Disallow: /wp-trackback
  • Disallow: /wp-feed
  • Disallow: /wp-comments
  • Disallow: /author/
  • Disallow: */embed*
  • Disallow: */wp-json*
  • Disallow: */page/*
  • Disallow: /*?
  • Disallow: */trackback
  • Disallow: */comments
  • Disallow: /*.php
  • Host: https://seopulses.ru
  • Sitemap: https://seopulses.ru/sitemap_index.xml

Где можно найти файл robots.txt и как его создать или редактировать

Чтобы проверить файл robots. txt сайта, следует добавить к домену «/robots.txt», примеры:

https://seopulses.ru/robots.txt

https://serpstat.com/robots.txt

https://netpeak.net/robots.txt

Как создать и редактировать robots.txt

Вручную

Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):

Далее открываем сам файл и можно его редактировать.

Если его нет, то достаточно создать новый файл.

После вводим название документа и сохраняем.

Через модули/дополнения/плагины

Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:

  • Для 1С-Битрикс;

https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814

Virtual Robots.txt

https://opencartforum.com/files/file/5141-edit-robotstxt/

https://support.webasyst.ru/shop-script/149/shop-script-robots-txt/

Инструкция по работе с robots.txt

В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:

  • User-agent: Yandex — для обращения к поисковому роботу Яндекса;
  • User-agent: Googlebot — в случае с краулером Google;
  • User-agent: YandexImages — при работе с ботом Яндекс.Картинок.

Полный список роботов Яндекс:

https://yandex.ru/support/webmaster/robot-workings/check-yandex-robots.html#check-yandex-robots

И Google:

https://support.google.com/webmasters/answer/1061943?hl=ru

Синтаксис в robots.txt

  • # — отвечает за комментирование;
  • * — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
  • $ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.

Директивы в Robots.txt

Disallow

Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.

Пример #1

# Полностью закрывает весь сайт от индексации

User-agent: *

Disallow: /

Пример #2

# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/

Disallow: /category1/

Пример #3

# Блокирует для скачивания страницу раздела /category2/

User-agent: *

Disallow: /category1/$

Пример #4

# Дает возможность сканировать весь сайт просто оставив поле пустым

User-agent: *

Disallow:

Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.

Allow

Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.

Пример #1

# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.

Disallow: */feed/*

Allow: /feed/turbo/

Пример #2

# разрешает скачивание файла doc.xml

# разрешает скачивание файла doc.xml

Allow: /doc.xml

Sitemap

Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.

Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:

  • Следует указывать полный URL, когда относительный адрес использовать запрещено;
  • На нее не распространяются остальные правила в файле robots.txt;
  • XML-карта сайта должна иметь в URL-адресе домен сайта.
Пример

# Указывает карту сайта

Sitemap: https://serpstat.com/sitemap.xml

Clean-param

Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site.ru?param1=2&param2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.

Пример #1

#для адресов вида:

www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243

www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: s /forum/showthread.php

Пример #2

#для адресов вида:

www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df

www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

#robots.txt будет содержать:

User-agent: Yandex

Disallow:

Clean-param: sid /index.php

Подробнее о данной директиве можно прочитать здесь:

https://serpstat.com/ru/blog/obrabotka-get-parametrov-v-robotstxt-s-pomoshhju-direktivy-clean-param/

Crawl-delay

Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.

Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.

Пример

# Допускает скачивание страницы лишь раз в 3 секунды

Crawl-delay: 3

Как проверить работу файла robots.txt

В Яндекс.Вебмастер

В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.

Также можно скачать другие версии файла или просто ознакомиться с ними.

Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.

В нашем случае мы проверяем эти правила.

Как видим из примера все работает нормально.

Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.

В Google Search Console

В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.

Важно! Ресурсы-домены в этом случае выбирать нельзя.

Теперь мы видим:

  • Сам файл;
  • Кнопку, открывающую его;
  • Симулятор для проверки сканирования.

Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».

Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.

Правильный файл robots.txt для WordPress 2020: настройка

Автор Анита Арико На чтение 15 мин. Просмотров 3.3k. Опубликовано

Чтобы нужные страницы сайта попадали в индекс поисковых систем, важно правильно настроить файл robots.txt. Этот документ дает рекомендации поисковым роботам, какие страницы обрабатывать, а какие — нет: например, от индексации можно закрыть панель управления сайтом или страницы, которые находятся в разработке. Рассказываем, как правильно настроить robots.txt, если ваш сайт сделан на WordPress. 

Что такое robots.txt и для чего он нужен?

Чтобы понять, какие страницы есть на сайте, поисковики «напускают» на него роботов: они сканируют сайт и передают перечень страниц в поисковую систему. robots.txt — это текстовый файл, в котором содержатся указания о том, какие страницы можно, а какие нельзя сканировать роботам. 

Обычно на сайте есть страницы, которые не должны попадать в выдачу: например, это может быть административная панель, личные страницы пользователей или временные страницы сайта. Кроме этого, у поисковых роботов есть определенный лимит сканирования страниц (кроулинговый бюджет) — за раз они могут обработать только ограниченное их количество.

Проведем аналогию: представим сайт в виде города, а страницы в виде домов. По дорогам между домов ездят роботы и записывают информацию о каждом доме (индексируют страницы и добавляют в базу). Роботы получают ограниченное количество топлива в день — например, 10 литров на объезд города в день. Это топливо — кроулинговый бюджет, который выделяют поисковые системы на обработку сайта.

На маленьких проектах, 500-1000 страниц, кроулинговый бюджет не сказывается критично, но на интернет-магазинах, маркетплейсах, больших сервисах могут возникнут проблемы. Если они спроектированы неверно, то робот может месяцами ездить по одному кварталу (сканировать одни и те же страницы), но не заезжать в отдаленные районы. Чем больше проект, тем больший кроулинговый бюджет выделяют поисковики, но это не поможет, если дороги сделаны неудобно и вместо прямой дороги в 1 км нужно делать крюк в 15 км.

Правильный robots.txt помогает решить часть этих проблем.

Разные поисковые системы по-разному обрабатывают robots.txt: например, Google может включить в индекс даже ту страницу, которая запрещена в этом файле, если найдет ссылку на такую страницу на страницах сайта. Яндекс же относится к robots.txt как к руководству к действию — если страница запрещена для индексации в файле, она не будет включена в результаты поиска, но с момента запрета может пройти до двух недель до исключения из индекса. Таким образом, правильная настройка robots.txt в 99% случаев помогает сделать так, чтобы в индекс попадали только те страницы, которые вы хотите видеть в результатах поиска.

Кроме этого, robots.txt может содержать технические сведения о сайте: например, главное зеркало, местоположение sitemap.xml или параметры URL-адресов, передача которых не влияет на содержимое страницы.

Файл robots.txt рекомендует роботам поисковых систем, как правильно обрабатывать страницы сайта, чтобы они попали в выдачу.

Где находится файл robots.txt?

По умолчанию в WordPress нет файла robots.txt. При установке WordPress создает виртуальный файл robots.txt с таким содержимым:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Такая настройка говорит поисковым роботам следующее:

User-agent: * — для любых поисковых роботов

Disallow: /wp-admin/ — запретить обрабатывать /wp-admin/

Allow: /wp-admin/admin-ajax.php — разрешить обрабатывать элементы сайта, которые загружаются через AJAX

Этот файл не получится найти в папках WordPress — он работает, но физически его не существует. Поэтому, чтобы настроить robots.txt, сначала нужно его создать. 

Robots.txt должен находиться в корневой папке (mysite.ru/robots.txt), чтобы роботы любых поисковых систем могли его найти. 

Как редактировать и загружать robots.txt 

Есть несколько способов создать файл robots.txt — либо сделать его вручную в текстовом редакторе и разместить в корневом каталоге (папка самого верхнего уровня на сервере), либо воспользоваться специальными плагинами для настройки файла.

Как создать robots.txt в Блокноте

Самый простой способ создать файл robots.txt — написать его в блокноте и загрузить на сервер в корневой каталог. 

Лучше не использовать стандартное приложение — воспользуйтесь специальными редакторы текста, например, Notepad++ или Sublime Text, которые поддерживают сохранение файла в конкретной кодировке. Дело в том, что поисковые роботы, например, Яндекс и Google, читают только файлы в UTF-8 с определенными переносами строк — стандартный Блокнот Windows может добавлять ненужные символы или использовать неподдерживаемые переносы. 

Говорят, что это давно не так, но чтобы быть уверенным на 100%, используйте специализированные приложения.

Рассмотрим создание robots.txt на примере Sublime Text. Откройте редактор и создайте новый файл. Внесите туда нужные настройки, например:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://mysite.ru/sitemap.xml

Где mysite.ru — домен вашего сайта.

После того, как вы записали настройки, выберите в меню File ⟶ Save with Encoding… ⟶ UTF-8 (или Файл ⟶ Сохранить с кодировкой… ⟶ UTF-8). 

Назовите файл “robots.txt” (обязательно с маленькой буквы). 

Файл готов к загрузке.

Загрузить robots.txt через FTP

Для того, чтобы загрузить созданный robots.txt на сервер через FTP, нужно для начала включить доступ через FTP в настройках хостинга.

После этого скопируйте настройки доступа по FTP: сервер, порт, IP-адрес, логин и пароль (не совпадают с логином и паролем для доступа на хостинг, будьте внимательны!). 

Чтобы загрузить файл robots.txt вы можете воспользоваться специальным файловым менеджером, например, FileZilla или WinSCP, или же сделать это просто в стандартном Проводнике Windows. Введите в поле поиска “ftp://адрес_FTP_сервера”.

После этого Проводник попросит вас ввести логин и пароль.

Введите данные, которые вы получили от хостинг-провайдера на странице настроек доступа FTP. После этого в Проводнике откроются файлы и папки, расположенные на сервере. Скопируйте файл robots.txt в корневую папку. Готово.

Загрузить или создать robots.txt на хостинге

Если у вас уже есть готовый файл robots.txt, вы можете просто загрузить его на хостинг. Зайдите в файловый менеджер панели управления вашим хостингом, нажмите на кнопку «Загрузить» и следуйте инструкциям (подробности можно узнать в поддержке у вашего хостера.

Многие хостинги позволяют создавать текстовые файлы прямо в панели управления хостингом. Для этого нажмите на кнопку «Создать файл» и назовите его “robots.txt” (с маленькой буквы). 

После этого откройте его во встроенном текстовом редакторе хостера. Если вам предложит выбрать кодировку для открытия файла — выбирайте UTF-8.

Добавьте нужные директивы и сохраните изменения.

Плагины для редактирования robots.txt

Гораздо проще внести нужные директивы в robots.txt с помощью специальных плагинов для редактирования прямо из панели управления WordPress. Самые популярные из них — ClearfyPro, Yoast SEO и All in One SEO Pack. 

Clearfy Pro

Этот плагин отлично подходит для начинающих: даже если вы ничего не понимаете в SEO, Clearfy сам создаст правильный и валидный файл robots.txt. Кроме этого, плагин предлагает пошаговую настройку самых важных для поисковой оптимизации функций, так что на первых этапах развития сайта этого будет достаточно.

Чтобы настроить robots.txt, в панели управления WordPress перейдите в пункт Настройки ⟶ Clearfy ⟶ SEO. 

Переключите «Создайте правильный robots.txt» в положение «Вкл». Clearfy отобразит правильные настройки файла robots.txt. Вы можете дополнить эти настройки, например, запретив поисковым роботам индексировать папку /wp-admin/.

После внесения настроек нажмите на кнопку «Сохранить» в верхнем правом углу.

Yoast SEO

Плагин Yoast SEO хорош тем, что в нем есть много настроек для поисковой оптимизации: он напоминает использовать ключевые слова на странице, помогает настроить шаблоны мета-тегов и предлагает использовать мета-теги Open Graph для социальных сетей.

С его помощью можно отредактировать и robots.txt. 

Для этого зайдите в раздел Yoast SEO ⟶ Инструменты ⟶ Редактор файлов. 

Здесь вы сможете отредактировать robots.txt и сохранить его, не заходя на хостинг. По умолчанию Yoast SEO не предлагает никаких настроек для файла, так что его придется прописать вручную.

После изменений нажмите на кнопку «Сохранить изменения в robots.txt».

All in One SEO Pack

Еще один мощный плагин для управления SEO на WordPress. Чтобы отредактировать robots.txt через All in One SEO Pack, сначала придется активировать специальный модуль. Для этого перейдите на страницу плагина в раздел «Модули» и нажмите «Активировать» на модуле «robots.txt».

После подключения модуля перейдите на его страницу. С помощью него можно разрешать или запрещать для обработки конкретные страницы и группы страниц для разных поисковых роботов, не прописывая директивы вручную.

Правильный и актуальный robots.txt в 2020 году

Для того, чтобы создать правильный файл robots.txt, нужно знать, что означает каждая из директив в файле, записать их в правильном порядке и проверить файл на валидность. 

Что означают указания в файле robots.txt?
User-agent — поисковой робот

В строке User-agent указывается, для каких роботов написаны следующие за этой строкой указания. Например, если вы хотите запретить индексацию сайта для поисковых роботов Bing, но разрешить для Google и Яндекс, это будет выглядеть примерно так:

User-agent: Googlebot
Disallow:

User-agent: Yandex
Disallow:

User-agent: Bingbot
Disallow: *

Для робота Google
Запретить: ничего

Для робота Яндекс
Запретить: ничего

Для робота Bing
Запретить: все страницы

На практике необходимость разграничивать указания для разных поисковых роботов встречается довольно редко. Гораздо чаще robots.txt пишут для всех роботов сразу. Это указывается через звездочку:

User-agent: *

У поисковых систем есть и специальные роботы — например, бот YandexImages обходит изображения, чтобы выдавать их в поиске Яндекса по картинкам, а Googlebot-News собирает информацию для выдаче в Google Новостях. Полные списки ботов можно найти в справке поисковых систем — введите в поиск «поисковые роботы [название ПС]».

Disallow

Эта директива сообщает поисковым роботам, что страница или целый список страниц запрещены для обхода. Важно понимать, что указание в robots.txt не гарантирует, что страница не попадет в выдачу — если ссылка на запрещенную в файле страницу встречается на разрешенных страницах сайта, поисковик все равно может включить его в индекс.

Если вы хотите разрешить поисковым роботам обрабатывать все страницы сайта, оставьте это указание пустым.

User-agent: *
Disallow:

Если вам нужно запретить для индексации несколько страниц или директорий, указывайте каждую из них отдельно:

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Disallow: /index2.html
Allow

Это указание разрешает ботам поисковиков сканировать определенные страницы. Обычно это используют, когда нужно закрыть целую директорию, но разрешить обрабатывать часть страниц. 

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php

Большинство поисковых систем обрабатывают в первую очередь более точные правила (например, с указанием конкретных страниц), а затем — более широкие. Например:

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php

Такой файл robots.txt укажет роботам, что не нужно сканировать все страницы из папки «catalog», кроме «best-offers.html».

Host

Указание host говорит поисковым роботам, какое из зеркал сайта является главным. Например, если сайт работает через защищенный протокол https, в robots.txt стоит это указать:

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru

Эта директива уже устарела, и сегодня ее использовать не нужно. Если она есть в вашем файле сейчас, лучше ее удалить — есть мнение, что она может негативно сказываться на продвижении.

Sitemap

Этот атрибут — еще один способ указать поисковым роботам, где находится карта сайта. Она нужна для того, чтобы поисковик смог добраться до любой страницы сайта в один клик вне зависимости от сложности его структуры.

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay

Такой параметр помогает установить задержку для обработки сайта поисковыми роботами. Это может быть полезно, если сайт расположен на слабом сервере и вы не хотите, чтобы боты перегружали его запросами: передайте в crawl-delay время, которое должно проходить между запросами роботов. Время передается в секундах. 

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay: 10

На самом деле современные поисковые роботы и так делают небольшую задержку между запросами, так что прописывать это явно стоит только в том случае, если сервер очень слабый.

Clean-param

Эта настройка пригодится, чтобы скрыть из поиска страницы, в адресе которых есть параметры, не влияющие на ее содержание. Звучит сложно, так что объясняем на примере.

Допустим, на сайте есть категория «Смартфоны» и она расположена по адресу mysite.ru/catalog/smartphones.

У категории есть фильтры, которые передаются с помощью GET-запроса. Предположим, пользователь отметил в фильтре «Производитель: Apple, Samsung». Адрес страницы поменялся на

mysite.ru/catalog/smartphones/?manufacturer=apple&manufacturer=samsung,

где ?manufacturer=apple&manufacturer=samsung — параметры, которые влияют на содержимое страницы. Логично, что такие страницы можно и нужно выводить в поиске — эту страницу со включенным фильтром можно продвигать по запросу вроде «смартфоны эппл и самсунг».

А теперь представим, что пользователь перешел в категорию «Смартфоны» по ссылке, которую вы оставили во ВКонтакте, добавив к ней UTM-метки, чтобы отследить, эффективно ли работает ваша группа. 

mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale

В такой ссылке параметры ?utm_source=vk&utm_medium=post&utm_campaign=sale не влияют на содержимое страницы — mysite.ru/catalog/smartphones/ и mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale будут выглядеть одинаково.

Чтобы помочь поисковым роботам понять, на основании каких параметров содержимое меняется, а какие не влияют на контент страницы, и используется настройка Clean-param. 

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Clean-param: utm_campaign /
Clean-param: utm_medium /
Clean-param: utm_source /

С помощью такой директивы вы укажете поисковым роботам, что при обработке страниц для поисковой выдачи нужно удалять из ссылок такие параметры, как utm_campaign, utm_medium и utm_source. 

Как проверить robots.txt

Для того, чтобы проверить валидность robots.txt, можно использовать инструменты вебмастера поисковых систем. Инструмент проверки robots.txt есть у Google в Search Console — для его использования понадобится авторизация в Google и подтверждение прав на сайт, для которого проверяется файл.

Похожий инструмент для проверки robots.txt есть и у Яндекса, и он даже удобнее, потому что не требует авторизации.

Эти приложения помогают понять, как поисковый робот видит файл: если какие-то из директив прописаны в нем неверно, инструмент проверки их проигнорирует либо предупредит о них.

Чего стоит избегать при настройке robots.txt?

Будьте внимательны: хоть robots.txt непосредственно и не влияет на то, окажется ли ваш сайт в выдаче, этот файл помогает избежать попадания в индекс тех страниц, которые должны быть скрыты от пользователей. Все, что робот не сможет интерпретировать, он проигнорирует.

Вот несколько частых ошибок, которые можно допустить при настройке.

Не указан User-Agent

Или указан после директивы, например: 

Disallow: /wp-admin/
User-agent: *

Такую директиву робот прочитает так:

Disallow: /wp-admin/— так, это не мне, не читаю

User-agent: * — а это мне… Дальше ничего? Отлично, обработаю все страницы!

Любые указания к поисковым роботам должны начинаться с директивы User-agent: название_бота.

User-agent: GoogleBot
Disallow: /wp-admin/
User-agent: Yandex
Disallow: /wp-admin/

Или для всех сразу:

User-agent: *
Disallow: /wp-admin/

Несколько папок в Disallow

Если вы укажете в директиве Disallow сразу несколько директорий, неизвестно, как робот это прочтет.

User-agent: *
Disallow: /wp-admin/ /catalog/ /temp/ /user/ — “/wp-admin/catalog/temp/user/”? “/catalog/ /user”? “??????”?

По своему разумению он может обработать такую конструкцию как угодно. Чтобы этого не случилось, каждую новую директиву начинайте с нового Disallow:

User-agent: *
Disallow: /wp-admin/
Disallow: /catalog/
Disallow: /temp/
Disallow: /user/

Регистр в названии файла robots.txt

Поисковые роботы смогут прочитать только файл с названием “robots.txt”. “Robots.txt”, “ROBOTS.TXT” или “R0b0t.txt” они просто проигнорируют.

Резюме
  1. robots.txt — файл с рекомендациями, как обрабатывать страницы сайта, для поисковых роботов.
  2. В WordPress по умолчанию нет robots.txt, но есть виртуальный файл, который запрещает ботам сканировать страницы панели управления.
  3. Создать robots.txt можно в блокноте и загрузить его на хостинг в корневой каталог.
  4. Файл robots.txt должен быть создан в кодировке UTF-8.
  5. Проще создать robots.txt с помощью плагинов для WordPress — Clearfy Pro, Yoast SEO, All in One SEO Pack или других SEO-плагинов.
  6. С помощью robots.txt можно создать директивы для разных поисковых роботов, сообщить о главном зеркале сайта, передать адрес sitemap.xml или указать параметры URL-адресов, которые не влияют на содержимое страницы.
  7. Проверить валидность robots.txt можно с помощью инструментов от Google и Яндекс.
  8. Все директивы файла robots.txt, которые робот не сможет интерпретировать, он проигнорирует.

Правильный Robots.txt для WordPress (базовый и расширенный) [2022]

Автор Александр Смирнов На чтение 7 мин Просмотров 24.4к. Обновлено

Правильный Robots.txt для WordPress в 2022-м году. Несколько версий под разные нужды: простая базовая и расширенная — с проработкой под каждую поисковую систему.

Одной из важнейших вещей при создании и оптимизации сайта для поисковых систем считают Robots.txt. Небольшой файлик, где прописаны правила индексирования для поисковых роботов.

Если файл будет настроен неправильно, то сайт может неправильно индексироваться и терять большие доли трафика. Грамотная настройка наоборот позволяет улучшить SEO, и вывести ресурс в топы.

Сегодня мы поговорим о настройке Robots.txt для WordPress. Я покажу вам правильный вариант, который сам использую для своих проектов.

Что такое Robots.txt

Как я уже и сказал, robots.txt — текстовой файлик, где прописаны правила для поисковых систем. Стандартный robots.txt для WordPress выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Именно в таком виде он создается плагином Yoast SEO. Некоторые считают, что этого хватит для правильной индексации. Я же считаю, что нужна более детальная проработка. А если речь идет о нестандартных проектах, то проработка нужна и подавно. Давайте разберемся в основных директивах:

ДирективаЗначениеПояснение
User-agent:Yandex, Googlebot и т.д.В этой директиве можно указать к какому конкретно роботу мы обращаемся. Обычно используются те значения, которые я указал.
Disallow:Относительная ссылкаДиректива запрета. Ссылки, указанные в этой директиве будут игнорироваться поисковыми системами.
Allow:Относительная ссылкаРазрешающая директива. Ссылки, которые указаны с ней будут проиндексированы.
Sitemap:Абсолютная ссылкаЗдесь указывается ссылка на XML-карту сайта. Если в файле не указать эту директиву, то придется добавлять карту вручную (через Яндекс.Вебмастер или Search Console).
Crawl-delay:Время в секундах (пример: 2.0 — 2 секунды)Позволяет указать таймаут между посещениями поисковых роботов. Нужна в случае, если эти самые роботы создают дополнительную нагрузку на хостинг.
Clean-param:Динамический параметрЕсли на сайте есть параметры вида site.ru/statia?uid=32, где ?uid=32 — параметр, то с помощью этой директивы их можно скрыть.

В принципе, ничего сложного. Дам дополнительные пояснения по директивам Clean-param (откройте вкладку).

Подробнее о Clean-param

Параметры, как правило, используются на динамических сайтах. Они могут передавать поисковым системам лишнюю информацию — создавать дубли. Чтобы избежать этого, мы должны указать в Robots.txt директиву Clean-param с указанием параметра и ссылки, к которой это параметр применяется.

В нашем примере site.ru/statia?uid=32 — site.ru/statia — ссылка, а все, что после знака вопроса — параметр. Здесь это uid=32. Он динамический, и это значит, что параметр uid может принимать другие значения.

Например, uid=33, uid=34…uid=123434. В теории их может быть сколько угодно, поэтому мы должны закрыть от индексации все параметры uid. Для этого директива должна принять такой вид:

Clean-param: uid /statia # все параметры uid для statia будут закрыты

Более подробно о том, что такое Robots.txt можно узнать из Яндекс.Помощи. Или из этого видеоролика:

Базовый Robots.txt для WordPress

Совсем недавно я приобрел плагин Clearfy Pro для своих проектов. Там очень много разных функций, и одна из них — создание идеального Robots.txt. На самом деле насколько он идеален — я не знаю, вебмастера расходятся во мнениях.

Кто-то предпочитает делать более краткие версии роботса, указывая правила для всех поисковых систем сразу. Другие прописывают отдельные правила для каждого поисковика (в основном для Яндекса и Гугла).

Что из этого правильно — точно сказать не могу. Однако я предлагаю вам ознакомиться с базовой версией Robots.txt для WordPress от Clearfy Pro. Я немного подредактировал ее — указал директиву Sitemap. Удалил директиву Host.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /wp-includes/*.css
Allow: /wp-includes/*.js
Allow: /wp-content/plugins/*.css
Allow: /wp-content/plugins/*.js
Allow: /*.css
Allow: /*.js
Sitemap: https://site.ru/sitemap.xml

Не могу сказать, что это лучший вариант для блогов на ВП. Но во всяком случае, он лучше, чем то, что нам предлагает Yoast SEO по умолчанию.

Расширенный Robots.txt для WordPress

Теперь посмотрим на расширенную версию Robots.txt для WordPress. Наверняка вы знаете, что все сайты на WP имеют одинаковую структуру. Одинаковые названия папок, файлов и т.д. позволяют специалистам выявить наиболее приемлемый вариант роботса.

В этой статье я хочу представить вам свой вариант Robots.txt. Его я использую как для своих сайтов, так и для клиентских. Вы могли видеть такой вариант и на других сайтах, т.к. он обладает некоторой популярностью.

Итак, правильный Robots.txt для WordPress выглядит следующим образом:

User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads   

User-agent: GoogleBot # Для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.

Ранее в Robots.txt использовалась директива Host. Она указывала главное зеркало сайта. Теперь это делается при помощи редиректа. Подробнее об этом можно почитать в блоге Яндекса.

Комментарии (текст после #) можно удалить. Указываю Sitemap с https протоколом, т.к. большинство сайтов сейчас используют защищенное соединение. Если у вас нет SSL, то измените протокол на http.

Обратите внимание на то, что я закрываю метки (теги). Делаю это потому, что они создают большое количество дублей. Это плохо сказывается на SEO, но если вы хотите открыть метки, тогда уберите строчку disallow: /tag/ из файла.

Заключение

В общем-то, вот так выглядит правильный Robots.txt для WordPress. Смело копируйте данные в файл и пользуйтесь. Отмечу, что этот вариант подходит только для стандартных информационных сайтов.

В других ситуациях может потребоваться индивидуальная проработка. На этом все. Спасибо за внимание. Буду благодарен, если вы подпишитесь на мой телеграм-канал и мою группу ВК.

Видео на десерт: Фермер Хотел Найти Воду, но То Что Случилось Удивило Весь Мир

( 29 оценок, среднее 5 из 5 )

Стандартный или — правильный Robots.txt для WordPress

Стандартный или правильный Robots.txt для WordPress

Короткий и расширенный вариант Robots.txt для WordPress. Короткий вариант Robots.txt не включает отдельные блоки для Google и Яндекса. Расширенный для Google и Яндекса уже менее актуален, т.к. теперь нет принципиальных особенностей между двумя крупными поисковиками: обеим системам нужно индексировать файлы скриптов и изображений, обе не поддерживают директиву Host.

Базовый файл robots.txt для WordPress

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.com/sitemap.xml
Sitemap: http://site.com/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.com

Расширенный вариант (правила для Google и Яндекса) Robots.txt для WordPress
User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                            # от индексирования, а удалять параметры меток, 
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.com/sitemap.xml
Sitemap: http://site.com/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.com

Оптимальный код robots.txt для WordPress

Эта версия, пожалуй, более предпочтительна по сравнению со второй, потому что тут нет опасности запретить индексацию каких либо файлов внутри ядра WordPress или папки wp-content.

User-agent: *                  # Создаем секцию правил для роботов. * значит для всех
							   # роботов. Чтобы указать секцию правил для отдельного
							   # робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /wp-admin/           # Закрываем админку.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat

# Одина или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/sitemap.xml
Sitemap: http://example.com/sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

Строгий robots.txt для WordPress

В этом варианте мы контролируем все доступы. Сначала глобально запрещаем доступ к почти всему от WP (Disallow: /wp-), а затем открываем, там где нужно. Этот код пожалуй не рекомендовал бы, потому что тут закрывается префикc wp- и в будущем, когда WP введет еще чего-нибудь, это что-нибудь может стать недоступно для роботов.

User-agent: *                  # Создаем секцию правил для роботов. * значит для всех
							   # роботов. Чтобы указать секцию правил для отдельного
							   # робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /wp-admin/           # Закрываем админку.
Disallow: /wp/                 # Каталог куда установлено ядро WP. Обычно ядро
							   # лежит рядом с wp-content и правило можно удалить.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat
Disallow: /wp-                 # Все связанное с WP - это: /wp-content /wp-admin
							   # /wp-includes /wp-json wp-login.php wp-register.php.
Allow:    */wp-*/*ajax*.php    # AJAX запросы: */admin-ajax.php */front-ajaxs.php
Allow:    */wp-sitemap         # карта сайта (главная и вложенные)
Allow:    */uploads            # открываем uploads
Allow:    */wp-*/*.js          # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.css         # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.png         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpeg        # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.gif         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.svg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.webp        # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.pdf         # файлы в плагинах, cache папке и т.д.
							   # Секция правил закончена

# Одина или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/wp-sitemap.xml
Sitemap: http://example.com/wp-sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

Разберем Директивы robots.txt

User-agent: Определяет для какого робота будет работать блок правил, который написан после этой строки. Тут возможны два варианта:

  1. User-agent: *  указывает, что правила после этой строки будут работать для всех поисковых роботов.
  2. User-agent: ИМЯ_РОБОТА  указывает конкретного робота, для которого будет работать блок правил. Например: User-agent: Yandex, User-agent: Googlebot.

Возможные роботы (боты) Яндекса:

  • YandexBot  основной индексирующий робот.
  • YandexImages  индексатор Яндекс.Картинок.
  • YandexMedia  индексирует мультимедийные данные.
  • YandexPagechecker  парсит микроразметку.
  • YandexDirect  скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, особым образом интерпретирует robots.txt.
  • Полный список роботов Яндекса.

Возможные роботы (боты) Google:

  • Googlebot  основной индексирующий робот.
  • Googlebot-Image  индексирует изображения.
  • Mediapartners-Google  робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.
  • Полный список роботов Google.Disallow:

Запрещает роботам «ходить» по ссылкам, в которых встречается указанная подстрока:

  • Disallow: /cgi-bin  закрывает каталог скриптов на сервере.
  • Disallow: *?s=  закрывает страницы поиска.
  • Disallow: */page/  закрывает все виды пагинации.

Пример добавления нового правила. Допустим нам нужно закрыть от индексации все записи в категории news. Для этого добавляем правило: Disallow: /news

Оно запретить роботам ходить по ссылками такого вида:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Если нужно закрыть любые вхождения /news, то пишем:Disallow: */news

Закроет:

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса. Имейте ввиду, что не все правила, которые описаны там, работают для Google.

В строке Allow: */uploads мы намеренно разрешаем индексировать страницы, в которых встречается /uploads. Это правило обязательно, т.к. выше мы запрещаем индексировать страницы начинающихся с /wp-, а /wp- входит в /wp-content/uploads. Поэтому, чтобы перебить правило Disallow: /wp- нужна строчка Allow: */uploads, ведь по ссылкам типа /wp-content/uploads/… у нас могут лежать картинки, которые должны индексироваться, так же там могут лежать какие-то загруженные файлы, которые незачем скрывать. Allow: может быть «до» или «после» Disallow:.

Sitemap: Правило Sitemap: http://example.com/sitemap.xml указывает роботу на файл с картой сайта в формате XML. Если у вас на сайте есть такой файл, то пропишите полный путь к нему. Таких файлов может быть несколько, тогда указываем путь к каждому отдельно.

ВАЖНО !!! Сортировка правил robots.txt

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

User-agent: * Allow: */uploads Disallow: /wp-
Будет прочитана как:  User-agent: * Disallow: /wp- Allow: */uploads

Таким образом, если проверяется ссылка вида: /wp-content/uploads/file.jpg, правило Disallow: /wp- ссылку запретит, а следующее правило Allow: */uploads её разрешит и ссылка будет доступна для сканирования.

Проверка robots.txt и документация

Проверить правильно ли работают правила можно по следующим ссылкам:

Правильный robots.txt для WordPress

Относительно того, что должно быть внутри файла robots.txt до сих пор возникает куча споров. Вообще, на мой взгляд, этот файл должен содержать две обязательные вещи:

Скрывать в нём все функциональные PHP-файлы (как делают некоторые вебмастера) я не вижу смысла. А уж страницы сайта тем более. Я проводил эксперимент со скрытием страниц через robots.txtони всё равно попали в индекс, но только без заголовка и без сниппета.

Для скрытия от индексации страниц сайта используйте метатег:

<meta name="robots" content="noindex, follow" />

Функция do_robots()

Выводит несколько директив для файла robots.txt, рекомендуемые для WordPress.

Параметров не имеет, зато имеет 1 хук и 1 фильтр.

Рассмотрим по порядку, как работает функция:

  1. В первую очередь функция устанавливает Content-Type документа на text/plain (с кодировкой UTF-8).
  2. Затем запускается экшен do_robotstxt (без параметров).
  3. Третьим шагом идёт проверка, отмечена ли галочка «Попросить поисковые системы не индексировать сайт» в настройках чтения:
  4. Если отмечена, содержимое robots.txt будет:
    User-agent: *
    Disallow: /

    Если не отмечена:

    User-agent: *
    Disallow: /wp-admin/
  5. Непосредственно перед выводом срабатывает фильтр robots_txt (WordPress 3.0+) с двумя параметрами — $output (то, что подготовлено для вывода в robots.txt) и $public (отмечена ли галочка в пункте 3).

Готовый robots.txt

К результату функции do_robots() добавим еще то, о чем я говорил в начале поста и получим вот такой robots.txt для WordPress:

User-agent: *
Disallow: /wp-admin/
 
User-agent: Yandex
Disallow: /wp-admin/
Host: truemisha.ru
 
Sitemap: https://misha.agency/sitemap.xml

Создать его вы можете при помощи любого текстового редактора. Сохраните его там же, где находятся директории wp-admin и wp-content.

Миша

Впервые познакомился с WordPress в 2009 году. Организатор и спикер на конференциях WordCamp. Преподаватель в школе Нетология.

Пишите, если нужна помощь с сайтом или разработка с нуля.

Robots.txt для WordPress

Очищая свои файлы во время последнего редизайна, я понял, что прошло уже несколько лет когда я смотрел файл robots.txt. Я думаю что это не плохо, но когда все изменения структуры сайта и контента проходят через файл robots.txt — его надо смотреть чаще.

Robots.txt за 30 секунд

Во-первых, директива disallow запрещает доступ к определенным частям вашего сайта. А директива allow — разрешает доступ поисковых пауков к определенным файлам и директориям. Поэтому, в основном они используются для того, чтобы поисковые системы (Яндекс, Гугл) могли знать что индексировать а что не при посещении вашего сайта. Вы можете задать специфику индексации в Яндексе и Гугле, а также прописать карту сайта. Robots.txt — простой текстовый файл, но он обладает значительными полномочиями. И мы можем использовать его чтобы получить большое преимущество.

Robots.txt и WordPress

Сайт под управлением WordPress, где вы показываете роботам поисковых систем какие посты и страницы вашего сайта сканировать и индексировать, но не само ядро WP — файлы и каталоги. Также, вы можете быть спокойными что фиды (feeds) и трекбеки (trackbacks) не будут учитываться в результатах поиска. Это также хорошая практика, чтобы объявить здесь карту сайта. Вот хорошая отправная точка для вашей следующей сессии WP на основе robots.txt.

Некоторые испытанные и надежные правила были удалены из robots.txt, чтобы удовлетворить новые требования Google, что все JavaScript и CSS файлы не блокируются:

Disallow: /wp-content/
Disallow: /wp-includes/

Это не может быть необходимым, разрешая доступ Гуглу и другим поисковикам к включающим в себя папки, которые содержат некоторые JS и CSS файлы, так что лучше перестраховаться. Видимо, Google настолько непреклонный в этом новом требовании, что он на самом деле наказывает сайты за их не соблюдение. Плохие новости для сотен тысяч владельцев сайтов, которые имеют более важные дела, чем идти в ногу с постоянными изменениями в Google. Обратите внимание, что это все-таки хорошо, чтобы заблокировать /wp-content/ и /wp-includes/ для других ботов — на момент написания этой статьи только Google требует доступ ко всем JS и CSS файлам.

Тем не менее, вот новые и улучшенные правила robots.txt для WordPress:

User-agent: *
Disallow: /wp-admin/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /feed/
Sitemap: https://zacompom.ru/sitemap.xml

Это технология «включай и работай», что вы можете настроить, чтобы соответствовать конкретной структуре сайта, а также в качестве собственной стратегии SEO. Чтобы использовать этот код для вашего сайта на WordPress, просто скопируйте и вставьте в пустой файл с именем robots.txt, расположенный в корневом каталоге сайта, например:

https://zacompom.ru/robots.txt

Если посмотреть на содержимое файла robots.txt для сайта zacompom.ru, вы заметите некоторые дополнительные директивы для роботов поисковых систем, которые используются, чтобы запретить доступ к индексированию некоторых плохих ботов. Давайте посмотрим:

User-agent: *
Disallow: /wp-admin/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /blackhole/
Disallow: /mint/
Disallow: /feed/
Allow: /tag/mint/
Allow: /tag/feed/
Sitemap: https://zacompom.ru/sitemap.xml

Поисковые пауки не будут заходить в папку /wp-admin/, потому что это им запрещено. А также еще и в trackback, xmlrpc, и feed — они тоже закрыты для них. Затем я добавляю несколько разрешающих директив Allow, чтобы разблокировать доступ к определенным URL-адресам, которые в противном случае запрещены существующими правилами. Я также прописываю местоположение файла sitemap, просто чтобы сделать его доступным по этому адресу.

Ранее в robots.txt

Как я уже упоминал, мой первый файл robots.txt, был без изменений в течение нескольких лет (которые просто исчезли в мгновение ока), но они были достаточно эффективны, особенно совместимым с таким пауком как Googlebot. К сожалению, он содержит язык, что лишь немногие из более крупных поисковых систем его понимают (и, следовательно, подчиняются):

User-agent: *
Disallow: /mint/
Disallow: /labs/
Disallow: /*/wp-*
Disallow: /*/feed/*
Disallow: /*/*?s=*
Disallow: /*/*.js$
Disallow: /*/*.inc$
Disallow: /transfer/
Disallow: /*/cgi-bin/*
Disallow: /*/blackhole/*
Disallow: /*/trackback/*
Disallow: /*/xmlrpc.php
Allow: /*/20*/wp-*
Allow: /press/feed/$
Allow: /press/tag/feed/$
Allow: /*/wp-content/online/*
Sitemap: https://zacompom.ru/sitemap.xml

User-agent: ia_archiver

Видимо, специальный символ в конце (знак доллара $) не распознается роботами, хотя как мне кажется Google понимает его.

Эти структуры может будут поддерживаться в будущем, но сейчас включать их впереди всех нет никаких оснований. Как в примерах приведенных выше, на основе сопоставления с шаблоном можно использовать без подстановочных знаков и знаков доллара ($) позволяет всех совместимых ботов понять Ваши предпочтения.


Навигация по записям

Юрич:

Занимаюсь созданием сайтов на WordPress более 6 лет. Ранее работал в нескольких веб-студиях и решил делиться своим опытом на данном сайте. Пишите комментарии, буду рад общению.

Не забудьте подписаться на обновления:

Похожие записи

Оставить свой комментарий

Как оптимизировать ваш WordPress Robots.txt для SEO

Недавно один из наших читателей попросил нас дать совет, как оптимизировать файл robots.txt для улучшения SEO. Файл Robots.txt сообщает поисковым системам, как сканировать ваш сайт, что делает его невероятно мощным инструментом SEO. В этой статье мы покажем вам, как создать идеальный файл robots.txt для SEO.

Использование файла robots.txt WordPress для улучшения SEO Изображение с сайта wpbeginner.com

Что такое файл robots.txt?

Robots.txt — это текстовый файл, который владельцы веб-сайтов могут создать, чтобы сообщить ботам поисковых систем, как сканировать и индексировать страницы на своем сайте.

Обычно он хранится в корневом каталоге, также известном как основная папка вашего веб-сайта. Базовый формат файла robots.txt выглядит так:

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

User-agent: [user-agent name]
Allow: [URL string to be crawled]

Sitemap: [URL of your XML Sitemap]

У вас может быть несколько строк инструкций, чтобы разрешить или запретить определенные URL-адреса и добавить несколько карт сайта. Если вы не запрещаете URL-адрес, роботы поисковых систем предполагают, что им разрешено сканировать его.

Вот как может выглядеть файл примера robots.txt:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/

Sitemap: https://example.com/sitemap_index.xml

В приведенном выше примере robots.txt мы разрешили поисковым системам сканировать и индексировать файлы в нашей папке загрузок WordPress.

После этого мы запретили поисковым роботам сканировать и индексировать плагины и папки администратора WordPress.

Наконец, мы предоставили URL-адрес нашей XML-карты сайта.

Вам нужен файл Robots.txt для вашего сайта WordPress?

Если у вас нет файла robots.txt, поисковые системы все равно будут сканировать и индексировать ваш сайт. Однако вы не сможете указать поисковым системам, какие страницы или папки им не следует сканировать.

Это не окажет большого влияния, если вы впервые создаете блог и у вас мало контента.

Однако по мере того, как ваш веб-сайт растет и у вас появляется много контента, вы, вероятно, захотите лучше контролировать то, как ваш сайт сканируется и индексируется.

Вот почему.

У поисковых роботов есть квота сканирования для каждого веб-сайта.

Это означает, что они сканируют определенное количество страниц во время сеанса сканирования. Если они не завершат сканирование всех страниц вашего сайта, они вернутся и возобновят сканирование в следующем сеансе.

Это может снизить скорость индексации вашего сайта.

Вы можете исправить это, запретив поисковым роботам пытаться сканировать ненужные страницы, такие как ваши административные страницы WordPress, файлы плагинов и папку тем.

Запрещая использование ненужных страниц, вы сохраняете квоту на сканирование. Это помогает поисковым системам сканировать еще больше страниц на вашем сайте и как можно быстрее их индексировать.

Еще одна веская причина использовать файл robots.txt — это когда вы хотите, чтобы поисковые системы не индексировали сообщение или страницу на вашем веб-сайте.

Это не самый безопасный способ скрыть контент от широкой публики, но он поможет вам предотвратить их появление в результатах поиска.

Как должен выглядеть идеальный файл Robots.txt?

Многие популярные блоги используют очень простой файл robots.txt. Их содержание может варьироваться в зависимости от потребностей конкретного сайта:

User-agent: *
Disallow:

Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml

Этот файл robots.txt позволяет всем ботам индексировать весь контент и предоставляет им ссылку на XML-карту сайта веб-сайта.

Для сайтов WordPress мы рекомендуем следующие правила в файле robots.txt:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/

Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml

Это указывает поисковым роботам индексировать все изображения и файлы WordPress. Он запрещает поисковым роботам индексировать файлы плагинов WordPress, админку WordPress, файл readme WordPress и партнерские ссылки.

Добавляя карты сайта в файл robots.txt, вы упрощаете роботам Google поиск всех страниц на вашем сайте.

Теперь, когда вы знаете, как выглядит идеальный файл robots.txt, давайте посмотрим, как создать файл robots.txt в WordPress.

Как создать файл Robots.txt в WordPress?

Есть два способа создать файл robots.txt в WordPress. Вы можете выбрать наиболее подходящий для вас метод.

Метод 1: редактирование файла Robots.txt с помощью Yoast SEO

Если вы используете плагин Yoast SEO, он поставляется с генератором файлов robots.txt.

Вы можете использовать его для создания и редактирования файла robots.txt прямо из админки WordPress.

Просто перейдите на страницу SEO »Инструменты в админке WordPress и нажмите ссылку« Редактор файлов ».

Инструмент редактора файлов в Yoast SEO Изображение с сайта wpbeginner.com

На следующей странице Yoast SEO покажет существующий файл robots.txt.

Если у вас нет файла robots.txt, Yoast SEO создаст для вас файл robots.txt.

Создайте файл robots.txt с помощью Yoast SEO Изображение с сайта wpbeginner.com

По умолчанию генератор файлов robots.txt Yoast SEO добавляет в файл robots.txt следующие правила:

User-agent: *
Disallow: /

Важно удалить этот текст, потому что он блокирует сканирование вашего сайта всеми поисковыми системами.

После удаления текста по умолчанию вы можете продолжить и добавить свои собственные правила robots.txt. Мы рекомендуем использовать идеальный формат robots.txt, о котором мы рассказали выше.

Когда вы закончите, не забудьте нажать кнопку «Сохранить файл robots.txt», чтобы сохранить изменения.

Метод 2. Отредактируйте файл Robots.txt вручную с помощью FTP.

Для этого метода вам нужно будет использовать FTP-клиент для редактирования файла robots.txt.

Просто подключитесь к своей учетной записи хостинга WordPress с помощью FTP-клиента.

Оказавшись внутри, вы сможете увидеть файл robots.txt в корневой папке вашего сайта.

Редактирование файла robots.txt WordPress с помощью FTP Изображение с сайта wpbeginner.com

Если вы его не видите, скорее всего, у вас нет файла robots.txt. В этом случае вы можете просто создать его.

Создайте файл robots.txt с помощью FTP Изображение с сайта wpbeginner.com

Robots.txt — это простой текстовый файл, что означает, что вы можете загрузить его на свой компьютер и отредактировать с помощью любого текстового редактора, такого как Блокнот или TextEdit.

После сохранения изменений вы можете загрузить их обратно в корневую папку вашего сайта.

Как проверить свой файл Robots.txt?

После создания файла robots.txt всегда рекомендуется протестировать его с помощью инструмента тестирования robots.txt.

Существует множество инструментов для тестирования robots.txt, но мы рекомендуем использовать тот, который находится в консоли поиска Google.

Просто войдите в свою учетную запись Google Search Console, а затем переключитесь на старый сайт поисковой консоли Google.

Перейти на старую консоль поиска Google Изображение с сайта wpbeginner.com

Вы перейдете к старому интерфейсу Google Search Console. Отсюда вам нужно запустить тестер robots.txt, расположенный в меню «Сканирование».

Инструмент тестера robots.txt Изображение с сайта wpbeginner.com

Инструмент автоматически загрузит файл robots.txt с вашего сайта и выделит ошибки и предупреждения, если они обнаружены.

Последние мысли

Цель оптимизации файла robots.txt — запретить поисковым системам сканировать страницы, которые не являются общедоступными. Например, страницы в папке wp-plugins или страницы в папке администратора WordPress.

Среди экспертов по SEO распространен миф о том, что блокировка категорий, тегов и архивных страниц WordPress улучшит скорость сканирования и приведет к более быстрой индексации и повышению рейтинга.

Это неправда. Это также противоречит рекомендациям Google для веб-мастеров.

Мы рекомендуем использовать указанный выше формат robots.txt, чтобы создать файл robots.txt для своего веб-сайта.

Мы надеемся, что эта статья помогла вам узнать, как оптимизировать файл robots.txt WordPress для SEO. Вы также можете ознакомиться с нашим полным руководством по SEO для WordPress и лучшими инструментами WordPress для SEO для развития вашего сайта.

Robots.txt и WordPress — Центр поддержки

Поддержание поисковой оптимизации вашего сайта (SEO) имеет решающее значение для привлечения органического трафика. Однако есть некоторые страницы, такие как повторяющийся контент или промежуточные области, которые вы не хотите, чтобы пользователи находили через поисковые системы. К счастью, есть способ запретить поисковым системам, таким как Google, доступ к определенным страницам и их отображение пользователям. Редактируя файл robots.txt вашего сайта, вы можете контролировать, какой контент отображается на страницах результатов поисковой системы (SERP).

По умолчанию WP Engine ограничивает трафик поисковых систем любым сайтом, использующим домен среды .wpengine.com . Это означает, что поисковые системы не смогут посещать сайты , а не , которые в настоящее время находятся в разработке, используя пользовательский домен.


О

Robots.txt

Файл robots.txt содержит инструкции для поисковых систем о том, как обнаруживать и извлекать информацию с вашего веб-сайта. Этот процесс называется «сканированием».После сканирования страницы она будет проиндексирована, чтобы поисковая система могла быстро найти и отобразить ее позже.

Первое, что делает краулер поисковой системы, когда он достигает сайта, это ищет файл robots.txt . Если его нет, он продолжит сканирование остальной части сайта в обычном режиме. Если он найдет этот файл, сканер будет искать в нем какие-либо команды, прежде чем двигаться дальше.

В файле robots.txt есть четыре общие команды:

  • Запретить запрещает сканерам поисковых систем проверять и индексировать указанные файлы сайта.Это может помочь вам предотвратить появление дублированного контента, промежуточных областей или других личных файлов в поисковой выдаче.
  • Разрешить разрешает доступ к подпапкам, в то время как родительские папки запрещены.
  • Crawl-delay предписывает сканерам ждать определенное время перед загрузкой файла.
  • Карта сайта указывает местоположение любых карт сайта, связанных с вашим сайтом.

Файлы robots.txt всегда форматируются одинаково, чтобы их директивы были понятны:

Каждая директива начинается с идентификации пользовательского агента , который обычно является поисковым роботом.Если вы хотите, чтобы команда применялась ко всем потенциальным пользовательским агентам, вы можете использовать звездочку * . Вместо этого, чтобы настроить таргетинг на определенный пользовательский агент, вы можете добавить его имя. Например, мы могли бы заменить звездочку выше на Googlebot , чтобы Google не сканировал страницу администратора.

Очень важно знать, как использовать и редактировать файл robots.txt . Директивы, которые вы включите в него, будут определять, как поисковые системы взаимодействуют с вашим сайтом. Они могут помочь вам, скрывая контент, от которого вы хотите отвлечь пользователей, что принесет пользу вашему сайту в целом.


Проверка файла

Robots.txt

Вы можете проверить, есть ли у вас файл robots.txt , добавив /robots.txt в конец URL вашего сайта в браузере (пример: https://wpengine.com/robots.txt ). Это вызовет файл, если он существует. Однако то, что ваш файл есть, не обязательно означает, что он работает правильно.

К счастью, проверить файл robots.txt несложно. Вы можете просто скопировать и вставить файл в файл robots.текстовый тестер. Инструмент выделит любые ошибки в файле. Важно отметить, что изменения, внесенные вами в редакторе тестировщика robots.txt , не будут применяться к фактическому файлу — вам все равно придется редактировать файл на своем сервере.

Некоторые распространенные ошибки включают запрет файлов CSS или JavaScript, неправильное использование подстановочных знаков, таких как * и $ , и случайное запрещение важных страниц. Также важно помнить, что сканеры поисковых систем чувствительны к регистру, поэтому все URL-адреса в вашем файле robots.txt должен отображаться так же, как и в вашем браузере.


Создать файл

Robots.txt с подключаемым модулем

Если на вашем сайте отсутствует файл robots.txt , вы можете легко добавить его в WordPress с помощью плагина Yoast SEO. Это избавит вас от необходимости создавать обычный текстовый файл и загружать его на сервер вручную. Если вы предпочитаете создавать его вручную, перейдите к разделу «Создание файла Robots.txt вручную» ниже.

Перейдите к SEO-инструментам Yoast

Для начала вам необходимо установить и активировать плагин Yoast SEO.Затем вы можете перейти на панель администратора WordPress и выбрать SEO > Инструменты на боковой панели :

.

Это приведет вас к списку полезных инструментов, к которым пользователи Yoast могут получить доступ для эффективного улучшения своей SEO.

Используйте редактор файлов для создания файла

Robots.txt

Одним из инструментов, доступных в списке, является редактор файлов. Это позволяет вам редактировать файлы, связанные с SEO вашего веб-сайта, включая файл robots.txt :

.

Поскольку на вашем сайте его еще нет, вам нужно выбрать Создать робота.файл txt :

Вы попадете в редактор файлов, где сможете отредактировать и сохранить новый файл.

Отредактируйте файл по умолчанию

Robots.txt и сохраните его

По умолчанию новый файл robots.txt , созданный с помощью Yoast, включает директиву, чтобы скрыть вашу папку wp-admin и разрешить доступ к вашему файлу admin-ajax.php для всех пользовательских агентов. Рекомендуется оставить эту директиву в файле:

Перед сохранением файла вы также можете добавить любые другие директивы, которые хотите включить.В этом примере мы запретили сканерам Bing доступ ко всем нашим файлам, добавили задержку сканирования в десять миллисекунд для сканера Yahoo Slurp и направили сканеры к местоположению нашей карты сайта. Когда вы закончите вносить свои собственные изменения, не забудьте их сохранить!


Руководство

Robots.txt Создание файла

Если вам нужно создать файл robots.txt вручную, этот процесс так же прост, как создание и загрузка файла на ваш сервер.

  1. Создайте файл с именем robots.txt
    • Убедитесь, что имя написано строчными буквами
    • Убедитесь, что расширение .txt , а не .html
  2. Добавьте в файл любые необходимые директивы, используя Upgrade или сохраните
  3. 5 900 Шлюз SSH к корневому каталогу вашего сайта

Если в корне вашего сайта есть физический файл с именем robots.txt , он перезапишет любой динамически сгенерированный файл robots.txt , созданный плагином или темой.


Использование файла robots.txt

Файл robots.txt разбит на блоки агентом пользователя. Внутри блока каждая директива указана с новой строки. Например:

 Агент пользователя: *
Запретить: /
Агент пользователя: Googlebot
Запретить:
Агент пользователя: bingbot
Запретить: /no-bing-crawl/
Запретить: wp-admin 

Пользовательские агенты обычно сокращаются до более общего имени, но это не требуется .

Значения директив чувствительны к регистру.

  • URL-адреса no-bing-crawl и No-Bing-Crawl разные .

Подстановка и регулярные выражения не полностью поддерживаются.

  • * в поле User-agent — это специальное значение, означающее «любой робот».

Ограничить доступ всех ботов к вашему сайту

(Все сайты в среде URL-адрес .wpengine.com имеют следующие файлы robots.txt применяется автоматически.)

 Агент пользователя: *
Запретить: /

Запретить использование одного робота со всей площадки

 Агент пользователя: BadBotName
Запретить: /

Ограничить доступ бота к определенным каталогам и файлам

Пример запрещает ботам на всех страницах wp-admin и на странице wp-login.php . Это хороший файл по умолчанию или начальный файл robots.txt .

 Агент пользователя: *
Запретить: /wp-admin/
Запретить: /wp-логин.PHP 

Ограничить доступ бота ко всем файлам определенного типа

Пример использует тип файла .pdf

 Агент пользователя: *
Запретить:  /*.pdf$ 

Ограничение конкретной поисковой системы

Пример использования Googlebot-Image в каталог /wp-content/ загрузок

 Агент пользователя: Googlebot-Image
Запретить: /wp-content/uploads/ 

Ограничить всех ботов, кроме одного

Пример позволяет использовать только Google

 Агент пользователя: Google
Запретить:

Пользовательский агент: *
Запретить: /

Добавление правильных комбинаций директив может быть затруднено.К счастью, есть плагины, которые также создадут (и протестируют) файл robots.txt для вас. Примеры плагинов включают:

Если вам нужна дополнительная помощь по настройке правил в файле robots.txt, мы рекомендуем посетить Google Developers или The Web Robots Pages для получения дополнительных инструкций.


Задержка сканирования

Если вы видите слишком высокий трафик ботов и это влияет на производительность сервера, задержка сканирования может быть хорошим вариантом. Задержка сканирования позволяет ограничить время, которое должно пройти боту перед сканированием следующей страницы.

Чтобы настроить задержку сканирования, используйте следующую директиву, значение настраивается и обозначается в секундах:

 задержка сканирования: 10 

Например, чтобы запретить всем ботам сканировать wp-admin , wp-login.php и установить задержку сканирования для всех ботов в 600 секунд (10 минут):

 Агент пользователя: *
Запретить: /wp-login.php
Запретить: /wp-admin/
Задержка обхода: 600 

У служб сканирования могут быть собственные требования для установки задержки сканирования. Как правило, лучше всего напрямую связаться со службой для получения требуемого метода.

Настройка задержки сканирования для SEMrush

  • SEMrush — отличный сервис, но он может сильно сканировать, что в конечном итоге снижает производительность вашего сайта. По умолчанию боты SEMrush будут игнорировать директивы о задержке сканирования в файле robots.txt, поэтому обязательно войдите в свою панель управления и включите параметр Уважать задержку сканирования robots.txt .
  • Дополнительную информацию о SEMrush можно найти здесь.

Настройка задержки сканирования Bingbot

  • Bingbot должен соблюдать директивы crawl-delay , однако они также позволяют установить шаблон управления сканированием.

Настройка задержки сканирования для Google

Подробнее читайте в документации службы поддержки Google)

Откройте страницу настроек скорости сканирования для вашего ресурса.

  • Если ваша скорость сканирования описана как и рассчитана как оптимальная , единственный способ снизить скорость сканирования — это подать специальный запрос. Вы не можете увеличить скорость сканирования.
  • В противном случае выберите нужный вариант, а затем ограничьте скорость сканирования по желанию.Новая скорость сканирования будет действовать в течение 90 дней.

Хотя эта конфигурация запрещена на нашей платформе, стоит отметить, что Задержка сканирования Googlebot не может быть настроена для сайтов, размещенных в подкаталогах, таких как domain.com/blog .


Передовой опыт

Первое, о чем следует помнить, это следующее: нерабочие сайты должны запрещать все пользовательские агенты. WP Engine автоматически делает это для любых сайтов, использующих имя среды .домен wpengine.com . Только когда вы будете готовы «запустить» свой сайт, вы должны добавить файл robots.txt .

Во-вторых, если вы хотите заблокировать определенного User-Agent, помните, что роботы не обязаны следовать правилам, установленным в вашем файле robots.txt . Лучшей практикой будет использование брандмауэра, такого как Sucuri WAF или Cloudflare, который позволяет блокировать злоумышленников до того, как они попадут на ваш сайт. Или вы можете обратиться в службу поддержки за дополнительной помощью по блокировке трафика.

Наконец, если у вас очень большая библиотека постов и страниц на вашем сайте, Google и другие поисковые системы, индексирующие ваш сайт, могут вызвать проблемы с производительностью.Увеличение срока действия кэша или ограничение скорости обхода поможет компенсировать это влияние.


СЛЕДУЮЩИЙ ШАГ: Диагностика ошибок 504

Как оптимизировать ваш WordPress Robots.txt (расширенные руководства)

Возможно, многие из вас слышали о файле robots.txt, но знаете ли вы, где он находится и как выглядит? Самое главное, знаете ли вы, как оптимизировать файл robot.txt WordPress для повышения SEO?

В этой статье мы рассмотрим эти вопросы, чтобы дать вам правильное и ясное представление о роботах WordPress.текстовый файл. Оттуда вы можете использовать файл, чтобы повысить свою видимость в Интернете в поисковой выдаче или скрыть конфиденциальный контент от посторонних глаз.

Мы начнем с расположения robots.txt, его примеров, выделим способы редактирования файла, а затем завершим этот пост дополнительными советами по оптимизации WordPress robots.txt.

Давайте погрузимся!

Где находится WordPress robots.txt?

Файл robots.txt находится в корневой папке вашего веб-сайта. Его основная обязанность — направлять поисковых роботов в том, как сканировать и индексировать ваш сайт.В частности, он запрещает поисковым системам доступ к определенным файлам и папкам.

Многие владельцы сайтов WordPress используют файл robots.txt, чтобы препятствовать поисковой индексации . Это звучит нелогично, верно? Учитывая тот факт, что SEO или получение первой позиции в поисковой выдаче играет решающую роль в успехе онлайн-бизнеса.

Тем не менее, если ваш сайт находится в режиме разработки или содержит низкокачественный или личный контент, robot.txt оказывается удобным для обхода блоков и индексации этого контента.Отсюда вы можете оптимизировать файл WordPress robots.txt, чтобы расставить приоритеты для ваших основных целевых страниц, таких как страницы продаж, страницы продуктов или спонсируемые сообщения.

Кроме того, вы также можете оптимизировать квоту сканирования . Квота сканирования или бюджет сканирования — это количество страниц на вашем сайте WordPress, которые роботы Google сканируют в любой момент времени. Разрешив вашим важным страницам сканировать бюджет, вы сможете быстро проиндексировать их и занять первое место в результатах поиска.

Однако помните об оптимизации robots.txt, так как это может повредить вашему SEO, если все сделано плохо.

WordPress Robots.txt Пример

Вы можете просмотреть файл robots.txt любого веб-сайта, добавив /robots.txt в конце доменного имени. Таким образом, файл robots.txt будет выглядеть примерно так.

Пользовательский агент в файле robots.txt — это поисковая система, которая читает файл robots.txt. Если в user-agent отмечен звездочкой, это значит, что он дает зеленый свет всем поисковым системам.

В файлах robots.txt разрешает и запрещает сообщает ботам, какие страницы и контент они могут и не могут сканировать. Как видите, мы разрешили поисковым системам сканировать и индексировать файлы в нашем admin-ajax WordPress и запретили доступ к плагинам и папкам администратора.

Карта сайта — это XML-файл, содержащий список и сведения обо всех страницах вашего веб-сайта.

Как редактировать robots.txt в WordPress?

Самый простой способ редактирования robots.txt в WordPress использует плагины. Существует несколько надежных SEO-плагинов, которые отлично помогают редактировать файл robots.txt, All in one SEO, YoastSEO, RankMath и т. д., и это лишь некоторые из них.

Кроме того, вы также можете обратиться за помощью к плагинам, разработанным исключительно для оптимизации файла WordPress robots.txt, таким как Virtual Robots.txt, оптимизация WordPress Robots.txt и многим другим.

Кроме того, вы можете отредактировать файл вручную через FTP-клиент.Во-первых, вам нужно подключить хостинг-провайдера WordPress с помощью FTP-клиента. После этого найдите файл robots.txt в корневом каталоге вашего сайта.

Если вы не видите там файл robot.txt, скорее всего, его нет на вашем сайте. Не волнуйтесь, просто создайте новый. Щелкните правой кнопкой мыши и выберите «Создать новый файл», затем загрузите его на рабочий стол. Robots.txt — это обычный текстовый файл, то есть вы можете загружать и редактировать его, как и другие файлы, с помощью текстовых редакторов, таких как Wordpad или Блокнот.

После этого обновите свои изменения, снова загрузите отредактированный файл robots.txt в корневую папку, и все готово.

Проверьте файл robots.txt

Вам необходимо убедиться, что ваш файл robot.txt работает нормально после редактирования. Если возникают какие-либо ошибки, это может привести к тому, что ваш сайт будет исключен из страниц результатов поиска.

Среди множества инструментов для тестирования robots.txt мы рекомендуем вам использовать Google Search Console, чтобы вы могли протестировать своих роботов.txt файл бесплатно.

Убедитесь, что вы уже отправили URL своего веб-сайта в Google Search Console, чтобы инструмент подтвердил вашу аутентификацию. Если нет, ознакомьтесь с нашим руководством о том, как отправить свой сайт в поисковые системы.

Тогда вы можете использовать инструмент тестирования роботов Google Search Console. Как только вы выбираете свойство в раскрывающемся меню, инструмент сразу же просматривает файл, а затем уведомляет вас, если есть какие-либо ошибки и предупреждения.

Более того, этот инструмент позволяет вам войти на определенную страницу вашего сайта, а затем выбрать определенный пользовательский агент, чтобы проверить, заблокирована ли индексация этой страницы или разрешена ли индексация.

Вы можете отредактировать файл непосредственно в инструменте и повторно запустить тест. Однако фактический файл по-прежнему остается неизменным. Возможно, вам придется скопировать издание и вставить его в реальный файл и сохранить его там.

Как оптимизировать файл WordPress Robots.txt для SEO

Настоятельно рекомендуется выборочно запретить доступ к некоторым вашим конфиденциальным страницам, таким как /wp-admin/ , /wp-content/plugins/ , /trackback/ и /readme.html , а остальные остаются «разрешить».

Более того, вы можете оптимизировать файл robots.txt WordPress, добавив в него карту сайта. Хотя WordPress предоставляет собственную карту сайта, вы можете использовать SEO-плагины, такие как YoastSEO или All in One SEO, чтобы создать свою собственную карту. Они дают вам возможность создавать отдельные карты сайта для сообщений и страниц.

В этот момент добавление этих карт сайта в файл robots.txt ускорит и упростит сканирование ботами.

Кроме того, несмотря на идею оптимизации, настоятельно рекомендуется не переделывать и не редактировать robots.текстовый файл. Это связано с тем, что слишком много изменений в файле может повредить структуру вашей страницы и не информировать ботов о предотвращении сканирования вашего сайта.

Итак, чем меньше, тем лучше. Вам просто нужно сосредоточиться на своей карте сайта и сначала обнаружить свои главные страницы.

Повысьте свою видимость в Интернете прямо сейчас!

Robots.txt — это важный файл, позволяющий стратегически оптимизировать квоту сканирования и скрыть частное содержимое от индексации поиска.

Эта статья показала вам, что такое robots.txt, где его найти, а также как редактировать файл. Мы также представили вам, как оптимизировать файл robots.txt WordPress для SEO. Дело в том, что чем меньше редакция в robots.txt, тем лучше. И не забудьте добавить в файл пользовательскую карту сайта, чтобы улучшить видимость вашей ключевой страницы.

Чего ты ждешь? Повысьте свою видимость в Интернете с помощью файла robot.txt прямо сейчас!

Учебное пособие по файлу Txt для робота для веб-сайта WordPress

Текстовый файл robots, более известный как robots.txt — это давний веб-стандарт, который помогает предотвратить доступ Google и других поисковых систем к частям вашего сайта.

Почему вы хотите заблокировать доступ Google к частям вашего сайта? Одной из важных причин является предотвращение индексации Google страниц на вашем сайте, которые являются дубликатами страниц на других сайтах, таких как страницы WordPress по умолчанию. Google наказывает сайты с дублирующимся контентом.

Еще одна важная причина — запретить Google ссылаться на незащищенный премиум-контент на вашем веб-сайте.Например, может быть, вы раздаете бесплатную электронную книгу людям, которые подписаны на ваш список рассылки. Вы не хотите, чтобы Google напрямую ссылался на эту электронную книгу, поэтому вы используете текстовый файл робота, чтобы предотвратить его индексацию Google.

Например, электронные книги могут храниться в папке в корневом домене с именем PDF. Это то, что вы сделали бы, чтобы заблокировать все поисковые системы.

Агент пользователя: *
Запретить: /PDF/

С другой стороны, если вы хотите, чтобы ваша бесплатная книга стала вирусной, не блокируйте доступ поисковых систем к книге.

Некоторым людям также нравится запрещать Google использовать их изображения в поиске Google или загружать большие файлы.

Кроме того, если у вас есть сайт WordPress с большим авторитетом, Google может загружать одну и ту же страницу под несколькими разными именами, используя большую часть вашей пропускной способности и вычислительной мощности вашего веб-сервера. Специальные шаблоны текстовых файлов роботов могут указывать Google на доступ к страницам только один раз.

Наконец, вы можете сообщить Google о своей XML-карте или текстовой карте сайта с помощью файла robots.txt, поэтому он индексирует новые страницы на вашем сайте намного быстрее, чем просто ждет повторного сканирования вашего сайта.

Основы Txt-файла робота

Текстовый файл робота — это необязательный файл в корневом каталоге веб-сайта. Поскольку вы читаете это, я предполагаю, что у вас есть веб-сайт. Найдите минутку, чтобы узнать, есть ли у вас текстовый файл робота, перейдя по следующему URL-адресу: http://example.com/robots.txt

(Замените example.com своим доменным именем.)

Вот мой: Обратите внимание, работа еще не завершена.Недавно я изменил свою тему WordPress, что также потребовало от меня некоторого редактирования текстового файла робота.

Учебное пособие по файлу Txt для робота для веб-сайта WordPress

Вы должны быть осторожны при редактировании этого файла, так как вы легко можете ошибиться и заблокировать доступ поисковых систем к вашему сайту.

Если вы получаете сообщение об ошибке 404 File Not Found, у вас нет текстового файла robot. В противном случае вы увидите простой текстовый файл со строками, помеченными как User-Agent, Allow, Disallow и Sitemap, а также пустые строки и строки комментариев («#»).

Что означают элементы в текстовом файле робота

• User-Agent означает пользовательский агент веб-браузера, посещающего ваш сайт. Текстовый файл robot предназначен только для роботов, также называемых пауками, которые сканируют ваш веб-сайт в поисках поисковых систем и других автоматизированных онлайн-инструментов. Поисковый робот Google называется Googlebot, хотя у Google также есть несколько других роботов для других поисковых инструментов.

• Разрешить сообщает роботам, что им разрешено посещать URL-адреса, содержащие определенный путь. Большинство текстовых файлов роботов сообщают роботам, что корневой путь («/») подходит для сканирования.

• Disallow сообщает роботам, куда им нельзя идти. Большая часть вашего времени на редактирование файла robots.txt будет потрачена на создание строк запрета.

• Карта сайта указывает на карту вашего сайта (или на несколько карт сайта, если у вас большой сайт). Для этого вам нужна карта сайта, для чего требуется что-то вроде плагина WordPress XML Sitemap Generator.

Получение текстового файла вашего робота в WordPress

Следующие инструкции будут работать, только если вы используете WordPress для управления корневым каталогом вашего веб-сайта.Это означает, что на главной странице вашего блога нет слов после имени домена.

Например, если ваша главная страница WordPress — http://example.com/, то WordPress, вероятно, управляет вашим файлом robots.txt. Но если ваша главная страница WordPress — http://example.com/blog, то WordPress, вероятно, не управляет вашим файлом robots.txt, и вам придется работать с ним напрямую, используя FTP-загрузку.

По умолчанию WordPress создает ограничительный файл robots.txt, если вы используете настройки WordPress, чтобы пометить свой блог как частный.У большинства людей есть общедоступные сайты, поэтому текстовый файл робота WordPress по умолчанию пуст.

Некоторые компании, предоставляющие хостинг веб-сайтов, предоставляют текстовый файл робота по умолчанию для WordPress, особенно если вы использовали установку WordPress в один клик. Если это так, вам может потребоваться отредактировать файл robots.txt также с помощью FTP-загрузки.

Но если ничего из вышеперечисленного не так, возможно, WordPress сгенерирует для вас файл robots.txt.

Robots.txt Плагины WordPress

Некоторые SEO-плагины могут генерировать файл robots.текстовый файл. Я бы с осторожностью использовал их, если вы делаете что-то помимо ведения блога на своем сайте, потому что они могут помешать Google индексировать законные страницы. Это может быть одна из тех глупых ошибок, из-за которых рейтинг вашего сайта быстро падает.

Другим подключаемым модулем, который автоматически создает текстовый файл робота, является XML Sitemap Generator. Он ничего не блокирует и не разрешает — он просто включает строку Sitemap, чтобы сообщить Google и другим поисковым системам, где найти вашу карту сайта.

Например:

Карта сайта: http://tips4pc.com/sitemap.xml

Существует также очень старый плагин WordPress, который позволяет вам редактировать текстовый файл вашего робота из WordPress. Я не использовал этот плагин, поэтому не знаю, работает ли он до сих пор.

Старомодный редактор файлов Robots.Txt

Если вам нужен собственный текстовый файл для робота, вы можете создать его по старинке. Откройте Блокнот Windows, Mac OSX TextEdit или vi или emacs для Linux. Введите следующий текст:

Агент пользователя: *
Разрешить: /

Приведенный выше пример файла указывает роботам действовать точно так же, как если бы у вас не было текстового файла робота, поэтому он ничего не сломает на вашем сайте.Сохраните файл как robots.txt и загрузите его в корневой каталог вашего веб-сервера с помощью FTP-инструмента или онлайн-менеджера файлов вашей веб-хостинговой компании.

(Корневой каталог — это тот же каталог, куда вы добавляете файл кода подтверждения веб-сайта Google, если вы делали это раньше.)

После того, как файл загружен, используйте свой веб-браузер, чтобы посетить http://example.com/robots.txt (но вместо этого используйте свой домен). Вы должны увидеть файл, который вы только что загрузили. Если вы этого не сделаете, вам нужно будет обратиться за помощью к вашей хостинговой компании.

Что поместить в текстовый файл вашего робота WordPress

Текстовый файл вашего робота может быть таким же простым, как в приведенном выше примере, или намного сложнее. В общем, вы хотите заблокировать следующее:

• Каталоги входа и справки WordPress, которые начинаются с wp. Поместите этот код в «разрешить: /»

Запретить: /wp-*

• Приведенный выше пример укажет Google не индексировать каталог загрузки WordPress, в котором вы храните свои изображения. Если вы хотите, чтобы ваши изображения отображались в поиске изображений Google и Bing, добавьте следующий код:

.

Разрешить: /wp-content/uploads

• Если Google попытается проиндексировать обратную связь, он просто получит страницу с ошибкой, поэтому добавьте также этот код:

Запретить: */трекбек

• Если вы используете Google Adsense, рекомендуется использовать эту строку, чтобы разрешить Google сканировать весь контент, чтобы они могли показывать целевую рекламу.

Агент пользователя: Mediapartners-Google*
Разрешить: /

Эти простые команды текстового файла для роботов должны охватывать наиболее важные части вашего сайта, но если вам нужны дополнительные идеи, перейдите на свой любимый веб-сайт на базе WordPress и просмотрите их файл robots.txt.

Другие технические статьи от Business 2 Community:

Полный обзор WordPress Robots.txt — как его использовать? — BionicWP

Прежде чем начать останавливаться на термине Роботы.txt WordPress , нам нужно понимать довольно обширный термин, то есть робот. В мире Интернета это слово используется в контексте любого вида «бота», который посещает веб-сайты.

Вы можете рассмотреть пример поисковых роботов Google, которые бродят по сети и помогают Google индексировать миллиарды веб-страниц с огромного количества веб-сайтов по всему миру.

Боты — это удобный инструмент, который довольно эффективно заменяет рабочую силу, необходимую для выполнения их задач. Их можно назвать «цифровыми помощниками».Они имеют решающее значение для существования интернет-структуры и ее надлежащего функционирования.

Однако, если вы являетесь владельцем веб-сайта, вы не хотите, чтобы эти мошенники бродили по вашему веб-сайту для проверки качества. Вы хотите контролировать внешний вид и статистику вашего веб-сайта. Это непростой бизнес, который породил стандарт исключения роботов в конце 90-х.

Теперь, переходя к нашему предметному термину, т. е. к файлу Robots.txt, вы можете назвать его реализацией вышеупомянутого стандарта.С помощью файла WordPress Robots.txt вы можете контролировать, как эти боты перемещаются по веб-страницам.

Используя этот файл, вы можете регулировать и даже прекращать участие ботов на вашем сайте. Да, это стоит за той человеческой проверкой на многих веб-сайтах, которые вы так ненавидите, — тайна раскрыта.

Однако регулирование участия ботов не так просто контролировать. Боты «злых гениев» могут легко обойти файл robots.txt и все равно попасть на ваш сайт. И как только они вошли, их нельзя заставить взаимодействовать так, как вы хотите, даже с помощью роботов.текст.

Кроме того, многие крупные предприятия не осознают преимущества добавления команд в robots.txt, которые даже не распознаются Google. Примите во внимание любые правила относительно количества ботов, которые могут войти на ваш сайт, и он не будет скомпрометирован. Однако, если вы все еще не можете справиться с этими вредными существами, вы можете воспользоваться онлайн-средством, доступным в Интернете.

Полное руководство по оптимизации WordPress Robots.txt для SEO

Для того, чтобы ваш сайт быстро индексировался, оптимизировался для SEO и улучшал рейтинг на странице результатов поиска SERP, прежде всего, вам необходимо создать технических роботов.txt-файл для WordPress. Файл Robots.txt иллюстрирует, как сканировать и настраивать индексный сайт, что делает его чрезвычайно мощным инструментом SEO. Следовательно, в этой статье мы предложим полное руководство по улучшению WordPress robots.txt для SEO.

Что такое WordPress Robots.txt?

Это текстовый файл в корневой папке веб-сайта, содержащий инструкции для поисковой системы, для которых можно индексировать страницы.

Если вы уже знакомились с рабочим процессом поисковых систем, вы знаете, что на этапе сканирования и индексации веб-браузеры пытаются найти общедоступные страницы в Интернете, которые они могут включить в свой индекс.

Первое, что делает веб-браузер при посещении веб-сайта, — это находит и проверяет содержимое файла robots.txt. В зависимости от правил, указанных в файле, они создают список URL-адресов, которые можно просканировать, а затем специально проиндексировать для сайта.

Зачем нужно создавать файл robots.txt для WordPress?

Есть много случаев, когда ботам поисковых систем запрещается или ограничивается «сканирование» вашего веб-сайта:

Содержимое недействительно и дублируется

На самом деле на вашем веб-сайте отображается много другой информации, такой как файлы настройки системы, плагины WordPress и т. д.

Эта информация не представляет ценности для пользователя. Более того, есть несколько ситуаций, когда содержимое сайта дублируется. Если контент все еще проиндексирован, это разбавит веб-сайт, снизив фактическое качество контента веб-сайта.

Подстраницы для настройки и тестирования веб-сайта

В этом случае, возможно, при создании нового веб-сайта WordPress, вы не завершили процесс проектирования и настройки веб-сайта, как правило, не готовы для пользователя, вам необходимо принять меры для предотвращения «сканирования» и проверки ботами поисковых систем их веб-сайт.

Не только это, но и некоторые веб-сайты также имеют множество подстраниц, которые используются только для тестирования функций и дизайна веб-сайта, предоставление пользователям доступа к таким сайтам повлияет на качество веб-сайта и профессионализм вашей компании.

Веб-сайт большого объема загружается долго

Боты каждой поисковой системы имеют ограниченную возможность «сканирования» при каждом посещении веб-сайта. Когда на вашем веб-сайте много контента, ботам потребуется больше времени для анализа, потому что, если он работает достаточно для одного посещения, оставшийся контент на веб-сайте должен ждать до следующего запуска ботов.могут быть просканированы и проиндексированы снова.

Если на вашем веб-сайте все еще есть ненужные файлы и контент, но он проиндексирован первым, это не только снизит качество веб-сайта, но и потратит больше времени на индексацию ботов.

Уменьшает скорость веб-страниц при постоянном индексировании

Если файла robots.txt нет, боты все равно будут сканировать весь контент вашего сайта. Помимо показа контента, который ваши клиенты не хотят видеть, постоянное сканирование и индексирование также могут снизить скорость загрузки страницы.

Скорость Интернета является важным аспектом веб-сайта, влияющим на качество и удобство работы пользователей при посещении вашего веб-сайта. страница также выше.

По этим причинам вам следует создать такой технический файл для WordPress, чтобы инструктировать ботов: «Боты сканируют одну сторону, не сканируют другую!». Использование стандартного файла WordPress robots.txt помогает повысить эффективность сканирования и индексации веб-сайтов ботами. Оттуда улучшите результаты SEO для вашего сайта.

Обязательно ли иметь этот файл для вашего сайта WordPress?

Если вы не используете карту сайта, вы все равно будете тащиться и ранжировать свой сайт.Однако поисковые системы не могут сказать, какие страницы или папки не должны запускаться.

Когда вы начинаете блог, это не имеет большого значения. Тем не менее, вам может понадобиться больше контроля над тем, как ваш сайт колеблется и индексируется по мере роста вашего сайта и наличия большого количества контента.

Поисковый бот имеет квоту сканирования для каждого веб-сайта. Это означает, что они сканируют определенные страницы во время сеанса сканирования. Если они не просмотрели все страницы вашего веб-сайта, они снова придут и просканируют их в следующем сеансе.Они все еще там и не исчезают.

Это может снизить скорость индексации вашего сайта. Но вы можете исправить это, запретив поисковым роботам сканировать ненужные страницы, такие как страница администратора wp-admin, каталог плагинов и каталог тем.

Отклоняя ненужные страницы, вы можете сохранить квоту сканирования. Это позволяет поисковым системам спотыкаться и быстрее индексировать страницы вашего сайта.

Еще одна веская причина использовать файлы robots.txt — запретить поисковым системам индексировать сообщения или страницы.Это не самый безопасный способ скрыть содержимое поисковой системы, но он помогает предотвратить результаты поиска.

Идеальное руководство по оптимизации файла robots.txt для SEO-контента

Многие блог-сайты предпочитают запускать очень скромный файл robots.txt в своем веб-сайте WordPress. Их содержание может варьироваться в зависимости от потребностей конкретного веб-сайта:

Агент пользователя: *

Запретить:

Карта сайта: http://www.example.com/post-sitemap.XML

Карта сайта: http://www.example.com/page-sitemap.xml

Этот файл robots.txt обеспечивает подключение всех ботов к карте сайта XML для отображения всего контента.

Мы рекомендуем следующие рекомендации для некоторых полезных файлов для веб-сайтов WordPress:

Агент пользователя: *

Разрешить: /wp-content/uploads/

Запретить: /wp-content/plugins/

Запретить: /wp-admin/

Запретить: /readme.HTML

Запретить: /ссылка/

Карта сайта: http://www.example.com/post-sitemap.xml

Карта сайта: http://www.example.com/page-sitemap.xml

Все изображения и файлы WordPress проиндексированы. Поисковые боты могут даже индексировать файлы плагинов, область администрирования, файлы readme и партнерские ссылки.

Вы также можете легко позволить роботам Google найти все страницы вашего веб-сайта, добавив карту в файл robots.txt.

Создание файла robots.txt для вашего сайта

Создайте файл robots.txt с помощью Блокнота

Блокнот — это минималистичный текстовый редактор от Microsoft. Это для написания кода, обслуживающего Pascal, C +, язык программирования HTML, …

Текстовый файл ASCII или UTF-8, правильно сохраненный в исходном файле веб-сайта под именем «robots.txt», требуется для файла robots.txt WordPress. Каждый файл содержит много правил, и каждое правило находится на одной строке.

Вы можете создать новый файл блокнота, сохранить его как robots.txt и добавьте правила, как указано выше.

После этого загрузка файла для WordPress в каталог public_html завершена.

Создайте файл robots.txt с помощью плагина Yoast SEO Плагин

Yoast SEO является одним из самых популярных плагинов, которые помогут вам оптимизировать SEO вашего сайта с точки зрения контента. Тем не менее, Yoast SEO также можно рассматривать как плагин WordPress robots.txt, который поможет вам создать инновационный файл для оптимизации ваших сайтов.

Сначала вы переходите на Dashboard.

в Панель инструментов => SELECT SEO => SELECT Инструменты или инструменты => Выберите Инструменты => Выберите Инструменты => Выберите =>> Выберите =>> Выберите =>> Выберите . .

На странице администрирования Yoast SEO => выберите Редактор файлов.

Выберите Создать новый , чтобы инициировать файл для WordPress или отредактировать существующий файл.

Выберите Сохранить изменения в файле robots.txt, чтобы подтвердить создание пользовательского файла robots.txt.

Посетите веб-сайт еще раз, и вы увидите новые правила, которые вы только что установили.

Проверьте файл robots.txt в Google Search Console

Вы можете войти в Google Search Console и зарегистрировать свой веб-сайт для начала.

Выберите Перейти к старой версии , чтобы вернуться к старому интерфейсу и разрешить использование.

Под Сканирование => Выберите Тестер robots.txt => Введите Установленные правила => Нажмите Отправить.

Проверить результат по номеру Ошибки и предупреждения => Выполнить исправление, если таковое имеется.

Выберите Загрузить обновленный код , чтобы загрузить новый файл robots.txt и повторно загрузить новый файл в исходный каталог, или выберите Попросить Google обновить для автоматического обновления.

Финал Мысли

В этой статье вы узнали о важности и способе настройки файла robots.txt для WordPress. Владение стандартным файлом robots.txt поможет вашему сайту и ботам поисковых систем лучше взаимодействовать, поэтому информация сайта будет обновляться точно и увеличится возможность охвата большего количества пользователей.

Давайте начнем с создания собственного технического файла для WordPress и сразу же улучшим SEO сайта!

Подробнее: 10 лучших бесплатных плагинов резервного копирования WP для защиты WordPress

Как пользоваться роботами.txt с WordPress

Не знаете, как использовать файл robots.txt? Хотите верьте, хотите нет, но это один из самых важных файлов с точки зрения SEO. Вам нужно использовать файл, чтобы указать, какие разделы вашего сайта должны и какие не должны быть доступны для поисковых систем. Например, вам не нужно, чтобы каталог wp-admin сканировался и индексировался поисковыми системами, потому что он предназначен только для внутреннего использования. Robots.txt — это обычный текстовый (.txt) файл, который следует поместить в корневой каталог вашего сервера, а это значит, что вам нужно поместить его в ту же папку, где находятся файлы и папки вашего веб-сайта на сервере.Вам нужно специально назвать его robots.txt . В противном случае это не сработает.

Виртуальный файл Robots.txt на WordPress

WordPress использует виртуальный файл robots.txt. Это означает, что вы не найдете его на своем ftp-сервере, если попытаетесь получить к нему доступ для редактирования, потому что он создается динамически каждый раз, когда пользователь посещает ваш сайт. Хотя он виден, если вы добавите /robots.txt к URL-адресу своего сайта, он будет недоступен на вашем сервере, если вы попытаетесь найти его с помощью ftp-менеджера, такого как CuteFTP, FileZilla или CyberDuck.

Как редактировать robots.txt с помощью WordPress

Если вы хотите иметь возможность редактировать файл robots.txt вручную, вам следует установить плагин WP Robots.txt. Это позволит вам редактировать файл robots.txt прямо в панели управления WordPress. Итак, давайте установим плагин и посмотрим, как он работает.

Как установить плагин WP Robots.txt

  1. Находясь в панели управления WordPress, перейдите в раздел «Плагины» и выберите «Добавить новый».
  2. Введите WP Robots.txt в текстовом поле «Поиск» и нажмите кнопку «Поиск плагинов».
  3. Найдя подключаемый модуль, просто нажмите ссылку «Установить сейчас». Теперь у вас должно появиться всплывающее окно, которое дважды проверяет, действительно ли вы хотите установить плагин. Просто нажмите ОК.
  4. Теперь нажмите «Активировать плагин».
  5. На этом этапе вы можете просто развернуть раскрывающееся меню «Настройки» и выбрать «Чтение».
  6. Теперь просто найдите текстовое поле Robots.txt Content. Поле содержит содержимое ваших реальных файлов Robots.текстовый файл.

Содержимое вашего файла WordPress Robots.txt

У вас должно быть похожее содержимое по умолчанию:

 Агент пользователя: *
Запретить: /wp-admin/
Запретить: /wp-includes/
 

Таким образом, приведенный выше код просто запрещает всем поисковым роботам просматривать каталоги /wp-admin/ и /wp-includes/ на вашем сервере.

Улучшенный контент для вашего robots.txt

Хотя настройки по умолчанию также работают, рекомендуется немного изменить их, чтобы ваши файлы robots.txt выглядит следующим образом:

 Агент пользователя: *
Запретить: /кормить/
Запретить: /трекбэк/
Запретить: /wp-admin/
Запретить: /wp-контент/
Запретить: /wp-includes/
Запретить: /xmlrpc.php
Запретить: /wp-
Разрешить: /wp-content/uploads/
Карта сайта: http://example.com/sitemap.xml
 

Первая строка показывает, какой именно ползающий робот или роботы вы хотите нацелить. * означает, что вы нацелены на всех роботов. Другими словами, вы говорите: «Эй, все вы, поисковые роботы, действуйте следующим образом».

В качестве альтернативы вы можете указать определенные поисковые роботы, такие как Googlebot, Rogerbot и т. д. Вы хотите сделать это, если использование звездочки * не будет нацелено на конкретный поисковый робот по той или иной причине.

У меня лично была такая проблема с Роберботом. Вам также может потребоваться указать его явно. Итак, вместо:

 Агент пользователя: *
 

Вы можете выбрать Moz Rogerbot специально:

 Агент пользователя: Rogerbot
 

Большая часть приведенного выше кода просто запрещает доступ к указанным каталогам (/trackback/, /wp-admin/ и т. д.), поскольку содержимое этих каталогов не представляет интереса ни для посетителей вашего сайта, ни для поисковых систем.

 Запретить: /канал/
Запретить: /трекбэк/
Запретить: /wp-admin/
Запретить: /wp-контент/
Запретить: /wp-includes/
Запретить: /xmlrpc.php
Запретить: /wp-
 

Поскольку вы хотите иметь возможность ранжироваться в поисковых системах с контентом, который находится в каталоге загрузки (например, изображения и тому подобное), предпоследняя строка разрешает доступ к каталогу /wp-content/uploads/.

 Разрешить: /wp-content/uploads/
 

И последняя строка просто указывает на расположение вашей карты сайта.xml, который Google и другие поисковые системы используют для правильного сканирования вашего сайта.

 Карта сайта: http://example.com/sitemap.xml
 

Опасный файл

Неправильная настройка файла robots.txt может привести к полной невидимости для поисковых систем. Наихудшей конфигурацией будет следующая:

 Запретить: /
 


Приведенный выше код запрещает доступ ко всем вашим сайтам. Таким образом, поисковые системы не будут индексировать НИЧЕГО. Просто имейте в виду, что вы не хотите, чтобы это правило применялось в файле robots.текстовый файл.

Шутка для SEO-ботаников

Взгляните на эту оптимистичную SEO-шутку. Понятно? Это действительно здорово! 🙂

Эта телка запрещает парню все. Эта шутка может помочь вам лучше понять, как работает disallow: /. Хорошо, давайте двигаться дальше.

Как выполнить точную настройку синтаксиса robots.txt

Если вы хотите точно настроить параметры файла robots.txt, вам может понадобиться знать следующее.

Чтобы указать конкретный каталог, просто заключите его имя в косую черту.например /wp-контент/.

 Запретить: /wp-content/
 

Чтобы настроить таргетинг на определенный файл, вам просто нужно указать путь к этому файлу вместе с его именем:

 Запретить: /wp-content/your-file.php
 

Так можно указывать на все виды файлов:

 Запретить: /wp-content/your-file.html
Запретить: /wp-content/your-file.png
Запретить: /wp-content/your-file.jpeg
Запретить: /wp-content/your-file.css
 

Отключить динамическое индексирование URL-адресов

Скорее всего, вы наткнетесь на эту очень распространенную проблему.Возможно, вам потребуется отключить динамическую индексацию URL-адресов. Динамический URL — это тот, который содержит ? вопросительный знак. Такие URL-адреса могут вызывать всевозможные проблемы SEO (дублированный контент, повторяющийся заголовок страницы и т. д.), и вы хотите запретить поисковым системам индексировать страницы с такими URL-адресами. Это легко сделать с помощью файла robots.txt. Просто добавьте следующую строку:

 Запретить: /*?
 

Скринкаст о Robots.txt для пользователей WordPress

Этот скринкаст — образец курса SEO, над которым я сейчас работаю.Курс называется SEO Crash Course для пользователей WordPress. Если вы хотите быть в курсе, когда он будет запущен, обязательно подпишитесь на мою рассылку в конце поста.

Полезные ссылки

Robots.txt: полное руководство


Заключение

Вы просто не можете называть себя оптимизатором или интернет-маркетологом, если вам не нравится файл robots.txt, потому что он определяет, как поисковые системы видят ваш сайт. Обязательно отредактируйте файл robots.txt, только если вы знаете, что делаете. В противном случае ваш сайт может просто исчезнуть из Интернета, и вы даже не узнаете почему.

Существует множество плагинов WordPress, которые позволяют обрабатывать ваш файл robots.txt. Знаете ли вы что-нибудь, что работает лучше, чем плагин WP Robots.txt, о котором я рассказал в этом посте?

Как настроить файл robots.txt для WordPress

Как настроить файл robots.txt для WordPress

спросил

Просмотрено 30 тысяч раз

[ОБНОВЛЕНИЕ 2013]

Я не могу найти авторитетную страницу с форматом для robots.txt-файл для WordPress. Я обещаю поддерживать один на своем сайте, но я хочу, чтобы он был здесь, при переполнении стека.

Если вы знаете, что делаете, пожалуйста, проверьте текущий черновик здесь:

http://mast3rpee.tk/?p=127

Все остальные комментируют это:

robots.txt

  Агент пользователя: *
Запретить: /cgi-bin/
Запретить: /wp-admin/
Запретить: /wp-includes/
Запретить: /wp-content/plugins/
Запретить: /wp-content/cache/
Запретить: /wp-content/themes/
Запретить: /трекбэк/
Запретить: /кормить/
Запретить: /комментарии/
Карта сайта: http://домен.com/sitemap.xml
Задержка сканирования: 4
  
Эльтабо

3,57111 золотой знак2020 серебряных знаков3333 бронзовых знака

спросил 10 июн. 2013 в 17:46

MAST3RPEEMAST3RPEE

1,73011 золотой знак1616 серебряных знаков1414 бронзовых знаков

4
  Агент пользователя: *
Разрешать: /
Запретить: /cgi-bin
Запретить: /wp-admin
Запретить: /wp-includes
Запретить: /wp-контент
Запретить: /e/
Запретить: /show-error-*
Запретить: /xmlrpc.php
Запретить: /трекбэк/
Запретить: /comment-page-
Разрешить: /wp-content/uploads/

Агент пользователя: Mediapartners-Google
Разрешать: /

Агент пользователя: Adsbot-Google
Разрешать: /

Агент пользователя: Googlebot-Image
Разрешать: /

Агент пользователя: Googlebot-Mobile
Разрешать: /

Карта сайта: http://yoursite.com/sitemap.xml
  

Я думаю, что этот код очень аутентичен для файла robots.txt. Просто перейдите в Public_HTML, создайте файл с robots.txt и вставьте приведенный выше код. Вы можете сделать это в своем блокноте, просто скопируйте приведенный выше код и вставьте в блокнот, но запомните имя файла robots.txt и загрузите в свой файл public_HTML.

Leave a Reply