Правильный robots txt для wordpress 2018: Правильный Robots.txt для WordPress

Содержание

Правильный Robots.txt для WordPress

Всем привет! Сегодня статья о том, каким должен быть правильный файл robots.txt для WordPress. С функциями и предназначением robots.txt мы разбирались несколько дней назад, а сейчас разберём конкретный пример для ВордПресс.

С помощью этого файла у нас есть возможность задать основные правила индексации для различных поисковых систем, а также назначить права доступа для отдельных поисковых ботов. На примере я разберу как составить правильный robots.txt для WordPress. За основу возьму две основные поисковые системы — Яндекс и Google.

В узких кругах вебмастеров можно столкнуться с мнением, что для Яндекса необходимо составлять отдельную секцию, обращаясь к нему по User-agent: Yandex. Давайте вместе разберёмся, на чём основаны эти убеждения.

Яндекс поддерживает директивы Clean-param и Host, о которых Google ничего не знает и не использует при обходе.

Разумно использовать их только для Yandex, но есть нюанс — это межсекционные директивы, которые допустимо размещать в любом месте файла, а Гугл просто не станет их учитывать. В таком случае, если правила индексации совпадают для обеих поисковых систем, то вполне достаточно использовать

User-agent: * для всех поисковых роботов.

При обращении к роботам по User-agent важно помнить, что чтение и обработка файла происходит сверху вниз, поэтому используя User-agent: Yandex или User-agent: Googlebot необходимо размещать эти секции в начале файла.

Пример Robots.txt для WordPress

Сразу хочу предупредить: не существует идеального файла, который подойдет абсолютно всем сайтам, работающим на ВордПресс! Не идите на поводу, слепо копируя содержимое файла без проведения анализа под ваш конкретный случай! Многое зависит от выбранных настроек постоянных ссылок, структуры сайта и даже установленных плагинов. Я рассматриваю пример, когда используется ЧПУ и постоянные ссылки вида

/%postname%/.

WordPress, как и любая система управления контентом, имеет свои административные ресурсы, каталоги администрирования и прочее, что не должно попасть в индекс поисковых систем. Для защиты таких страниц от доступа необходимо запретить их индексацию в данном файле следующими строками:

Disallow: /cgi-bin
Disallow: /wp-

Директива во второй строке закроет доступ по всем каталогам, начинающимся на

/wp-, в их число входят:

  • wp-admin
  • wp-content
  • wp-includes

Но мы знаем, что изображения по умолчанию загружаются в папку uploads, которая находится внутри каталога wp-content. Разрешим их индексацию строкой:

Allow: */uploads

Служебные файлы закрыли, переходим к исключению дублей с основным содержимым, которые снижают уникальность контента в пределах одного домена и увеличивают вероятность наложения на сайт фильтра со стороны ПС. К дублям относятся страницы категорий, авторов, тегов, RSS-фидов, а также постраничная навигация, трекбеки и отдельные страницы с комментариями. Обязательно запрещаем их индексацию:

Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: */trackback
Disallow: */comments

Далее хотелось бы уделить особое внимание такому аспекту как постоянные ссылки. Если вы используете ЧПУ, то страницы содержащие в URL знаки вопроса зачастую являются «лишними» и опять же дублируют основной контент. Такие страницы с параметрами следует запрещать аналогичным образом:

Disallow: */?

Это правило распространяется на простые постоянные ссылки ?p=1, страницы с поисковыми запросами ?s= и другими параметрами. Ещё одной проблемой могут стать страницы архивов, содержащие в URL год, месяц. На самом деле их очень просто закрыть, используя маску

20*, тем самым запрещая индексирование архивов по годам:

Disallow: /20*

Для ускорения и полноты индексации добавим путь к расположению карты сайта. Робот обработает файл и при следующем посещении сайта будет его использовать для приоритетного обхода страниц.

Sitemap: https:

В файле robots.txt можно разместить дополнительную информацию для роботов, повышающую качество индексации. Среди них директива Host — указывает на главное зеркало для Яндекса:

Host: webliberty.ru

При работе сайта по HTTPS необходимо указать протокол:

Host: https:

С 20 марта 2018 года Яндекс официально прекратил поддержку директивы Host. Её можно удалить из robots.txt, а если оставить, то робот её просто игнорирует.

Подводя итог, я объединил всё выше сказанное воедино и получил содержимое файла robots.txt для WordPress, который использую уже несколько лет и при этом в индексе нет дублей:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: /20*
Disallow: */trackback
Disallow: */comments
Disallow: */?
Allow: */uploads
 
Sitemap: https:

Постоянно следите за ходом индексации и вовремя корректируйте файл в случае появления дублей.

От того правильно или нет составлен файл зависит очень многое, поэтому обратите особо пристальное внимание к его составлению, чтобы поисковики быстро и качественно индексировали сайт. Если у вас возникли вопросы — задавайте, с удовольствием отвечу!

Robots.txt для WordPress 2018 о котором Вы могли только мечтать!

Файл robots.txt играет важную роль в облегчении работы поискового бота. Нужно дружить с поисковым ботом, так как именно благодаря его посещениям на ваш сайт, поисковые системы узнают о важных страницах, ключевых фразах и релевантности.

Именно благодаря «приходу в гости» поискового робота на Ваш проект, сайт наконец может начать хорошо ранжироваться в поисковой выдаче. Поэтому сделайте это посещение приятным для поискового бота и начните с robots.txt! Я расскажу как это сделать лучше всего!

 

Почему так важен robots.txt?

Robots.txt это путеводная карточка для поискового бота. Благодаря директивам (командам) robots.txt Вы даете подробную информацию краулеру о том в какие места сайта Вы приглашаете его, а в какие предостерегаете от посещений.

Это удобно и Вам и поисковой системе. Важно использовать robots.txt по назначению. Существует несколько важных правил, которые необходимо соблюдать. В первую очередь язык конфигураций для robots.txt един для всех проектов и всех поисковых систем.

Во-вторых, важно обязательно указать для какого именно бота будут даны команды (у всех ботов один «язык» на котором они усваивают команды. Но разные предпочтения и взгляды на то, какие «места» Вашего сайта они хотели бы посещать).

Также в файле robots.txt всегда указываются директивы sitemap, которая дает путь к общей карте сайта, и host (которая дает адрес на главное зеркало сайта, чтобы бот не блуждал по возможной копии Вашего проекта – не главному зеркалу).

 

 

Ошибки robots.txt, которые мне встречались на практике

Не допускайте использование некорректной кодировки в Вашем файле robots.txt. Однажды я встретил вот такой robots.txt:

Не замусоривайте файл лишними конфигурациями. Нравится ли Вам читать огромные инструкции? Аналогично и боты могут невзлюбить проект со слишком большим количеством лишних инструкций. Бот может просто отказаться от директив и пойти своим путем (на практике это действительно часто происходит).

Взгляните на такие примеры robots.txt и никогда так не делайте:

Пример самого длинного robots.txt, которое мне доводилось видеть содержит 293 строчки и принадлежит сайту Forbes: https://www.forbes.com/robots.txt

 

Запомните, что так делать не стоит! Forbes имеет далеко не самую лучшую видимость и выигрывает за счет известности бренда и поведенческих факторов.

 

Где находится Robots.txt у WordPress?

Данный файл располагается в корневом каталоге сайта. Это неизменное правило для всех проектов, так как является стандартом W3C.

При использовании браузера robots.txt можно обнаружить по следующему пути:

https://site.ru/robots.txt

Такое расположение будет правильным для любого проекта и именно его нужно использовать.

 

Примеры элегантных robots.txt для WordPress

Я люблю математику и поэтому мне нравится делать сравнения из математического мира. Robots.txt должны быть как лучшие уравнения в математике, которые принято называть элегантными. Одно из самых известных и популярных уравнений это E=mc2. Здесь нет ничего лишнего. Посмотрите на примеры лучших robots.txt с очень авторитетных ресурсов (многие из них написаны разработчиками WP).

Пример robots.txt с официального сайта Word­Press, очень короткое и емкое содержание – ничего лишнего.

 

 

Правильный Robots txt для WordPress 2018

Для каждого сайта будет свой уникальный robots.txt, однако наиболее близкий по точности общий пример robots txt для word­press на 2018 год будет выглядеть так:

User-agent: *

Dis­al­low: /cgi-bin

Dis­al­low: */embed*

Dis­al­low: */wp-json*

Dis­al­low: */?ild=*

Dis­al­low: /wp-admin

Dis­al­low: /wp-includes

Host: https://8merka.ru

Sitemap: https://8merka.ru/sitemap.xml

 

Что означают директивы правильного robots.txt для WordPress в 2018 году?

User-agent: * — это указание того, что все команды предназначены для всех ботов.

При необходимости можно указывать команды для Яндекса благодаря следующей директиве: User-agent: Yandex

Аналогично для Google: User-agent: Googlebot

Dis­al­low: /cgi-bin – запрещает переход в каталог, который предназначен для некоторых серверных скриптов. Эти страницы не представляю особой ценности для бота, поэтому не будем злоупотреблять данной нам квотой на индексацию.

Dis­al­low: */embed* — закрывает от индексации встраивания, которые порой являются проблемой для WordPress.

Dis­al­low: */wp-json*- закрываем виртуальную директорию API REST для WordPress.

Dis­al­low: /wp-admin – закрываем доступ в админ-панель сайта.

Dis­al­low: /wp-includes – здесь располагается вся техническая часть Word­Press. Боту ни к чему ковыряться в механизмах работы сайта, так как они в  любом случае для всех сайтов Word­Press одинаковы.

Host: https://8merka.ru – указываем главное зеркало сайта

Sitemap: https://8merka.ru/sitemap.xml — облегчаем работу поискового бота и указываем корректное расположение карты сайта.

 

 

Лучшие плагины Robots.txt для WordPress

Для работы с Вашим robots.txt в front-end режиме можно использовать плагин: https://ru.wordpress.org/plugins/pc-robotstxt/

Такой плагин не дает каких-либо дополнительных функций, но удобен для тех, кто не хотел бы совершать лишние действия по переходу на SSH или FTP.

Аналогично с данной функцией справляется знаменитый плагин YOAST SEO. разработанный американскими коллегами, о котором я ранее делал большой обзорный пост. Рекомендую почитать этот пост и внимательно ознакомиться, так как плагин имеет и ряд других полезных функций.

 

Как добавить Robots.txt на сайт WordPress?

Добавить robots.txt на свой сайт можно благодаря переходу на SSH или FTP Вашего сайта. Воспользуйтесь подготовленной мной формой: шаблон_robots.txt_2018

Поправьте директивы sitemap и host под свои сайты и загрузите данный файл в корневой каталог Вашего сайта.

Также можно использовать плагины о которых я говорил ранее: Vir­tu­al Robots.txt или YOAST SEO.

 

Если у Вас проблемы с robots.txt Вы всегда можете обратиться ко мне. Чаще всего я бесплатно помогаю разобраться с этим файлом, так как мне всегда интересно поковыряться в настройках конфигураций, поэтому буду рад помочь. 

Климович Николай

Правильный robots.txt для WordPress

О том, как сделать правильный robots.txt для WordPress написано уже достаточно. Однако, чтобы угодить своим читателям, я решил опубликовать свой пост на эту тему. Тем более, что моими коллегами эта тема раскрыта не полностью и тут можно многое добавить.

Что такое robots.txt и зачем он нужен?

robots.txt это текстовый документ, составленный в обыкновенном блокноте, расположенный в корневой директории блога и содержащий в себе инструкции по индексации для поисковых роботов. Проще говоря, что индексировать, а что нет. Наличие этого файла является обязательным условием для качественной внутренней поисковой оптимизации блога.

Как известно, блоги на платформе WordPress содержат в себе множество дублей (копий основного содержимого блога), а также целый набор служебных файлов. Дубли контента снижают его уникальность на домене и поисковые роботы могут наложить на блог серьезные штрафные санкции.

Чтобы повысить уникальность контента, облегчить поисковым ботам работу и тем самым улучшить качество индексации блога, нам и нужен robots.txt.

Правильный robots.txt для WordPress

Рассмотрим на примере моего robots.txt, как его правильно оформить и что в него должно входить.

Скачайте его себе на жесткий диск по этой ссылке и откройте для редактирования. В качестве редактора текстовых файлов настоятельно рекомендую использовать Notepad++.

Строки 6,7: Принято считать, что необходимо закрывать поисковым роботам доступ к служебным файлам в папках «wp-content» и «wp-includes». Но, Гугл по этому поводу нам говорит следующее:

Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.

Таким образом, для Googlebot не рекомендуется запрещать доступ к файлам в этих папках.

Строка 40: С весны 2018 года директива «Host«, указывающая главное зеркало сайта Яндексу, больше не действует. Главное зеркало для нашей поисковой системы теперь определяется только через 301 редирект.

Строки 42,43: Если у Вас еще не создана карта сайта, обязательно сделайте ее. В пути к файлам карты вместо моего адреса wordpress-book.ru пропишите свой. Этот ход сделает индексацию блога поисковиками полной и увеличит ее скорость.

Уже сейчас, можно сказать, что ваш правильный robots.txt для WordPress готов. В таком виде он подойдет для абсолютного большинства блогов и сайтов. Останется только закачать его в корень блога (обычно в папку public_html).

Сделать robots.txt для блога можно и с помощью плагина, например, PC Robots.txt. С его помощью вы сможете создать и редактировать свой robots.txt прямо в админке блога. Но я не советую использовать плагины для создания robots.txt, чтобы исключить лишнюю нагрузку на блог.

Содержание robots.txt любого блога или сайта, если он конечно есть, вы всегда можете посмотреть. Для этого достаточно в адресной строке браузера ввести к нему путь – https://wordpress-book.ru/robots.txt.

Ниже приведена информация по содержанию этого документа и некоторые рекомендации по его оформлению и анализу.

Звездочка «*«, прописанная в тексте robots.txt, означает, что на ее месте допускается последовательность любых символов.

Директива «User-agent» определяет, для каких поисковых роботов даны указания по индексации, прописанные под ней. Таким образом, «User-agent: *» (строка 1) указывает, что инструкции, прописанные под ней, предназначены для всех поисковых систем.

Строка 21: Персонально для Яндекса под «User-agent: Yandex» дублируем список этих команд. Дублирование инструкций для Яндекса дает нам гарантию их выполнения поисковой системой.

Директива «Disallow» запрещает индексацию прописанного для нее каталога или страниц. Директива «Allow» разрешает. Командой «Disallow: /wp-content/» (строка 7) я запретил индексацию служебного каталога «wp-content» на сервере и соответственно всех папок в ней с их содержимым, но командой «Allow: /wp-content/uploads» (строка 8) разрешил индексировать все картинки в папке «upload» каталога «wp-content«. Так как «Allow» является приоритетной директивой для поисковых роботов, то в индекс попадут только изображения папки «upload» каталога «wp-content«.

Для директивы «Disallow» имеет смысл в некоторых случаях дополнительно прописывать следующие запреты:

  • —  /amp/ — дубли ускоренных мобильных страниц. На всякий случай для Яндекса.
  • —   /comments — закрыть от индексации комментарии. Зачем закрывать содержащийся в комментариях уникальный контент? Для большей релевантности ключевых слов и неиндексации исходящих ссылок в комментариях. Вряд ли это поможет.
  • — /comment-page-* — другое дело древовидные комментарии. Когда комментарии не помещаются на одну страницу (их количество вы проставили в настройках админки), создается дубль страницы типа wordpress-book.ru/…/comment-page-1.  Эти дубли конечно же надо закрывать.
  • —   /xmlrpc.php — служебный файл для удаленных вызовов. У меня его нет и соответственно нет индексации и без запрета.
  • —   /webstat/ — папка со статистикой сайта. Эта папка есть тоже далеко не у всех.

Нельзя не упомянуть про редко используемую, но очень полезную директиву для Яндекса — «Crawl-delay». Она задает роботу паузу во времени в секундах между скачиванием страниц, прописывается после групп директив «Disallow» и «Allow» и используется в случае повышенной нагрузки на сервер. Прописью «Crawl-delay: 2″ я задал эту паузу в 2 секунды.  При нормальной работе сервера качество индексации не пострадает, а при пиковых нагрузках не ухудшится.

Некоторым веб-мастерам может понадобится запретить индексацию файлов определенного  типа, например, с расширением pdf. Для этого пропишите — «Disallow: *.pdf$«. Или поместите все файлы, индексацию которых требуется запретить, в предварительно созданную новую папку, например, pdf, и пропишите «Disallow: /pdf/«.

При необходимости запрета индексации всей рубрики, такое бывает ,например, при публикации в нее чужих интересных записей, пропишите — «Disallow: /nazvanie-rubriki/*«, где «nazvanie-rubriki», как вы уже догадались — название рубрики, записи которой поисковикам индексировать не следует.

Тем, кто зарабатывает на своем блоге размещением контекстной рекламы в партнерстве с Google AdSense, будет нелишним прописать следующие две директивы:

User-agent: Mediapartners-Google

Disallow:

Это поможет роботу AdSense избежать ошибок сканирования страниц сайта и подбирать для них более релевантные объявления.

wp-content/uploads/2014/02/YouTube_Downloader_dlya_Ope.jpg»,tid: «OIP.M3a4a31010ee6a500049754479585407do0

Обнаружил у себя только что вот такой вот новый вид дублей в Яндекс Вебмастере. 96 штук уже накопилось и это не предел. А ведь совсем недавно у wordpress-book.ru с дублями был полный порядок. Есть подозрение, что шлак с идентификатором tid:»OIP появляется в индексе поисковика после скачивания картинок роботом Яндекса. Если не лень, посмотрите сколько таких несуществующих страниц разных сайтов уже участвуют в поиске.

Понятно, что с этим чудом надо что-то делать. Достаточно добавить запрещающую директиву — «Disallow: /wp-content/uploads/*.jpg*tid*» в robots.txt. Если на сайте есть картинки png, gif и т.д., добавьте директивы с соответствующими расширениями изображений.

При редактировании robots.txt, учтите, что:

—   перед каждой новой директивой «User-agent» должна быть пустая строка, которая обозначает конец инструкций для предыдущего поисковика. И соответственно после «User-agent» и между «Disallow» и «Allow» пустых строк быть не должно;

—   запретом индексации страниц в результатах поиска «Disallow: /*?*» вы заодно можете случайно запретить индексацию всего контента, если адреса страниц вашего блога заданы по умолчанию со знаком вопроса в виде — /?p=123. Советую сделать для адресов ЧПУ (человеко понятные урлы :-)). Для этого в настройках постоянных ссылок выберите произвольный шаблон и поставьте плагин Rus-to-Lat.

Анализ robots.txt

Теперь, когда ваш robots.txt отредактирован и залит на сервер, остается только проверить, правильно ли он работает.

Зайдите в свой аккаунт Яндекс Вебмастер и перейдите «Настройки индексирования» → «Анализ robots.txt«. Нажмите на кнопку «Загрузить robots.txt с сайта» и далее на кнопку «Проверить«.

Если Яндексу понравится ваш файл, под кнопкой «Проверить» появится сообщение, примерно как на картинке выше.

Недавно в инструментах для веб-мастеров Гугла появилось очень полезная функция — «Инструмент проверки файла robots.txt«. Можно проверить свой файл на наличие ошибок и предупреждений.

Просто в своем аккаунте перейдите «Сканирование» → «Инструмент проверки файла robots.txt«.

Через некоторое время, когда бот Яндекса скачает ваш robots.txt, проанализируйте в Яндекс Вебмастере адреса страниц вошедших в индекс и исключенных из него в robots.txt. Вошедшие в индекс дубли срочно запрещайте к индексации.

Теперь ваш robots.txt для WordPress правильный и можно поставить еще одну галочку под пунктом выполнения задач по внутренней поисковой оптимизации блога.

robots.txt запретить индексацию всем

При создании тестового блога или при самом его рождении, если вы хотите полностью запретить индексацию сайта всеми поисковыми системами, в robots.txt должно быть прописано всего лишь следующее:

User-agent: *
Disallow: /

robots.txt для wordpress — какой долен быть. настройка robots txt.

3.4/5 — (10 голосов)

Robots.txt — играет очень важную роль в индексации. Правильный robots.txt — вообще очень важен. А насколько он правильный? А кто так сказал? А точно ли это поможет в продвижении ресурса в поисковых системах? Масса подобных вопросов возникала и у меня, когда я оптимизировал этот блог и искал информацию в интернете об этом. В принципе, роботсом я заинтересовался еще когда у меня был сайт на Ucoz (возможно, кстати, вам понравится статья про выбор подходящей CMS: WordPress vs Ucoz), благо там его можно было настроить, и я постиг основы.

Стоит отметить, что после правильной настройки robots.txt дела у моих проектов пошли лучше. Что в том, что в этом случае. Обусловлено это, конечно же, избирательным подбором страниц и материалов, которые нужно индексировать. Также я грамотно настроил остальные SEO-аспекты сайта с помощью плагина Yoast SEO. Рекомендую прочитать статью о правильной настройке плагина Yoast SEO для WordPress.

Для чего нужен Robots.txt

Если говорить совсем уж просто: для правильного представления вашего ресурса. Например, поисковые роботы, при посещении и индексации вашего сайта, могут взять, да и проиндексировать ненужные системные элементы. Как правило, такие страницы не слишком пригодны для восприятия роботами, и потому они будут считаться плохо оптимизированными. Если этих самых страниц будет слишком много, поисковик может понизить ваш проект в выдаче.

В абсолютно противоположном случае, что не менее прискорбно, может оказаться так, что ваш сайт и вовсе будет закрыт для индексации. Такое случается не так уж часто, но вам все равно следует учитывать это.

Правильная настройка robots.txt для WordPress

Чтобы не лить воду, сразу скажу, что здесь есть два способа. Вы можете: либо настроить robots.txt через редактор плагина Yoast SEO (который ОЧЕНЬ рекомендован к установке), либо создать такой файл вручную (в блокноте, например), и разместить в корне сайта. Во втором случае, кстати говоря, стоит помнить, что размещать файл нужно так, чтобы он был доступен по адресу: site.ru/robots.txt.

Хотя, я думаю, что с этими мелочами вы итак разберетесь. Сосредоточимся на содержимом этого файла.

User-agent: * 
Disallow: /cgi-bin          
Disallow: /?              
Disallow: /search/ 
Disallow: /author/
Disallow: /users/
Disallow: */trackback 
Disallow: */feed 
Disallow: */rss 
Disallow: /wp-                       
Disallow: *?s= 
Disallow: *&s= 
Disallow: */embed
Disallow: /xmlrpc.php 
Disallow: *utm= 
Disallow: *openstat= 
Disallow: /tag/ # Закрываем для того, чтобы не индексировалось слишком много дублей. 
                # Если вы хотите, чтобы метки индексировались, удалите это правило.
Allow: */uploads

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Allow: /wp-*.jpg
Allow: /wp-admin/admin-ajax.php
Allow: */uploads
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Clean-Param: utm_source&utm_medium&utm_campaign 

Clean-Param: openstat

Sitemap: https://site.ru/sitemap.xml
Sitemap: https://site.ru/sitemap.xml.gz # Указываем, если для создания карты использовали Google XML Sitemap

Host: https://site.ru # Указываем с протоколом

Несколько очень важных моментов:

  • Если вы используете/собираетесь использовать турбо-страницы Яндекса, то вам необходимо будет разрешить для Яндекса доступ к xml-файлу
  • Когда вы будете копировать содержимое в файл — лучше убрать комментарии (пояснения с #)
  • Как я уже говорил, правило Disallow: /tag/ можно убрать. Лично я убрал метки из индексации из-за огромного количества дублей (страниц с одинаковым содержимым), т.к они пагубно влияют на продвижение.
  • Если вы НЕ используете SSL сертификат (и https протокол), указывать http протокол в Host: НЕ нужно. Директива будет выглядеть как Host: www.site.ru или Host: site.ru.

Почему надо указывать правила для каждого робота?

Благодаря такому подходу, по мнению некоторых оптимизаторов и вебмастеров, можно добиться куда больших результатов в продвижении сайта. И ведь это логично: если в правилах есть прямые указания для каждого робота, то и индексировать они будут активнее и чаще.

Кто-то, кстати говоря, и вовсе расписывает огромное полотно для роботов всех мастей. Там и роботы, которые индексируют картинки (от гугла и яндекса), и роботы других поисковых систем, коих очень и очень много.

Выводы

Собственно, вот так должен выглядеть правильно составленный robots.txt для WordPress в 2018 году. Безусловно, есть еще масса всевозможных вариантов, однако я рекомендую остановиться именно на этом. Я и сам его использую, в чем вы можете убедиться лично (добавьте /robots.txt к адресу моего сайта).

Правильный robots.txt для WordPress — Блог Костаневича Степана

Доброе время суток! Сегодня я решил написать  пост про файл robots.txt. Вкратце расскажу о нем и дам вам готовый, правильный код robots.txt для WordPress.
Файл robots.txt – это обычный текстовый файл с расширением .txt, предназначен для управления поисковыми роботами. В файле можно запретить или разрешить индексировать разделы сайта, можно указать путь к карте сайта sitemap.xml и многое другое.
Файл robots.txt должен находиться в корневой директории сайта.
Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.

Создаем файл robots.txt для WordPress.
— создадим в блокноте файл и дадим ему имя robots.txt.
— запишите в файле:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Host: ваш сайт.ru
Sitemap: https://ваш сайт.ru/sitemap.xml

——————————————————

Host: ваш сайт.ru – это адрес главного зеркала
Sitemap: https://ваш сайт.ru/sitemap.xml – это адрес или путь карты сайта sitemap.xml

Сохраняем файл и копируем его в корневую папку блога.

Вот и все.

Понравился пост? Помоги другим узнать об этой статье, кликни на кнопку социальных сетей ↓↓↓


Последние новости категории:

Похожие статьи

Популярные статьи:

Добавить комментарий

Метки: robots.txt, wordpress

Делаем правильный файл Robots.txt для WordPress

Приветствую вас, друзья. Сегодня я покажу как сделать правильный файл Robots.txt для WordPress блога. Файл Robots является ключевым элементом внутренней оптимизации сайта, так как выступает в роли гида-проводника для поисковых систем, посещающих ваш ресурс – показывает, что нужно включать в поисковый индекс, а что нет.

Содержание:

Само название файла robots.txt подсказываем нам, что он предназначен для роботов, а не для людей. В статье о том, как работают поисковые системы, я описывал алгоритм их работы, если не читали, рекомендую ознакомиться.

Зачем нужен файл robots.txt

Представьте себе, что ваш сайт – это дом. В каждом доме есть разные служебные помещения, типа котельной, кладовки, погреба, в некоторых комнатах есть потаенные уголки (сейф). Все эти тайные пространства гостям видеть не нужно, они предназначены только для хозяев.

Аналогичным образом, каждый сайт имеет свои служебные помещения (разделы), а поисковые роботы – это гости. Так вот, задача правильного robots.txt – закрыть на ключик все служебные разделы сайта и пригласить поисковые системы только в те блоки, которые созданы для внешнего мира.

Примерами таких служебных зон являются – админка сайта, папки с темами оформления, скриптами и т.д.

Вторая функция этого файла – это избавление поисковой выдачи от дублированного контента. Если говорить о WordPress, то, часто, мы можем по разным URL находить одни и те же статьи или их части. Допустим, анонсы статей в разделах с архивами и рубриках идентичны друг другу (только комбинации разные), а страница автора обычного блога на 100% копирует весь контент.

Поисковики интернета могут просто запутаться во всем многообразии таких страниц и неверно понять – что нужно показывать в поисковой выдаче. Закрыв одни разделы, и открыв другие, мы дадим однозначную рекомендацию роботам по правильной индексации сайта, и в поиске окажутся те страницы, которые мы задумывали для пользователей.

Если у вас нет правильно настроенного файла Robots.txt, то возможны 2 варианта:

1. В выдачу попадет каша из всевозможных страниц с сомнительной релевантностью и низкой уникальностью.

2. Поисковик посчитает кашей весь ваш сайт и наложит на него санкции, удалив из выдачи весь сайт или отдельные его части.

Есть у него еще пара функций, о них я расскажу по ходу.

Принцип работы файла robots

Работа файла строится всего на 3-х элементах:

  • Выбор поискового робота
  • Запрет на индексацию разделов
  • Разрешение индексации разделов

1. Как указать поискового робота

С помощью директивы User-agent прописывается имя робота, для которого будут действовать следующие за ней правила. Она используется вот в таком формате:

User-agent: * # для всех роботов
User-agent: имя робота # для конкретного робота

После символа «#» пишутся комментарии, в обработке они не участвуют.

Таким образом, для разных поисковых систем и роботов могут быть заданы разные правила.

Основные роботы, на которые стоит ориентироваться – это yandex и googlebot, они представляют соответствующие поисковики.

2. Как запретить индексацию в Robots.txt

Запрет индексации осуществляется в помощью директивы Disallow. После нее прописывается раздел или элемент сайта, который не должен попадать в поиск. Указывать можно как конкретные папки и документы, так и разделы с определенными признаками.

Если после этой директивы не указать ничего, то робот посчитает, что запретов нет.

Disallow: #запретов нет

Для запрета файлов указываем путь относительного домена.

Disallow: /zapretniy.php #запрет к индексации файла zapretniy.php

Запрет разделов осуществляется аналогичным образом.

Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta

Если нам нужно запретить разные разделы и страницы, содержащие одинаковые признаки, то используем символ «*». Звездочка означает, что на ее месте могут быть любые символы (любые разделы, любой степени вложенности).

Disallow: */*test #будут закрыты все страницы, в адресе которых содержится test

Обратите внимание, что на конце правила звездочка не ставится, считается, что она там есть всегда. Отменить ее можно с помощью знака «$»

Disallow: */*test$ #запрет к индексации всех страниц, оканчивающихся на test

Выражения можно комбинировать, например:

Disallow: /test/*.pdf$ #закрывает все pdf файлы в разделе /test/ и его подразделах.

3. Как разрешить индексацию в Robots.txt

По-умолчанию, все разделы сайта открыты для поисковых роботов. Директива, разрешающая индексацию нужна в тех случаях, когда вам необходимо открыть какой-либо кусочек из блока закрытого директивой disallow.

Для открытия служит директива Allow. К ней применяются те же самые атрибуты. Пример работы может выглядеть вот так:

User-agent: * # для всех роботов
Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta
Allow: *.pdf$ #разрешает индексировать pdf файлы, даже в разделе /razdel-sajta

Теорию мы изучили, переходим к практике.

Как создать и проверить Robots.txt

Проверить, что содержит ваш файл на данный момент можно в сервисе Яндекса – Проверка Robots.txt. Введете там адрес своего сайта, и он покажет всю информацию.

Если у вас такого файла нет, то необходимо срочного его создать. Открываете текстовый редактор (блокнот, notepad++, akelpad и т.д.), создаете файл с названием robots, заполняете его нужными директивами и сохраняете с txt расширением (ниже я расскажу, как выглядит правильный robots.txt для WordPress).

Дальше, помещаем файл в корневую папку вашего сайта (рядом с index.php) с помощью файлового менеджера вашего хостинга или ftp клиента, например, filezilla (как пользоваться).

Если у вас WordPress и установлен All in One SEO Pack, то в нем все делается прямо из админки, в этой статье я рассказывал как.

Robots.txt для WordPress

Под особенности каждой CMS должен создаваться свой правильный файл, так как конфигурация системы отличается и везде свои служебные папки и документы.

Мой файл robots.txt имеет следующий вид:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: /xmlrpc.php
Disallow: */feed
Disallow: */author
Allow: /wp-content/themes/папка_вашей_темы/
Allow: /wp-content/plugins/
Allow: /wp-includes/js/

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

host: biznessystem.ru

Sitemap: https://biznessystem.ru/sitemap.xml

Первый блок действует для всех роботов, так как в строке User-agent стоит «*». Со 2 по 9 строки закрывают служебные разделы самого вордпресс. 10 – удаляет из индекса страницы RSS ленты. 11 – закрывает от индексации авторские страницы.

По последним требованиям поисковиков, необходимо открыть доступ к стилям и скриптам. Для этих целей в 12, 13 и 14 строках прописываем разрешение на индексирование папки с шаблоном сайта, плагинами и Java скриптами.

Дальше у меня идет 2 блока, открывающих доступ к папке с картинками роботам YandexImages и Googlebot-Image. Можно их не выделять отдельно, а разрешающую директиву для папки с картинками перенести выше на 15 строку, чтобы все роботы имели доступ к изображениям сайта.

Если бы я не использовал All-in-One-Seo-Pack, то добавил бы правило, закрывающее архивы (Disallow: */20) и метки (Disallow: */tag).

При использовании стандартного поиска по сайту от WordPress, стоит поставить директиву, закрывающую страницы поиска (Disallow: *?s=). А лучше, настройте Яндекс поиск по сайту, как это сделано на моем блоге.

Обратите внимание на 2 правила:

1. Все директивы для одного робота идут подряд без пропуска строк.

2. Блоки для разных роботов обязательно разделяются пустой строкой.

В самом конце есть директивы, которые мы ранее не рассматривали – это host и sitemap. Обе эти директивы называют межсекционными (можно ставить вне блоков).

Host – указывает главное зеркало ресурса (с 2018 года отменена и больше не используется). Обязательно стоит указать какой домен является главным для вашего сайта – с www или без www. Если у сайта есть еще зеркала, то в их файлах тоже нужно прописать главное. Данную директиву понимает только Яндекс.

Sitemap – это директива, в которой прописывается путь к XML карте вашего сайта. Ее понимают и Гугл и Яндекс.

Дополнения и заблуждения

1. Некоторые вебмастера делают отдельный блок для Яндекса, полностью дублируя общий и добавляя директиву host. Якобы, иначе yandex может не понять. Это лишнее. Мой файл robots.txt известен поисковику давно, и он в нем прекрасно ориентируется, полностью отрабатывая все указания.

2. Можно заменить несколько строк, начинающихся с wp- одной директивой Disallow: /wp-, я не стал такого делать, так как боюсь – вдруг у меня есть статьи, начинающиеся с wp-, если вы уверены, что ваш блог такого не содержит, смело сокращайте код.

3. Переиндексация файла robots.txt проходит не мгновенно, поэтому, ваши изменения поисковики могут заметить лишь спустя пару месяцев.

4. Гугл рекомендует открывать доступ своим ботам к файлам темы оформления и скриптам сайта, пугая вебмастеров возможными санкциями за несоблюдение этого правила. Я провел эксперимент, где оценивал, насколько сильно влияет это требование на позиции сайта в поиске – подробности и результаты эксперимента тут.

Резюме

Правильный файл Robots.txt для WordPress является почти шаблонным документом и его вид одинаков для 99% проектов, созданных на этом движке. Максимум, что требуется для вебмастера – это внести индивидуальные правила для используемого шаблона.

Правильный robots.txt для WordPress | PRIME

Пример  верно написанного robots.txt, в случае  если вы используете ЧПУ:

User-agent: * -

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

 

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

Host: mysite.com

Sitemap: http://mysite.com/sitemap.xml.gz

Sitemap: http://mysite.com/sitemap.xml

Руководство для начинающих по вашему файлу WordPress Robots.txt

Файл robots.txt играет очень важную роль в общей поисковой оптимизации вашего веб-сайта. Этот файл находится на вашем сервере и сообщает поисковым системам, какая часть сайта должна быть проиндексирована и просканирована поисковыми системами. По сути, он содержит набор правил для связи с поисковыми системами и указания им, какую часть вашего сайта необходимо проиндексировать.

Хотя на большинстве веб-сайтов есть файл robots.txt, не все веб-мастера знают, насколько важен этот файл и как он может повлиять на производительность их веб-сайта.


В сегодняшнем уроке мы расскажем вам, что такое файл robots.txt и все остальное, что вам нужно знать об этом файле.

Что такое файл WordPress Robots.txt?

Каждый веб-сайт в Интернете посещает определенный тип робота, который является своего рода ботом.

Если вы не знаете, что такое бот, поисковые системы, такие как Google и Bing, являются прекрасным примером для вас, чтобы понять это.

Когда эти боты ползают по Интернету, они помогают поисковым системам индексировать и ранжировать миллиарды веб-сайтов, существующих в Интернете.

Таким образом, эти боты действительно помогают поисковым системам обнаружить ваш сайт. Однако это не означает, что вы хотите, чтобы все ваши страницы были найдены.

Вам особенно хотелось бы, чтобы ваша панель управления и область администратора оставались скрытыми, потому что это частная область, из которой вы управляете внешним интерфейсом своего веб-сайта. Иногда вы можете захотеть, чтобы весь сайт оставался скрытым от поисковых систем именно по той причине, что он все еще находится в режиме разработки и просто не готов к запуску.

Robots.txt Commands, изображение со страницы веб-роботов

Здесь на помощь приходит файл robots.txt. Этот файл помогает вам контролировать взаимодействие ботов с вашим сайтом. Таким образом, используя этот файл, вы можете либо ограничить, либо полностью заблокировать его доступ к определенной области вашего сайта.

Нужен ли вашему сайту этот файл?

Хотя поисковые системы не перестанут сканировать, при отсутствии этого файла всегда рекомендуется его иметь.

Поисковые системы будут обращаться к этому файлу, если вы хотите отправить свои XML-карты сайта в поисковые системы, такие как Google.Очевидно, вы можете контролировать его, указав его в Google Web Master Tools.

Создание файла robot.txt имеет два основных преимущества для вашего веб-сайта. Во-первых, это помогает поисковым системам определить, какие страницы вы хотите просканировать, а какие проигнорировать. Делая это, вы убедитесь, что поисковые системы сосредоточены на страницах, которые вы хотите показать своей аудитории.

Во-вторых, это помогает оптимизировать использование исследований, блокируя ботов, которые напрасно тратят ресурсы вашего сервера.

Если ваш сайт работает на WordPress, вам, как правило, не нужно прилагать дополнительные усилия для создания файла robots.txt для вашего сайта. Виртуальный файл robots.txt автоматически создается на вашем сайте WordPress. Но все же лучше иметь физический файл robots.txt.

Является ли файл Robots.txt надежным способом управления индексацией страниц?

Ну, как я уже говорил, поисковые системы не перестанут сканировать ваши страницы при отсутствии этого файла. Создание этого файла не является надежным способом контроля того, какую страницу вы хотите индексировать в поисковых системах.

Если вы хотите запретить поисковым системам сканировать определенную страницу, вы можете полностью заблокировать их с помощью метатега noindex.

Используя файл robots.txt, вы не запрещаете поисковым системам индексировать их. Это только побуждает их не сканировать эти страницы. Хотя Google не сканирует эти области вашего сайта, он все же может это сделать, если какой-то другой сайт ссылается на эту часть вашего сайта.

Где находится файл robots.txt на вашем сайте WordPress?

Вы можете просмотреть этот файл, подключившись к вашему сайту с помощью FTP-клиента.Вы также можете сделать это с помощью файлового менеджера cPanel. Этот файл обычно находится в корневой папке вашего сайта.

Этот файл можно открыть с помощью любого текстового редактора, например Блокнота. Это обычный файл, для открытия которого не требуется специальный редактор.

Вам не нужно беспокоиться о существовании этого файла на вашем сайте. WordPress автоматически создает файл robot.txt по умолчанию для вашего сайта.

Если вы все еще сомневаетесь, есть способ, который покажет вам, что этот файл существует на вашем сайте.Просто добавьте «/robots.txt» в конец своего доменного имени. Он покажет вам файл robots.txt вашего сайта.

В нашем случае «www.alienwp.com/robots.txt» показывает файл robots.txt, который мы здесь используем.

 

Вы не можете изменить существующий файл, который будет у вас на сайте. Но если вы хотите манипулировать им, вам придется создать физический на своем сервере. Существующий — виртуальный, который не принимает никаких изменений.

Как создать роботов.текстовый файл?

Если на вашем сайте нет файла robots.txt, его несложно создать. Вы можете легко сделать это из панели администратора с помощью плагина Yoast. Yoast — один из самых удивительных SEO-плагинов, который должен использовать каждый сайт WordPress. Если вы все еще не используете этот плагин, установите его прямо сейчас, чтобы улучшить SEO.

После установки Yoast сначала необходимо включить расширенные функции Yoast. Вы можете сделать это, выбрав SEO>Панель инструментов>Функции>Дополнительные настройки.

Теперь перейдите в SEO>Инструменты>>Редактор файлов.

Здесь Yoast предположит, что у вас нет физического файла Robots.txt, и, учитывая это, предложит вам создать его.

Нажмите на опцию создания файла Robots.txt. После этого вы сможете редактировать содержимое этого файла из того же интерфейса.

Как создать файл robots.txt без плагина SEO?

Описанный выше процесс был способом создания этого файла с помощью плагина SEO.Но вы можете создать его, даже если не используете такой плагин. Это можно сделать через SFTP. Сделать это очень легко.

Для этого сначала нужно создать пустой файл. Назовите его как Robots.txt и сохраните.

На следующем шаге вам нужно будет подключиться к вашему сайту через SFTP. В Kinsta есть руководство по подключению к SFTP. После подключения вам нужно будет загрузить файл в корневую папку вашего сайта. Если вы хотите внести какие-либо изменения в этот файл, вы можете сделать это, отредактировав его через SFTP и загрузив новую версию.

Как использовать файл robots.txt для блокировки доступа к определенной странице?

Вы можете заблокировать определенный файл или папку на своем веб-сайте с помощью файла robots.txt. Предположим, вы хотите запретить Google сканировать всю папку wp-admin и файл wp-login.php. Следующая команда поможет вам сделать это на вашем сайте.

 Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-login.php

 

Что поместить в файл robot.txt?

Когда вы создаете файл robots.txt для своего веб-сайта, вы обычно делаете это с помощью двух основных команд.

  • Агент пользователя — с помощью агента пользователя вы можете настроить таргетинг на конкретного бота или поисковую систему более простыми словами. Таким образом, ваш пользовательский агент отличается для разных поисковых систем. Таким образом, пользовательский агент для Google не будет таким же, как для Bing.
  • Disallow — с помощью этой команды вы запрещаете поисковым системам доступ к определенным областям вашего веб-сайта. Таким образом, поисковые системы не достигают областей, для которых используется эта команда.

Иногда вы также можете увидеть использование команды Разрешить.Это обычно используется в нишевых ситуациях. Даже если вы не используете эту команду, большая часть вашего сайта находится под управлением этой команды. Это установлено по умолчанию на вашем сайте WordPress.

Приведенные выше правила являются лишь основными. Есть и другие правила, о которых вам нужно знать. Вот несколько из них.

  • Разрешить  – эта команда явно разрешает поисковым системам сканировать объект на вашем сервере. для сайта с несколькими зеркалами
  • Crawl-delay  – с помощью этой команды вы можете установить интервал времени ожидания поисковых систем между запросами на ваш сервер

Как создать разные правила для разных ботов?

Роботы.txt имеет собственный синтаксис для определения правил, широко известных как директивы. Как мы уже упоминали ранее, у разных ботов разные команды user-agent. Так что, если вы хотите настроить файл Robots.txt для разных ботов?

Что ж, в этом случае вам придется добавить набор правил в объявление пользовательского агента для каждого бота.

В следующей команде мы покажем вам, как создать одно правило для всех ботов и другое специально для Bing.

 Агент пользователя: *
Запретить: /wp-admin/
Агент пользователя: Bingbot
Disallow: / 

Добавив приведенную выше команду, вы сможете заблокировать доступ всех ботов к области wp-admin вашего сайта.Однако поисковой системе Bing будет заблокирован доступ ко всему веб-сайту.

Чего следует избегать при создании файла Robots.txt

Есть определенные вещи, которых следует избегать при создании файла Robots.txt. Первая и самая главная ошибка, которую совершают многие неопытные веб-владельцы, заключается в том, что в начале команды выделяется пробел.

Второе, что вам нужно иметь в виду, это то, что вы не можете и не должны изменять правила команд.Третье, на что многие не обращают внимания, это правильное использование прописных и строчных букв при написании команды.

Убедитесь, что вы дважды проверяете регистр ваших команд. Вы не можете написать user-Agent или user-agent там, где на самом деле должно быть User-agent. Надеюсь, вы поняли разницу в трех терминах.

Добавление ваших XML-карт сайта в файл Robots.txt

Если на вашем сайте уже используется SEO-плагин, такой как Yoast, он автоматически добавит команды, связанные с XML-картами сайта вашего сайта, в файл robots.текстовый файл.

Но если ваш плагин не может добавить эти команды, вам придется сделать это вручную самостоятельно. Ваш плагин покажет вам ссылку на ваши файлы Sitemap в формате XML. Вам нужно будет добавить его в файл robots.txt самостоятельно.

Как узнать, что ваш файл robots.txt не влияет на ваш контент?

Иногда вам может понадобиться проверить, не влияет ли на ваш контент файл robots.txt. Чтобы проверить и убедиться, что содержимое не затронуто, вы можете использовать инструмент для веб-мастеров под названием «Fetch As Bot Tool».Этот инструмент позволит вам увидеть, обращается ли ваш файл robots.txt к вашему контенту.

Для этого сначала необходимо войти в инструмент Google для веб-мастеров. Теперь перейдите в раздел «Диагностика и выборка от имени Google Bot». Там вы можете разместить содержимое своего сайта и посмотреть, есть ли у вас проблемы с доступом к нему.

Final Words

Как уже упоминалось, большинство сайтов WordPress имеют файл robots.txt по умолчанию. Но с помощью файла robots.txt вы можете контролировать, как конкретный бот или поисковая система взаимодействует с определенной частью вашего сайта.

Важно, чтобы вы знали, что команда disallow — это не то же самое, что тег noindex. Поисковые системы могут быть заблокированы с помощью robots.txt, но это не может помешать им индексировать ваш сайт. Вы можете управлять тем, как поисковые системы взаимодействуют с вашим сайтом, добавляя определенные правила.

Но хорошо, что вы знаете, какая часть вашего сайта должна быть просканирована, а какая часть должна быть закрыта. Потому что Google обычно рассматривает ваш сайт как единое целое. Поэтому, если вы используете эти файлы, чтобы заблокировать важную часть, о которой должен знать Google, вы можете просто столкнуться с некоторыми серьезными проблемами.

Например, если вы по незнанию используете файл robots.txt для блокировки компонента стиля. В таком случае Google сочтет ваш сайт менее качественным и может даже оштрафовать вас.

Содержание, которое вы хотите поместить в файл robots.txt, в основном зависит от вашего веб-сайта. Это могут быть ваши партнерские ссылки, ваша панель инструментов или любая другая конкретная область, к которой, по вашему мнению, не должны иметь доступ боты. Вы также можете сделать это для своих плагинов и тем.

Мы надеемся, что это руководство было полезным для вас.Не стесняйтесь оставлять нам комментарии ниже, если у вас есть дополнительные вопросы. Мы хотели бы вернуться к вам.

Просмотры сообщений: 10 276

Похожие сообщения

Информация об авторе

Кавери — штатный писатель-фрилансер, который любит писать о WordPress и цифровом маркетинге.

Как оптимизировать файл WordPress robots.txt для SEO | от Visualmodo | visualmodo

Вы оптимизировали файл WordPress Robots.txt для SEO? Если вы этого не сделали, вы игнорируете важный аспект SEO.Файл robots.txt играет важную роль в SEO вашего сайта. Вам повезло, что WordPress автоматически создает для вас файл Robots.txt. Иметь этот файл — половина дела. Вы должны убедиться, что файл Robots.txt оптимизирован, чтобы получить все преимущества.

Файл Robots.txt сообщает роботам поисковых систем, какие страницы следует сканировать, а какие избегать. В этом посте я покажу вам, как редактировать и оптимизировать файл Robots.txt в WordPress.

Что такое файл robots.txt?

Начнем с основного.Файл robots.txt — это текстовый файл, который указывает ботам поисковых систем, как сканировать и индексировать сайт. Всякий раз, когда какие-либо боты поисковых систем заходят на ваш сайт, они считывают файл robots.txt и следуют инструкциям. Используя этот файл, вы можете указать ботам, какую часть вашего сайта сканировать, а какую избегать. Однако отсутствие robots.txt не помешает роботам поисковых систем сканировать и индексировать ваш сайт.

Редактирование и понимание Robots.txt в WordPress

Я уже говорил, что на каждом сайте WordPress есть файл robots по умолчанию.txt в корневом каталоге. Вы можете проверить файл robots.txt, перейдя по адресу http://yourdomain.com/robots.txt. Например, вы можете проверить наш файл robots.txt здесь: https://roadtoblogging.com/robots.txt

Если у вас нет файла robots.txt, вам придется его создать. Это очень легко сделать. Просто создайте текстовый файл на своем компьютере, сохраните его как robots.txt и загрузите в корневой каталог. Вы можете загрузить его через FTP-менеджер или файловый менеджер cPanel.

Теперь посмотрим, как редактировать файл robots.текстовый файл.

Вы можете редактировать файл robots.txt с помощью диспетчера FTP или файлового менеджера cPanel. Но это долго и немного сложно.

Лучший способ редактировать файл Robots.txt — использовать плагин. Существует несколько плагинов WordPress robots.txt. Я предпочитаю Yoast SEO. Это лучший SEO-плагин для WordPress. Я уже рассказывал, как настроить Yoast SEO.

Yoast SEO позволяет вам изменять файл robots.txt из области администрирования WordPress. Однако, если вы не хотите использовать плагин Yoast, вы можете использовать другие плагины, такие как WP Robots Txt.

После того, как вы установили и активировали плагин Yoast SEO, перейдите в Панель администратора WordPress > SEO > Инструменты.

Затем нажмите «Редактор файлов».

Затем нужно нажать «Создать файл robots.txt».

Затем вы получите редактор файла Robots.txt. Здесь вы можете настроить файл robots.txt.

Перед редактированием файла необходимо понять команды файла. В основном это три команды.

  • User-agent — определяет имя ботов поисковых систем, таких как Googlebot или Bingbot.Вы можете использовать звездочку (*) для обозначения всех ботов поисковых систем.
  • Запретить — запрещает поисковым системам сканировать и индексировать некоторые части вашего сайта.
  • Разрешить — Указывает поисковым системам сканировать и индексировать, какие части вы хотите индексировать.

Вот пример файла Robots.txt.

 Агент пользователя: * 
Запретить: /wp-admin/
Разрешить: /

Этот файл robots.txt указывает всем ботам поисковых систем сканировать сайт. Во второй строке он сообщает поисковым роботам не сканировать часть /wp-admin/.В 3-й строке он указывает ботам поисковых систем сканировать и индексировать весь веб-сайт.

Настройка и оптимизация файла Robots.txt для поисковой оптимизации

Простая ошибка в настройке файла Robots.txt может привести к полной деиндексации вашего сайта поисковыми системами. Например, если вы используете команду «Запретить: /» в файле Robots.txt, ваш сайт будет деиндексирован поисковыми системами. Так что нужно быть осторожным при настройке.

Еще одним важным моментом является оптимизация файла Robots.txt для SEO.Прежде чем перейти к лучшим практикам SEO для Robots.txt, я хотел бы предупредить вас о некоторых плохих практиках.

  • Не используйте файл Robots.txt для сокрытия некачественного содержимого. Лучше всего использовать метатеги noindex и nofollow. Вы можете сделать это с помощью плагина Yoast SEO.
  • Не используйте файл Robots.txt, чтобы запретить поисковым системам индексировать ваши категории, теги, архивы, страницы авторов и т. д. Вы можете добавить на эти страницы метатеги nofollow и noindex с помощью плагина Yoast SEO.
  • Не используйте роботов.txt для обработки дублирующегося контента. Есть и другие способы.

Теперь давайте посмотрим, как сделать файл Robots.txt оптимизированным для SEO.

  1. Сначала вам нужно определить, какие части вашего сайта не должны сканироваться роботами поисковых систем. Я предпочитаю запрещать /wp-admin/, /wp-content/plugins/, /readme.html, /trackback/.
  2. Добавление производных «Разрешить: /» в файл Robots.txt не так важно, так как боты все равно будут сканировать ваш сайт. Но вы можете использовать его для конкретного бота.
  3. Добавление файлов Sitemap в файл Robots.txt также является хорошей практикой. Читайте: Как создать карту сайта

Вот пример идеального файла Robots.txt для WordPress.

 Агент пользователя: * 
Запретить: /wp-admin/
Запретить: /wp-content/plugins/
Запретить: /readme.html
Запретить: /trackback/
Запретить: /go/
Разрешить: /wp- admin/admin-ajax.php
Разрешить: /wp-content/uploads/
Карта сайта: https://roadtoblogging.com/post-sitemap.xml
Карта сайта: https://roadtoblogging.com/page-sitemap.xml

Вы можете проверить файл RTB Robots.txt здесь: https://roadtoblogging.com/robots.txt

Тестирование файла Robots.txt в Инструментах Google для веб-мастеров

После обновления файла Robots. txt, вы должны протестировать файл Robots.txt, чтобы проверить, не влияет ли обновление на какой-либо контент.

Вы можете использовать Google Search Console, чтобы проверить, есть ли какие-либо «Ошибки» или «Предупреждения» для вашего файла Robots.txt. Просто войдите в Google Search Console и выберите сайт. Затем перейдите в Сканирование > robots.txt Tester и нажмите кнопку «Отправить».

Появится окно. Просто нажмите на кнопку «Отправить».

Затем перезагрузите страницу и проверьте, обновлен ли файл. Обновление файла Robots.txt может занять некоторое время.

Если он еще не обновлен, вы можете ввести код файла Robots.txt в поле, чтобы проверить наличие ошибок или предупреждений. Он покажет ошибки и предупреждения там.

Если вы заметили какие-либо ошибки или предупреждения в файле robots.txt, вы должны исправить их, отредактировав файл robots.текстовый файл.

Заключительные мысли

Я надеюсь, что этот пост помог вам оптимизировать файл robots.txt WordPress. Если у вас есть какие-либо путаницы относительно, не стесняйтесь спрашивать нас через комментарии.

Однако, если вы хотите сделать свой блог WordPress оптимизированным для SEO, вы можете прочитать нашу статью о том, как настроить плагин WordPress Yoast SEO.

Если вы считаете этот пост полезным, пожалуйста, помогите мне, поделившись этим постом на Facebook, Twitter или Google+.

Файл WordPress и Robots.txt: примеры и рекомендации [издание 2020 г.]

Вопрос : Я использую WordPress, и мне интересно, должен ли я создать файл robots.текстовый файл. Я читал в разных местах, что должен, и в других местах, что WordPress создает свой собственный файл robots.txt. Какова реальная история? – Тим, Мэдисон, Висконсин

WordPress и файл Robots.txt: что лучше для вас

Тим, еще один отличный вопрос. Что делать с файлом robots.txt при использовании WordPress?

На этот вопрос есть два ответа. Первый — короткий и быстрый ответ, а второй — длинный и сложный… вы услышите, как эксперты обсуждают роботов WordPress.txt файл до тошноты .

Итак, давайте сначала перейдем к быстрому ответу, а затем мы рассмотрим «длинный ответ» и засыпаем вас ссылками, где эксперты обсуждают этот вопрос до посинения.

WordPress и файл Robots.TXT: виртуальный файл Robots.Txt по умолчанию

Тим, быстрый ответ таков:

Вам не нужно создавать файл robots.txt, поскольку WordPress автоматически создает для вас виртуальный файл robots.txt.

Чтобы просмотреть этот файл, вы можете посетить http://yoursite.com/robots.txt .

Файл должен выглядеть примерно так:

 Агент пользователя: *
Запретить: /wp-admin/
Запретить: /wp-includes/

Карта сайта: http://yoursite.com/sitemap.xml.gz 

Первая строка этого файла, строка «user-agent», является объявлением бота . * указывает на всех поисковых ботов (таких как Google, Yahoo и т. д.). И по умолчанию будет проиндексировано все, кроме строк, о которых мы упомянем ниже.

Вторая и третья строки этого файла сообщают агентам пользователя ( в данном случае все они ) не выполнять поиск в этих конкретных каталогах WordPress, поскольку они не содержат дополнительного контента.

Наконец, строка карты «Карта сайта» информирует ботов о расположении вашего файла карты сайта. Эта строка предположительно полезная и должна быть включена в ваш файл robots.txt. Если вы используете плагин карт сайта Google XML (что вам и следует делать), эта строка будет включена… и разрыв строки после последней строки disallow также должен быть там.

Что делать, если вы не видите файл robots.txt?

Тим, у некоторых людей есть эта проблема, поэтому я решил дать ответ и на нее.

Если вы не видите виртуальный файл robots.txt, который должен был создать WordPress, возможно, вы используете устаревшую версию WordPress ИЛИ виртуальный файл robots.txt был вытеснен плагином.

В этом случае вы можете легко создать свой собственный файл robots.txt. Используя приведенный выше пример WordPress, просто скопируйте и вставьте информацию в текстовый файл, назовите его robots.txt, а затем загрузите в корневой каталог. Очевидно, вы хотите изменить yoursite на фактический URL вашего веб-сайта.

Создайте свой собственный файл robots.txt: примеры

Могут быть случаи, когда вы хотите, чтобы другие каталоги (каталоги, которые, возможно, существуют за пределами вашей среды WordPress) также были запрещены, потому что вы не хотите, чтобы они отображались в результатах поиска.

Это также легко сделать, создав собственный файл robots.txt . Если у вас есть подкаталог вашего веб-сайта, который вы не хотите включать в боты, вы можете просто добавить такую ​​строку:

Запретить: /эта директория/
 

Не забудьте добавить в конце «/» ! Если вы этого не сделаете, он не будет индексировать ничего, начинающееся со слов «thisdirectory».

Будет ли ваш robots.txt перезаписывать виртуальный Robots.txt WordPress?

Да. Если вы загрузите свой собственный файл robots.txt, вы увидите, что он теперь является активным файлом , посетив http://yoursite.com/robots.txt .

Пример Robots.Txt для загрузки

Тим, если вам не нужно запрещать какие-либо другие файлы, виртуальный файл WordPress robots.txt подойдет.

Однако, если вы не видите виртуальный файл robots.txt или вам нужно создать его вручную, чтобы исключить другие подкаталоги на вашем веб-сайте, используйте следующие строки в качестве шаблона:

Пользовательский агент: *
Запретить: /wp-admin/
Запретить: /wp-includes/
Запретить: /subdirdontindex1/
Запретить: /subdirdontindex2/

Карта сайта: http://вашсайт.com/sitemap.xml
 

Приложение: файл WordPress Robots.Txt — исчерпывающее обсуждение

Я считаю, что большинству из вас достаточно упомянутых выше стратегий. Это связано с тем, что «окончательный ответ» не был объявлен со 100% уверенностью, и, за исключением серьезной ошибки, такой как непреднамеренный запрет всего вашего сайта ( это было сделано! ), ваш файл robots.txt должен быть в порядке.

Тем не менее, исчерпывающее обсуждение WordPress и Robots.txt продолжается.

Вот несколько ссылок, в которых обсуждается этот вопрос с кратким описанием каждой ссылки:

Поисковая оптимизация для WordPress: это обсуждение сайта WordPress.org SEO для WordPress, и здесь они представляют рекомендуемый файл robots.txt. Вы, конечно, можете использовать их рекомендованный файл robots.txt, но он был опровергнут в нескольких статьях из-за запрета слишком многого.

Руководство по

WordPress Robots.txt — что это такое и как его использовать: глубоко погрузитесь в файл robots.txt с этим подробным сообщением от Kinsta.com.

Как оптимизировать ваш WordPress Robots.txt для SEOЭтот сайт полностью посвящен WordPress, и в этой статье они уделяют внимание файлу robots.txt со множеством убедительных примеров того, что вы должны и не должны делать.

WordPress robots.txt Пример: один автор, которого я очень уважаю, поскольку он является создателем лучшего SEO-плагина для WordPress, говорит, что рекомендации WordPress слишком строгие. Он говорит, что единственная строка, которая должна быть в вашем файле robots.txt: «User-agent: *».

WordPress нужен файл robots.txt по умолчанию и многое другое…: Знаете ли вы, что на WordPress.org есть раздел идей ? Что ж, они это делают, и одна из идей — предоставить файл robots.txt по умолчанию. Мне нравится эта идея (хотя она действительно существует с виртуальным robots.txt), и она позволила бы нам всем довольствоваться одним ответом.

Инструменты для создания robots.txt: если вам неудобно создавать собственный файл robots.txt, по этой ссылке есть инструменты, которые вам помогут.

Ричард Каммингс

Директор по SEO, социальным сетям и разработке веб-контента в SEO System

Ричард Каммингс много лет занимается онлайн-маркетингом, настроил и оптимизировал сотни сайтов WordPress. средства массовой информации, а также услуги онлайн-маркетинга и программное обеспечение для бизнеса.

Последние сообщения Ричарда Каммингса (посмотреть все)
Файл

Robots.txt — что это такое? Как это использовать? // ВЕБРИС

Короче говоря, роботов.txt определяет доступ поисковых систем к вашему сайту.

Этот текстовый файл содержит «директивы», определяющие для поисковых систем, какие страницы должны «разрешать» и «запрещать» доступ поисковым системам.

 

Скриншот нашего файла Robots.txt

 

Добавление сюда неправильных директив может негативно сказаться на вашем рейтинге, поскольку это может помешать поисковым системам сканировать страницы (или весь ваш сайт).

 

Ваш сайт теряет деньги…

Узнайте, сколько именно клиентов вы ДОЛЖНЫ получать от органического поиска.

 

Что такое «роботы» (в отношении SEO)?

Роботы — это приложения, которые «сканируют» веб-сайты, документируя (т. е. «индексируя») информацию, которую они охватывают.

В файле Robots.txt эти роботы называются агентами пользователя.

Вы также можете услышать, как их называют:

  • Пауки
  • Боты
  • Поисковые роботы

Это , а не официальные имена агентов пользователей поисковых роботов.Другими словами, вы бы не «запретили» «сканера», вам нужно было бы получить официальное название поисковой системы (краулер Google называется «Googlebot»).

Полный список веб-роботов можно найти здесь.

 

Изображение предоставлено

 На этих ботов воздействуют разными способами, включая создаваемый вами контент и ссылки, ведущие на ваш веб-сайт.

 Файл Robots.txt – это средство прямого общения с роботами поисковых систем , давая им четкие указания о том, какие части вашего сайта следует сканировать (или не сканировать).

 

Как использовать файл Robots.txt?

Вам необходимо понять «синтаксис» создания файла Robots.txt.

1. Определите User-agent

Укажите имя робота, о котором вы говорите (например, Google, Yahoo и т. д.). Опять же, вы захотите обратиться за помощью к полному списку пользовательских агентов.

2. Запретить

Если вы хотите заблокировать доступ к страницам или разделу вашего сайта, укажите URL-адрес здесь.

3. Разрешить

Если вы хотите напрямую разблокировать URL-адрес внутри заблокированного родителя, введите этот путь к подкаталогу URL-адреса здесь.

 

Файл Robots.txt Википедии.

 

Короче говоря, вы можете использовать robots.txt, чтобы сказать этим поисковым роботам: «Индексируйте эти страницы, но не индексируйте другие».

 

Почему файл robots.txt так важен

Может показаться нелогичным «блокировать» страницы от поисковых систем. Для этого есть ряд причин и случаев:

 

1. Блокирование конфиденциальной информации

Каталоги являются хорошим примером.

Вероятно, вы захотите скрыть те, которые могут содержать конфиденциальные данные, такие как:

  • /тележка/
  • /cgi-bin/
  • /скрипты/
  • /вп-админ/

 

2. Блокировка страниц низкого качества

Компания Google неоднократно заявляла, что важно, чтобы ваш веб-сайт был «очищен» от страниц низкого качества. Наличие большого количества мусора на вашем сайте может снизить производительность.

Ознакомьтесь с нашим аудитом контента для получения более подробной информации.

 

3. Блокировка дублированного контента

Возможно, вы захотите исключить все страницы с дублирующимся содержимым. Например, если вы предлагаете «печатные версии» некоторых страниц, вы бы не хотели, чтобы Google индексировал повторяющиеся версии, поскольку дублированный контент может повредить вашему рейтингу.

Однако имейте в виду, что люди по-прежнему могут посещать эти страницы и ссылаться на них, поэтому, если информация относится к типу, который вы не хотите, чтобы другие видели, вам необходимо использовать защиту паролем, чтобы сохранить ее конфиденциальность.

Это потому, что, вероятно, есть некоторые страницы, содержащие конфиденциальную информацию, которую вы не хотите показывать в поисковой выдаче.

 

Форматы robots.txt для разрешения и запрета

Robots.txt на самом деле довольно прост в использовании.

Вы буквально говорите роботам, какие страницы «разрешить» (что означает, что они будут их индексировать), а какие «запретить» (которые они будут игнорировать).

Вы будете использовать последний только один раз, чтобы перечислить страницы, которые вы не хотите сканировать пауками.Команда «Разрешить» используется только в том случае, если вы хотите, чтобы страница сканировалась, но ее родительская страница «Запрещена».

Вот как выглядит файл robot.txt для моего сайта:

 

 

Первоначальная команда агента пользователя сообщает всем веб-роботам (т. е. *), а не только роботам для определенных поисковых систем, что эти инструкции применимы к ним.

 

Как настроить robots.txt для вашего веб-сайта

Во-первых, вам нужно записать свои директивы в текстовый файл.

Затем загрузите текстовый файл в каталог верхнего уровня вашего сайта — его необходимо добавить через Cpanel.

 

Изображение предоставлено

Ваш динамический файл всегда будет идти сразу после «.com/» в вашем URL. Наш, например, находится по адресу https://webris.org/robot.txt.

Если бы он находился по адресу www.webris.com/blog/robot.txt, поисковые роботы даже не стали бы его искать, и ни одна из его команд не выполнялась бы.

Если у вас есть поддомены, убедитесь, что у них есть собственные файлы robots.также txt-файлы. Например, наш поддомен training.webris.org имеет собственный набор директив — это невероятно важно проверять при проведении SEO-аудитов.

 

Проверка файла robots.txt

Google предлагает бесплатный инструмент для проверки robots.txt, который можно использовать для проверки.

 

Он находится в Google Search Console в разделе Crawl > Robots.txt Tester.

 

Использование Robots.txt для улучшения SEO

Теперь, когда вы понимаете этот важный элемент SEO, проверьте свой собственный сайт, чтобы убедиться, что поисковые системы индексируют страницы, которые вам нужны, и игнорируют те, которые вы хотите убрать из поисковой выдачи.

В дальнейшем вы можете продолжать использовать файл robot.txt для информирования поисковых систем о том, как они должны сканировать ваш сайт.

Оптимизировать WordPress Robots.txt — Предотвратить прямой доступ

Robots.txt запретить

Очень важно знать, что команда «Запретить» в файле robots.txt WordPress не работает точно так же, как метатег noindex  в заголовке страницы. Ваш файл robots.txt блокирует сканирование, но не обязательно индексирование, за исключением файлов веб-сайтов, таких как изображения и документы.Поисковые системы по-прежнему могут индексировать ваши «запрещенные» страницы, если на них есть ссылки из других источников.

So Prevent Direct Access Gold больше не использует правила запрета robots.txt для блокировки страниц вашего веб-сайта от поисковой индексации. Вместо этого мы используем метатег noindex , который также помогает Google и другим поисковым системам правильно распределять значение входящих ссылок для вашего контента на вашем веб-сайте.

Что включить в файл robots.txt WordPress?

Yoast предлагает сохранить ваших роботов.txt чистый и ничего не блокирует, включая следующее:

Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php
Запретить: /wp-content/plugins/
Запретить: /wp-includes/

WordPress также соглашается с тем, что идеальный файл robots.txt не должен ничего запрещать. На самом деле каталоги /wp-content/plugins/ и /wp-includes/ содержат изображения, файлы JavaScript или CSS, которые, вероятно, используются вашими темами и плагинами для правильного отображения вашего веб-сайта.Блокировка этих каталогов означает, что все скрипты, стили и изображения поставляются с вашими плагинами, а WordPress блокируется, а Google и другим поисковым роботам становится сложнее анализировать и понимать содержимое вашего веб-сайта. Точно так же вы никогда не должны блокировать свой /wp-content/themes/ .

Короче говоря, запрет ваших ресурсов, загрузок и каталога плагинов WordPress, который, как многие утверждают, повышает безопасность вашего сайта от любого, кто использует уязвимые плагины для использования, вероятно, приносит больше вреда, чем пользы, особенно с точки зрения SEO.Вы не должны устанавливать эти плагины в первую очередь.

Вот почему мы по умолчанию удалили эти правила из файла robots.txt. Однако вы все равно можете включить их в наше расширение интеграции WordPress Robots.txt.

Карта сайта XML

Хотя Yoast также настоятельно рекомендует вручную отправлять карту сайта в формате XML непосредственно в консоль поиска Google и инструменты Bing для веб-мастеров, вы все же можете включить директиву карты сайта в файл robots.txt в качестве быстрой альтернативы другим поисковым системам, где находится ваша карта сайта.

  Карта сайта: http://preventdirectaccess.com/post-sitemap.xml
Карта сайта: http://preventdirectaccess.com/page-sitemap.xml
Карта сайта: http://preventdirectaccess.com/author-sitemap.xml
Карта сайта: http://preventdirectaccess.com/offers-sitemap.xml  

Заблокировать доступ к файлам Readme.html, licence.txt и wp-config-sample.php

С точки зрения безопасности рекомендуется заблокировать доступ к файлу readme WordPress.html, licence.txt и wp-config-sample.php, чтобы неавторизованные пользователи не могли проверить, какую версию WordPress вы используете.

  Агент пользователя: *
Запретить: /readme.html
Запретить: /licence.txt
Запретить: /licence.txt
  

Вы также можете использовать robots.txt, чтобы запретить определенным ботам сканировать содержимое вашего веб-сайта или указать разные правила для разных типов ботов.

 # заблокировать Googlebot от сканирования всего веб-сайта 
Агент пользователя: Googlebot
Запретить: /

# заблокировать Bingbot от сканирования каталога ссылок
Агент пользователя: Bingbot
Запретить: /ссылка/  

Вот как вы можете запретить ботам сканировать результаты поиска WordPress

  Агент пользователя: *
Запретить: /?s=
Запретить: /поиск/  

Хост и Crawl-delay — другие роботы.txt, которые вы можете использовать, хотя и менее популярные. Первая директива позволяет указать предпочтительный домен вашего сайта (с www или без www):

.
  Агент пользователя: *
#мы предпочитаем домен без www
 Хост : preventdirectaccess.com 

Последний сообщает жадным до сканирования ботам различных поисковых систем ждать несколько секунд перед каждым сканированием.

  Агент пользователя: *
#пожалуйста, подождите 8 секунд перед следующим сканированием  crawl-delay: 8 

лучших роботов.txt веб-сайта WordPress

Текстовый файл, известный как robots.txt, который вы размещаете на своем веб-сайте, чтобы сообщить поисковым роботам, какие страницы вы хотите, чтобы они посещали, а какие нет. Поисковые системы подчиняются тем вещам, которые просят не делать, но robots.txt для них не является обязательным. Robot.txt не является брандмауэром или защитой паролем для поисковых систем. Это также не мешает поисковой системе сканировать ваш сайт. Если у вас действительно есть какие-либо данные, которые вы не хотите показывать в результатах поиска, вам никогда не нужно доверять роботам.txt, чтобы он не индексировался и не отображался в результатах поиска.

robots.txt должен находиться в основном каталоге. Поисковые системы могут обнаружить его в основном каталоге только в том случае, если он находится в любом другом месте, кроме того, что поисковые системы не ищут его на всем веб-сайте и не могут его найти. Поисковые системы сначала смотрят его в основной каталог, и если его нет, то поисковые системы предполагают, что файл robots.txt не существует на сайте. Итак, если robots.txt находится не в том месте, поисковая система отображает все, что находит.

Синтаксис файла robots.txt

Присутствует множество поисковых систем и много разных файлов, которые вы хотите запретить. Синтаксис файла robots.txt следующий: —

 Агент пользователя: *
Запретить: /

В юзер-агенте прописаны сканеры поисковой системы, а перед Disallow прописан список директорий и файлов, которые вы не хотите отображать или сканировать.

Вы также можете добавить строку комментария, используя знак решетки (#) в начале строки.

Например:-

 Агент пользователя: *
Запретить: /temp/ 

В приведенном выше примере показано, что User-agent: * означает, что он включает все сканеры поисковой системы, а Disallow: /temp/ означает, что он запрещает отображать имя файла temp.

Важные вещи для лучшего robots.txt веб-сайта WordPress

Если вы имеете дело с WordPress, то вы хотите, чтобы ваши страницы и сообщения отображались в поисковых системах, но вы не хотите, чтобы поисковые системы сканировали ваши основные файлы и каталоги WordPress, а также обратные ссылки и каналы.Содержимое файла robots.txt варьируется от сайта к сайту по-разному. Вам необходимо создать файл robots.txt в корневом каталоге вашего сайта. Стандартного файла robots.txt для WordPress не существует, но следующие пункты дают вам четкое представление о том, какой файл robots.txt лучше всего подходит для веб-сайта WordPress.

1. Вещи, которые всегда следует блокировать

На сайте WordPress есть некоторые файлы и каталоги, которые следует каждый раз блокировать. Каталоги, которые следует запретить в файле robot.txt — это каталог «cgi-bin» и стандартные каталоги WP. Некоторые серверы не разрешают доступ к каталогу «cgi-bin», но вы должны включить его в свою директиву disallow в файле robot.txt, и он не будет быть вредным, если вы делаете это.

Стандартные каталоги WordPress, которые вы должны заблокировать, это wp-admin, wp-content, wp-includes. В этих каталогах нет никаких данных, которые изначально были бы полезны для поисковых систем, но есть исключение, т. е. подкаталог с именем «uploads» существует в каталоге wp-content.Этот подкаталог должен быть разрешен в robot.txt, потому что он включает в себя все, что вы загружаете с помощью функции загрузки мультимедиа WP. Итак, вы должны сделать его разблокированным.

Директивы, использованные выше, приведены ниже:-

 Агент пользователя: *
Запретить: /cgi-bin/
Запретить: /wp-admin/
Запретить: /wp-includes/
Запретить: /xmlrpc.php
Запретить: /wp-content/plugins/
Запретить: /wp-content/cache/
Запретить: /wp-content/themes/
Запретить: /трекбэк/
Запретить: /кормить/
Запретить: /комментарии/
Запретить: /категория/
Запретить: /трекбэк/
Запретить: /кормить/
Запретить: /комментарии/
Запретить: /*?
Разрешить: /wp-content/uploads/ 

2.Что блокировать в зависимости от вашей конфигурации WP

Вы должны знать, что ваш сайт WordPress использует теги или категории для структурирования контента, или использует и категории, и теги, или не использует ни одного из них. Если вы используете категории, вам необходимо заблокировать архивы тегов от поисковых систем и наоборот. Сначала проверьте базу, просто перейдите в Панель администратора > Настройки > Постоянные ссылки.

По умолчанию основой является тег, если поле пустое. Вы должны запретить тег в файле robot.txt, как указано ниже:

 Запретить: /тег/ 

Если вы используете категорию, вы должны заблокировать категорию в файле robot.txt, как указано ниже:

 Запретить: /категория/ 

Если вы используете и категории, и теги, вам не нужно ничего делать в файле robot.txt.

Если вы не используете ни теги, ни категории, заблокируйте их оба в файле robot.txt, как указано ниже:

 Запретить: /категория/
Запретить: /тег/ 

3. Файлы блокировать отдельно

В WordPress используются разные файлы для отображения содержимого.Все эти файлы не должны быть доступны для поисковых систем. Так что вы должны заблокировать их также. Для отображения содержимого в основном используются различные файлы: файлы PHP, файлы JS, файлы INC, файлы CSS.

Вы должны заблокировать их в файле robot.txt, как указано ниже:

 Disallow: /index.php # отдельная директива для основного файла скрипта WP
Запретить: /*.php$
Запретить: /*.js$
Запретить: /*.inc$
Запретить: /*.css$ 

Символ «$» соответствует концу строки URL.

Имейте в виду, что рекомендуется не блокировать файлы, которые не находятся в каталоге загрузки.

4. Вещи, которые нельзя блокировать

Есть много вещей, которые вы не хотите блокировать, в зависимости от вашего выбора. Здесь я не хочу блокировать изображения из поиска изображений Google, поэтому я должен разрешить это в файле robot.txt, как указано ниже:

 Агент пользователя: Googlebot-Image
Запретить:
Разрешить: / # Это не стандартное использование этой директивы, но Google предпочитает ее 

Вы можете добавить то, что не хотите блокировать, как написано в приведенном выше примере.

WordPress robots.txt — пример отличного SEO : База знаний

Файл robots.txt — очень мощный файл, если вы работаете над SEO сайта. В то же время использовать его нужно с осторожностью. Он позволяет запретить поисковым системам доступ к определенным файлам и папкам, но очень часто это , а не , то, что вы хотите сделать. За прошедшие годы Google сильно изменился в том, как он сканирует Интернет, поэтому старые рекомендации больше не действуют. В этом посте объясняется, каковы текущие рекомендации для ваших роботов WordPress.txt и почему.


Google полностью отображает ваш сайт

Google больше не является тупым ребенком, который просто извлекает HTML-код вашего сайта и игнорирует ваш стиль и JavaScript. Он извлекает 90 183 все 90 184 и полностью отображает ваши страницы. Это означает, что когда вы запрещаете Google доступ к вашим файлам CSS или JavaScript, ему совсем не нравится этот . Этот пост о Google Panda 4 показывает пример этого. Позже мы еще раз повторили и будем повторять: не блокируйте файлы CSS и JavaScript.

 


Robots.txt запрещает ссылкам их значение

Очень важно иметь в виду еще кое-что. Если вы заблокируете URL-адрес своего сайта с помощью robots.txt , поисковые системы не будут сканировать эти страницы. Это также означает, что они не могут распространять значение ссылки, указывающее на эти URL-адреса. Поэтому, если у вас есть раздел вашего сайта, который вы бы не хотели показывать в результатах поиска, но на который есть много ссылок, не используйте файл robots.txt  . Вместо этого используйте метатег robots со значением noindex, следуйте .Это позволяет поисковым системам правильно распределять значение ссылки для этих страниц на вашем сайте.




Пример нашего файла robots.txt для WordPress

Итак, что должно быть в файле robots.txt для WordPress? Наш теперь очень чистый. Мы больше не блокируем ничего ! Мы не блокируем наш каталог /wp-content/plugins/ , так как плагины могут выводить JavaScript или CSS, необходимые Google для отображения страницы. Мы также не блокируем наш каталог /wp-includes/ , так как из этих каталогов поступают сценарии JavaScript по умолчанию, которые поставляются с WordPress и используются во многих темах.

Мы также не блокируем нашу папку /wp-admin/ . Причина проста: если вы его заблокируете, но случайно сошлетесь где-то на него, люди все равно смогут сделать простой [inurl:wp-admin]  запрос в Google и найти ваш сайт. Это тип запроса, который злоумышленники любят делать  . Если вы ничего не делаете, в WordPress есть мета-заголовок robots x-http на страницах администрирования, который не позволяет поисковым системам показывать эти страницы в результатах поиска, что является более чистым решением.


Что делать с 

вашим   robots.txt

Вы должны войти в консоль поиска Google и в разделе «Сканирование» → «Просмотреть как Google» использовать параметр «Выбрать и отобразить»:

90’t02 Если это не так выглядеть так, как вы видите, когда просматриваете свой сайт, или он выдает ошибки или уведомления: исправьте их, удалив строки, блокирующие доступ к этим URL-адресам, из вашего файла robots.

Leave a Reply