Где лежит robots txt wordpress: Файл robots.txt для WordPress | REG.RU

Содержание

ТОП4 способа как создать Robots txt для WordPress

👍 Бесплатно научим правильно создавать сайты на WordPress. Подробнее →

Хотите, чтобы поисковые системы корректно индексировали страницы и разделы вашего блога? Отличное решение — сделать правильный файл Robots txt для WordPress. Разберемся как и что в нем прописать.

Для чего нужен Robots.txt?

Он предназначен для поисковых систем, их роботов и правильной индексации. Директивы файла указывают, какие разделы сайта нужно выдавать в поиске, а какие скрыть. Это позволяет нацелить поисковик на попадание нужного контента в выдаче. Например, если человек в Google введет «как отремонтировать холодильник», то ему нужно показать инструкцию по ремонту, а не страницу регистрации или информацию о сайте.

Результат поисковой выдачи после изменений robots.txt вы заметите не сразу. Может пройти от недели до нескольких месяцев. Правильно будет его создать уже во время разработки сайта.

Где лежит Robots?

Это обычный текстовый файл, который располагается в корневой папке сайта и доступен по адресу

https://site.com/robots.txt

По умолчанию Роботс не создается. Его нужно создавать вручную или использовать инструменты, которые делают это автоматически. Разберем их ниже.

Не могу найти этот файл

Если по указанной выше ссылке файл доступен онлайн, но в корне сайта его нет, то это означает, что он создан виртуально. Для поисковой системы нет разницы. Главное, чтобы его содержимое можно было получить по адресу https://site.com/robots.txt.

Из чего состоит robots.txt

Имеет 4 основных директивы:

  • User-agent — задает правила для поисковых роботов.
  • Disalow — запрещает доступ.
  • Allow — разрешает.
  • Sitemap — полный путь (URL-адрес) XML-карты.

Пример стандартного robots.txt для ВордПресс

Вариаций этого файла много. На каждом сайте он может отличаться.

Вот пример рабочего Роботс. Посмотрим что означает каждая его строка и для чего нужна.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /license.txt
Disallow: /readme.html
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: /*?replytocom
Disallow: */feed
Disallow: */rss
Disallow: /author/
Disallow: /?
Disallow: /*?
Disallow: /?s=
Disallow: *&s=
Disallow: /search
Disallow: *?attachment_id=
Allow: /*.css
Allow: /*.js
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Sitemap: https://site.com/sitemap_index.xml

Первая строка говорит, что ссылки сайта могут обходить все поисковые роботы.

Строки с Disallow запрещают индексировать служебные папки и файлы, кэшированные страницы, страницы авторизации и регистрации, RSS (Feed), страницы авторов, поиска и вложений.

Директивы с Allow наоборот разрешают добавлять в индекс поисковиков скрипты, стили, файлы загрузок, тем и плагинов.

Последняя строка указывает на адрес карты XML.

По этому примеру вы можете составить свой Роботс, который будет «заточен» под ваш ресурс.

Идеального содержимого этого файла для всех сайтов не существует. Его всегда нужно формировать под конкретный ресурс.

Как создать правильный robots.txt для сайта

Есть несколько способов.

Вручную

Это можно сделать обычным ручным способом. Например, в Блокноте (если локальный сайт) или через FTP-клиент (на сервере хостинга).

Также это можно сделать с помощью ВП-плагинов. Разберем лучшие.

Clearfy Pro

Виртуальный файл поможет создать премиум-плагин Clearfy Pro, который имеет целый набор функций для SEO и оптимизации сайта.

  1. Установите и активируйте расширение.
  2. Откройте админ-раздел Clearfy Pro.
  3. Перейдите на вкладку SEO.
  4. Активируйте опцию Создать правильный robots.txt.
  5. Заполните содержимое директивами.
  6. Нажмите кнопку Сохранить изменения.

Всегда можно отредактировать содержимое Robots. Просто измените/дополните его нужным содержимым и сохраните изменения.

Активировать промокод на 15%

Yoast SEO

Этот мощный СЕО-модуль для WP также корректно решит задачу.

  1. Откройте SEO > Инструменты.
  2. Кликните по Редактор файлов.
  3. Если этого файла в корне сайта нет, нажмите Создать файл robots.txt.
  4. Если существует, то откроется редактор, в котором можно вносить правки.
  5. Если изменили Роботс, кликните по кнопке ниже.

All in One SEO Pack

В этом популярном для поисковой оптимизации решении тоже есть инструменты чтобы создать/отредактировать Robots.

  1. После активации перейдите All in One SEO > Модули.
  2. Из списка выберите одноименное название модуля и нажмите Activate.
  3. Откройте All in One SEO > Robots.txt.
  4. С помощью полей добавьте директивы.

Настройка для интернет-магазинов на основе WooCommerce

Для WordPress-ресурсов с использованием этого расширения есть свои директивы. Просто добавьте их к своим.

Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

составляем правильный роботс для WordPress и других систем

Содержание статьи

Вы знаете, насколько важна индексация — это основа основ в продвижении сайтов. Потому что если ваш сайт не индексируется, то хрен вы какой трафик из поиска получите. Если он индексируется некорректно — то у вас даже при прочих идеальных условиях будет обрубаться часть трафика. Тут все просто — если вы, например, запретили к индексации папку с изображениями, то у вас почти не будет по ним трафа (хотя многие сознательно идут на такой шаг).

Индексация сайта — это процесс, в ходе которого страницы вашего сайта попадают в Яндекс, Гугл или другой поисковик. И после этого пользователь может найти страницу вашего сайта по какому-нибудь запросу.

Управляете вы такой важной штукой, как индексация, именно посредством файла robots.txt. Начну с азов.

Что такое robots.txt

Robots.txt — файл, который говорит поисковой системе, какие разделы и страницы вашего сайта нужно включать в поиск, а какие — нельзя. Ну то есть он говорит не поисковой системе напрямую, а её роботу, который обходит все сайты интернета. Вот что такое роботс. Этот файл всегда создается в универсальном формате .txt, который сможет открыть даже компьютер вашего деда.

Вот видос от Яндекса:

Основное назначение – контроль за доступом к публикуемой информации. При необходимости определенную информацию можно закрыть для роботов. Стандарт robots был принят в начале 1994 года, но спустя десятилетие продолжает жить.

Использование стандарта осуществляется на добровольной основе владельцами сайтов. Файл должен включать в себя специальные инструкции, на основе которых проводится проверка сайта поисковыми роботами.

Самый простой пример robots:

User-agent: *
Allow: /

Данный код открывает весь сайт, структура которого должна быть безупречной.

Зачем закрывают какие-то страницы? Не проще ли открыть всё?

Смотрите — у каждого сайта есть свой лимит, который называется краулинговый бюджет. Это максимальное количество страниц одного конкретного сайта, которое может попасть в индекс. То есть, допустим, у какого-нибудь М-Видео краулинговый бюджет может составлять десять миллионов страниц, а у сайта дяди Вани, который вчера решил продавать огурцы через интернет — всего сотню страниц. Если вы откроете для индексации всё, то в индекс, скорее всего, попадет куча мусора, и с большой вероятностью этот мусор займет в индексе место некоторых нужных страниц. Вот чтобы такой хрени не случилось, и нужен запрет индексации.

Где находится Robots

Robots традиционно загружают в корневой каталог сайта.

Это корневой каталог, и в нем лежит роботс.

Для загрузки текстового файла обычно используется FTP доступ. Некоторые CMS, например WordPress или Joomla, позволяют создавать robots из админпанели.

Для чего нужен этот файл

А вот для чего:

  • запрета на индексацию мусора — страниц и разделов, которые не содержат в себе полезный контент;
  • разрешение индексации нужных страниц и разделов;
  • чтобы давать разные задачи роботам разных поисковиков — то есть, например, Яндексу разрешить индексировать всё, а Рамблеру — ничего;
  • можно также задавать роботам разные категории. Заморочиться например вплоть до того, что Гуглу разрешить индексировать только картинки, а Яху — только карту сайта;
  • чтобы показать через директиву Host Яндексу, какое у сайта главное зеркало;
  • еще некоторые вебмастера запрещают всяким нехорошим парсерам сканировать сайт с помощью этого файла;

То есть большую часть проблем по индексации он решает. Есть конечно помимо роботса еще и такие инструменты, как метатег роботс (не путайте!), заголовок Last-Modified и другие, но это уже для профессионалов и нужны они лишь в особых случаях. Для решения большинства базовых проблем с индексацией хватает манипуляций с роботсом.

Как работают поисковые роботы и как они обрабатывают данный файл

В большинстве случаев, очень упрощенно, они работают так:

  1. Обходят Интернет;
  2. Проверяют, какие документы разрешено индексировать, а какие запрещено;
  3. Включает разрешенные документы в базу;
  4. Затем уже другие механизмы решают, какие страницы достаточно полезны для включения в индекс.

Вот ссылка на справку Яндекса о работе поисковых роботов, но там все довольно отдаленно описано.

Справка Google свидетельствует: robots – рекомендация. Файл создается для того, чтобы страница не добавлялась в индекс поисковой системы, а не чтобы она не сканировалась поисковыми системами. Гугл позволяет запрещенной странице попасть в индекс, если на нее направляется ссылка внутри ресурса или с внешнего сайта.

По-разному ли Яндекс и Google воспринимают этот файл

Многие прописывают для роботов разных поисковиков разные директивы. Даже если список этих директив ничем не отличается.

Наверное, это для того, чтобы выразить уважение к Господину Поисковику. Как там раньше делали — «великий князь челом бьет… и просит выдать ярлык на княжение». Других соображений по поводу того, зачем разным юзер-агентам прописывают одни и те же директивы, у меня нет, да и вебмастера, так делающие, дать нормальных объяснений своим действиям не могут.

А те, кто может ответить, аргументируют это так: мол, Google не воспринимает директиву Host и поэтому её нужно указывать только для Яндекса, и вот почему, мол, для яндексовского юзер-агента нужны отдельные директивы. Но я скажу так: если какой-то робот не воспринимает какую-то директиву, то он её просто проигнорирует. Так что лично я не вижу смысла указывать одни и те же директивы для разных роботов отдельно. Хотя, отчасти понимаю перестраховщиков.

Чем может грозить неправильно составленный роботс

Некоторые при создании сайта на WordPress ставят галочку, чтобы система закрывала сайт от индексации (и забывают потом убрать её). Тогда Вордпресс автоматом ставит вам такой роботс, чтобы поисковики не включали ваш сайт в индекс, и это — самая страшная ошибка. Те страницы, на которые вы намерены получать трафик, обязательно должны быть открыты для индексации.

Потом, если вы не закрыли ненужные страницы от индексации, в индекс может попасть, как я уже говорил выше, очень много мусора (ненужных страниц), и они могут занять в индексе место нужных страниц.

Вообще, если вкратце, неправильный роботс грозит вам тем, что часть страниц не попадет в поиск и вы лишитесь части посетителей.

Как создать файл robots.txt

В Блокноте или другом редакторе создаем файл с расширением .txt, чтобы он в итоге назывался robots.txt. Заполняем его правильно (дальше расскажу, как) и загружаем в корень сайта. Готово!

Вот тут разработчик сайта Loftblog создает файл с нуля в режиме реального времени и делает настройку роботс:

Пример правильного robots.txt для WordPress

Составить правильный robots.txt для сайта WordPress проще всего. Я сам видел очень много таких роботсов (обязательно замените znet.ru на название вашего сайта, если хотите копировать):

User-agent: Yandex 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /search 
Disallow: */trackback/ 
Disallow: */feed 
Disallow: */comments/ 
Disallow: *?*
Disallow: */comment 
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Allow: /wp-content/uploads/ 
Host: znet.ru

User-agent: Googlebot 
Disallow: /wp-admin 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /search 
Disallow: */trackback/ 
Disallow: */feed 
Disallow: */comments/ 
Disallow: *?*
Disallow: */comment 
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Allow: /wp-content/uploads/ 

User-agent: Mail.Ru
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /search 
Disallow: */trackback/ 
Disallow: */feed 
Disallow: */comments/ 
Disallow: *?*
Disallow: */comment 
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Allow: /wp-content/uploads/ 

User-agent: * 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /search 
Disallow: */trackback/ 
Disallow: */feed 
Disallow: */comments/ 
Disallow: *?*
Disallow: */comment 
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Allow: /wp-content/uploads/ 

Sitemap: https://znet.ru/sitemap.xml

Этот роботс для WordPress довольно проверенный. Большую часть задач он выполняет — закрывает версию для печати, файлы админки, результаты поиска и так далее.

«Универсальный» роботс

Если вы ищете какое-то решение, которое подойдет для всех сайтов на всех CMS (или для лендинга), «волшебную таблетку» — такой нет. Для всех CMS одинаково хорошо подойдет лишь решение, при котором вы говорите разрешить все для индексации:

User-agent: *
Allow: /

В остальном — нужно отталкиваться от системы, на которой написан ваш сайт. Потому что у каждой из них уникальная структура и разные разделы/служебные страницы.

Роботс для Joomla

Joomla — ужасный движок, вы ужасный человек, если до сих пор им пользуетесь. Дублей страниц там просто дофига. В основном нормально работает такой код (обязательно замените znet.ru на название вашего сайта, если хотите копировать):

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: https://znet.ru/sitemap.xml

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: znet.ru
Sitemap: https://znet.ru/sitemap.xml

Но я вам настоятельно советую отказаться от этого жестокого движка и перейти на WordPress (а если у вас интернет-магазин — на Opencart или Bitrix). Потому что Joomla — это жесть.

Robots для Битрикса

Как составить robots.txt для Битрикс (обязательно замените znet.ru на название вашего сайта, если хотите копировать):

User-agent: *
Disallow: /bitrix/
Disallow: /upload/
Disallow: /search/
Allow: /search/map.php
Disallow: /club/search/
Disallow: /club/group/search/
Disallow: /club/forum/search/
Disallow: /communication/forum/search/
Disallow: /communication/blog/search.php
Disallow: /club/gallery/tags/
Disallow: /examples/my-components/
Disallow: /examples/download/download_private/
Disallow: /auth/
Disallow: /auth.php
Disallow: /personal/
Disallow: /communication/forum/user/
Disallow: /e-store/paid/detail.php
Disallow: /e-store/affiliates/
Disallow: /club/$
Disallow: /club/messages/
Disallow: /club/log/
Disallow: /content/board/my/
Disallow: /content/links/my/
Disallow: /*/search/
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*print_course=Y
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*index.php$
Host: znet.ru
Sitemap: https://znet.ru/sitemap.xml

Как правильно составить роботс

У каждой поисковой системы есть свой User-Agent. Когда вы прописываете юзер-эйджент, то вы обращаетесь к какой-то определенной поисковой системе. Вот названия ботов поисковых систем:

Google: Googlebot
Яндекс: Yandex
Мэйл.ру: Mail.Ru
Yahoo!: Slurp
MSN: MSNBot
Рамблер: StackRambler

Это основные, которые включают ваш сайт в текстовые индексы поисковиков. А вот их вспомогательные роботы:

Googlebot-Mobile — это юзер-агент для мобильных
Googlebot-Image — это для картинок
Mediapartners-Google — этот робот сканирует содержание обьявлений AdSense
Adsbot-Google — это для качества целевых страниц AdWords
MSNBot-NewsBlogs – это для новостей MSN

Сначала в любом нормальном роботсе идет указание юзер-агента, а потом директивы ему. Юзер-агента мы указываем в первой строке, вот так:

User-agent: Yandex

Это будет обращение к роботу Яндекса. А вот обращение ко всем роботам всех систем сразу:

User-agent: *

После юзер-агента идут указания, относящиеся именно к нему. Пример:

User-agent: Yandex 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /xmlrpc.php 
Disallow: /search 
Disallow: */trackback/ 
Disallow: */feed 
Disallow: */comments/ 
Disallow: *?*
Disallow: */comment 
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Allow: /wp-content/uploads/

Сначала мы прописываем директивы для всех интересующих нас юзер-агентов. Затем дополняем их тем, что нас интересует, и заканчиваем обычно ссылкой на XML-карту сайта:

Sitemap: https://znet.ru/sitemap.xml

А вот что прописывать в директивах — это для каждой CMS, как я уже писал выше, по-разному. Но в принципе можно выделить основные типы страниц, которые нужно закрывать во всех роботсах.

Что нужно закрывать в нем

Всю эту хрень нужно закрыть от индексации:

  1. Страницы поиска. Обычно поиск генерирует очень много страниц, которые нам не будут нести трафика;
  2. Корзина и страница оформления заказа. Обычно они не должны попадать в индекс;
  3. Страницы пагинации. Некоторые мастера знают, как получать с них трафик, но если вы не профессионал, лучше закройте их;
  4. Фильтры и сравнение товаров могут генерировать мусорные страницы;
  5. Страницы регистрации и авторизации. На этих страницах вводится только конфиденциальная информация;
  6. Системные каталоги и файлы. Каждый ресурс включает в себя административную часть, таблицы CSS, скрипты. В индексе нам это все не нужно;
  7. Языковые версии, если вы не продвигаетесь в других странах и они нужны вам чисто для информации;
  8. Версии для печати.

Как закрыть страницы от индексации и использовать Disallow

Вот чтобы закрыть от индексации какой-то тип страниц, нам потребуется она. Disallow – директива для запрета индексации. Чтобы закрыть, допустим, страницу znet.ru/page.html на своем блоге, я должен добавить в роботс:

Disallow: /page.html

А если мне нужно закрыть все страницы, которые начинаются с https://znet.ru/instrumenty/? То есть страницы https://znet.ru/instrumenty/1.html, https://znet.ru/instrumenty/2.html и другие? Тогда я добавляю такую строку в роботс:

Disallow: /instrumenty/

Короче, это самая нужная директива.

Нужно ли использовать директиву Allow?

Крайне редко ей пользуюсь. Вообще, она нужна для того, чтобы разрешать роботу индексировать определенные страницы. Но он индексирует все, что не запрещено. Так что Allow я почти не использую. За исключением редких случаев, например, таких:

Допустим, у меня в роботсе закрыта категория /instrumenty/. Но страницу https://znet.ru/instrumenty/44.html я должен открыть для индексации. Тогда у меня в роботс тхт будет написано так:

Disallow: /instrumenty/
Allow: /instrumenty/44.html

В таком случае проблема будет решена. Как пишет Яндекс, «При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow». Короче, Allow я использую тогда, когда нужно перебить требования какой-то из директив Disallow.

Регулярные выражения

Когда прописываем директивы, мы можем использовать спецсимволы * и $ для создания регулярных выражений. Для чего они нужны? Давайте на практике рассмотрим:

User-agent: Yandex
Disallow: /cgi-bin/*.aspx

Такая директива запретит Яндексу индексировать страницы, которые начинаются на /cgi-bin/ и заканчиваются на .aspx, то есть вот эти страницы:

/cgi-bin/loh.aspx
/cgi-bin/pidr.aspx

И подобные им будут закрыты.

А вот спецсимвол $ «фиксирует» запрет какой-то конкретной страницы. То есть такой код:

User-agent: Yandex
Disallow: /example$

Запретит индексировать страницу /example, но не запрещает индексировать страницы /example-user, /example.html и другие. Только конкретную страницу /example.

Для чего нужна директива Host

Если сайт доступен сразу по нескольким адресам, директива Host указывает главное зеркало одного ресурса. Эту директиву распознают только роботы Яндекса, остальные поисковики забивают на нее болт. Пример:

User-agent: Yandex
Disallow: /page
Host: znet.ru

Host используется в robots только один раз. Если же их будет указано несколько, учитываться будет только первая директива.

Что такое Crawl-delay

Директива Crawl-delay устанавливает минимальное время между завершением загрузки роботом страницы 1 и началом загрузки страницы 2. То есть если у вас в роботсе добавлено такое:

User-agent: Yandex
Crawl-delay: 2

То таймаут между загрузками двух страниц составит две секунды.
Это нужно, если ваш сервер плохо выдерживает запросы на загрузку страниц. Но я скажу так: если это так и есть, то ваш сервер — говно, и тут не Crawl-delay нужно устанавливать, а менять сервер.

Нужно ли указывать Sitemap в роботсе

В конце роботса нужно указывать ссылку на сайтмап, да. Я вам скажу, что это очень круто помогает индексации.

Был у меня один сайт, который хреново индексировался месяца полтора, когда я еще только начинал в SEO. Я не мог никак понять, в чем причина. Оказалось, я просто не указал путь к сайтмапу. Когда я это сделал — все нужные страницы через 1 апдейт уже попали в индекс.

Указывается путь к сайтмапу так:

Sitemap: https://znet.ru/sitemap.xml

Это если ваша карта сайта открывается по этому адресу. Если она открывается по другому адресу — прописывайте другой.

Прочие рекомендации к составлению

Рекомендую соблюдать:

  • В одной строке — одна директива;
  • Без пробелов в начале строк;
  • Директива будет работать, только если написана целиком и без лишних знаков;
  • Как пишет сам Яндекс, «Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке»;
  • Правильный код роботс должен содержать как минимум одну директиву Dissallow.

А вот еще видео для продвинутых с вебмастерской Яндекса:

Как запретить индексацию всего сайта

Вот этот код поможет закрыть сайт от индексации:

User-agent: *
Disallow: /

Пригодиться это может, если вы делаете новый сайт, но он еще не готов, и поэтому его лучше закрыть, чтобы он во время доработки не попал под какой-нибудь фильтр АГС.

Как проверить, правильно ли составлен файл

В Яндекс Вебмастере и Гугл Вебмастере есть инструмент, который поможет вам понять, правильно ли составлен роботс. Рекомендую обязательно проверять файл в этих сервисах перед размещением. В Яндекс Вебмастере вы также сможете добавить список страниц, чтобы проверить, разрешены ли они к индексации роботом.

Как создать и установить файл robots.txt для WordPress

Файл robots.txt служит для улучшения индексации сайта. В директивах файла задаются установки для роботов поисковых систем,

что и как индексировать, а что нет. Указывается основной домен, Sitemap и другое.

Сайт, конечно, будет индексироваться и без созданного файла, но гораздо хуже. Во первых, на сайте имеется множество разделов и файлов не нужных для индексации: admin, login, register и так далее, не говоря уж о дублях страниц, которые очень отрицательно сказываются на ранжировании ресурса.

Файл robots.txt  располагается в корневой папке домена под этим же именем, писать имя с большой буквы — нельзя. 

Рекомендуемый robots.txt для WordPress    

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: сайт
Sitemap: http://сайт/sitemap.xml

#(Примечание: вместо «сайт» — ваш домен)

Как создать и установить файл robots.txt в корневую папку сайта — инструкция

Как правило,  хостинг предоставляет возможность создавать файлы, приведу пример.

В панели управления сайтом на сервере хостинга нужно создать файл с именем «robots.txt»

  

Установить robots.txt

  1. Откройте созданный robots.txt
  2. Скопируйте рекомендованный файл для WordPress
  3. Вставьте в поле содержимое
  4. Вместо «сайт» впишите свой domen.ru
  5. Сохраните изменения

Вы можете увидеть свой файл, набрав в адресной строке браузера: http://сайт.ru/robots.txt, или в сервисе Яндекс.Вебмастер если им пользуетесь.

В дальнейшем, вы можете изменять файл, указывая адреса страниц, которые не нужно индексировать, задавать другие команды ботам. Но нужно знать, что поисковики не гарантируют полного исполнения директив, заданных в robots.txt, но как правило, выполняют их.

  • < Назад
  • Вперёд >

Создаем правильный robots.txt для сайта на WordPress

Здравствуйте, в сегодняшней статье мы продолжим тему базовых настроек. В данной статье мы с вами затронем тему настройки файла robots.txt.

Давайте для начала проанализируем, зачем нам нужен этот файл и нужен ли он нам вообще.

Robots.txt – это текстовый файл предназначенный специально для роботов поисковых систем, с помощью которого можно контролировать все процессы индексации на сайте. Если говорить еще проще с помощью этого файла мы можем закрыть от индексации любой раздел нашего сайта, включая ссылки и системные файлы WordPress.

Зачем что-то закрывать с помощью robots.txt, разве WordPress сам не создает все, что ему нужно при установке? Ответ – нет. Вы, как вебместер или блогер, должны сами контролировать все процессы на сайте. В первую очередь в robots.txt скрываются от индексации системные папки, такие как wp-admin, wp-login и прочие. Также, один и тот же материал сайта построенного на WordPress может размещаться под разными урлами (ссылками), что в свою очередь влечет за собой создание дублей. За наличие большого количества дублей поисковые системы могут наложить санкции на ваш проект, а выйти из под них не так уж и легко. Так что старайтесь исправить эту ситуацию еще в самом начале создания сайта.

 Так какой же он правильный robots.txt для WordPress?

Если вы только начинаете свой путь вебмастера, то вам наверняка неизвестны понятия директив: dissalow, allow и других. Сейчас мы с вами пройдемся по основных директивах для того чтобы вы осознанно создавали собственный robots.txt и не писали туда ничего лишнего.

«Useragent

Итак, обычно файл robots.txt начинается с того что задается директива – «User-agent:». Эта директива указывает на имя поискового робота. Так, как вам известно, каждая поисковая система имеет своего робота, а в большинстве случаев их несколько. Для того чтобы подстроить ваш сайт под требования конкретной поисковой системы, мы можем выставить необходимые настройки специально для нее. Так, в рунете наиболее популярными поисковиками являются Яндекс и Google, то отдельные настройки в файле robots.txt, пишутся именно для них.

Для того чтобы задать директивы для Яндекса, стоит писать:

User-agent: Yandex

Для Google она будет иметь следующий вид:

User-agent: Googlebot

В интернете вы можете найти названия роботов и других поисковых систем, если они вдруг вам понадобятся, а так обычно мимо приведенных выше директив, указывается директива:

User-agent: *

В которой * — означает любой текст. То есть, таким образом, мы указываем настройки для всех остальных поисковых роботов. Зачастую этого вполне достаточно.

«Disallow:»

Это директива, которая запрещает поисковому роботу индексировать какую либо часть вашего сайта.

Давайте, для того чтобы было бы более понятно рассмотрим несколько примеров ее применения.

Для того чтобы закрыть какую либо папку в дистрибутиве WordPress от индексирования достаточно прописать:

Disallow: /имя вашей папки

Для вложенных папок ситуация таже:

Disallow: /имя вашей папки/имя вложенной папки

Идем дальше, закрывать от индексации можно и по определенным символам, например «?».

Disallow: /*?*

Таким способом закрываются все ссылки, где встречается «?». В WordPress такие ссылки формируются по умолчанию.

?post=1

Суть, я думаю, понятна. Таким способом можно закрыть комментарии, ленты новостей и прочие разделы сайта.

Будьте внимательны! Если прописать:

Disallow: /

То это полностью закроет ваш сайт от индексации.

«Allow:»

Эта директива имеет суть совершенно противоположную приведенной выше. Как вы поняли, с помощью нее, вы можете разрешить к индексированию какой либо раздел сайта, например:

Allow: / имя вашей папки

«Host:»

Директива хост задается для указания основного зеркала вашего сайта, то есть с www или без, например.

Host: www.вашсайт.com

Зачастую она задается для Яндекса.

«Sitemap:»

И последняя директива, которую мы рассмотрим — «Sitemap:».

Она указывает для поискового робота путь к карте сайта в формате .xml. Пример использования:

Sitemap: http://вашсайт.com/sitemap.xml

Итак, я приведу вам пример файла robots.txt для WordPress, которым пользуюсь я сам. Но под различные проекты я все же его немного изменяю.

User-agent:*
Allow: */uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /page/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Allow: */uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /page/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: вашсайт.com
Sitemap: http://вашсайт.com/sitemap.xml

Для справки. Файл robots.txt лежит в открытом доступе на любом сайте. Заходите и проверяйте его на популярных блогах,  делайте свои выводы, но смотрите не переборщите!

До следующих уроков.

Как правильно составить файл robots.txt: инструкция

Вебмастер может направить поисковых ботов на страницы, которые считает обязательными для индексирования, и скрыть те, которых в выдаче быть не должно. Для этого предназначен файл robots.txt. Команда сервиса для анализа сайта PR-CY составила гайд об этом файле: для чего он нужен, из каких команд состоит, как составить его по правилам и проверить.

Зачем нужен robots.txt

С помощью этого файла можно повлиять на поведение ботов Яндекса и Google. Файл robots.txt содержит указания для краулеров, предназначенных для индексирования сайта. Он состоит из списка команд, которые рекомендуют либо просканировать, либо пропустить конкретные страницы или целые разделы сайта. Если боты «прислушаются» к этим пожеланиям, то не будут посещать закрытые страницы или индексировать определенный тип контента.

Закрывают обычно дублирующие страницы, служебные, неинформативные, страницы с GET-параметрами или просто неважные для пользователей.

Зачем это нужно:

  • уменьшить количество запросов к серверу;
  • оптимизировать краулинговый бюджет сайта — общее количество страниц, которое за один раз может посетить поисковый бот;
  • уменьшить шанс того, что в выдачу попадут страницы, которые там не нужны.

Как надежно закрыть страницу от ботов

Поисковики не воспринимают robots.txt как список жестких правил, это только рекомендации. Даже если в robots стоит запрет, страница может появиться в выдаче, если на нее ведет внешняя или внутренняя ссылка.

Страница, доступ к которой запретили только в robots.txt, может попасть в выдачу и будет выглядеть так:

Главная страница сайта в выдаче, но описание бот составить не смог

Если вы точно не хотите, чтобы страница попала в индекс, недостаточно запретить сканирование в файле robots.txt. Один из вариантов, подходящий для служебных страниц, — запаролить ее. Бот не сможет просканировать содержимое страницы, если она доступна только пользователям, авторизованным через логин и пароль.

Если страницы нельзя закрыть паролем, но не хочется показывать их ботам, есть вариант применить директивы «noindex» и «nofollow». Для этого нужно добавить их в секцию <head> HTML-кода страницы:

<meta name="robots" content="noindex, nofollow"/>

Чтобы робот правильно интерпретировал «noindex» и «nofollow» и не добавил страницу в индекс, не закрывайте одновременно доступ к ней в файле robots.txt. Так бот не получит доступа к странице и не увидит запрещающих директив.

Требования поисковых систем к файлу robots.txt

Каким должен быть файл, как его оформить и куда размещать — в этом и Яндекс, и Google солидарны:

  • Формат — только txt.
  • Вес — не превышающий 32 КБ.
  • Название — строго строчными буквами «robots.txt». Никакие другие варианты, к примеру, с заглавной, боты не воспримут.
  • Наполнение — строго латиница. Все записи должны быть на латинице, включая адрес сайта: если он кириллический, его нужно переконвертировать в punycode. Например, после конвертации запись сайта «окна.рф» будет выглядеть как «xn--80atjc.xn--p1ai». Ее и нужно использовать в командах.
  • Исключение для предыдущего правила — комментарии вебмастера. Они могут быть на любом языке, поскольку специалист оставляет их для себя и коллег, а не для поисковых ботов. Для обозначения комментариев используют символ «#». Все, что указано после «#», роботы проигнорируют, поэтому следите, чтобы туда случайно не попали важные команды.
  • Количество файлов robots.txt — должен быть один общий файл на весь сайт вместе с поддоменами. 
  • Местоположение — корневой каталог. У поддоменов файл должен быть таким же, только разместить его нужно в корневом каталоге каждого поддомена.
  • Ссылка на файл — https://example.com/robots.txt (вместо https://example.com нужно указать адрес вашего сайта). 
  • Ссылка на robots.txt должна отдавать код ответа сервера 200 OK.

Подробные рекомендации для robots.txt от Яндекса читайте здесь, от Google — здесь.

Дальше рассмотрим, каким образом можно давать рекомендации ботам.

Как правильно составить robots.txt

Файл состоит из списка команд (директив) с указанием страниц, на которые они распространяются, и адресатов — имён ботов, к которым команды относятся.

Директиву Clean-param воспринимают только боты Яндекса, а в остальном в 2021 году команды для ботов Google и Яндекса одинаковы.

Основные обозначения файла

User-agent — какой бот должен прореагировать на команду. После двоеточия указывают либо конкретного бота, либо обобщают всех с помощью символа *. 

Пример. User-agent: * — все существующие роботы, User-agent: Googlebot — только бот Google. 

Disallow — запрет сканирования. После косого слэша указывают, на что распространяется команда запрета.

Пример:

Disallow: /blog/page-2.html

Пустое поле в Disallow означает разрешение на сканирование всего сайта:

User-agent: *

Disallow:

А эта запись запрещает всем роботом сканировать весь сайт:

User-agent: *

Disallow: /

Если речь идет о новом сайте, проследите, чтобы в файле robots.txt не осталась эта запись, после того как разработчики выложат сайт на рабочий домен.

Эта запись разрешает сканирование боту Google, а всем остальным запрещает:

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

Отдельно прописывать разрешения необязательно. Доступным считается всё, что вы не закрыли.

В записях важен закрывающий косой слэш, его наличие или отсутствие меняет смысл:

Disallow: /about/ — запись закрывает раздел «О нас», доступный по ссылке https://example.com/about/

Disallow: /about — закрывает все ссылки, которые начинаются с «/about», включая раздел https://example.com/about/, страницу https://example.com/about/company/ и другие.

Каждому запрету соответствует своя строка, нельзя перечислить несколько правил сразу. Вот неправильный вариант записи:

Disallow: /catalog/blog/photo/

Правильно оформить их раздельно, каждый с новой строки и своим Disallow:

Disallow: /catalog/

Disallow: /blog/

Disallow: /photo/

Allow означает разрешение сканирования, с помощью этой команды удобно прописывать исключения. Для примера запись запрещает всем ботам сканировать весь альбом, но делает исключение для одного фото:

User-agent: *

Allow: /album/photo1.html

Disallow: /album/

А вот и отдельная команда для Яндекса — Clean-param. Директиву используют, чтобы исключить дубли страниц, которые могут появляться из-за GET-параметров или UTM-меток. Clean-param распознают только боты Яндекса. Вместо нее можно использовать Disallow, эту команду понимают в том числе и гуглоботы. 

Допустим, на сайте есть страница page=1 и у нее могут быть такие параметры:

https://example.com/index.php?page=1&sid=2564126ebdec301c607e5df

https://example.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

Каждый образовавшийся адрес в индексе не нужен, достаточно, чтобы там была общая основная страница. В этом случае в robots нужно задать Clean-param и указать, что ссылки с дополнениями после «sid» в страницах на «/index.php» индексировать не нужно:

User-agent: Yandex

Disallow:

Clean-param: sid /index.php

Если параметров несколько, перечислите их через амперсанд:

Clean-param: sid&utm&ref /index.php

Строки не должны быть длиннее 500 символов. Такие длинные строки — редкость, но из-за перечисления параметров такое может случиться. Если указание получилось сложным и длинным, его можно разделить на несколько. Примеры найдете в Справке Яндекса.

Sitemap — ссылка на карту сайта. Если карты сайта нет, запись не нужна. Сама по себе карта не обязательна, но если сайт большой, то лучше ее создать и дать ссылку в robots, чтобы ботам было проще разобраться в структуре.

Sitemap: https://example.com/sitemap.xml

Обозначим также два важных спецсимвола, которые используются в robots:

* — предполагает любую последовательность символов после этого знака;

$ — указывает на то, что на этом элементе необходимо остановиться.

Пример. Такая запись:

Disallow: /catalog/category1$

запрещает роботу индексировать страницу site.com/catalog/category1, но не запрещает индексировать страницу site.com/catalog/category1/product1.

Лучше не заниматься сбором команд вручную, для этого есть сервисы, которые работают онлайн и бесплатно. Инструмент для генерации robots.txt бесплатно соберет нужные команды: открыть или закрыть сайт для ботов, указать путь к sitemap, настроить ограничение на посещение избранных страниц, установить задержку посещений.

Настройки файла в инструменте

Есть и другие бесплатные генераторы файла, которые позволят быстро создать robots и избежать ошибок. У популярных движков есть плагины, с ними собирать файл еще проще. О них расскажем ниже.

Как проверить правильность robots.txt

После создания файла и добавления в корневой каталог будет не лишним проверить, видят ли его боты и нет ли ошибок в записи. У поисковых систем есть свои инструменты: 

  • Найти ошибки в заполнении robots — инструмент от Яндекса. Укажите сайт и введите содержимое файла в поле.
  • Проверить доступность для ботов — инструмент от Google. Введите ссылку на URL с вашим robots.txt.
  • Определить наличие файла robots.txt в корневом каталоге и доступность сайта для индексации — Анализ сайта от PR-CY. В сервисе есть еще 70+ тестов с проверкой SEO, технических параметров, ссылок и другого.

Фрагмент проверки сайта сервисом pr-cy.ru/analysis

В «Важных событиях» отобразятся даты изменения файла.

Оповещения в интерфейсе

Правильный robots.txt для разных CMS: примеры готового файла

Файл robots.txt находится в корневой папке сайта. Чтобы создать или редактировать его, нужно подключиться к сайту по FTP-доступу. Некоторые системы управления (например, Битрикс) предоставляют возможность редактировать файл в административной панели.

Посмотрим, какие возможности для редактирования файла есть в популярных CMS.

WordPress

У WP много бесплатных плагинов, которые формируют robots.txt. Эта опция предусмотрена в составе общих SEO-плагинов Yoast SEO и All in One SEO, но есть и отдельные, которые отвечают за создание и редактирование файла, например:

Пример robots.txt для контентного проекта на WordPress

Это вариант файла для блогов и других проектов без функции личного кабинета и корзины.

User-agent: *      # установили общие правила для роботов

Disallow: /cgi-bin      # закрыли системную папку, которая находится на хостинге

Disallow: /?      # обобщили все параметры запроса на главной странице сайта

Disallow: /wp—      # все специальные WordPress-файлы: /wp-json/, /wp-content/plugins, /wp-includes

Disallow: *?s=      # здесь и далее перечисление запросов поиска

Disallow: *&s=

Disallow: /search/

Disallow: */trackback      # закрыли трекбеки — уведомления о появлении ссылки на статью

Disallow: */feed      # новостные ленты полностью

Disallow: */rss      # rss-ленты 

Disallow: */embed      # все встраивания

Disallow: /xmlrpc.php      # файл API WP

Disallow: *utm*=      # все ссылки, у которых прописаны UTM-метки

Disallow: *openstat=      # все ссылки, у которых прописаны openstat-метки

Allow: */uploads      # открыли доступ к папке с файлами uploads

Allow: /*/*.js      # открыли доступ к js-скриптам внутри /wp-, уточнили /*/ для приоритета

Allow: /*/*.css      # доступ к css-файлам внутри /wp-, также уточнили /*/ для приоритета

Allow: /wp-*.png      # доступ к картинкам в плагинах, папке cache и других в формате png

Allow: /wp-*.jpg      # то же самое для формата jpg

Allow: /wp-*.jpeg      # для формата jpeg

Allow: /wp-*.gif      # и для анимаций в gif

Allow: /wp-admin/admin-ajax.php      # открыли доступ к этому файлу, чтобы не блокировать JS и CSS для плагинов

Sitemap: https://example.com/sitemap.xml      # указали ссылку на карту сайта (вместо https://example.com нужно подставить сой домен)

Пример robots.txt для интернет-магазина на WordPress

Похожий файл, но со спецификой интернет-магазина на платформе WooCommerce на базе WordPress. Закрываем то же самое, что в предыдущем примере, плюс страницу корзины, а также отдельные страницы добавления в корзину и оформления заказа пользователем.

User-agent: *

Disallow: /cgi-bin

Disallow: /?

Disallow: /wp-

Disallow: /wp/

Disallow: *?s=

Disallow: *&s=

Disallow: /search/

Disallow: */trackback

Disallow: */feed

Disallow: */rss

Disallow: */embed

Disallow: /xmlrpc.php

Disallow: *utm*=

Disallow: *openstat=

Disallow: /cart/

Disallow: /checkout/

Disallow: /*add-to-cart=*

Allow: */uploads

Allow: /*/*.js

Allow: /*/*.css

Allow: /wp-*.png

Allow: /wp-*.jpg

Allow: /wp-*.jpeg

Allow: /wp-*.gif

Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap.xml

1C-Битрикс

В модуле «Поисковая оптимизация» этой CMS начиная с версии 14.0.0 можно настроить управление файлом robots из административной панели сайта. Нужный раздел находится в меню Маркетинг > Поисковая оптимизация > Настройка robots.txt.

Пример robots.txt для сайта на Битрикс

Похожий набор рекомендаций с дополнениями, подразумевающими, что у сайта есть личный кабинет пользователя.

User-agent: *               

Disallow: /cgi-bin      # закрыли папку на хостинге

Disallow: /bitrix/      # закрыли папку с системными файлами Битрикс

Disallow: *bitrix_*=      # GET-запросы Битрикс

Disallow: /local/      # другая папка с системными файлами Битрикс

Disallow: /*index.php$      # дубли страниц с index.php

Disallow: /auth/      # страница авторизации

Disallow: *auth=

Disallow: /personal/      # личный кабинет

Disallow: *register=      # страница регистрации

Disallow: *forgot_password=      # страница с функцией восстановления пароля

Disallow: *change_password=      # страница с возможностью изменить пароль

Disallow: *login=      # вход с логином

Disallow: *logout=      # выход из кабинета

Disallow: */search/      # поиск

Disallow: *action=      # действия

Disallow: *print=      # печать

Disallow: *?new=Y      # новая страница

Disallow: *?edit=      # редактирование

Disallow: *?preview=      # предпросмотр

Disallow: *backurl=      # трекбеки 

Disallow: *back_url=

Disallow: *back_url_admin=

Disallow: *captcha      # страница с прохождением капчи

Disallow: */feed      # новостные ленты

Disallow: */rss      # rss-фиды

Disallow: *?FILTER*=      # несколько популярных параметров фильтров в каталоге

Disallow: *?ei=

Disallow: *?p=

Disallow: *?q=

Disallow: *?tags=

Disallow: *B_ORDER=

Disallow: *BRAND=

Disallow: *CLEAR_CACHE=

Disallow: *ELEMENT_ID=

Disallow: *price_from=

Disallow: *price_to=         

Disallow: *PROPERTY_TYPE=

Disallow: *PROPERTY_WIDTH=

Disallow: *PROPERTY_HEIGHT=

Disallow: *PROPERTY_DIA=

Disallow: *PROPERTY_OPENING_COUNT=

Disallow: *PROPERTY_SELL_TYPE=

Disallow: *PROPERTY_MAIN_TYPE=    

Disallow: *PROPERTY_PRICE[*]=

Disallow: *S_LAST=  

Disallow: *SECTION_ID=

Disallow: *SECTION[*]=

Disallow: *SHOWALL= 

Disallow: *SHOW_ALL=

Disallow: *SHOWBY=

Disallow: *SORT=

Disallow: *SPHRASE_ID=        

Disallow: *TYPE=

Disallow: *utm*=      # все ссылки, имеющие метки UTM 

Disallow: *openstat=      # ссылки с метками openstat 

Disallow: *from=      # ссылки с метками from

Allow: */upload/      # открыли папку, где находятся файлы uploads

Allow: /bitrix/*.js      # здесь и далее открыли скрипты js и css

Allow: /bitrix/*.css

Allow: /local/*.js

Allow: /local/*.css

Allow: /local/*.jpg      # открыли доступ к картинкам в формате jpg и далее в других форматах

Allow: /local/*.jpeg

Allow: /local/*.png

Allow: /local/*.gif

Sitemap: https://example.com/sitemap.xml

OpenCart

У этого движка есть официальный модуль Редактирование robots.txt Opencart для работы с файлом прямо из панели администратора.

Пример robots.txt для магазина на OpenCart

CMS OpenCart обычно используют в качестве базы для интернет-магазина, поэтому пример robots заточен под нужды e-commerce.

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: *page=*

Disallow: *search=*

Disallow: /cart/

Disallow: /forgot-password/

Disallow: /login/

Disallow: /compare-products/

Disallow: /add-return/

Disallow: /vouchers/

Sitemap: https://example.com/sitemap.xml

Joomla

Отдельных расширений, связанных с формированием файла robots.txt для этой CMS нет, система управления автоматически генерирует файл при установке, в нем содержатся все необходимые запреты.

Пример robots.txt для сайта на Joomla

В файле закрыты плагины, шаблоны и прочие системные решения.

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

Allow: *.css

Allow: *.js

Sitemap: https://example.com/sitemap.xml

Поисковые системы воспринимают директивы в robots.txt как рекомендации, которым можно следовать или не следовать. Тем не менее, если в файле не будет противоречий, а на закрытые страницы нет входящих ссылок — у ботов не будет причин игнорировать правила. Пользуйтесь нашими инструкциями и примерами, и пусть в выдаче появляются только действительно нужные пользователям страницы вашего сайта.

Зачем нужен robots.txt | Vavik96

Итак, robots.txt – служебный файл, предназначенный для поисковых роботов и показывающий им, какие файлы, папки, разделы сайта следует индексировать, а какие нет. Закрытые от индексации в роботсе статьи никогда не окажутся в индексе поисковых систем.

Очень важно скрыть от индексирования все ненужные файлы и папки (программную часть движка и прочее), чтобы поисковик не тратил на них силы, а то устанет и до самого важного не дойдет!

Если у сайта имеются поддомены, для каждого из них формируется отдельный robots.txt.

Яндекс строго следует правилам файла robots.txt, а вот Google нет. Он запросто может проиндексировать запрещенные страницы и выводить их в поиске, особенно если на эту страницу ведут ссылки. В панели вебмастера обеих поисковых систем есть инструмент проверки файла robots.txt, которая показывает, правильно ли он работает:

Где находится robots.txt WordPress

Этот файл должен находиться в корневом каталоге вашего сайта. Попасть туда, чтобы загрузить вновь отредактированный файл, можно по ftp, используя Total Commander, например. Можно просмотреть содержимое роботса в браузере, набрав в адресной строке: http://адрес_сайта/robots.txt.

Правильный robots.txt для WordPress

А вот и он, код самого правильного файла роботс. Скопируйте его в свой robots.txt и на этом можно закончить. Если вы любознательны, продолжайте чтение и узнайте, что значит каждая строчка файла.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
 
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: ваш_сайт.ru
 
Sitemap: http://ваш_сайт.ru /sitemap.xml.gz
Sitemap: http://ваш_сайт.ru /sitemap.xml

Перейдем к подробному рассмотрению значения этих строк.

  • «User-agent: *» означает, что правила, приведенные ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».
  • «Allow:» — разрешено индексировать. В варианте роботса для вордпресс мы это не используем.
  • «Disallow:» — запрещено индексировать.
  • «Host: ваш_сайт.ru» — обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов (у меня на блоге без www) – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.
  • «Sitemap:» — ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
  • Регулярные выражения: звездочка * – означает произвольную последовательность символов.

Очень подробно о директивах robots.txt написано в помощи Яндекса, поэтому если что-то не понятно, попробуйте прочитать там.

Если на вашем сайте не настроены ЧПУ, то вышеприведенный файл роботс для вордпресс вам не подойдет, воспользуйтесь следующим:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: ваш_сайт.ru
Sitemap: http://ваш_сайт/sitemap.xml.gz
Sitemap: http://ваш_сайт/sitemap.xml

После загрузки завершения настройки robots.txt WordPress обязательно проверьте его работу в вебмастерах поисковиков (об этом было написано выше).

pro-wordpress.ru

Список сервисов для генерации robots.txt

1-hit robots.txt Generator

Global promoter’s Robots.txt File Generator

Hypergurl Robot Text Generator

Invision-graphics Robots.txt Generator Tool

Mcanerin’s Robots.txt Tool

Oven Fresh Robots.txt Maker

Online Robots.txt Generator

Robotstxt.ca

Как создать файл robots.txt для WordPress. 4 способа

Всем, привет! Сегодня небольшой пост — как автоматически создать файл robots.txt для WordPress? Друзья, вы можете создать правильный robots.txt для WordPress в пару кликов, прочитав данное руководство. Создание правильного файла robots.txt для WordPress очень важно. Благодаря ему поисковые системы будут знать, какие страницы индексировать и показывать в поиске. То есть, результаты поиска будут именно такими, как вам нужно, без дублирования страниц WordPress.

robots.txt для сайта WordPress

Читайте, дамы и господа — WordPress robots.txt: лучшие примеры для SEO.

Файл robots.txt для WordPress

WordPress robots.txt где лежит/находится? По умолчанию WordPress автоматически создает виртуальный файл robots.txt для вашего сайта. Таким образом, даже если вы ни чего не делали, на вашем сайте ВордПресс уже должен быть файл robots.txt. Вы можете проверить, так ли это, добавив /robots.txt в конец вашего доменного имени. Например, так https://ваш сайт/robots.txt

Виртуальный файл robots.txt в WordPress

Поскольку этот файл является виртуальным, вы не можете его редактировать. Однако, если вы хотите отредактировать свой файл robots.txt WordPress как надо, вам необходимо создать физический файл на вашем хостинге. Создайте свой правильный robots.txt для WordPress, который вы сможете легко редактировать по мере необходимости.

Как создать файл robots.txt для WordPress

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

Файл robots.txt сообщает поисковым роботам, какие страницы или файлы на вашем сайте можно или нельзя обрабатывать. 

Яндекс и Google

Для начала напомню вам, создать (и редактировать) файл robots.txt для WordPress можно вручную и с помощью плагина Yoast SEO

Создать файл robots.txt

Друзья, имейте ввиду, что Yoast SEO устанавливает свои правила по умолчанию, которые перекрывают правила существующего виртуального файла robots.txt ВордПресс:

Редактирование robots.txt в плагине Yoast SEO

Что должно быть в правильно составленного robots.txt? Идеального файла не существует. Например, сайт Yoast SEO использует такой robots.txt для WordPress:

User-agent: *

И всё. Для большинства сайтов WordPress лучший пример. Вот даже скриншот сделал у Yoast SEO:

Правильный robots.txt на сайте yoast.com

Что это значит? Директива говорит что, все поисковые роботы могут свободно сканировать этот сайт без ограничений. Этого хватит для правильной индексации сайта WP. А наша SEO специалисты рекомендуют почти тоже самое. Пример, правильно составленного robots.txt для WordPress сайта:

User-agent: *
Disallow:
Sitemap: https://mysite.ru/sitemap.xml

Данная запись в файле роботс делает доступным для индексирования полностью сайт для роботов всех известных поисковиков. Здесь, также прописан путь к карте сайта XML.

Создать и редактировать файл также можно при помощи All in One SEO Pack прямо из интерфейса SEO плагина. Модуль robots.txt в SEO-пакете Все в одном позволяет вам настроить файл robots.txt для вашего сайта, который переопределит файл robots.txt по умолчанию, который создает WordPress:

Применение плагина All in One SEO Pack

Вы сможете управлять своим файлом Robots.txt, в разделе All in One SEO Pack — Robots.txt. Сам официальный сайт плагина использует вот такой роботс:

Пример файла Robots

Правила по умолчанию, которые отображаются в поле Создать файл Robots.txt (показано на снимке экрана выше), требуют, чтобы роботы не сканировали ваши основные файлы WordPress. Для поисковых систем нет необходимости обращаться к этим файлам напрямую, потому что они не содержат какого-либо релевантного контента сайта.

А если вы не используете данные SEO модули, то предлагаю вам воспользоваться специальным плагином — Robots.txt Editor.

Плагин Robots.txt Editor

Плагин Robots.txt для WordPress — создание и редактирование файла robots.txt для сайта ВордПресс. Очень простой, лёгкий и эффективный плагин.

WordPress плагин Robots.txt Editor

Плагин Robots.txt Editor (редактор) позволяет создать и редактировать файл robots.txt на вашем сайте WordPress.

Плагин Robots.txt возможности
  • Работает в сети сайтов Multisite на поддоменах;
  • Пример правильного файла robots.txt для WordPress;
  • Не требует дополнительных настроек;
  • Абсолютно бесплатный.

Как использовать? Установите плагин robots.txt стандартным способом. То есть, из админки. Плагины — Добавить новый. Введите в окно поиска его название — Robots.txt Editor:

Добавить плагин Robots.txt Editor

Установили и сразу активировали. Всё, готово. Теперь смотрим, что получилось. Заходим, Настройки — Чтение и видим результат. Автоматически созданный правильный файл robots.txt для WordPress со ссылкой на ваш файл Sitemap. Пример, правильный robots.txt для сайта ВордПресс:

Созданный файл robots.txt WordPress

Естественно, вы можете его легко отредактировать под свои нужды. А также просмотреть, нажав соответствующею ссылку — Просмотр robots.txt.

Как создать robots.txt вручную

Если вы не захотите использовать плагины, которые предлагают функцию robots.txt, вы все равно можете создать и управлять своим файлом robots.txt на своём хостинге. Как создать файл robots.txt самостоятельно?

В текстовом редакторе создайте файл с именем robots в формате txt и заполните его:

Создать файл с именем robots.txt

Файл должен иметь имя robots.txt и никакое другое больше. Сохраните данный файл локально на компьютере. А затем, загрузите созданный файл в корневую директорию вашего сайта.

Корневая папка (корневая директория/корневой каталог/корень документа) — это основная папка, в которой хранятся все файлы сайта. Обычно, это папка public_html (там где находятся файлы — .htaccess, wp-config.php и другие). Именно в эту папку загружается файл robots.txt:

Загрузите файл в корневую папку вашего сайта 

Чтобы проверить, получилось ли у вас положить файл в нужное место, перейдите по адресу: https://ваш_сайт.ru/robots.txt

Теперь, когда ваш файл robots.txt создан и загружен на сайт, вы можете проверить его на ошибки.

Проверка вашего файла robots.txt

Вы можете проверить файл robots.txt WordPress в Google Search Console и Яндекс.Вебмастер, чтобы убедиться, что он правильно составлен.

Например, проверка файла robots.txt WordPress в Яндекса.Вебмастер. В блоке Результаты анализа robots.txt перечислены директивы, которые будет учитывать робот при индексировании сайта.

Анализ robots.txt в Яндекс.Вебмастер

Если будет найдена ошибка, информация об этом будет показана вам.

В заключение

Для некоторых сайтов WordPress нет необходимости срочно изменять стандартный виртуальный файл robots.txt (по умолчанию). Но, если вам нужен физический файл robots.txt, то используйте плагины Robots.txt Editor, All in One SEO Pack или Yoast SEO. С ними можно легко редактировать файл прямо из панели инструментов WordPress, чтобы добавить свои собственные правила.

До новых встреч, друзья и я надеюсь, что вам понравилось это маленькое руководство. И не стесняйтесь, обязательно оставьте комментарий, если у вас возникнут дополнительные вопросы по использованию файла robots.txt на сайте WordPress.

Как редактировать файл robots.txt в WordPress (шаг за шагом)

Хотите знать, как редактировать файл robots.txt в WordPress?

Файл robots.txt является мощным инструментом SEO, поскольку он работает как руководство по веб-сайту для поисковых роботов или роботов. Указание ботам не сканировать ненужные страницы может увеличить скорость загрузки вашего сайта и улучшить рейтинг в поисковых системах.

В этом посте мы покажем вам, как шаг за шагом редактировать файл robots.txt в WordPress.Мы также расскажем, что такое файл robots.txt и почему он важен.

Не стесняйтесь нажимать на эти быстрые ссылки, чтобы сразу переходить к различным разделам:

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым системам, как сканировать ваш сайт — разрешено или запрещено.

Поисковые системы, такие как Google, используют эти поисковые роботы, иногда называемые веб-роботами, для архивирования и категоризации веб-сайтов.

Большинство ботов настроены на поиск файла robots.txt на сервере, прежде чем он прочитает любой другой файл с вашего сайта. Это делается для того, чтобы узнать, добавили ли вы специальные инструкции о том, как сканировать и индексировать ваш сайт.

А файл robots.txt обычно хранится в корневом каталоге, также известном как основная папка вашего веб-сайта.

URL-адрес может выглядеть следующим образом:

  http://www.example.com/robots.txt
  

Чтобы проверить файл robots.txt для своего веб-сайта, просто замените http://www.example.com/ с вашим доменом и добавьте robots.txt в конце.

Теперь давайте посмотрим, как выглядит базовый формат файла robots.txt: 

  Агент пользователя: [имя агента пользователя]
Запретить: [строка URL не должна сканироваться]
 
Агент пользователя: [имя агента пользователя]
Разрешить: [строка URL для сканирования]
 
Карта сайта: [URL вашего файла Sitemap в формате XML]
  

Чтобы это имело какой-то смысл, нам сначала нужно объяснить, что означает User-agent . По сути, это имя бота или робота поисковой системы, которому вы хотите заблокировать или разрешить сканирование вашего сайта (например, сканер Googlebot).

Во-вторых, вы можете включить несколько инструкций для Разрешить или Запретить определенные URL-адреса, а также добавить несколько файлов Sitemap. Как вы, наверное, уже поняли, параметр «запретить» запрещает роботам поисковых систем сканировать эти URL-адреса.

Файл robots.txt по умолчанию в WordPress

По умолчанию WordPress автоматически создает файл robots.txt для вашего сайта. Так что, даже если вы и пальцем не пошевелите, на вашем сайте уже должны быть роботы WordPress по умолчанию.текстовый файл.

Но когда вы позже настроите его с помощью собственных правил, содержимое по умолчанию будет заменено.

Вот как выглядит стандартный файл WordPress robots.txt:

  Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php

  

Звездочка после User-agent: * означает, что файл robots.txt предназначен для всех веб-роботов, посещающих ваш сайт. И, как уже упоминалось, Disallow: /wp-admin/ запрещает роботам посещать вашу страницу wp-admin.

Вы можете протестировать файл robots.txt, добавив /robots.txt в конце своего доменного имени. Например, если вы введете «https://aioseo.com/robots.txt» в своем веб-браузере, он отобразит файл robots.txt для AIOSEO:

.

Теперь, когда вы знаете, что такое файл robots.txt и как он работает, давайте в первую очередь рассмотрим, почему файл robots.txt так важен.

Почему важен файл robots.txt?

Файл robots.txt важен, если вы хотите:

  • Оптимизируйте скорость загрузки вашего сайта — сказав ботам не тратить время на страницы, которые вы не хотите сканировать и индексировать, вы можете высвободить ресурсы и увеличить скорость загрузки вашего сайта.
  • Оптимизация использования вашего сервера — блокировка ботов, которые тратят ресурсы впустую, очистит ваш сервер и уменьшит количество ошибок 404.

Когда использовать метатег Noindex вместо файла Robots.txt

Однако, если вашей основной целью является предотвращение включения определенных страниц в результаты поиска, правильным подходом является использование мета-тега noindex.

Это связано с тем, что файл robots.txt прямо не указывает поисковым системам не индексировать контент — он просто говорит им не сканировать его.

Другими словами, вы можете использовать robots.txt, чтобы добавить определенные правила взаимодействия поисковых систем и других ботов с вашим сайтом, но он не будет явно контролировать, индексируется ли ваш контент или нет.

С учетом сказанного давайте покажем вам, как легко шаг за шагом редактировать файл robots.txt в WordPress с помощью AIOSEO.

Редактировать Robots.txt в WordPress с помощью AIOSEO

Самый простой способ отредактировать файл robots.txt — использовать лучший SEO-плагин для WordPress All in One SEO (AIOSEO).Он позволяет вам взять под контроль свой веб-сайт и настроить файл robots.txt, который заменит файл WordPress по умолчанию.

Если вы еще этого не знали, AIOSEO — это полноценный SEO-плагин для WordPress, который позволяет оптимизировать ваш контент для поисковых систем и повысить рейтинг всего за несколько кликов. Ознакомьтесь с нашими мощными инструментами и функциями SEO здесь.

Включить пользовательский файл robots.txt

Чтобы начать редактирование файла robots.txt, нажмите Инструменты в меню All in One SEO , а затем щелкните Роботы.txt Редактор вкладка.

AIOSEO создаст динамический файл robots.txt. Его содержимое хранится в вашей базе данных WordPress и может быть просмотрено в вашем веб-браузере, как мы покажем вам чуть позже.

После того, как вы вошли в редактор Robots.txt , вам необходимо включить Custom Robots.txt .

Нажмите на кнопку, чтобы она стала синей.

Затем вы увидите раздел Robots.txt Preview в нижней части экрана, в котором показаны правила WordPress по умолчанию, которые вы можете перезаписать своими собственными.Правила по умолчанию предписывают роботам не сканировать ваши основные файлы WordPress (страницы администратора).

Теперь давайте перейдем к тому, как вы можете добавить свои собственные правила с помощью конструктора правил.

Добавление правил с помощью построителя правил

Конструктор правил используется для добавления ваших собственных правил, определяющих, какие страницы роботы должны сканировать, а какие нет.

Например, если вы хотите добавить правило, которое блокирует всех роботов из временного каталога (имеется в виду временная папка, например, на жестком диске), вы можете использовать для этого конструктор правил.

Как в этом примере:

Чтобы добавить пользовательское правило, просто введите агент пользователя (например, поисковый робот Googlebot) в поле Агент пользователя . Или вы можете использовать символ *, который сделает ваше правило применимым ко всем пользовательским агентам (роботам).

Затем выберите либо Разрешить , либо Запретить , чтобы разрешить или заблокировать агент пользователя.

После того, как вы решили, каких ботов разрешить или запретить, вам нужно ввести путь к каталогу или имя файла в поле Путь к каталогу .

Как только это будет сделано, вы можете продолжить и нажать кнопку Сохранить изменения в правом нижнем углу страницы.

И если вы хотите добавить больше правил, вы можете нажать кнопку Добавить правило и повторить шаги, описанные выше.

Не забудьте сохранить изменения, когда закончите.

В любом случае, когда вы сохраните новые правила, они появятся в разделе Robots.txt Preview .

Чтобы просмотреть файл robots.txt, просто щелкните значок Open Robots.кнопка txt .

Теперь давайте посмотрим, как вы можете дальше редактировать свои правила.

Редактирование правил с помощью построителя правил

Чтобы отредактировать свои правила, вы можете просто изменить детали в конструкторе правил и нажать кнопку Сохранить изменения .

Это очень просто! Как и удаление правил, как мы покажем вам дальше.

Удаление правила в конструкторе правил

Чтобы удалить правило, просто щелкните значок корзины справа от правила.

Вот так просто!

Прежде чем закрыть эту тему, мы хотим сообщить вам, что если вам нужно отредактировать файл robots.txt для многосайтовых сетей, вы можете ознакомиться с нашей документацией о том, как это сделать, здесь.

Мы надеемся, что это руководство показало вам, как легко редактировать файл robots.txt в WordPress. Теперь добавьте свои собственные правила, и вы убедитесь, что ваш веб-сайт оптимизирован для оптимальной производительности в кратчайшие сроки.

Еще кое-что…

… вы думаете, Google Search Console сбивает с толку? Этого не должно быть!

Ознакомьтесь с нашим руководством о том, как легко проверить свой сайт WordPress с помощью AIOSEO.

И если вы ищете отличные способы улучшить SEO, чтобы привлечь еще больше трафика на свой сайт, ознакомьтесь с нашим контрольным списком SEO для постов в блоге или исчерпывающим руководством по WordPress SEO.

Следите за новыми функциями и улучшениями AIOSEO.

Понимание и настройка файла WordPress robots.txt

В одном из моих предыдущих руководств были рассмотрены основы понимания и настройки файла .htaccess в WordPress. Файл robots.txt — это специальный файл, как и файл .файл htaccess . Однако он служит совсем другой цели. Как вы могли догадаться из названия, файл robots.txt предназначен для ботов. Например, боты из поисковых систем вроде Google и Bing.

  • WordPress

    Понимание и настройка файла .htaccess в WordPress

    Monty Shokeen

Это руководство поможет вам понять основы файла robots.txt и узнать, как его настроить для WordPress.Давайте начнем.

Назначение файла robots.txt

Как я упоминал ранее, файл robots.txt предназначен для парсинга ботов. В основном это поисковые системы, но могут быть и другие боты.

Возможно, вы уже знаете, что поисковые системы находят все страницы и контент на вашем веб-сайте путем его сканирования — перехода с одной страницы на другую по ссылкам либо на самой странице, либо в карте сайта. Это позволяет им собирать данные с вашего сайта.

Однако на веб-сайте могут быть некоторые страницы, которые вы не хотите сканировать ботами.Файл robots.txt дает вам возможность указать, какие страницы им разрешено посещать, а какие страницы им не следует сканировать.

Обратите внимание, что инструкции, указанные в файле robots.txt , не являются обязательными. Это означает, что, хотя авторитетные боты, такие как поисковый робот Google, будут соблюдать ограничения в robots.txt , некоторые боты, вероятно, проигнорируют все, что вы туда введете, и все равно просканируют ваш сайт. Другие могут даже использовать его для поиска ссылок, которые вы специально не хотите сканировать, а затем сканировать их.

По сути, не рекомендуется полагаться на этот файл, чтобы предотвратить очистку вашего веб-сайта вредоносными ботами. Это больше похоже на руководство, которому следуют хорошие боты.

Куда мне поместить файл robots.txt?

Предполагается, что файл robots.txt находится в корневом каталоге вашего веб-сайта. Это отличается от файлов .htaccess , которые можно размещать в разных каталогах. Файл robots.txt работает только в том случае, если он находится в корневом каталоге и имеет точное имя robots.текст .

Вы можете создать этот файл вручную и поместить его в корневой веб-каталог, если он еще не существует.

Понимание содержимого файла

robots.txt

Файл robots.txt сообщит различным ботам, что им следует и что не следует сканировать на вашем веб-сайте. Для этого используется набор команд. Три такие команды, которые вы будете использовать очень часто, это User-Agent , Allow и Disallow .

Команда User-Agent идентифицирует ботов, к которым вы хотите применить текущий набор команд Allow и Disallow . Вы можете установить его на * , чтобы настроить таргетинг на всех ботов. Вы также можете сузить список ботов, указав такие значения, как Googlebot и Bingbot . Это одни из наиболее распространенных роботов-сканеров для поисковых систем Google и Bing соответственно. Есть много других от разных компаний, на которые вы, возможно, захотите ориентироваться.

Команда Разрешить дает вам возможность указать веб-страницу или каталог на вашем веб-сайте, к которым боты имеют свободный доступ. Имейте в виду, что любые значения, которые вы указываете, должны относиться к корневому каталогу.

Команда Disallow , с другой стороны, сообщает ботам, что они не должны сканировать указанный каталог или веб-страницу.

Вы можете указать только один каталог или веб-страницу для каждой команды Разрешить или Запретить .Однако вы можете использовать несколько команд Allow и Disallow в одном наборе. Вот пример:

 Агент пользователя: *
Запретить: /загрузки/
Запретить: /включает/
Разрешить: /загрузки/изображения/
Запретить: /login.php 

В приведенном выше примере мы сказали ботам, что они не должны сканировать содержимое каталога uploads . Тем не менее, мы используем команду Разрешить , чтобы указать им продолжать сканировать подкаталог изображений , найденный внутри загрузок .

Любой бот будет считать, что ему разрешено сканировать все страницы, которые вы явно не запретили. Это означает, что вам не нужно разрешать сканирование каталогов по одному.

Также следует помнить, что вводимые вами значения чувствительны к регистру. Боты будут рассматривать загрузки и ЗАГРУЗКИ как относящиеся к разным каталогам.

Файл robots.txt также может содержать ссылки на одну или несколько карт сайта на вашем веб-сайте.Это облегчает ботам поиск всех сообщений и веб-страниц на вашем веб-сайте, которые вы хотите, чтобы они сканировали.

Настройка файла robots.txt в WordPress

Важно соблюдать осторожность при создании файла robots.txt для вашего веб-сайта WordPress. Это связано с тем, что небольшие ошибки или недосмотры могут помешать сканированию контента вашего сайта поисковыми системами. Вся работа, которую вы вкладываете в SEO, будет напрасной, если поисковые системы не смогут ее даже просканировать.

Хорошее эмпирическое правило — запрещать как можно меньше. Один из подходов — просто поместить следующее в файл robots.txt . По сути, это сообщает всем ботам, что они могут свободно сканировать весь контент на веб-сайте.

 Агент пользователя: * 

Другой вариант — использовать следующую версию, которая говорит им избегать обхода каталога wp-admin , но по-прежнему сканировать весь остальной контент на веб-сайте. Мы также предоставляем ссылку на карту сайта в этом примере, но это совершенно необязательно.

 Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php
 
Карта сайта: https://your-website.com/sitemap.xml 

Важно не быть слишком агрессивным с командой Disallow и блокировать доступ к файлам CSS или JavaScript, которые могут повлиять на внешний вид контента во внешнем интерфейсе. В настоящее время поисковые системы также рассматривают многие другие аспекты веб-страницы, такие как ее внешний вид или удобство макета, прежде чем они определят, как следует ранжировать контент.Блокирование доступа к файлам CSS или JavaScript рано или поздно приведет к проблемам.

Когда не следует использовать robots.txt

Как я упоминал ранее, файл robots.txt не используется для применения каких-либо правил. Правила, указанные вами в файле, предназначены только для предоставления рекомендаций хорошим и послушным ботам. В основном это означает, что вы не должны использовать этот файл для ограничения доступа к некоторому контенту на вашем сайте. Есть две распространенные ситуации, с которыми вы можете столкнуться, если используете роботов .txt для этой цели.

Несмотря на то, что вредоносные боты не будут следовать рекомендациям, приведенным в файле robots.txt , они все же могут использовать его, чтобы выяснить, что именно вы не хотите, чтобы они сканировали. Это могло нанести больший ущерб, если вы использовали этот файл в качестве меры безопасности.

Этот файл также не помогает предотвратить появление ваших веб-страниц в результатах поиска. Веб-страница, которую вы пытаетесь скрыть, по-прежнему будет отображаться в результатах поиска, но в ее описании будет указано просто Для этой страницы нет информации .Это может произойти, когда вы блокируете Google от чтения определенной страницы с помощью файла robots.txt , но на эту страницу по-прежнему ссылаются откуда-то еще.

Если вы хотите заблокировать отображение страницы в результатах поиска, Google рекомендует использовать параметр noindex в заголовке ответа HTTP или добавить метатег noindex в файл HTML.

Есть простой способ сделать это, если вы используете WordPress. Просто перейдите в «Настройки » > «Чтение » на панели администратора WordPress, а затем снимите флажок « Видимость в поисковых системах ».

Удаление веб-страницы из результатов поиска требует выполнения некоторых других действий, таких как удаление самой страницы с веб-сайта, защита ее паролем или использование параметра noindex для ботов.

Как и в случае с файлом robots.txt , параметр noindex будет соблюдаться только благонамеренными и заслуживающими доверия ботами, поэтому, если вы хотите защитить конфиденциальную информацию на своем сайте, вам нужно сделать это другим способом. Например, вы можете защитить эту страницу паролем или полностью удалить ее со своего веб-сайта.

Последние мысли

Наша цель в этом посте состояла в том, чтобы познакомить вас с основами файла robots.txt , чтобы вы могли понять, что делает этот файл. После этого мы обсудили оптимальную конфигурацию robots.txt применительно к WordPress. Мы также увидели, как установить параметр noindex для страницы с помощью администратора WordPress.

В заключение хочу еще раз повторить, что не стоит использовать роботов .txt , чтобы заблокировать доступ к конфиденциальному контенту на сайте. Обычно это приводит к обратному эффекту с вредоносными ботами!

Основное руководство по роботам WordPress txt

Если вы являетесь владельцем бизнеса и используете веб-сайт WordPress для общения со своими клиентами, вам жизненно необходимо продвигать его в поисковых системах. Поисковая оптимизация включает в себя множество важных шагов. Одним из них является создание хорошего файла robots.txt.

Для чего вам нужен этот файл? Какова его роль? Где он находится на вашем сайте WordPress? Какие есть способы его создания?

 

Давайте рассмотрим поближе.

Что такое текстовый файл robots?

Когда вы создаете новый веб-сайт, поисковые системы, такие как Google, Bing и т. д., используют специальных ботов для его сканирования. После этого он создает подробную карту всех своих страниц. Это помогает им определить, какие страницы показывать, когда кто-то вводит поисковый запрос, используя соответствующие ключевые слова.

Проблема в том, что современные веб-сайты помимо страниц содержат множество других элементов. Например, WordPress позволяет устанавливать плагины, которые часто имеют собственные каталоги.Не рекомендуется показывать их на странице результатов поиска, поскольку эти папки содержат конфиденциальный контент, который может представлять большую угрозу безопасности для сайта.

Чтобы указать, какие папки сканировать, большинство владельцев веб-сайтов используют файл WordPress robots.txt, который содержит набор рекомендаций для ботов поисковых систем. Вы можете настроить, какие папки можно сканировать, а какие должны оставаться скрытыми от поисковых ботов. Этот файл может быть настолько подробным, насколько вы хотите, и его очень легко создать.

На практике поисковые системы все равно будут сканировать ваш сайт, даже если вы не создадите файл robots.txt. Однако не создавать его — очень нерациональный шаг. Без этого файла вы разрешаете поисковым роботам индексировать все содержимое вашего сайта и они решают, что вы можете показывать все части вашего сайта, даже те, которые вы хотели бы скрыть от общего доступа.

Более важный момент: без txt-файла для роботов WordPress поисковые роботы будут слишком часто заходить на ваш сайт. Это негативно скажется на его работе.Даже если посещаемость вашего сайта пока невелика, скорость загрузки страниц — это то, что всегда должно быть в приоритете и на самом высоком уровне. В конце концов, есть всего несколько вещей, которые людям не нравятся больше, чем медленная загрузка сайта.

Где находится файл robots.txt для WordPress?

Когда вы создаете веб-сайт WordPress, сервер автоматически создает файл robots.txt и размещает его в вашем корневом каталоге на сервере. Например, если адрес вашего веб-сайта является example.com, вы можете найти его по адресу example.com/robots.txt. Вы можете открыть и отредактировать его в любом текстовом редакторе. Он будет содержать следующие строки:

.
  1. Агент пользователя: *
  2. Запретить: /wp-admin/
  3. Запретить: /wp-includes/

Это пример самого простого базового файла robots.txt. Переводя на человеческий язык, правая часть после User-agent: объявляет, для каких роботов предназначены правила. Звездочка означает, что правило универсально и распространяется на всех ботов.В этом случае файл сообщает ботам, что они не могут сканировать каталоги wp-admin и wp-includes. Смысл этих правил в том, что в этих каталогах содержится множество файлов, требующих защиты от публичного доступа.

Конечно, вы можете добавить в свой файл дополнительные правила. Прежде чем это сделать, нужно понимать, что это виртуальный файл. Обычно файл WordPress robots.txt находится в корневом каталоге, который часто называется public_html, www или по названию имени вашего сайта:

.

Вы можете использовать любой FTP-менеджер, например FileZilla, для доступа к этому файлу и загрузки новой версии на сервер.Все, что вам нужно, это знать логин и пароль для FTP-подключения. Вы можете связаться со службой технической поддержки, чтобы узнать больше.

 

Некоторые основные требования к текстовому файлу роботов WordPress

  • Должен быть доступен в корне сайта. Его адрес будет иметь вид example.com/robots.txt.
  • Размер файла не должен превышать 32 килобайта.
  • Текст должен содержать только латинские символы. Если в вашем доменном имени используются другие символы, воспользуйтесь специальным программным обеспечением, чтобы правильно преобразовать его в латинские символы.

Не забывайте, что:

Инструкции
  • txt носят рекомендательный характер.
  • Настройки
  • txt не влияют на другие сайты (в robots.txt можно закрыть только страницы или файлы на текущем сайте).
  • Команды
  • txt чувствительны к регистру.

Типы robots.txt инструкция к поисковым роботам:

  • Частичный доступ к определенным частям сайта.
  • Запрет полного сканирования.

Когда следует использовать роботов.текст?

С помощью txt файла WordPress robots мы можем закрыть страницы от поисковых роботов, которые вы не хотите индексировать, например:

  • страниц с личной информацией пользователя;
  • страниц с документацией и служебной информацией, не влияющей на отображение интерфейса на экране;
  • определенные типы файлов, например файлы PDF;
  • панель инструментов WordPress и т. д.

 

Структура файла robots.txt

Веб-мастер может создать текстовый файл роботов WordPress с помощью любого текстового редактора.Его синтаксис включает три основных элемента:

.

1 User-agent: [имя поискового робота]

2 Запретить: [путь, к которому вы хотите закрыть доступ]

3 Разрешить: [путь, к которому вы хотите открыть доступ]

Кроме того, файл может содержать еще два дополнительных элемента:

1 Карта сайта: [адрес карты сайта]

Затем поместите созданный файл robots.txt в корневой каталог сайта. Если ваш сайт использует основной домен, файл будет находиться в папке /public_html/ или /www/.Это зависит от хостинг-провайдера. В некоторых случаях это может быть немного иначе, но большинство компаний используют указанную структуру. Если домен дополнительный, имя папки будет включать имя веб-сайта и выглядеть как /example.com/.

Для размещения файла в соответствующей папке вам потребуется FTP-клиент (например, FileZilla) и доступ к FTP, который вам дает провайдер при покупке хостинг-плана.

Агент пользователя

Все инструкции воспринимаются роботами как единое целое и относятся только к тем поисковым роботам, которые были указаны в первой строке.Всего насчитывается около 300 различных поисковых роботов. Если вы хотите применить ко всем поисковым роботам одинаковые правила, то в поле «User-agent» достаточно поставить звездочку (*). Этот символ означает любую последовательность символов. В итоге это будет выглядеть так:

1 Агент пользователя: *

 

Запретить

Эта команда дает рекомендации поисковым роботам, какие части сайта не следует сканировать. Если в robots.txt поставить Disallow:/, то он закроет весь контент сайта от сканирования.Если вам нужно закрыть определенную папку от сканирования, используйте Disallow: /folder.

Точно так же вы можете скрыть определенный URL-адрес, файл или определенный формат файла. Например, если вам нужно закрыть все PDF-файлы на сайте от индексации, вам нужно написать в WordPress robots txt следующую инструкцию:

1 Запретить: /*.pdf$

Звездочка перед расширением файла означает любую последовательность символов (любое имя), а знак доллара в конце означает, что вы закрываете от индексации только файлы с расширением .расширение пдф.

В следующих справочных материалах от Google вы найдете список команд для блокировки URL-адресов в файле robots.txt.

 

Разрешить

Эта команда позволяет сканировать любой файл, папку или страницу. Допустим, нужно открыть для сканирования роботами только те страницы, которые содержат слово /other, и закрыть весь остальной контент. В этом случае используйте следующую комбинацию:

1 Агент пользователя: *

2 Разрешить: /другое

3 Запретить: /

Правила «Разрешить» и «Запретить» сортируются по префиксу URL-адреса (от самого короткого до самого длинного) и применяются последовательно.В примере будет следующий порядок инструкций: сначала робот просканирует Disallow:/, а затем Allow:/other, то есть будет проиндексирована папка /other.

 

Типичные ошибки в файле robots.txt

Неправильный порядок команд. Должна быть четкая логическая последовательность инструкций. Сначала агент пользователя, затем разрешить и запретить. Если вы разрешаете весь сайт, но запрещаете какие-то отдельные разделы или файлы, то сначала ставьте Разрешить, а после него Запретить.Если вы запрещаете весь раздел, но хотите открыть некоторые его части, то Disallow будет располагаться выше, чем Allow.

Несколько папок или каталогов в одной инструкции Разрешить или Запретить. Если вы хотите прописать в файле robots.txt несколько разных инструкций Allow и Disallow, то вводите каждую из них с новой строки:

Запретить: /папка

Запретить: /admin

Неверное имя файла. Имя должно быть исключительно «robots.txt», состоящий только из строчных латинских букв.

Пустое правило агента пользователя. Если вы хотите установить общие инструкции для всех роботов, то поставьте звездочку.

Синтаксические ошибки. Если вы ошибочно указали один из дополнительных элементов синтаксиса в одной из инструкций, робот может их неправильно интерпретировать.

 

Как создать файл robots.txt для вашего веб-сайта WordPress

Как только вы решите создать своих роботов.txt, все, что вам нужно, это найти способ его создать. Вы можете отредактировать robots.txt в WordPress с помощью плагина или сделать это вручную. В этом разделе мы научим вас использовать два самых популярных плагина для этой задачи и обсудим, как создать и скачать файл вручную. Пойдем!

 

Использование плагина Yoast SEO

Плагин

Yoast SEO очень популярен для внедрения. Это самый известный SEO-плагин для WordPress, он позволяет улучшать посты и страницы, чтобы лучше использовать ключевые слова.Кроме того, он также оценит читабельность вашего контента, а это увеличит потенциальную аудиторию. Многие разработчики восхищаются плагином Yoast SEO из-за его простоты и удобства.

Одной из его основных функций является создание файла robots.txt для вашего веб-сайта. После установки и активации плагина перейдите на вкладку SEO — Tools в консоли плагина и найдите параметр File Editor:

.

Нажав на эту ссылку, вы сможете редактировать файл .htaccess, не выходя из консоли администратора.Также есть кнопка Создать файл robots.txt:

После нажатия кнопки на вкладке плагин отобразит новый редактор, где вы сможете напрямую редактировать файл robots.txt. Обратите внимание, что Yoast SEO устанавливает свои правила по умолчанию, которые переопределяют правила существующего виртуального файла robots.txt.

После удаления или добавления правил нажмите кнопку Сохранить изменения в файле robots.txt, чтобы применить их:

Вот и все! Давайте теперь посмотрим на другой популярный плагин, который позволит выполнить ту же задачу.

 

Использование плагина All in One SEO Pack

Плагин All in One SEO Pack — еще один отличный плагин WordPress для поисковой оптимизации. Он включает в себя большинство функций плагина Yoast SEO, но некоторые владельцы веб-сайтов предпочитают его, потому что он более легкий. Что касается создания файла robots.txt, то создать его в этом плагине тоже несложно.

После установки плагина перейдите в All in One SEO — Manage Modules в консоли. Внутри вы найдете роботов.txt с большой синей кнопкой «Активировать» в правом нижнем углу. Нажмите на него:

Теперь вы сможете найти новую вкладку Robots.txt в меню All in One SEO. Нажмите на нее, чтобы увидеть настройки добавления новых правил в ваш файл. Далее сохраняем изменения или удаляем все:

Обратите внимание, что в отличие от Yoast SEO, который позволяет вам вводить все, что вы хотите, вы не можете напрямую изменять файл robots.txt с помощью этого плагина. Содержимое файла будет неактивным.Вы просто увидите серый фон.

Но так как добавлять новые правила очень просто, этот факт не должен вас расстраивать. Что еще более важно, All in One SEO Pack также включает в себя функцию, которая поможет вам блокировать «плохих» ботов. Вы можете найти его во вкладке All in One SEO:

Это все, что вам нужно сделать, если вы выберете этот метод. Теперь поговорим о том, как создать txt файл WordPress robots вручную, если вы не хотите устанавливать дополнительный плагин только для этой задачи.

Создание и загрузка файла robots.txt для WordPress через FTP

 

Чтобы создать файл robots.txt вручную, откройте свой любимый редактор (например, Блокнот или TextEdit), добавьте все необходимые команды и сохраните файл с расширением txt на локальный диск. Это буквально займет несколько секунд, поэтому вы можете создать robots.txt для WordPress без использования плагина.

Вот краткий пример такого файла:

После того, как вы создали свой собственный файл, вам необходимо подключиться к вашему сайту через FTP и поместить файл в корневую папку.В большинстве случаев это каталог public_html или www. Вы можете загрузить файл, щелкнув правой кнопкой мыши файл в локальном FTP-менеджере или просто перетащив файл:

Это также занимает несколько секунд. Как видите, этот способ не сложнее, чем использование плагина.

Как протестировать файл robots.txt для вашего веб-сайта WordPress

Теперь пришло время проверить файл robots.txt на наличие ошибок в Google Search Console. Search Console — это один из инструментов Google, предназначенный для отслеживания того, как ваш контент отображается на странице результатов поиска.Один из этих инструментов проверяет robots.txt, вы можете использовать его, перейдя к файлу Robots.txt в разделе Check Tool вашей консоли:

Здесь вы найдете поле редактора, в которое вы можете добавить код для вашего файла WordPress robots.txt, и нажмите «Отправить». Консоль поиска Google спросит, хотите ли вы использовать новый код или загрузить файл с вашего сайта. Выберите параметр «Попросить Google обновить», чтобы опубликовать код вручную:

.

Теперь платформа проверит ваш файл на наличие ошибок.Если он найдет ошибку, он немедленно уведомит вас.

Заключение

Текстовый файл WordPress robots — очень мощный инструмент для повышения видимости веб-сайта для ботов поисковых систем. Будучи настолько важным, это не очень сложно создать. Существует ли идеальный файл? Мы не можем так сказать. Он будет отличаться в зависимости от содержания вашего сайта и результата, которого вы хотите достичь.

 

Как редактировать файл Robots.txt в WordPress

9 сентября 2019 г.

На этой неделе мы рассмотрим еще один вопрос, который возникает у начинающих пользователей WP — как отредактировать файл robots.txt-файл в WordPress. Причина этого достаточно проста — это приносит пользу вашим усилиям по SEO . Файл robots.txt — невероятно мощный инструмент в SEO, потому что он работает как руководство по веб-сайту для поисковых роботов . Вот почему эксперты WordPress признают его важность и то, как лучше всего внедрить его в оптимизацию своего сайта. Здесь мы шаг за шагом рассмотрим всю тему .

Чтобы отредактировать файл robots.txt в WordPress, вам понадобится только простое руководство.

Начнем с более подробного определения файла robots.txt

Ботам поисковых систем нужны инструкции о том, как сканировать и индексировать внутренние страницы вашего сайта . Именно здесь в игру вступают файлы robots.txt. В этом файле представлена ​​структура ваших страниц, что упрощает их чтение и оценку ботами поисковых систем.

Обычно файл robots.txt можно найти в корневом каталоге. Этот каталог также известен как основная папка всего вашего веб-сайта .Прежде чем мы перейдем к редактированию файла robots.txt в WordPress, нам сначала нужно научиться его распознавать. Итак, вот пример того, как выглядит типичный файл robots.txt:

1
2
3
4
5
6
7
8
Агент пользователя: [имя агента пользователя]
Запретить: [строка URL не должна сканироваться]
 
Агент пользователя: [имя агента пользователя]
Разрешить: [строка URL быть просканирован]
 
 
Карта сайта: [URL вашего файла Sitemap в формате XML]

В самом файле достаточно места для настройки, например, разрешающей/запрещающей определенные URL-адреса или добавляющей несколько файлов карты сайта .Итак, если у вас есть URL-адрес, который вы не хотите, чтобы поисковые роботы сканировали и ранжировали, вам нужно запретить его через robots.txt. Вот пример разрешения/запрета роботам поисковых систем сканировать определенные URL-адреса:

1
2
3
4
5 9067 9067 60688 90
Агент пользователя: *
Разрешить: /wp-content/uploads/
Запретить: /wp-content/plugins/
Запретить: /wp-admin/
9 Карта сайта: 6 0 6 0 https 0 ://пример.com/sitemap_index.xml

Наконец, мы добавляем нашу карту сайта в смесь, делая URL-адрес видимым для роботов поисковых систем.

Важность наличия файла robots.txt в WordPress

Важно понимать, что даже если у вас нет файла robots.txt, роботы поисковых систем все равно будут сканировать ваши страницы . Тем не менее, они будут ползать по ним всем. Вы не сможете указать, какие страницы они должны и не должны сканировать.

Для новых веб-сайтов WP это может быть не слишком большой проблемой.Однако для сайтов с бесконечным содержимым вам потребуется лучше контролировать, как он сканируется и индексируется . Файл robots.txt обеспечивает правильный способ обслуживания вашего веб-сайта WordPress и то, как его видят боты поисковых систем.

Почему это так важно для начала?

Каждый веб-сайт имеет квоту сканирования — так работают боты поисковых систем. Это означает, что боты будут сканировать ваш сайт по одной странице за раз. Если им не удастся завершить сканирование всех ваших страниц за один сеанс, они возобновят сканирование в следующий раз.А это то, что может значительно замедлить индексацию вашего сайта ( скорость индексации ) .

Однако когда вы редактируете файл robots.txt в WordPress, чтобы запретить сканирование определенных страниц , вы сохраняете свою квоту сканирования . Наиболее распространенные и ненужные страницы, которые пользователи WP обычно запрещают, включают страницы администрирования WordPress, плагины и темы. Как только вы удалите эти страницы, вы предоставите поисковым роботам больше места для индексации других релевантных страниц вашего сайта.

Как должен выглядеть идеальный файл robots.txt в WordPress?

Популярные сайты блогов выбирают упрощенный пример файла robots.txt — форма, которая варьируется в зависимости от потребностей этого сайта:

1
2
3
4
5
User-agent: *
Disallow:
  
Карта сайта: https://www.example.com/post-sitemap.xml
Карта сайта: https://www.example.com/page-sitemap.xml

В этом примере показано, как разрешить ботам индексировать весь контент, при этом давая ему ссылку на XML-карту сайта веб-сайта.

Тем не менее, это рекомендуемая форма для пользователей веб-сайта WordPress, как редактировать файл robots.txt в WordPress :

1
2
3
4
5
6
7
8
9
User-Agent: *
Разрешить: /wp-content/uploads/
Запретить: /wp-content/plugins/
Запретить: /wp-admin/
Запретить: /readme.html
Запретить: /refer/
 
Карта сайта: https://www.example.com/post-sitemap.xml
Карта сайта: https://www.example.com/page-sitemap .xml

Здесь ясно видно, что ботам дано указание индексировать все изображения и файлы WP . Однако он также запрещает роботам поисковых систем индексировать следующее:

  • Файлы плагинов WP
  • Админ-панель WP
  • Файл сведений о WP
  • Партнерские ссылки

Причина, по которой вам следует добавить ссылку в XML-карту сайта, заключается в том, чтобы упростить роботам поиск всех страниц вашего сайта.

Как создать и отредактировать файл robots.txt в WordPress

Как и во всем WordPress, для каждой задачи есть универсальные решения. Итак, на самом деле есть два способа создать robots.txt в WordPress:

Решение № 1. Использование Yoast SEO для редактирования файла robots.txt в WordPress

Если вы используете плагин Yoast SEO, вам повезло! Плагин поставляется с генератором файлов robots.txt . И вы можете использовать этот генератор для создания и редактирования файла robots.txt непосредственно из вашей панели администратора.

Все, что вам нужно сделать, это перейти на страницу SEO >> Инструменты в качестве администратора . Оказавшись там, нажмите на ссылку «Редактор файлов». Страница, на которую он ведет, должна содержать существующий файл robots.txt. А если это не так, Yoast SEO сгенерирует для вас файл. Некоторые версии Yoast SEO генерируют файл по умолчанию в следующем формате:

.
1
2
User-agent: *
Disallow: /

Как только это произойдет, обязательно удалите этот текст  , иначе он заблокирует доступ всех ботов к вашему сайту.Удалив текст по умолчанию, не забудьте ввести собственную версию скрипта robots.txt. Вы можете использовать шаблон, которым мы поделились ранее.

После завершения редактирования файла вам просто нужно нажать « Сохранить файл robots.txt » и сохранить изменения.

Решение № 2. Использование FTP для ручного редактирования файла robots.txt в WordPress

Этот конкретный подход требует использования FTP-клиента для редактирования файла. Итак, первое, что вам нужно сделать, это использовать FTP-клиент для подключения к вашей учетной записи хостинга WordPress .Оказавшись там, вы найдете файл robots.txt в корневой папке вашего сайта.

Если вы не можете найти файл robots.txt, то, скорее всего, на вашем сайте WP его нет. Если это так, вы можете пойти дальше и создать его. Учитывая тот факт, что файл robots.txt представляет собой обычный текстовый файл , вы можете просто загрузить его, а затем отредактировать в любом обычном редакторе, таком как Блокнот или TextEdit . После того, как вы отредактируете файл, вы можете просто загрузить его обратно в корневую папку вашего сайта.

После редактирования файла robots.txt в WordPress обязательно проверьте его

.

Тестирование всегда является следующим логическим шагом после редактирования. И это особенно важно в случаях, связанных с robots.txt, по причинам, которые мы упоминали ранее. Не беспокойтесь — есть инструменты, которые вы можете использовать, чтобы проверить это. Мы рекомендуем больше всего Google Search Console .

Создайте учетную запись, если у вас ее нет, и после входа в систему переключитесь на старый веб-сайт консоли поиска Google .Как только перед вами появится старый интерфейс, вам нужно будет запустить тестер robots.txt . Инструмент находится в меню « Crawl ». Этот инструмент автоматически извлечет файл robots.txt вашего веб-сайта и выделит все найденные ошибки.

Последние мысли

В заключение, наличие файла robots.txt является очень важным инструментом для продвижения ваших стратегий SEO. Следовательно, изучение того, как создавать и редактировать файл robots.txt в WordPress, определенно является шагом вперед .Если у вас есть дополнительные вопросы или руководства по WordPress, посетите наш блог или свяжитесь с нами напрямую.

Родственные

Почтовая навигация

Файл WordPress robots.txt… Что это такое и что он делает

Вы когда-нибудь задумывались, что такое файл robots.txt и для чего он? Robots.txt используется для связи с поисковыми роботами (известными как боты), используемыми Google и другими поисковыми системами. Он сообщает им, какие части вашего сайта индексировать, а какие игнорировать.Таким образом, файл robots.txt может помочь (или потенциально сломать!) ваши усилия по SEO. Если вы хотите, чтобы ваш веб-сайт хорошо ранжировался, важно хорошо понимать robots.txt!

Где находится robots.txt?

WordPress обычно запускает так называемый «виртуальный» файл robots.txt, что означает, что он недоступен через SFTP. Однако вы можете просмотреть его основное содержимое, перейдя по адресу yourdomain.com/robots.txt. Вы, вероятно, увидите что-то вроде этого:

  Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.PHP  

В первой строке указывается, к каким ботам будут применяться правила. В нашем примере звездочка означает, что правила будут применяться ко всем ботам (например, от Google, Bing и так далее).

Вторая строка определяет правило, запрещающее ботам доступ к папке /wp-admin, а третья строка указывает, что ботам разрешено анализировать файл /wp-admin/admin-ajax.php.

Добавьте свои собственные правила

Для простого веб-сайта WordPress правила по умолчанию, применяемые WordPress к файлу robots.txt может быть более чем достаточно. Однако, если вы хотите больше контроля и возможность добавлять свои собственные правила, чтобы дать более конкретные инструкции роботам поисковых систем о том, как индексировать ваш веб-сайт, вам нужно будет создать свой собственный физический файл robots.txt и поместить его в корень. каталог вашей установки.

Существует несколько причин, по которым может потребоваться перенастроить файл robots.txt и определить, что именно этим ботам будет разрешено сканировать. Одна из основных причин связана со временем, затрачиваемым ботом на сканирование вашего сайта.Google (и другие) не позволяют ботам проводить неограниченное время на каждом веб-сайте… с триллионами страниц им приходится применять более тонкий подход к тому, что их боты будут сканировать, а что проигнорируют в попытке извлечь наиболее полезную информацию. о веб-сайте.

Разместите свой сайт с Pressidium

60-ДНЕВНАЯ ГАРАНТИЯ ВОЗВРАТА ДЕНЕГ

ПОСМОТРЕТЬ НАШИ ПЛАНЫ

Когда вы разрешаете ботам сканировать все страницы вашего веб-сайта, часть времени сканирования тратится на страницы, которые не являются важными или даже релевантными.Это оставляет им меньше времени, чтобы проработать наиболее важные области вашего сайта. Запрещая ботам доступ к некоторым частям вашего веб-сайта, вы увеличиваете время, доступное ботам для извлечения информации из наиболее важных частей вашего сайта (которые, как мы надеемся, в конечном итоге будут проиндексированы). Поскольку сканирование происходит быстрее, Google с большей вероятностью повторно посетит ваш веб-сайт и обновит индекс вашего сайта. Это означает, что новые сообщения в блогах и другой свежий контент, скорее всего, будут индексироваться быстрее, что является хорошей новостью.

Примеры редактирования robots.txt

В файле robots.txt достаточно места для настройки. Поэтому мы предоставили ряд примеров правил, которые можно использовать для определения того, как боты индексируют ваш сайт.

Разрешение или запрещение ботов

Во-первых, давайте посмотрим, как мы можем ограничить конкретного бота. Для этого все, что нам нужно сделать, это заменить звездочку (*) на имя пользовательского агента бота, который мы хотим заблокировать, например «MSNBot». Полный список известных пользовательских агентов доступен здесь.

  Агент пользователя: MSNBot
Запретить: /  

Прочерк во второй строке ограничит доступ бота ко всем каталогам.

Чтобы позволить только одному боту сканировать наш сайт, мы будем использовать двухэтапный процесс. Сначала мы бы сделали этого бота исключением, а затем запретили бы всех ботов, например:

.
  Агент пользователя: Google
Запретить:

Пользовательский агент: *
Запретить: /  

Чтобы разрешить доступ всем ботам ко всему контенту, мы добавляем эти две строки:

  Агент пользователя: *
Запретить:  

Такого же эффекта можно добиться, просто создав файл robots.txt, а затем просто оставить его пустым.

Блокировка доступа к определенным файлам

Хотите запретить ботам индексировать определенные файлы на вашем сайте? Это легко! В приведенном ниже примере мы запретили поисковым системам доступ ко всем файлам .pdf на нашем веб-сайте.

  Агент пользователя: *
Запретить: /*.pdf$  

Символ «$» используется для определения конца URL-адреса. Поскольку это чувствительно к регистру, файл с именем my.PDF все равно будет просканирован (обратите внимание на CAPS).

Сложные логические выражения

Некоторые поисковые системы, такие как Google, понимают использование более сложных регулярных выражений. Однако важно отметить, что не все поисковые системы могут понимать логические выражения в файле robots.txt.

Одним из примеров этого является использование символа $. В файлах robots.txt этот символ указывает на конец URL-адреса. Итак, в следующем примере мы заблокировали поисковым ботам чтение и индексацию файлов, оканчивающихся на .PHP

  Запретить: /*.php$  

Это означает, что /index.php не может быть проиндексирован, но /index.php?p=1 может быть. Это полезно только в очень специфических обстоятельствах и должно использоваться с осторожностью, иначе вы рискуете заблокировать доступ бота к файлам, которые вы не хотели!

Вы также можете установить разные правила для каждого бота, указав правила, которые применяются к ним индивидуально. Приведенный ниже пример кода ограничит доступ к папке wp-admin для всех ботов и в то же время заблокирует доступ ко всему сайту для поисковой системы Bing.Вам не обязательно это делать, но это полезная демонстрация того, насколько гибкими могут быть правила в файле robots.txt.

  Агент пользователя: *
Запретить: /wp-admin/
Агент пользователя: Bingbot
Запретить: /  

XML-карты сайта

Карты сайта

XML действительно помогают поисковым роботам понять макет вашего сайта. Но чтобы быть полезным, боту нужно знать, где находится карта сайта. «Директива карты сайта» используется для того, чтобы сообщить поисковым системам, что а) карта вашего сайта существует и б) где ее можно найти.

  Карта сайта: http://www.example.com/sitemap.xml
Пользовательский агент: *
Запретить:  

Вы также можете указать несколько местоположений карты сайта:

  Карта сайта: http://www.example.com/sitemap_1.xml
Карта сайта: http://www.example.com/sitemap_2.xml
Пользователь-агент:*
Запретить  

Задержки сканирования ботом

Еще одна функция, которую можно реализовать с помощью файла robots.txt, — это указание ботам «замедлить» сканирование вашего сайта. Это может быть необходимо, если вы обнаружите, что ваш сервер перегружен высоким уровнем трафика ботов.Для этого вы должны указать пользовательский агент, который вы хотите замедлить, а затем добавить задержку.

  Агент пользователя: BingBot
Запретить: /wp-admin/
Задержка сканирования: 10  

Цифра в кавычках (10) в этом примере означает задержку между сканированием отдельных страниц вашего сайта. Итак, в приведенном выше примере мы попросили бота Bing делать паузу в десять секунд между каждой страницей, которую он сканирует, тем самым давая нашему серверу немного передышки.

Единственная плохая новость об этом конкретном роботе.txt заключается в том, что бот Google его не соблюдает. Однако вы можете приказать их ботам замедлить работу из консоли поиска Google.

Примечания к правилам robots.txt:

  • Все правила robots.txt чувствительны к регистру. Введите внимательно!
  • Убедитесь, что перед командой в начале строки нет пробелов.
  • Изменения, внесенные в robots.txt, могут быть отмечены ботами в течение 24-36 часов.

Как протестировать и отправить своих роботов WordPress.текстовый файл

Когда вы создали новый файл robots.txt, стоит проверить, нет ли в нем ошибок. Вы можете сделать это с помощью Google Search Console.

Во-первых, вам нужно будет указать свой домен (если у вас еще нет учетной записи Search Console для настройки веб-сайта). Google предоставит вам запись TXT, которую необходимо добавить в ваш DNS, чтобы подтвердить ваш домен.

Как только это обновление DNS будет распространено (чувство нетерпения… попробуйте использовать Cloudflare для управления своим DNS), вы можете посетить файл robots.txt tester и проверьте, нет ли предупреждений о содержимом вашего файла robots.txt.

Еще одна вещь, которую вы можете сделать, чтобы проверить, дают ли установленные вами правила желаемый эффект, — это использовать тестовый инструмент robots.txt, такой как Ryte.

Вы просто вводите свой домен и выбираете пользовательский агент на панели справа. После отправки вы увидите свои результаты.

Заключение

Знание того, как использовать robots.txt, — еще один полезный инструмент в вашем наборе инструментов разработчика.Если единственное, что вы вынесете из этого руководства, — это возможность проверить, что ваш файл robots.txt не блокирует ботов, таких как Google (что вам вряд ли захочется делать), то это неплохо! Точно так же, как вы можете видеть, robots.txt предлагает целый ряд дополнительных средств контроля над вашим веб-сайтом, которые могут однажды пригодиться.

Разместите свой веб-сайт WordPress с помощью Pressidium!

Посмотреть наши тарифные планы

Как оптимизировать файл robots.txt WordPress для SEO

В этом блоге мы узнаем несколько советов о том, как улучшить SEO вашего веб-сайта, оптимизировав robts.текстовый файл.

На самом деле файл Robots.txt играет важную роль с точки зрения SEO, потому что он сообщает поисковым системам, как можно сканировать ваш сайт. Именно по этой причине файлы Robot.txt считаются одним из самых мощных инструментов SEO.

Позже вы также узнаете, как можно создать и оптимизировать WordPress Robots.txt для SEO.

Что вы подразумеваете под файлом robots.txt?

Текстовый файл, созданный владельцами веб-сайтов, чтобы сообщить роботам поисковых систем о том, как они могут сканировать свой веб-сайт и индексировать страницы, известен как Robots.текст

На самом деле в корневом каталоге хранится этот файл. Этот каталог также называется основной папкой вашего сайта. Ниже указан формат файла robots.txt

.
Агент пользователя: [имя агента пользователя]
Запретить: [строка URL не должна сканироваться]
Агент пользователя: [имя агента пользователя]
Разрешить: [строка URL для сканирования]
Карта сайта: [URL вашего файла Sitemap в формате XML]
 

Чтобы разрешить или запретить определенные URL-адреса, у вас могут быть разные строки инструкций.Кроме того, вы также можете добавлять различные карты сайта. Боты поисковых систем будут считать, что им разрешено сканировать страницы, если разрешен URL-адрес.
Пример файла robots.txt приведен ниже

Пользовательский агент: *
Разрешить: /wp-content/uploads/
Запретить: /wp-content/plugins/
Запретить: /wp-admin/
Карта сайта: https://example.com/sitemap_index.xml
 

В приведенном выше примере мы разрешили сканировать страницы поисковым системам и получать индексные файлы в папке загрузок WordPress.

После этого мы запретили поисковым ботам сканировать и индексировать папки и плагины администратора WordPress.
Наконец, мы упомянули URL-адрес XML-карты сайта.

Требуется ли для вашего веб-сайта WordPress файл Robots.txt?

Поисковая система начнет сканировать и индексировать ваши страницы, даже если у вас нет текстового файла, например Robots.txt. Но, к сожалению, вы не можете сообщить своей поисковой системе, какую именно папку или страницу она должна сканировать.

Это не принесет пользы или не окажет никакого влияния, если вы только что создали веб-сайт или блог с меньшим содержанием.
Однако, как только вы настроите свой веб-сайт с большим количеством контента и он начнет расти, вам потребуется контроль над просканированными и проиндексированными страницами вашего веб-сайта.

Первая причина указана ниже

Для каждого веб-сайта у поисковых роботов есть квота сканирования.

Это явно означает, что во время сеанса обхода будет просканировано определенное количество страниц. Предположим, что сканирование на вашем веб-сайте осталось незавершенным, тогда оно вернется еще раз и возобновит сканирование в другом сеансе.

Из-за этого скорость индексации вашего сайта будет критической.

Вы можете решить эту проблему, запретив поисковым роботам сканировать такие страницы, которые не нужны. Некоторые неважные страницы могут включать в себя файлы плагинов, страницы администрирования WordPress и папки тем.

Квоту сканирования можно сохранить, запретив сканирование нежелательных страниц. Этот шаг будет более полезным, поскольку поисковые системы теперь будут сканировать страницы веб-сайта и смогут проиндексировать их как можно скорее.

Еще одна причина, по которой вам следует использовать и оптимизировать файл WordPress Robots.txt, приведена ниже

.

Всякий раз, когда вам нужно запретить поисковым системам индексировать страницы или сообщения на вашем сайте, вы можете использовать этот файл.

На самом деле, это один из самых неправильных способов скрыть содержимое вашего веб-сайта от широкой публики, но он окажется лучшей поддержкой для защиты их от появления в результатах поиска.

Как появляется файл robots.txt?

Очень простые роботы.txt используется большинством популярных блогов. Контент может отличаться от требований конкретного веб-сайта.

Пользовательский агент: *
Запретить:
Карта сайта: http://www.example.com/post-sitemap.xml
Карта сайта: http://www.example.com/page-sitemap.xml
Файл robots.txt разрешает всем ботам индексировать любой контент и предлагать ссылки на веб-сайт карты сайта в формате XML.
В файлах robots.txt упоминаются следующие правила, которым необходимо следовать.

Пользовательский агент: *
Разрешить: /wp-content/uploads/
Запретить: /wp-content/plugins/
Запретить: /wp-admin/
Запретить: /readme.HTML
Запретить: /см./
Карта сайта: http://www.example.com/post-sitemap.xml
Карта сайта: http://www.example.com/page-sitemap.xml
 

Это укажет боту на индексацию всех файлов и изображений WordPress. Это не позволит поисковым ботам индексировать область администрирования WordPress, файлы плагинов WordPress, партнерские ссылки и файл readme WordPress.

В файлы robots.txt можно добавить карты сайта, которые помогут роботам Google распознавать все страницы вашего сайта.

Теперь вы знаете, как работают роботы.txt, теперь мы узнаем, как можно создать файл robots.txt в WordPress.

Как в WordPress создать файл robots.txt?

Существует множество способов создать файл robots.txt в WordPress. Некоторые из лучших методов перечислены ниже, вы можете выбрать любой из них, который лучше всего подходит для вас.

Метод 1: использование All-in-One SEO, изменение файла Robots.txt

All in One SEO — самый известный плагин WordPress для SEO на рынке, который используется более чем на 1 миллионе веб-сайтов.

Плагин

All in One SEO очень прост в использовании и поэтому предлагает генератор файлов robotx.txt. Также полезно оптимизировать WordPress Robots.txt

.

Если вы еще не интегрировали этот SEO-плагин, сначала установите и активируйте его с панели инструментов WordPress. Бесплатная версия также доступна для начинающих пользователей, чтобы они могли использовать ее функции, не вкладывая денег.

После активации плагина вы можете начать использовать его для создания или изменения файла robots.txt непосредственно из области администрирования WordPress.

Для использования

  • Перейти на все в одном SEO
  • Теперь, чтобы отредактировать файл robots.txt, нажмите на инструменты
  • Теперь, нажав «включить пользовательский файл robots.txt», вы включите параметр редактирования
  • В WordPress вы также можете создать собственный файл robots.txt с помощью этого переключателя.
  • Теперь ваш существующий файл robots.txt будет отображаться плагином All in One SEO в разделе «Предварительный просмотр robots.txt». Это можно просмотреть в нижней части веб-экрана.

WordPress, правило по умолчанию, которое было добавлено, будет отображаться в этой версии
Правила по умолчанию, которые появляются, предлагают вашей поисковой системе, что им не нужно сканировать основные файлы WordPress, предлагают ссылку на веб-сайт карты сайта XML и разрешить ботам индексировать весь его контент.

Чтобы улучшить файл robots.txt для SEO, можно добавить новые собственные правила.

Добавьте пользовательский агент в поле «Пользовательский агент», чтобы добавить правило. Правило будет применяться ко всем пользовательским агентам с помощью файла *.
Теперь выберите, хотите ли вы разрешить или запретить поисковой системе сканировать страницы.

Теперь добавьте путь к каталогу, имя файла в поле «Путь к каталогу».

К вашему файлу robots.txt правило будет применено автоматически. Нажмите кнопку «Добавить правило», чтобы добавить новое правило.
Если вы не создали идеальный формат robotx.txt, мы предлагаем вам добавить новые правила.

Пользовательские правила, добавленные вами, будут иметь вид

.

Чтобы сохранить изменения, не забудьте нажать «сохранить изменения»

Метод 2: модифицируйте роботов.txt вручную с помощью FTP

Другой способ оптимизации файла robots.txt для WordPress — использование функций FTP-клиентов для изменения файла robots.txt.

Вам просто нужно подключиться к вашей учетной записи хостинга WordPress с помощью FTP-клиента

После входа в корневую папку сайта вы сможете просмотреть файл robots.txt.

Если вы не можете его найти, значит у вас нет файла robots.txt

В такой ситуации нужно создать робота.текстовый файл.

Как упоминалось ранее, файл robots.txt обычно представляет собой простой текстовый файл, который можно загрузить на свой компьютер. Однако вы даже можете изменить его с помощью простого текстового редактора, такого как TextEdit, Блокнот или WordPad.

После внесения всех изменений пришло время их сохранить. Вы можете загрузить этот файл в корневую папку вашего сайта.

Как выполнить тестирование файла Robots.txt?

Вы можете проводить испытания с помощью роботов.инструмент для проверки текстовых файлов.

В Интернете вы найдете множество инструментов для тестирования robots.txt. Одним из лучших является Google Search Console.
Для работы с этим инструментом сначала необходимо иметь веб-сайт, подключенный к поисковой консоли Google. После этого вы можете начать использовать его функции.

Из выпадающего списка вам просто нужно выбрать свое свойство.

Однако он автоматически выберет файл robots.txt вашего веб-сайта и выделит все предупреждения и ошибки.Это один из лучших инструментов, который поможет вам очень легко оптимизировать файл WordPress Robots.txt.

Заключение:
Основной девиз оптимизации этого файла robots.txt — защитить страницы от сканирования страниц. Например, страницы в папке администратора WordPress или страницы в папке wp-plugin.

Самый распространенный миф заключается в том, что вы можете улучшить скорость сканирования, ускорить его индексацию и получить более высокий рейтинг, заблокировав категорию WordPress, страницы достижения и теги.

Но это не сработает, так как в соответствии с рекомендациями Google для веб-мастеров что-то пойдет не так.

Мы настоятельно рекомендуем вам прочитать и принять во внимание все пункты, упомянутые выше.

Мы надеемся, что этот блог поможет вам создать файл robots.txt в правильном формате для вашего веб-сайта. И это поможет вам оптимизировать WordPress Robots.txt.

О Шри Публикации

Шри делится с нашими зрителями интересными темами WordPress, плагинами и другими новостями, связанными с WordPress.Он также время от времени публикует избранные интервью разработчиков WordPress.

Просмотреть все сообщения Шри Сообщений

Где находится robots.txt в WordPress

Где находится robots.txt в WordPress? Это вопрос, на который мы собираемся ответить в этом уроке.

Мы расскажем, где его найти, и посмотрим на содержимое файла. С пояснениями к каждой строке, помогающими понять, что она делает.

Обладая этими знаниями, вы можете уверенно редактировать файл.Мы также протестируем изменения с помощью инструментов от Google, чтобы убедиться в отсутствии ошибок.

Давайте погрузимся.

Что такое Robots.txt?

Боты или поисковые роботы используют файл robots.txt при посещении вашего сайта. Самый важный бот — Googlebot.

Робот Googlebot посетит ваш сайт и прочитает содержимое ваших страниц. Это добавит их в индекс Google, после чего они появятся в результатах поиска Google.

Вот почему ваш файл robots.txt так важен для SEO.

Если вы сделаете ошибку при редактировании файла robots.txt, робот Googlebot не сможет сканировать ваш сайт.

Не беспокойтесь, позже мы расскажем, как проверить файл robots.txt, чтобы этого не произошло.

Далее, где находится robots.txt в WordPress?

Где находится robots.txt?

Robots.txt — это текстовый файл, который находится в корневом каталоге веб-сайта. Например, вот файлы robots.txt для нескольких известных компаний:

Ваши роботы.txt находится там же, примерно так:

https://example.com/robots.txt

Добавьте /robots.txt после вашего доменного имени.

Файл robots.txt по умолчанию в WordPress имеет только три правила, выглядит это так:

  Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php  

Каждая строка в файле представляет собой правило (директиву), которое бот будет читать и соблюдать при посещении сайта. Давайте посмотрим, что делает каждая строка:

  1. Агент пользователя: *

Директива User-agent указывает боту следовать всем приведенным ниже правилам.Двоеточие отделяет директиву от ее значения. Значение пользовательского агента в этом случае равно * . Это подстановочный знак, и он будет соответствовать всем пользовательским агентам.

Что это за пользовательские агенты? Пользовательский агент — это то, как бот идентифицирует себя при посещении вашего сайта. Вот список распространенных пользовательских агентов:

  • Googlebot — используется для поиска Google
  • Bingbot — используется для поиска Bing
  • Slurp — поисковый робот Yahoo
  • DuckDuckBot — используется поисковой системой DuckDuckGo
  • Baiduspider — это китайский поисковик
  • .
  • YandexBot — это российская поисковая система
  • фейсбот — используется Facebook
  • Pinterestbot — используется Pinterest
  • TwitterBot — используется Twitter

Вы можете использовать эти пользовательские агенты для создания правил для определенных ботов.Например, вы можете заблокировать посещение фейсботом определенных частей вашего сайта следующим образом:

  Агент пользователя: фейсбот
Запретить: /пользователи  

WordPress по умолчанию имеет два правила, которым должны следовать все боты.

  1. Запретить: /wp-admin/

Это директива «Запретить». Это сообщает боту, что ему не разрешено заходить в определенную область веб-сайта. Значение /wp-admin/ — это папка на веб-сайте. Это означает, что всем ботам не разрешено посещать админку сайта WordPress.

  1. Разрешить: /wp-admin/admin-ajax.php

Директива «разрешить» даст доступ к области сайта боту. В последнем правиле мы убрали доступ к админке. Затем это правило дает доступ к одному файлу в этой области администрирования.

Вам может быть интересно, зачем Google читать этот файл, когда он находится в админке.

Некоторые подключаемые модули и темы используют этот файл для загрузки ресурсов веб-страницы, таких как CSS и JavaScript.Если вы запретите этот файл, то любой плагин, использующий этот файл, не будет работать при посещении Googlebot. Это может помешать отображению страницы в результатах поиска Google.

Не удаляйте и не удаляйте это правило, если вы не знаете, что делаете.

Если вы хотите узнать больше о доступных правилах, ознакомьтесь с дополнительными примерами файлов robots.txt.

Мы знаем, где находится файл robots.txt в WordPress и что содержит файл по умолчанию, давайте посмотрим, как мы можем его отредактировать.

Мы рассмотрим два популярных SEO-плагина Yoast и All in One SEO. Оба инструмента могут редактировать файл robots.txt.

Если у вас нет одного из этих плагинов, ознакомьтесь с нашим руководством по установке плагинов WordPress.

Как редактировать Robots.txt с помощью Yoast

Установив Yoast, вы можете редактировать файл robots.txt, используя раздел инструментов. Сначала выберите SEO из меню, а затем выберите инструменты:

Затем на странице инструментов выберите «Редактор файлов» из списка опций:

Перейдите к роботам.txt и нажмите кнопку «Создать файл robots.txt»:

Это позволит вам редактировать файл. После внесения изменений вы можете нажать «Сохранить», чтобы обновить файл.

Мы еще не закончили, перейдите к разделу тестирования файла robots.txt.

Как редактировать Robots.txt с помощью All in One SEO

Чтобы изменить файл robots.txt с помощью All in One SEO, вам необходимо сначала активировать эту функцию. Для этого сначала выберите «All in One SEO» в боковом меню:

.

Затем выберите ссылку «менеджер функций»:

На странице диспетчера функций прокрутите вниз до файла robots.txt и нажмите активировать:

После активации функции вы получите новую опцию robots.txt в меню:

Как только вы выберете его, вы увидите экран, на котором вы можете добавить новые правила:

Эта форма позволит вам добавить новые правила в файл robots.txt. Вам нужно будет ввести пользовательский агент для цели, а затем правило и путь.

С помощью этого плагина вы не сможете редактировать исходные три правила. Вы можете только добавлять и редактировать новые.

После внесения изменений, которые вы хотите протестировать, давайте посмотрим на это дальше.

Тестирование файла robots.txt с помощью Google

Если вы еще не передали свою карту сайта в Google. Это даст вам доступ к инструментам Google Search Console. Одним из таких инструментов является средство проверки файла robots.txt.

Инструмент загрузит файл robots.txt с вашего веб-сайта. Он выделит любые найденные ошибки или предупреждения.

Если у вас возникли проблемы с ошибкой, используйте файл robots.pageDart.проверка текста. Скопируйте содержимое файла robots.txt в инструмент и нажмите кнопку «Проверить robots.txt».

В этом примере ошибка «Синтаксис не понят» при переходе по ссылке вы увидите решение:

Вы увидите эту ошибку, если в строке нет двоеточия.

Это облегчает понимание и исправление.

Вы можете получить предупреждение от Google Search Console о том, что они обнаружили ошибку в вашем файле robots.txt.Вы можете получить две ошибки:

.

Эти статьи должны помочь при возникновении этих ошибок.

Подведение итогов, где находится robots.txt в WordPress

Мы узнали, где находится robots.txt в WordPress. Вы знаете, что этот файл может находиться в корне веб-сайта, например:

.

https://example.com/robots.txt

Мы рассмотрели директивы, перечисленные в файле robots.txt по умолчанию. Затем мы рассмотрели, как вы можете использовать два плагина Yoast и All in One SEO для редактирования файла robots.

Leave a Reply