Allow robots: Использование файла robots.txt — Вебмастер. Справка

Содержание

Ошибки, часто встречающиеся в файле robots.txt — Robots.Txt по-русски

Непосредственно ошибки

Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:

User-agent: /
Disallow: Yandex

Правильно писать вот так:

User-agent: Yandex
Disallow: /

Указание нескольких каталогов в одной инструкции Disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

Disallow: /css/ /cgi-bin/ /images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.

Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Имя файла содержит заглавные буквы

Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

Использование файла robot.txt вместо robots.txt

Еще раз – файл должен называться robots.txt.

Пустая строка в User-agent

Так неправильно:

User-agent:
Disallow:

Так правильно:

User-agent: *
Disallow:

Url в директиве Host

Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /

Неправильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/

Правильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

Директива host Является корректной только для робота Яндекса

Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:

User-agent: *
Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).

Плохой стиль

Комментарии на одной строке с инструкциями

По стандарту, такая запись вполне возможна:

Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin

В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.

Редирект на страницу 404-й ошибки:

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.

Заглавные буквы – это плохой стиль

USER-AGENT: GOOGLEBOT
DISALLOW:

Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

User-agent: googlebot
Disallow:

Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:

User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вместо этого можно просто закрыть от индексации директорию целиком:

User-agent: *
Disallow: /AL/
Disallow: /Az/

Инструкции Allow не существует! [перевод устаревший]

Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетcя и Гуглом, и Яндексом. Уточняйте по использованию для других роботов.

Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Отдельные роботы (например googlebot) понимают директиву Allow

Так неправильно:

User-agent: Yandex
Disallow: /john/
Allow: /jane/

А вот так – правильно:

User-agent: Yandex
Disallow: /john/
Disallow:

Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».

Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».

Так неправильно:

User-agent: Yandex
Host: www.example.com

Так правильно:

User-agent: Yandex
Disallow:
Host: www.example.com

Обсуждение этого вопроса на Searchengines.ru

Отсутствие слешей при указании директории

Как в этом случае поступит робот?

User-agent: Yandex
Disallow: john

По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:

User-agent: Yandex
Disallow: /john/

Неправильный http-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

robots.txt | Вопросы-ответы на Wiki

Внимание!
Директивы, указанные в файле robots.txt, являются лишь рекомендациями для ботов, они не гарантируют их выполнение отдельными сервисами.

Файл robots.txt состоит из групп правил, которые определяют поведение роботов на сайте.

Важные моменты:

Каждая группа может содержать несколько одинаковых правил. К примеру, это удобно для указания нескольких роботов или страниц.

Группа правил должна быть в следующем порядке и состоять из указанных директив:

  1. User-agentобязательная директива, может быть указана множество раз в одной группе правил.

  2. Disallow и Allowобязательные директивы. Как минимум одна из них должна быть указана в каждой группе правил.

  3. Host, Crawl-delay, Sitemap — необязательные директивы.

Для указания регулярных выражений используются:

Внимание!
Стоит учитывать, что указываемые в правилах адреса или имена чувствительны к регистру. Указание Example и example будет давать разный результат.

Директива User-agent определяет имя робота, на которого будет распространяться правило. Для указания всех роботов можно использовать:

User-agent: *

Если данная директива будет указана с определенным именем робота — правило с * будет проигнорировано.

Указанные директивы разрешат доступ роботу с именем Googlebot и запретят остальным:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: 

Директива Disallow определяет страницы, к которым запрещён доступ роботов.

Запретить доступ ко всему сайту можно, указав:

Disallow: /

Запрет к отдельным страницам можно указать так:

Disallow: /admin

Внимание!
При указании /admin доступ будет запрещён к каталогу admin и файлам с таким именем, например admin.php и
admin.html
. Для запрета доступа только к каталогу можно указать /admin/.

Директива Allow определяет страницы, к которым запрещён доступ роботов. Директива используется для создания исключений при указании Disallow.

Следующее правило указывает заблокировать для робота Googlebot весь сайт, кроме каталога pages:

User-agent: Googlebot
Disallow: /
Allow: /pages/

Директива Host определяет основной домен сайта. Директива полезна, если к сайту привязано несколько доменных имён и для корректной поисковой индексации, таким образом, можно указать, какой домен будет являться основным, чтобы остальные домены были определены как зеркала, технические адреса и т. д.

Пример использования директивы в рамках сайта с доменами example.com и domain.com, где для всех роботов example.com будет основным доменом:

User-agent: *
Disallow: 
Host: domain.com

Директива Crawl-delay определяет интервал между окончанием загрузки одной страницы и началом загрузки следующей для роботов. Данная директива полезна для уменьшения запросов к сайту, что помогает снизить нагрузку на сервер. Интервал указывается в секундах.

Пример использования:

User-Agent: *
Disallow:
Crawl-delay: 3

Директива Sitemap

определяет URL-адрес файла sitemap на сайте. Данная директива может быть указана множество раз. Указание адреса должно быть обязательно в формате протокол://адрес/путь/к/sitemap.

Пример использования:

Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Внимание!
Для реализации существующий файл robots.txt должен быть удалён, а также в настройках сайта должен быть установлен параметр «Передавать запросы на бекенд в случае, если файл не найден» или расширение txt должно быть удалено из статических файлов.robots\.txt$ %{HTTP_HOST}-robots.txt [L]
  • Проверьте вывод правил по каждому из доменов.

  • robots.txt функция Allow (То что никак не могу понять)

    Немного не понимаю — в стандартном файле Drupal robots.txt есть что нельзя сканировать:

    # Directories
    Disallow: /includes/
    Disallow: /misc/
    Disallow: /modules/
    Disallow: /profiles/
    Disallow: /scripts/
    Disallow: /themes/
    # Files
    Disallow: /cron.php
    Disallow: /update.php
    Disallow: /xmlrpc.php
    # Paths (clean URLs)
    Disallow: /admin/
    Disallow: /comment/reply/
    Disallow: /filter/tips/
    Disallow: /node/add/
    Disallow: /search/
    Disallow: /user/password/
    Disallow: /user/logout/
    # Paths (no clean URLs)
    Disallow: /?q=admin/
    Disallow: /?q=comment/reply/
    Disallow: /?q=filter/tips/
    Disallow: /?q=node/add/
    Disallow: /?q=search/
    Disallow: /?q=user/password/
    Disallow: /?q=user/register/
    Disallow: /?q=user/login/
    Disallow: /?q=user/logout/

    И что нужно принудительно сканировать:

    # CSS, JS, Images
    Allow: /misc/*.css$
    Allow: /misc/*.css?
    Allow: /misc/*.js$
    Allow: /misc/*.js?
    Allow: /misc/*.gif
    Allow: /misc/*.jpg
    Allow: /misc/*.jpeg
    Allow: /misc/*.png
    Allow: /modules/*.css$
    Allow: /modules/*.css?
    Allow: /modules/*.js$
    Allow: /modules/*.js?
    Allow: /modules/*.gif
    Allow: /modules/*.jpg
    Allow: /modules/*.jpeg
    Allow: /modules/*.png
    Allow: /profiles/*.css$
    Allow: /profiles/*.css?
    Allow: /profiles/*.js$
    Allow: /profiles/*.js?
    Allow: /profiles/*.gif
    Allow: /profiles/*.jpg
    Allow: /profiles/*.jpeg
    Allow: /profiles/*.png
    Allow: /themes/*.css$
    Allow: /themes/*.css?
    Allow: /themes/*.js$
    Allow: /themes/*.js?
    Allow: /themes/*.gif
    Allow: /themes/*.jpg
    Allow: /themes/*.jpeg
    Allow: /themes/*.png

    А остальной контент потом сканируется, или как оно работает ?
    или просто будет правильнее удалить все Allow: /misc/*.css$… и оставить то чего нельзя сканировать ?

    что означает и как правильно использовать

    В данной статье речь пойдет о самых популярных директивах Dissalow и Allow в файле robots.txt.

    Disallow

    Disallow – директива, запрещающая индексирование отдельных страниц, групп страниц, их отдельных файлов и разделов сайта(папок). Это наиболее часто используемая директива, которая исключает из индекса:

    • страницы с результатами поиска на сайте;
    • страницы посещаемости ресурса;
    • дубли;
    • сервисные страницы баз данных;
    • различные логи;
    • страницы, содержащие персональные данные пользователей.

    Примеры директивы Disallow в robots.txt:  

    # запрет на индексацию всего веб-ресурса
    User-agent: Yandex
    Disallow: /
    # запрет на обход страниц, адрес которых начинается с /category
    User-agent: Yandex
    Disallow: /category
    # запрет на обход страниц, URL которых содержит параметры
    User-agent: Yandex
    Disallow: /page?
    # запрет на индексацию всего раздела wp-admin
    User-agent: Yandex
    Disallow: /wp-admin
    # запрет на индексацию подраздела plugins
    User-agent: Yandex
    Disallow: /wp-content/plugins
    # запрет на индексацию конкретного изображения в папке img
    User-agent: Yandex
    Disallow: /img/images.jpg
    # запрет индексации конкретного PDF документа
    User-agent: Yandex
    Disallow: /dogovor.pdf
    # запрет на индексацию не только /my, но и /folder/my или /folder/my
    User-agent: Yandex
    Disallow: /*my

    Правило Disallow работает с масками, позволяющими проводить операции с группами файлов или папок.

    После данной директивы необходимо ставить пробел, а в конце строки пробел недопустим. В одной строке с Disallow через пробел можно написать комментарий после символа “#”.

    Allow

    В отличие от Disallow, данное указание разрешает индексацию определенных страниц, разделов или файлов сайта. У директивы Allow схожий синтаксис, что и у Disallow.

    Хотя окончательное решение о посещении вашего сайта роботами принимает поисковая система, данное правило дополнительно призывает их это делать.

    Примеры Allow в robots.txt:

    # разрешает индексацию всего каталога /img/
    User-agent: Yandex
    Allow: /img/
    # разрешает индексацию PDF документа
    User-agent: Yandex
    Allow: /prezentaciya.pdf
    # открывает доступ к индексированию определенной HTML страницы
    User-agent: Yandex
    Allow: /page.html
    # разрешает индексацию по маске *your
    User-agent: Yandex
    Allow: /*your
    # запрещает индексировать все, кроме страниц, начинающихся с /cgi-bin
    User-agent: Yandex
    Allow: /cgi-bin
    Disallow: /

    Для директивы применяются аналогичные правила, что и для Disallow.

    Совместная интерпретация директив

    Поисковые системы используют Allow и Disallow из одного User-agent блока последовательно, сортируя их по длине префикса URL, начиная от меньшего к большему. Если для конкретной страницы веб-сайта подходит применение нескольких правил, поисковый бот выбирает последний из списка. Поэтому порядок написания директив в robots никак не сказывается на их использовании роботами.

    На заметку. Если директивы имеют одинаковую длину префиксов и при этом конфликтуют между собой, то предпочтительнее будет Allow.

    Пример robots.txt написанный оптимизатором:

    User-agent: Yandex
    Allow: /
    Allow: /catalog/phones
    Disallow: /catalog

    Пример отсортированного файл robots.txt поисковой системой:

    User-agent: Yandex
    Allow: /
    Disallow: /catalog
    Allow: /catalog/phones
    # запрещает посещать страницы, начинающиеся с /catalog,
    # но разрешает индексировать страницы, начинающиеся с /catalog/phones

    Пустые Allow и Disallow

    Когда в директивах отсутствуют какие-либо параметры, поисковый бот интерпретирует их так:

    # то же, что и Allow: / значит разрешает индексировать весь сайт
    User-agent: Yandex
    Disallow:
    # не учитывается роботом
    User-agent: Yandex
    Allow:

    Специальные символы в директивах

    В параметрах запрещающей директивы Disallow и разрешающей директивы Allow можно применять специальные символы “$” и “*”, чтобы задать конкретные регулярные выражения.

    Специальный символ “*” разрешает индексировать все страницы с параметром, указанным в директиве. К примеру, параметр /katalog* значит, что для ботов открыты страницы /katalog, /katalog-tovarov, /katalog-1 и прочие. Спецсимвол означает все возможные последовательности символов, даже пустые.

    Примеры:

    User-agent: Yandex
    Disallow: /cgi-bin/*.aspx # запрещает /cgi-bin/example.aspx
                              # и /cgi-bin/private/test.aspx
    Disallow: /*private # запрещает не только /private
                        # но и /cgi-bin/private

    По стандарту в конце любой инструкции, описанной в Robots, указывается специальный символ “*”, но делать это не обязательно.

    Пример:

    User-agent: Yandex
    Disallow: /cgi-bin* # закрывает доступ к страницам
                        # начинающимся с /cgi-bin
    Disallow: /cgi-bin # означает то же самое

    Для отмены данного спецсимвола в конце директивы применяют другой спецсимвол – “$”.

    Пример:

    User-agent: Yandex
    Disallow: /example$ # закрывает /example,
                        # но не запрещает /example.html
    
    User-agent: Yandex
    Disallow: /example # запрещает и /example
                       # и /example.html

    На заметку. Символ “$” не запрещает прописанный в конце “*”.

    Пример:

    User-agent: Yandex
    Disallow: /example$  # закрывает только /example
    Disallow: /example*$ # аналогично, как Disallow: /example
                         # запрещает и /example.html и /example

    Более сложные примеры:

    User-agent: Yandex
    Allow: /obsolete/private/*.html$ # разрешает HTML файлы
                                     # по пути /obsolete/private/...
    Disallow: /*.php$  # запрещает все *.php на сайте
    Disallow: /*/private/ # запрещает все подпути содержащие /private/
                          # но Allow выше отменяет часть запрета
    Disallow: /*/old/*.zip$ # запрещает все .zip файлы, содержащие в пути /old/
    
    User-agent: Yandex
    Disallow: /add.php?*user=
    # запрещает все скрипты add.php? с параметром user

    Примеры совместного применения Allow и Disallow

    User-agent: Yandex
    Allow: /
    Disallow: /
    # разрешено индексировать весь веб-ресурс
    
    User-agent: Yandex
    Allow: /$
    Disallow: /
    # запрещено включать в индекс все, кроме главной страницы
    
    User-agent: Yandex
    Disallow: /private*html
    # заблокирован и /private*html,
    # и /private/test.html, и /private/html/test.aspx и т.п.
    
    User-agent: Yandex
    Disallow: /private$
    # запрещается только /private
    
    User-agent: *
    Disallow: /
    User-agent: Yandex
    Allow: /
    # так как робот Яндекса
    # выделяет записи по наличию его названия в строке User-agent:
    # тогда весь сайт будет доступен для индексирования

    Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

    Запрет индексации в robots.txt | REG.RU

    Чтобы убрать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. Тогда контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.

    Зачем нужен запрет индексации сайта через robots.txt

    Первое время после публикации сайта о нем знает только ограниченное число пользователей. Например, разработчики или клиенты, которым компания прислала ссылку на свой веб-ресурс. Чтобы сайт посещало больше людей, он должен попасть в базы поисковых систем.

    Чтобы добавить новые сайты в базы, поисковые системы сканируют интернет с помощью специальных программ (поисковых роботов), которые анализируют содержимое веб-страниц. Этот процесс называется индексацией.

    После того как впервые пройдет индексация, страницы сайта начнут отображаться в поисковой выдаче. Пользователи увидят их в процессе поиска информации в Яндекс и Google — самых популярных поисковых системах в рунете. Например, по запросу «заказать хостинг» в Google пользователи увидят ресурсы, которые содержат соответствующую информацию:

    Однако не все страницы сайта должны попадать в поисковую выдачу. Есть контент, который интересен пользователям: статьи, страницы услуг, товары. А есть служебная информация: временные файлы, документация к ПО и т. п. Если полезная информация в выдаче соседствует с технической информацией или неактуальным контентом — это затрудняет поиск нужных страниц и негативно сказывается на позиции сайта. Чтобы «лишние» страницы не отображались в поисковых системах, их нужно закрывать от индексации.

    Кроме отдельных страниц и разделов, веб-разработчикам иногда требуется убрать весь ресурс из поисковой выдачи. Например, если на нем идут технические работы или вносятся глобальные правки по дизайну и структуре. Если не скрыть на время все страницы из поисковых систем, они могут проиндексироваться с ошибками, что отрицательно повлияет на позиции сайта в выдаче.

    Для того чтобы частично или полностью убрать контент из поиска, достаточно сообщить поисковым роботам, что страницы не нужно индексировать. Для этого необходимо отключить индексацию в служебном файле robots.txt. Файл robots.txt — это текстовый документ, который создан для «общения» с поисковыми роботами. В нем прописываются инструкции о том, какие страницы сайта нельзя посещать и анализировать, а какие — можно.

    Прежде чем начать индексацию, роботы обращаются к robots.txt на сайте. Если он есть — следуют указаниям из него, а если файл отсутствует — индексируют все страницы без исключений. Рассмотрим, каким образом можно сообщить поисковым роботам о запрете посещения и индексации страниц сайта. За это отвечает директива (команда) Disallow.

    Как запретить индексацию сайта

    О том, где найти файл robots.txt, как его создать и редактировать, мы подробно рассказали в статье. Если кратко — файл можно найти в корневой папке. А если он отсутствует, сохранить на компьютере пустой текстовый файл под названием robots.txt и загрузить его на хостинг. Или воспользоваться плагином Yoast SEO, если сайт создан на движке WordPress.

    Чтобы запретить индексацию всего сайта:

    1. 1.

      Откройте файл robots.txt.

    2. 2.

      Добавьте в начало нужные строки.

      • Чтобы закрыть сайт во всех поисковых системах (действует для всех поисковых роботов):
      User-agent: *
      Disallow: /
      • Чтобы запретить индексацию в конкретной поисковой системе (например, в Яндекс):
      User-agent: Yandex
      Disallow: /
      • Чтобы закрыть от индексации для всех поисковиков, кроме одного (например, Google)
      User-agent: *
      Disallow: /
      User agent: Googlebot
      Allow: /
    3. 3.

      Сохраните изменения в robots.txt.

    Готово. Ресурс пропадет из поисковой выдачи выбранных ПС.

    Запрет индексации папки

    Гораздо чаще, чем закрывать от индексации весь веб-ресурс, веб-разработчикам требуется скрывать отдельные папки и разделы.

    Чтобы запретить поисковым роботам просматривать конкретный раздел:

    1. 1.

      Откройте robots.txt.

    2. 2.

      Укажите поисковых роботов, на которых будет распространяться правило. Например:

      • Все поисковые системы:

      — Запрет только для Яндекса:

    3. 3.

      Задайте правило Disallow с названием папки/раздела, который хотите запретить:

      Где вместо catalog — укажите нужную папку.

    4. 4.

      Сохраните изменения.

    Готово. Вы закрыли от индексации нужный каталог. Если требуется запретить несколько папок, последовательно пропишите для каждой директиву Disallow.

    Как закрыть служебную папку wp-admin в плагине Yoast SEO

    Как закрыть страницу от индексации в robots.txt

    Если нужно закрыть от индексации конкретную страницу (например, с устаревшими акциями или неактуальными контактами компании):

    1. 1.

      Откройте файл robots.txt на хостинге или используйте плагин Yoast SEO, если сайт на WordPress.

    2. 2.

      Укажите, для каких поисковых роботов действует правило.

    3. 3.

      Задайте директиву Disallow и относительную ссылку (то есть адрес страницы без домена и префиксов) той страницы, которую нужно скрыть. Например:

      User-agent: * 
      
      Disallow: /catalog/page.html

      Где вместо catalog — введите название папки, в которой содержится файл, а вместо page.html — относительный адрес страницы.

    4. 4.

      Сохраните изменения.

    Готово. Теперь указанный файл не будет индексироваться и отображаться в результатах поиска.

    Помогла ли вам статья?

    1 раз уже
    помогла

    Что такое robots.txt и как его настроить

    Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

    По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге. 

    Что такое robots.txt

    Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации. 

    Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.

    Комьюнити теперь в Телеграм

    Подпишитесь и будьте в курсе последних IT-новостей

    Подписаться

    Зачем нам нужен этот файл

    Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

    • дубли страниц;
    • служебные файлы;
    • файлы, которые бесполезны для посетителей;
    • страницы с неуникальным контентом.

    Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано. 

    Настройка директивов robots.txt

    Директивы — это правила для роботов. И эти правила пишем мы. 

    User-agent

    Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него. 

    Пример:

    
    User-agent: Yandex

    Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:

    
    User-agent: *

    Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

    Disallow и Allow

    С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.

    Пример:

    
    Allow: /category/

    Даем рекомендацию, чтобы индексировались категории. 

    
    Disallow: /

    А вот так от индексации будет закрыт весь сайт.

    Также существуют операторы, которые помогают уточнить наши правила.

    • * звездочка означает любую последовательность символов (либо отсутствие символов).
    • $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.
    
    Disallow: /category/$ # закрываем только страницу категорий
    
    Disallow: /category/* # закрываем все страницы в папке категории

    Sitemap

    Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap.

    Пример:

    
    Sitemap: http://site.ru/sitemap.xml

    Директива host уже устарела, поэтому о ней говорить не будем. 

    Crawl-delay

    Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

    Пример:

    
    Crawl-delay: 10 

    Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

    Clean-param

    Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы. 

    Пример:

    
    Clean-Param: utm_source&utm_medium&utm_campaign

    Как закрыть сайт от индексации

    Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:

    
    User-agent: *
    
    Disallow: /

    Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

    Проверка файла robots

    Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера.

    Переходим в инструмент, вводим домен и содержимое вашего файла.

    Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

    Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

    Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется. 

    Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

    Правильный robots.txt для WordPress

    Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами. 

    
    User-agent: *
    
    Disallow: /cgi-bin # папка на хостинге
    
    Disallow: /wp-admin
    
    Disallow: /wp-includes 
    
    Disallow: /wp-content/plugins
    
    Disallow: /wp-content/cache
    
    Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp-
    
    Disallow: /xmlrpc.php # файл WordPress API
    
    Disallow: /*? # поиск
    
    Disallow: /?s= # поиск
    
    Allow: /*.css # стили
    
    Allow: /*.js # скрипты
    
    Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)
    

    Правильный robots.txt для Joomla

    
    User-agent: *
    
    Disallow: /administrator/ 
    
    Disallow: /bin/
    
    Disallow: /cache/
    
    Disallow: /cli/
    
    Disallow: /components/
    
    Disallow: /includes/
    
    Disallow: /installation/
    
    Disallow: /language/
    
    Disallow: /layouts/
    
    Disallow: /libraries/
    
    Disallow: /logs/
    
    Disallow: /media/
    
    Disallow: /modules/
    
    Disallow: /plugins/
    
    Disallow: /templates/
    
    Disallow: /tmp/
    
    Sitemap: https://site.ru/sitemap.xml

    Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

    Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.

    Веб-сканер

    — Robots.txt: разрешить только основной веб-сканер SE

    — Robots.txt: разрешить только основной SE – 1 Ответ

    спросил

    Просмотрено 25 тысяч раз

    Есть ли способ настроить файл robots.txt, чтобы сайт принимал посещения ТОЛЬКО из Google, Yahoo! и пауки MSN?

    Кара

    5,9751616 золотых знаков4949 серебряных знаков5656 бронзовых знаков

    спросил 22 мар, 2009 в 19:30

    6
    Пользовательский агент: *
    Запретить: /
    Агент пользователя: Googlebot
    Разрешать: /
    Агент пользователя: Slurp
    Разрешать: /
    Агент пользователя: msnbot
    Запретить:
     

    Slurp — робот Yahoo

    .

    Leave a Reply