Robots txt как создать: Генератор файла robots txt – проверка robots txt на ошибки

Содержание

Как создать файл robots.txt | Шнайдер блог

1888 Посещений

Что такое файл robots.txt. Файл robots.txt является одним из ключевых аспектов поисковой оптимизации. Robots.txt представляет собой текстовый файл, в котором содержатся инструкции относительно того, какие страницы нельзя индексировать поисковикам.

Где находится файл robots.txt

Файл robots.txt размещается в корневой директории, за счет чего поисковые роботы начинают “чтение” страниц сайта именно с него:

Как создать файл robots.txt

Поскольку robots.txt представляет собой обычные текстовый документ, вы можете создать его с помощью блокнота, назвав файл robots и выбрав расширение .txt. Если вы не хотите добавлять в него страницы, запрещенные для индексирования, пропишите в файле директивы и оставьте их пустыми:

User-agent определяет для какого поискового робота предназначена информация в файле, а Disallow указывает на страницу/папку, попавшую под запрет индексирования (каждый новый пункт прописывается с новой строки). Допускается несколько строк User-agent, например:

User – agent: Yandex

User – agent: Googlebot

Disallow: /administrator/

Disallow: /cache/

Disallow: /modules/

Обратите внимание на то, что каждый User – agent прописывается с новой строки. Чтобы “обратиться” ко всем поисковым роботам сразу, поставьте в поле User – agent символ “звездочка”  (*):

User-agent: *
Disallow: /administrator/

Disallow: /cache/

Disallow: /modules/

На что обратить внимание внимание

Создавая файл robots.txt, пишите название с маленькой буквы. Как мы уже писали, robots.txt должен быть размещен в корневом каталоге. User-agent и Disallow должны упоминаться  в файле хотя бы один раз.

Некоторые поисковики, например Яндекс, “требуют”,чтобы в файле robots.txt содержалось дополнительное поле Host, в котором должен быть прописан ваш домен:

User-agent: Yandex
Disallow: /administrator/

Host: http://ваш-домен.ru

Например:

Данный нюанс “беспокоит” лишь Яндекс, поэтому вы можете включить в файл два “обращения”:

User-agent: Yandex
Disallow: /administrator/

Host: http://ваш-домен.ru

 

User-agent: *
Disallow: /administrator/

Отметим также, что разработчики Google рекомендуют не делать файл robots.txt тяжелее 500 КБ, поскольку в противном случае могут произойти ошибки индексации.

Файл robots.txt: полное руководство | SEO-портал

Стандарт robots.txt отличается оригинальным синтаксисом. Существуют общие для всех роботов директивы (правила), а также директивы, понятные только роботам определенных поисковых систем.

Стандартные директивы

Директивами для robots.txt называются правила, состоящие из названия и значения (параметра), идущего после знака двоеточия. Например:

# Директива User-agent со значением Yandex:
User-agent: Yandex

Регистр символов в названиях директив не учитывается.

Для большинства директив стандарта в качестве значения применяется URL-префикс (часть URL-адреса). Например:

User-agent: Yandex
# URL-префикс в качестве значения:
Disallow: /admin/

Регистр символов учитывается роботами при обработке URL-префиксов.

Директива User-agent

Правило User-agent указывает, для каких роботов составлены следующие под ним инструкции.

Значения User-agent

В качестве значения директивы User-agent указывается конкретный тип робота или символ *. Например:

# Последовательность инструкций для робота YandexBot:
User-agent: YandexBot
Disallow: /

Основные типы роботов, указываемые в User-agent:

Yandex
Подразумевает всех роботов Яндекса.
YandexBot
Основной индексирующий робот Яндекса
YandexImages
Робот
Яндекса
, индексирующий изображения.
YandexMedia
Робот Яндекса, индексирующий видео и другие мультимедийные данные.
Google
Подразумевает всех роботов Google.
Googlebot
Основной индексирующий робот Google.
Googlebot-Image
Робот Google, индексирующий изображения.

Регистр символов в значениях директивы User-agent не учитывается.

Обработка User-agent

Чтобы указать, что нижеперечисленные инструкции составлены для всех типов роботов, в качестве значения директивы User-agent применяется символ * (звездочка). Например:

# Последовательность инструкций для всех роботов:
User-agent: *
Disallow: /

Перед каждым последующим набором правил для определённых роботов, которые начинаются с директивы User-agent, следует вставлять пустую строку.

User-agent: *
Disallow: /

User-agent: Yandex
Allow: /

При этом нельзя допускать наличия пустых строк между инструкциями для конкретных роботов, идущими после User-agent:

# Нужно:
User-agent: *
Disallow: /administrator/
Disallow: /files/

# Нельзя:
User-agent: *
Disallow: /administrator/

Disallow: /files/

Обязательно следует помнить, что при указании инструкций для конкретного робота, остальные инструкции будут им игнорироваться:

# Инструкции для робота YandexImages:
User-agent: YandexImages
Disallow: /
Allow: /images/

# Инструкции для всех роботов Яндекса, кроме YandexImages
User-agent: Yandex
Disallow: /images/

# Инструкции для всех роботов, кроме роботов Яндекса
User-agent: *
Disallow:
Директива Disallow

Правило Disallow применяется для составления исключающих инструкций (запретов) для роботов. В качестве значения директивы указывается URL-префикс. Первый символ / (косая черта) задает начало относительного URL-адреса. Например:

# Запрет сканирования всего сайта:
User-agent: *
Disallow: /

# Запрет сканирования конкретной директории:
User-agent: *
Disallow: /images/

# Запрет сканирования всех URL-адресов, начинающихся с /images:
User-agent: *
Disallow: /images

Применение директивы Disallow без значения равносильно отсутствию правила:

# Разрешение сканирования всего сайта:
User-agent: *
Disallow:
Директива Allow

Правило Allow разрешает доступ и применяется для добавления исключений по отношению к правилам Disallow. Например:

# Запрет сканирования директории, кроме одной её поддиректории:
User-agent: *
Disallow: /images/ # запрет сканирования директории
Allow: /images/icons/ # добавление исключения из правила Disallow для поддиректории

При равных значениях приоритет имеет директива Allow:

User-agent: *
Disallow: /images/ # запрет доступа
Allow: /images/ # отмена запрета
Директива Sitemap

Добавить ссылку на файл Sitemap в можно с помощью одноименной директивы.

В качестве значения директивы Sitemap в указывается прямой (с указанием протокола) URL-адрес карты сайта:

User-agent: *
Disallow:

# Директив Sitemap может быть несколько: 
Sitemap: https://seoportal.net/sitemap-1.xml
Sitemap: https://seoportal.net/sitemap-2.xml

Директива Sitemap является межсекционной и может размещаться в любом месте robots.txt. Удобнее всего размещать её в конце файла, отделяя пустой строкой.

Следует учитывать, что robots.txt является общедоступным, и благодаря директиве Sitemap злоумышленники могут получить доступ к новым страницам раньше поисковых роботов, что может повлечь за собой воровство контента.

Использование директивы Sitemap в robots.txt может повлечь воровство контента сайта.

Регулярные выражения

В robots.txt могут применяться специальные регулярные выражения в URL-префиксах с помощью символов * и $.

Символ /

Символ / (косая черта) является разделителем URL-префиксов, отражая степень вложенности страниц. Важно понимать, что URL-префикс с символом / на конце и аналогичный префикс, но без косой черты, поисковые роботы могут воспринимать как разные страницы:

# разные запреты:
Disallow: /catalog/ # запрет для вложенных URL (/catalog/1), но не для /catalog
Disallow: /catalog  # запрет для /catalog и всех URL, начинающихся с /catalog, в том числе:
	# /catalog1
	# /catalog1
	# /catalog1/2
Символ *

Символ * (звездочка) предполагает любую последовательность символов. Он неявно приписывается к концу каждого URL-префикса директив Disallow и Allow:

User-agent: Googlebot
Disallow: /catalog/  # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/* # то же самое

Символ * может применяться в любом месте URL-префикса:

User-agent: Googlebot
Disallow: /*catalog/ # запрещает все URL-адреса, содержащие "/catalog/":
	# /1catalog/
	# /necatalog/1
	# images/catalog/1
	# /catalog/page.htm
	# и др.
	# но не /catalog
Символ $

Символ $ (знак доллара) применяется для отмены неявного символа * в окончаниях URL-префиксов:

User-agent: Google
Disallow: /*catalog/$
	# запрещает все URL-адреса, заканчивающиеся символами "catalog/":
	# /1/catalog/
	# но не:
	# /necatalog/1
	# /necatalog
	# /catalog

Символ $ (доллар) не отменяет явный символ * в окончаниях URL-префиксов:

User-agent: Googlebot
Disallow: /catalog/* # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/*$ # то же самое
# Но:
Disallow: /catalog/ # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/$ # запрет только URL-адреса "/catalog/"

Директивы Яндекса

Роботы Яндекса способны понимать три специальных директивы:

  • Host (устарела),
  • Crawl-delay,
  • Clean-param.
Директива Host

Директива Host является устаревшей и в настоящее время не учитывается. Вместо неё необходимо настраивать редирект на страницы главного зеркала.

Директива Crawl-delay

Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Яндекс.Помощь

Правило Crawl-delay следует размещать в группу правил, которая начинается с директивы User-Agent, но после стандартных для всех роботов директив Disallow и Allow:

User-agent: *
Disallow:
Crawl-delay: 1 # задержка между посещениями страниц 1 секунда

В качестве значений Crawl-delay могут использоваться дробные числа:

User-agent: *
Disallow:
Crawl-delay: 2.5 # задержка между посещениями страниц 2.5 секунд

Директива Clean-param

Директива Clean-param помогает роботу Яндекса верно определить страницу для индексации, URL-адрес которой может содержать различные параметры, не влияющие на смысловое содержание страницы.

Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.

Яндекс.Помощь

В качестве значения правила Clean-param указывается параметр и URL-префикс адресов, для которых не следует учитывать данный параметр. Параметр и URL-префикс должны быть разделены пробелом:

User-agent: *
Disallow:
# Указывает на отсутствие значимости параметра id в URL-адресе с index.htm
# (например, в адресе seoportal.net/index.htm?id=1 параметр id не станет учитываться,
# а в индекс, вероятно, попадёт страница с URL-адресом seoportal.net/index.htm): 
Clean-param: id index.htm

Для указания 2-х и более незначительных параметров в одном правиле Clean-param применяется символ &:

User-agent: *
Disallow:
# Указывает на отсутствие значимости параметров id и num в URL-адресе с index.htm
Clean-param: id&num index.htm

Директива Clean-param может быть указана в любом месте robots.txt. Все указанные правила Clean-param будут учтены роботом Яндекса:

 User-agent: *
Allow: /
# Для разных страниц с одинаковыми параметрами в URL-адресах: 
Clean-param: id index
Clean-param: id admin

Зачем вам нужен файл robots.txt, и как его создать?

Файл robots.txt, он же стандарт исключений для роботов — это текстовый файл, в котором хранятся определенные указания для роботов поисковых систем.
Прежде, чем сайт попадает в поисковую выдачу и занимает там определенное место, его исследуют роботы. Именно они передают информацию поисковым системам, и далее ваш ресурс отображается в поисковой строке.
Robots.txt выполняет важную функцию — он может защитить весь сайт или некоторые его разделы от индексации. Особенно это актуально для интернет-магазинов и других ресурсов, через которые совершаются онлайн-оплаты. Вам же не хочется, чтобы кредитные счета ваших клиентов вдруг стали известны всему интернету? Для этого и существует файл robots.txt.

Про директивы

Поисковые роботы по умолчанию сканируют все ссылки подряд, если только не установить им ограничений. Для этого в файле robots.txt составляют определенные команды или инструкции к действию. Такие инструкции называются директивами.

Главная директива-приветствие, с которой начинается индексация файла — это user-agent

Она может выглядеть так:

User-agent: Yandex

Или так:
User-agent: *

Или вот так:
User-agent: GoogleBot

User-agent обращается к конкретному роботу, и дальнейшие руководства к действию будут относиться только к нему.
Так, в первом случае инструкции будут касаться только роботов Яндекс, во втором — роботов всех поисковых систем, в последнем — команды предназначены главному роботу Google.

Резонно спросить: зачем обращаться к роботам по отдельности? Дело в том, что разные поисковые “посланцы” по разному подходят к индексации файла. Так, роботы Google беспрекословно соблюдают директиву sitemap (о ней написано ниже), в то время как роботы Яндекса относятся к ней нейтрально. А вот директива clean-param, которая позволяет исключать дубли страниц, работает исключительно для поисковиков Яндекс.
Однако, если у вас простой сайт с несложными разделами, рекомендуем не делать исключений и обращаться ко всем роботам сразу, используя символ *.

Вторая по значимости директива — disallow

Она запрещает роботам сканировать определенные страницы. Как правило, с помощью disallow закрывают административные файлы, дубликаты страниц и конфиденциальные данные.

На наш взгляд, любая персональная или корпоративная информация должна охраняться более строго, то есть требовать аутентификации. Но, все же, в целях профилактики рекомендуем запретить индексацию таких страниц и в robots.txt.

Директива может выглядеть так:
User-agent: *
Disallow: /wp-admin/

Или так:
User-Agent: Googlebot
Disallow: */index.php
Disallow: */section.php

В первом примере мы закрыли от индексации системную панель сайта, а во втором запретили роботам сканировать страницы index.php и section.php. Знак * переводится для роботов как “любой текст”, / — знак запрета.

Следующая директива — allow

В противовес предыдущей, это команда разрешает индексировать информацию.
Может показаться странным: зачем что-то разрешать, если поисковой робот по умолчанию готов всё сканировать? Оказывается, это нужно для выборочного доступа. К примеру, вы хотите запретить раздел сайта с названием /korobka/.

Тогда команда будет выглядеть так:
User-agent: *
Disallow: /korobka/

Но в то же время в разделе коробки есть сумка и зонт, который вы не прочь показать другим пользователям.
Тогда:
User-agent: *
Disallow: /korobka/
Allow: /korobka/sumka/
Allow: /korobka/zont/

Таким образом, вы закрыли общий раздел korobka, но открыли доступ к страницам с сумкой и зонтом.
Sitemap — еще одна важная директива. По названию можно предположить, что эта инструкция как-то связана с картой сайта. И это верно.

Если вы хотите, чтобы при сканировании вашего сайта поисковые роботы в первую очередь заходили в определенные разделы, нужно в корневом каталоге сайта разместить вашу карту — файл sitemap. В отличие от robots.txt, этот файл хранится в формате xml.
Если представить, что поисковой робот — это турист, который попал в ваш город (он же сайт), логично предположить, что ему понадобится карта. С ней он будет лучше ориентироваться на местности и знать, какие места посетить (то есть проиндексировать) в первую очередь. Директива sitemap послужит роботу указателем — мол, карта вон там. А дальше он уже легко разберется в навигации по вашему сайту.

Как создать и проверить robots.txt

Стандарт исключений для роботов обычно создают в простом текстовом редакторе (например, в Блокноте). Файлу дают название robots и сохраняют формате txt.
Далее его надо поместить в корневой каталог сайта. Если вы все сделаете правильно, то он станет доступен по адресу “название вашего сайта”/robots.txt.
Самостоятельно прописать директивы и во всем разобраться вам помогут справочные сервисы. Воспользуйтесь любыми на выбор: Яндекс или Google. С их помощью за 1 час даже неопытный пользователь сможет разобраться в основах.

Когда файл будет готов, его обязательно стоит проверить на наличие ошибок. Для этого у главных поисковых систем есть специальные веб-мастерские. Сервис для проверки robots.txt от Яндекс:
https://webmaster.yandex.ru/tools/robotstxt/

Сервис для проверки robots.txt от Google:
https://www.google.com/webmasters/tools/home?hl=ru

Когда забываешь про robots.txt

Как вы уже поняли, файл robots совсем не сложно создать. Однако, многие даже крупные компании почему-то забывают добавлять его в корневую структуру сайта. В результате — попадание нежелательной информации в просторы интернета или в руки мошенников плюс огромный общественный резонанс.
Так, в июле 2018 года СМИ говорили об утечке в Сбербанке: в поисковую выдачу Яндекс попала персональная информация клиентов банка — со скриншотами паспортов, личными счетами и номерами билетов.
Не стоит пренебрегать элементарными правилами безопасности сайта и ставить под сомнение репутацию своей компании. Лучше не рисковать и позаботиться о правильной работе robots.txt. Пусть этот маленький файл станет вашим надежным другом в деле поисковой оптимизации сайтов.

Файл Robots txt — настройка, как создать и проверить: пример robots txt на сайте, директивы

Текстовый файл, записывающий специальные инструкции для поискового робота, ограничивающие доступ к содержимому на http сервере, находящийся в корневой директории веб-сайта и имеющий путь относительно имени самого сайта (/robots.txt ).

Robots.txt — как создать правильный файл robots.txt

Файл robots.txt позволяет управлять индексацией вашего сайта. Закрыть какой-либо раздел можно директивой disallow, открыть — allow. Проверка и анализ robots.txt.

Выгрузить в xls, файл, индексация, сайт, директива, яндекс, настройка, запрет, проверка, пример, генератор, анализ, страница, правильный, закрыть, создать, добавить, проверить, задать, запретить, сделать, robots, txt, host, закрытый, где, disallow

Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, как нужно индексировать сайт.

Почему важно создавать файл robots.txt для сайта

В 2011 году случилось сразу несколько громких скандалов, связанных с нахождением в поиске Яндекса нежелательной информации.

Сначала в выдаче Яндекса оказалось более 8 тысяч SMS-сообщений, отправленных пользователями через сайт компании «МегаФон». В результатах поиска отображались тексты сообщений и телефонные номера, на которые они были отправлены.

Заместитель генерального директора «МегаФона» Валерий Ермаков заявил, что причиной публичного доступа к данным могло стать наличие у клиентов «Яндекс.Бара», который считывал информацию и отправлял поисковому роботу Яндекса.

У Яндекса было другое объяснение:

«Еще раз можем подтвердить, что страницы с SMS с сайта МегаФона были публично доступны всем поисковым системам… Ответственность за размещение информации в открытом доступе лежит на том, кто её разместил или не защитил должным образом…

Особо хотим отметить, что никакие сервисы Яндекса не виноваты в утечке данных с сайта МегаФона. Ни Яндекс.Бар, ни Яндекс.Метрика не скачивают содержимое веб-страниц. Если страница закрыта для индексации в файле robots.txt или защищена логином и паролем, то она недоступна и поисковым роботам, то есть информация, размещенная на ней, никогда не окажется в какой-либо поисковой системе».

Вскоре после этого пользователи нашли в Яндексе несколько тысяч страниц со статусами заказов в онлайн-магазинах книг, игр, секс-товаров и т.д. По ссылкам с результатов поиска можно было увидеть ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дату и время заказа. И снова причиной утечки стал некорректно составленный (или вообще отсутствующий) файл robots.txt.

Чтобы не оказаться в подобных ситуациях, лучше заранее составить правильный robots.txt файл для сайта. Как сделать robots.txt в соответствии с рекомендациями поисковых систем, расскажем ниже.

Как создать robots.txt для сайта

Настройка robots.txt начинается с создания текстового файла с именем «robots.txt». После заполнения этот файл нужно будет сохранить в корневом каталоге сайта, поэтому лучше заранее проверить, есть ли к нему доступ.

Основные директивы robots.txt

В простейшем файле robots.txt используются следующие директивы:

  • User-agent
  • Disallow
  • Allow

Директива User-agent

Здесь указываются роботы, которые должны следовать указанным инструкциям. Например, User-agent: Yandex означает, что команды будут распространяться на всех роботов Яндекса. User-agent: YandexBot – только на основного индексирующего робота. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.

Директива Disallow

Эта команда сообщает роботу user-agent, какие URL не нужно сканировать. При составлении файла robots.txt важно помнить, что эта директива будет относиться только к тем роботам, которые были перед этим указаны в директиве user-agent. Если подразумеваются разные запреты для разных роботов, то в файле нужно указать отдельно каждого робота и директиву disallow для него.

Как закрыть части сайта с помощью директивы Disallow:

  • Если нужно закрыть от сканирования весь сайт, необходимо использовать косую черту (/): Disallow: /
  • Если нужно закрыть от сканирования каталог со всем его содержимым, необходимо ввести его название и косую черту в конце: Disallow: /events/
  • Если нужно закрыть страницу, необходимо указать название страницы после косой черты: Disallow: /file.html

Директива Allow

Разрешает роботу сканировать сайт или отдельные URL.

В примере ниже robots.txt запрещает роботам Яндекса сканировать весь сайт за исключением страниц, начинающихся с «events»:

User-agent: Yandex

Allow: /events

Disallow: /

Спецсимволы в директивах

Для директив Allow и Disallow используются спецсимволы «*» и «$».

  • Звездочка (*) подразумевает собой любую последовательность символов. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов: Disallow: /example*/
  • По умолчанию символ * ставится в конце каждой строки. Если нужно закончить строку определенным символом, используется спецсимвол $. Например, если нужно закрыть URL, заканчивающиеся на doc: Disallow: /*.doc$
  • Спецсимвол # используется для написания комментариев и не учитывается роботами.

Дополнительные директивы robots.txt

Директива Host

Директива Host в robots.txt используется, чтобы указать роботу на главное зеркало сайта.

Пример:

https://www.glavnoye-zerkalo.ru является главным зеркалом сайта, и для всех сайтов из группы зеркал необходимо прописать в robots.txt:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: https://www.glavnoye-zerkalo.ru

Правила использования директивы Host:

  • В файле robots.txt может быть только одна директива Host. Робот всегда ориентируется на первую директиву, даже если их указано несколько.
  • Если зеркало доступно по защищенному каналу, нужно добавить протокол HTTPS,
  • Должно быть указано одно доменное имя и номер порта в случае необходимости.

Если директива Host прописана неправильно, роботы ее проигнорируют.

Директива Crawl-delay

Директива Crawl-delay задает для робота промежуток времени, с которым он должен загружать страницы. Пригодится в случае сильной нагрузки на сервер.

Например, если нужно задать промежуток в 3 секунды между загрузкой страниц:

User-agent: *

Disallow: /search

Crawl-delay: 3

Директива Clean-param

Пригодится для сайтов, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию, что положительно сказывается на нагрузке на сервер.

Использование кириллицы

При составлении файла robots.txt нельзя использовать кириллические символы. Допускается использование Punycode для доменов.

Как проверить robots.txt

Для проверки файла robots.txt можно использовать Яндекс.Вебмастер (Анализ robots.txt) или Google Search Console (Инструмент проверки файла Robots.txt).

Как добавить файл robots.txt на сайт

Как только файл robots.txt написан и проверен, его нужно сохранить в виде текстового файла с названием robots.txt и загрузить в каталог верхнего уровня сайта или в корневой каталог.

Все о файле «robots.txt» по-русски — как составить robots.txt

Файл robots.txt

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Создание robots.txt

Файл с указанным расширением – простой текстовый документ. Он создается с помощью обычного блокнота, программ Notepad или Sublime, а также любого другого редактора текстов. Важно, что в его названии должен быть нижний регистр букв – robots.txt.

Также существует ограничение по количеству символов и, соответственно, размеру. Например, в Google максимальный вес установлен как 500 кб, а у Yandex – 32 кб. В случае их превышения корректность работы может быть нарушена.

Создается документ в кодировке UTF-8, и его действие распространяется на протоколы HTTP, HTTPS, FTP. 

При написании содержимого файла запрещается использование кириллицы. Если есть необходимость применения кириллических доменов, необходимо прибегать к помощи Punycode. Кодировка адресов отдельных страниц должна происходить в соответствии с кодировкой структуры сайта, которая была применена.

После того как файл создан, его следует запустить в корневой каталог. При этом используется FTP-клиент, проверяется возможность доступа по ссылке https://site.com./robots.txt и полнота отображения данных.

Важно помнить, что для каждого поддомена сайта оформляется свой файл с ограничениями.

Описание robots.txt

Чтобы правильно написать robots.txt, предлагаем вам изучить разделы этого сайта. Здесь собрана самая полезная информация о синтаксисе robots.txt, о формате robots.txt, примеры использования, а также описание основных поисковых роботов Рунета.

  • Как работать с robots.txt — узнайте, что вы можете сделать, чтобы управлять роботами, которые посещают ваш веб-сайт.
  • Роботы Рунета — разделы по роботам поисковых систем, популярных на просторах Рунета.
  • Частые ошибки в robots.txt — список наиболее частых ошибок, допускаемых при написании файла robots.txt.
  • ЧаВо по веб-роботам — часто задаваемые вопросы о роботах от пользователей, авторов и разработчиков.
  • Ссылки по теме — аналог оригинального раздела «WWW Robots Related Sites», но дополненый и расширенный, в основном по русскоязычной тематике.

Где размещать файл robots.txt

Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.

Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Как видите, файл robots.txt нужно класть исключительно в корень сайта.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами

User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

User-agent: *
Disallow:

Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота

User-agent: BadBot
Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Запретить к индексации все файлы кроме одного

Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

User-agent: *
Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

Инфографика

Проверка

Оценить правильность созданного документа robots.txt можно с помощью специальных проверочных ресурсов:

  • Анализ robots.txt. – при работе с Yandex.
  • robots.txt Tester – для Google.

Важно помнить, что неправильно созданный или прописанный документ может являться угрозой для посещаемости и ранжирования сайта.

О сайте

Этот сайт — некоммерческий проект. Значительная часть материалов — это переводы www.robotstxt.org, другая часть — оригинальные статьи. Мы не хотим ограничиваться только robots.txt, поэтому в некоторых статьях описаны альтернативные методы «ограничения» роботов.

Файл robots.txt — управляем поведением поисковых роботов

Robots.txt — это обычный текстовый файл, который содержит инструкции для роботов поисковых систем о том как нужно индексировать сайт. Содержимое файла стандартизировано консорциумом W3C в 1994 году, большинство поисковых систем поддерживает работу с этим файлом на добровольной основе, но некоторые директивы действуют только для определенных поисковых систем.

Что дает использование robots.txt

Использование этого файла, один из важных элементов комплексной оптимизации сайта. Он позволяет исключить из индекса поисковиков служебные страницы, которые не содержат контента, но нужны для пользователей. Ответ на вопрос: «Нужен ли robots.txt всем сайтам?», скорее утвердительный, потому что кроме запрета на индексирование (что не всегда оправданно в случае небольших сайтов) можно использовать рекомендательные директивы Host или Sitemap.

В основном robots.txt содержит запреты на индексацию определенных страниц сайта, но даже если Вы ничего не хотите запрещать к индексации, файл все равно желательно разместить в корне сервера с таким содержимым:

User-agent: *
Allow: /

Эти директивы разрешают роботам любых поисковых систем, индексировать все страницы и директории на сайте. Расположение файла стандартизировано и он должен открываться по адресу: http://mysite.com/robots.txt, где mysite.com — адрес Вашего сайта. Загрузить файл на сервер можно по FTP, через менеджер файлов в панели управления хостингом и некоторые системы управления контентом имеют соответствующую функцию. Если все сделано правильно, то при открытии ссылки содержимое файла отобразится в браузере.

Создание robots.txt

Создание файла под силу даже новичкам, можно использовать любой текстовый редактор в котором нужно набрать или скопировать уже готовые директивы. Подробно о содержимом будет написано ниже, готовый файл нужно сохранить под именем robots.txt. Если на сайте используется одна из популярных CMS, то вероятно к ней есть соответствующий плагин, который может сделать всю работу за Вас.

Изменение robots.txt

После создания файла в текстовом редакторе или скачивания уже готового с онлайн-сервиса, его нужно отредактировать. Это не сложный процесс, достаточно соблюдать несколько простых правил и не совершать синтаксических ошибок. После внесения правок не забывайте обновлять robots.txt на сайте, поддержка файла в актуальном состоянии позволит быстрее применять правки и ощутить эффект. Ниже Вы можете найти примеры и познакомиться с правилами, которые помогут создать эффективный и оптимизированный файл с директивами для роботов поисковых систем.

Онлайн сервисы для создания robots.txt

Позволяют автоматически генерировать robots.txt, такой вариант тоже имеет право на жизнь, но подходит не для всех. Онлайн-сервисов достаточного много, использовать их нужно осторожно, готовый файл желательно проверить, не запрещено ли индексировать нужные страницы. Ошибки в robots.txt могут дорого обойтись и их может быть сложно исправить, из-за того, что индексация растянутый во времени процесс и может длиться месяцы. Рекомендуем потратить немного времени на изучение структуры и составление собственного файла robots.txt.

Как правильно заполнить robots.txt

Этот файл используется для указанию поисковому роботу что некоторые страницы не нужно индексировать, но все директивы в файле носят рекомендательный характер, и робот может их проигнорировать, поэтому если у Вас есть конфиденциальный контент — для его защиты нужно использовать другие методы. Роботы крупных и авторитетных поисковых систем руководствуются директивами в robots.txt, но другие могут их игнорировать, этот факт то же стоит учитывать. Понимание функций и возможностей по управлению индексированием, позволит повысить эффективность оптимизации.

Есть общие правила и директивы, которые действуют на всех роботов, но действие некоторых распространяется только на роботов определенных поисковых систем. Для начала рассмотрим общие директивы и базовый синтаксис robots.txt.

Первой в файле должна быть команда User-agent, она нужна для указания к какому именно роботу относятся директивы ниже. Например User-agent в robots.txt может иметь вид:

В таком варианте, директивы будут распространяться на всех роботов:

User-agent: *

Эти директивы подействуют на всех роботов Yandex

User-agent: Yandex

В таком виде директивы распространяются только на YandexBot (отвечает за индексирование сайтов)

User-agent: YandexBot

Директивы для ботов Google

User-agent: Googlebot

Для правильной работы, нужно указать общие директивы для всех роботов, а затем если нужно дописать отдельные для конкретных роботов.

Например, в этом случае robots.txt содержит несколько указаний User-agent и может выглядеть так:

Директивы для всех роботов Google
User-agent: Googlebot
Disallow: /*post_

Директивы для всех роботов Яндекс
User-agent: Yandex
Disallow: /*post_

Директивы для всех роботов кроме указанных выше

User-agent: *
Allow: /*post_

По сути User-agent является указанием для поискового робота и после нее должна указываться команда, которую выполнит робот. В предыдущем примере мы запрещаем индексировать все страницы содержащие в названии «/*post_», для запрета чего-либо используется «Disallow». В файле не должно быть лишних переводов строк между User-agent и командой в следующей строке, в противном случае robots.txt будет проигнорирован.

В правильном robots.txt, нет лишних переводов строк:
User-agent: Yandex
Disallow: /*post_
Allow: /*ads=

User-agent: *
Disallow: /*post_
Allow: /*ads=

Неправильное написание директив (лишние переводы строк):

User-agent: Yandex

Disallow: /*post_

Allow: /*ads=

User-agent: *

Disallow: /*post_

Allow: /*ads=

Из примеров понятно, как следует размещать директивы, для удобства блоки можно разделять пустой строкой, но в самом блоке пустых строк быть не должно. Помимо этого, нужно четко следовать правилам по размещению и сортировке команд и указаний в robots.txt, в случаях когда используются разрешающие и запрещающие команды (Disallow и Allow) совместно, есть несколько вариантов написания и сортировки, использовать можно любой, главное понимать логику работы.

Использование Disallow и Allow вместе:

В этом примере запрещена индексация всех страниц адрес который начинается с /shop, а страниц с адресом начинающимся с /shop/dir — разрешена, но они не будут проиндексированы роботом, потому что ниже идет запрещающая команда и она имеет более высокий приоритет.

User-agent: *
Allow: /shop/dir
Disallow: /shop

Что бы правило сработало, нужно разместить разрешения и запреты в правильном порядке:

User-agent: *
Disallow: /shop
Allow: /shop/dir

Тут мы сперва запрещаем индексировать раздел, а затем разрешаем индексацию некоторых подразделов, в этом случае робот будет индексировать только то что разрешено.

Директивы разрешения и запрета можно сочетать, главное в результате понимать логику запретов и разрешений:

User-agent: *
Allow: /
Disallow: /shop
Allow: /shop/dir

В этом примере, разрешаем индексировать все, запрещаем радел /shop, но в нем разрешаем индексацию одного подраздела — /shop/dir.

Можно использовать команды запрета/разрешения индексации без параметров, в этом случае они будут распространяться на весь сайт.

Пример Disallow/Allow без указания области действия:

User-agent: *
Disallow: # равнозначно Allow: / (разрешить все)
Disallow: /shop
Allow: /shop/dir

Можете использовать любой из представленных вариантов, они все рабочие и правильные, для удобства рекомендуем за основу брать тот, который более понятен. В корректном файле должны быть точно указаны параметры директив и приоритеты для запрещения или разрешения индексации разделов сайта. Ниже мы вернемся к использованию Disallow/Allow и рассмотрим несколько примеров.

Синтаксис robots.txt

Соблюдение директив роботами дело добровольное, одна из проблем тех кто составляет файл вручную, это необходимость знать некоторые тонкости, потому что синтаксис может трактоваться по разному. Структура robots.txt стандартизирована и поэтому зная нюансы составить этот файл не сложно, все достаточно просто и понятно.

Достаточно соблюдать простые правила из списка ниже, и Вы минимизируете возможные ошибки:

  • Все директивы должны начинаться с новой строки
  • В одной строке должна быть только одна директива
  • Команды указываются в формате: Директива: Значение; (Вокруг значения можно использовать пробелы, это повышает читаемость файла, но не является обязательным условием)
  • Комментарии пишутся после символа # b могут начинаться с новой строки или дописываться в конец строк с командами или директивами.
  • Недоступный или пустой robots.txt, так же считается разрешающим
  • Если не завершать директивы пустой строкой, то в большинстве случаев поисковый робот обработает только первую директиву User-agent, все последующие обработаны не будут
  • В файле нельзя использовать кириллицу или другие национальные алфавиты
  • Перевод строки трактуется как завершение действия директивы User-agent
  • Использование Disallow без значения, равнозначно разрешению индексировать весь сайт
  • Не допускается в Allow и Disallow указывать более одного значения
  • Имя файла стандартизировано и не должно отличаться от robots.txt, другие варианты имени файла считаются ошибочными и игнорируются.
  • Внутри файла в названии директив и команд можно использовать заглавные буквы, но это не рекомендуется, названия файлов и директорий в файле должны совпадать с таковыми на сервере.
  • Есть в качестве значения параметра нужно указать папку, то перед ней ставится знак “/”, Disallow: /Shop
  • Файл robots.txt с размером более 32 кб, будет проигнорирован и в таком случае поисковый робот игнорирует все запреты
  • Строки нельзя начинать с пробела или других спец символов, исключение знак # — означает комментарий
  • Параметры директивы нельзя переносить по строкам, они должны быть одно-строчными
  • Директивы пишутся как есть, не нужно их обрамлять кавычками, заключать в скобки или использовать закрывающие символы в конце (точка с запятой, двоеточие или любые другие)

Некоторые правила не строгие и допускают нарушения, из-за того что роботы каждой поисковой системы обрабатывают файл по-разному. Например, роботы Яндекса могут корректно обработать файл с несколькими указаниями User-agent без пустой строки между ними. Это из-за того что робот Яндекса корректно определяет начало и конец директив без дополнительных разделителей. Старайтесь не указывать в файле ничего лишнего или команд действие которых для Вас до конца не ясно. Короткий и понятный robots txt, с большой вероятностью будет правильно интерпретирован подавляющим большинством поисковых роботов.

Проверка robots txt на ошибки синтаксиса

Яндекс и Google, предоставляют для веб-мастеров специальный сервис, который анализирует структуру и проверяет файл на ошибки с указанием их расположения. Использование онлайн-сервис существенно сокращает количество ошибок и позволяет загружать на сайт только корректные версии robots txt.

Ссылки по которым можно проверить файл на ошибки:

Google webmaster tools: https://www.google.com/webmasters/tools/siteoverview?hl=ru

Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

Процесс проверки не сложный, загружаете robots.txt на свой сайт и переходите по ссылке. После нажатия кнопки проверить, Вы получите отчет. В случае ошибок или если файл недоступен — сервис сообщит об ошибках или недоступности файла. Если Вы уверены что файл загружен и доступен, убедитесь в этом перейдя по ссылке адрес_вашего_сайта/robots.txt Если эти сервисы по каким-то причинам Вам не подходят в сети есть масса аналогичных сервисов для проверки, используйте их.

Использование директив которые действуют только на конкретных роботов

Существует мнение что указание отдельных директив для Яндекса, оказывает какое-то позитивное влияние на отношение поискового робота к сайту и даже улучшает индексацию. Похожие мнения есть и о роботе Google. В реальности такое влияние очень трудно обнаружить, хотя бы потому что инструкции robots.txt носят рекомендательный характер, а указание отдельных директив для поисковых систем просто позволяет им рекомендовать какой-либо контент к индексации, но не обязывает их его индексировать.

Большинство файлов robots.txt будут содержать стандартный набор блоков User-agent и иметь одинаковую структуру, используя конкретные значения можно например запретить боту Google индексировать весь или часть сайта, но разрешить полную индексацию роботам других поисковиков. Хотя такая возможность и есть, пользуются ею очень редко. Но указание отдельных директив имеет смысл, например для Yandex желательно использовать “Host”, чтоб указать какой из доменов основной, а какой зеркало.

Если у Вашего сайта есть зеркала, то для правильной индексации важно что бы поисковый робот мог определить главное, поможет в этом директива Host. Google использует интеллектуальный алгоритм распознавания и обычно верно определяет главное зеркало, робот Яндекса часто ошибается, поэтом для него нужно указывать приоритет зеркал, роботы других поисковых систем директиву Host игнорируют.

Например, сайт может быть доступен в разных доменных зонах

site.org
site.com

Или c www и без

site.com
www.site.com

Host добавляется в блок «User-agent: Yandex» и в качестве параметра, нужно указать адрес главного зеркала без указания протокола — https или http, в примере ниже показано использование:

User-agent: Yandex
Disallow: /dir
Host: site.com

В примере site.com (без www) — будет главным зеркалом и именно оно попадет в выдачу, остальные варианты тоже будут проиндексированы, но в результаты поиска не попадут. Или наоборот, можно сделать главным зеркалом site.com с www:

User-agent: Yandex
Disallow: /dir
Host: www.mysite.com

Host указывается один раз, повторные указания будут проигнорированы. Для Google указать главное зеркало можно в панели управления сайтом для веб-мастеров.

На сайтах, где контент генерируется автоматически, может иметь смысл убрать из списка индексации некоторые страницы, для этого используется Clean-param. Получается что у одной страницы будет куча дубликатов и каждый из них проиндексируется роботом. Наличие дублей снижает ценность страницы, поэтому имеет смысл удалить динамические параметры и дать понять роботу что это одна страница.

В общем случае синтаксис выглядит так: Clean-param: parm1&parm2..&parmn Путь

Например, на сайте может быть такая страница с таким адресом:

www.mysite.ru/dir.html?&par1=1&par2=2&par3=333

В robots.txt нужно добавить следующее:

Clean-param: parm1&parm2&parm3 /dir.html # обрабатываться будет только dir.html

Если страниц несколько:

Clean-param: parm1&parm2&parm3 / # обработаются все подходящие под условие страницы

Разрешение индексации

Для этого используется команда Allow, ее синтаксис схож в директивой Disallow. Например, запретим индексировать сайт, кроме некоторых папок:

User-agent: *
Disallow: /
Allow: /dir

В этом примере разрешена индексация папок которые начинаются на /dir, все остальные запрещены к индексации. Если использовать директивы с пустыми параметрами или вообще без них, их действие меняется на противоположное. Директива Disallow без параметров, ничего не запрещает, то есть разрешено индексировать все:

User-agent: *
Disallow:

Аналогичное действие будет и в этом случае:

User-agent: *
Allow: /

Директива Allow без параметров, ничего не разрешает, то есть имеет обратное действие и запрещает индексировать любые страницы сайта:

User-agent: *
Allow:

Аналогичный эффект можно получить использовав Disallow:

User-agent: *
Disallow: /

Запрет индексирования страниц

Для запрета используется директива Disallow, в зависимости от параметров можно настроить запрет как на весь сайт так и на отдельные страницы и папки.

Запрещаем любым роботам индексировать все страницы вместе с директориями на сайте:

User-agent: *
Disallow: /

При задании параметров можно использовать маски, это специальные символы позволяющие закрывать от индексации не все страницы, а только те которые удовлетворяют правилам. Используется символ звездочка * — она означает соответствие любому количеству любых символов, например под указание /dir* попадут все папки и страницы начинающиеся с символов dir — /dir1, /dirbeyupi и другие. Иногда звездочку можно опускать, примеры ниже тождественны и обрабатываются одинаково:

User-agent: Googlebot
Disallow: /dir
User-agent: Googlebot
Disallow: /dir*

Знак доллара $ — указывает на точное соответствие конкретным символам.

User-agent: Googlebot
Disallow: /dir$

В этом примере Disallow запрещает индексировать только папку «/dir», но разрешает индексировать другие варианты — /dir1, /dirbeyupi. Если закрыть индексацию через robots.txt, то в панели веб-мастера можно будет увидеть соответствующую ошибку, поэтому когда надо запретить индексацию только одной или нескольких страниц можно использовать соответствующие мета-теги:

запрет на индексирование страницы

запрет на переход по ссылкам с этой страницы, считается что это не передает вес исходной страницы на страницы по ссылкам.

двойной запрет и на индексацию и на переход по ссылкам

тоже самое что и в предыдущем варианте, полный запрет

В robots.txt можно добавить ссылку на sitemap.xml — файл с картой сайта, например:

User-agent: *
Disallow: /dir
Sitemap: http://www.mysite.ru/sitemap.xml

Обычно карту сайта поисковые роботы находят автоматически, так же можно указать ее расположение в панелях веб-мастера в большинстве крупных поисковиков. Иногда роботы поисковых систем посещают сайт слишком часто и создают заметную нагрузку на сервер, для ее снижения можно использовать Crawl-delay, в примере мы рекомендуем роботу Google обращаться к страницам сайта один раз в 10 секунд:

User-agent: Google

Disallow: /dir
Crawl-delay: 10

Для удобства и упрощения поддержки сайта, рекомендуется добавлять комментарии, они помогут быстро понять и разобраться в командах, когда нужно будет обновить или изменить файл. Комментарии начинаются с «#» и игнорируются роботами, комментарий должен размещаться на одной строке, в противном случае вторую и следующие строки нужно начинать с #.

Например:

User-agent: *
# Это одно-строчный комментарий, он может продолжаться до конца строки
Disallow: /dir # Так же можно добавить комментарий в конец строки

Использование robots.txt, упрощает взаимодействие с роботами поисковых систем и при правильном использовании является важным инструментом оптимизации сайта.

Создание правильного robots.txt в Битрикс

Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.

Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.

Что такое robots.txt и для чего он нужен?

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем (информация Яндекса).
В основном он нужен чтобы закрыть от индексации страницы и файлы, которые поисковикам индексировать и, следовательно, добавлять в поисковую выдачу не нужно.

Обычно это технические файлы и страницы, панели администрирования, кабинеты пользователя и дублирующаяся информация, например поиск вашего сайта и др.

Создание базового robots.txt для Битрикс

Частая ошибка начинающих кроется в ручном составлении этого файла. Это делать не нужно.
В Битриксе уже есть модуль, отвечающий за файл robots.txt. Его можно найти на странице «Маркетинг -> Поисковая оптимизация -> Настройка robots.txt».
На этой странице есть кнопка для создания базового набора правил под систему Битрикс. Воспользуйтесь ей, чтобы создать все стандартные правила:

Дальше в настройках генерации карты сайта укажите галочку для добавления ее в robots.txt:

После генерации карты сайта путь к ней автоматически добавится в robots.txt.

После этого у вас уже будет хороший базовый набор правил. А дальше уже следует исходить из рекомендаций SEO-специалиста и закрывать (кнопкой «Запретить файл/папку») необходимые страницы. Обычно это страницы поиска, личные кабинеты и другие.

И не забывайте, что вы можете обратиться к нам за продвижением сайта. Мы настроим все правильно и выведем ваш сайт на Битриксе на хорошие позиции.

Создайте файл robots.txt | Центр поиска Google | Разработчики Google

Если вы пользуетесь услугами хостинга сайтов, например Wix или Blogger, вы может не понадобиться создавать или редактировать файл robots.txt.

Начало работы

Файл robots.txt находится в корне вашего сайта. Итак, для сайта www.example.com , файл robots.txt находится по адресу www.example.com/robots.txt . robots.txt — это простой текстовый файл, следующий за Стандарт исключения роботов.Файл robots.txt состоит из одного или нескольких правил. Каждое правило блокирует (или разрешает) доступ для данного поискового робота на указанный путь к файлу на этом веб-сайте.

Вот простой файл robots.txt с двумя правилами, описанными ниже:

# Группа 1
Пользовательский агент: Googlebot
Запретить: / nogooglebot /

# Группа 2
Пользовательский агент: *
Позволять: /

Карта сайта: http://www.example.com/sitemap.xml 

Пояснение:

  1. Пользовательскому агенту с именем «Googlebot» не разрешено сканировать http: // example.com / nogooglebot / или любые подкаталоги.
  2. Всем остальным пользовательским агентам разрешено сканировать весь сайт. (Это могло быть пропущено и результат будет таким же, поскольку предполагается полный доступ.)
  3. Файл карты сайта находится по адресу http://www.example.com/sitemap.xml .

Дополнительные примеры см. В разделе синтаксиса.

Основные принципы robots.txt

Вот несколько основных рекомендаций для роботов.txt файлы. Мы рекомендуем вам прочитать полный синтаксис файлов robots.txt, потому что Синтаксис robots.txt имеет некоторые тонкие особенности, которые вам следует понять.

Формат и расположение

Вы можете использовать практически любой текстовый редактор для создания файла robots.txt. Текстовый редактор должен уметь для создания стандартных текстовых файлов UTF-8. Не используйте текстовый процессор; текстовые процессоры часто экономят файлы в проприетарном формате и могут добавлять неожиданные символы, такие как фигурные кавычки, которые может вызвать проблемы для сканеров.

Используйте тестер robots.txt для написания или редактирования файлов robots.txt для вашего сайта. Этот инструмент позволяет вам проверить синтаксис и поведение против вашего сайта.

Правила формата и расположения:

  • Файл должен называться robots.txt
  • На вашем сайте может быть только один файл robots.txt.
  • Файл robots.txt должен находиться в корне хоста веб-сайта, чтобы который применяется.Например, для управления сканированием всех URL-адресов ниже http://www.example.com/ , файл robots.txt должен находиться по адресу http://www.example.com/robots.txt . Это не может быть помещено в подкаталог (например, http://example.com/pages/robots.txt ). Если вы не знаете, как получить доступ к корню вашего веб-сайта, или вам нужны разрешения для этого, свяжитесь с вашим провайдер хостинг-услуг. Если вы не можете получить доступ к корню вашего сайта, используйте альтернативную блокировку метод, такой как метатеги.
  • Файл robots.txt может применяться к поддоменам (например, http: // website .example.com / robots.txt ) или на нестандартных порты (например, http://example.com: 8181 /robots.txt ).
  • Комментарии — это любое содержимое после отметки # .

Синтаксис

  • robots.txt должен быть текстовым файлом в кодировке UTF-8 (включая ASCII).Использование другого персонажа наборы невозможно.
  • Файл robots.txt состоит из одной или нескольких групп .
  • Каждая группа состоит из нескольких правил или директив (инструкции), по одной директиве на строку.
  • Группа предоставляет следующую информацию:
    • Кому относится группа (пользовательский агент )
    • К каким каталогам или файлам может обращаться агент и / или
    • К каким каталогам или файлам агент не может получить доступ. .
  • Группы обрабатываются сверху вниз, и пользовательский агент может соответствовать только одному набору правил, который это первое, наиболее конкретное правило, которое соответствует данному пользовательскому агенту.
  • Предположение по умолчанию состоит в том, что пользовательский агент может сканировать любую страницу или каталог. не заблокирован правилом Disallow: .
  • Правила чувствительны к регистру . Например, Disallow: / file.asp применяется к http://www.example.com/file.asp , но не http://www.example.com/FILE.asp .

В файлах robots.txt используются следующие директивы:

  • User-agent: [ Обязательно, один или несколько на группу ] директива определяет имя автоматического клиента, известного как сканер поисковой системы, который правило применяется к. Это первая строка для любой группы правил.Имена пользовательских агентов Google: перечисленные в Список пользовательских агентов Google. Использование звездочки ( * ), как в примере ниже, будет соответствовать всем поисковым роботам. , за исключением различных поисковых роботов AdsBot , которые должны иметь явное имя. Примеры:
    # Пример 1. Заблокировать только Googlebot
    Пользовательский агент: Googlebot
    Запретить: /
    
    # Пример 2. Блокировка роботов Googlebot и Adsbot
    Пользовательский агент: Googlebot
    Пользовательский агент: AdsBot-Google
    Запретить: /
    
    # Пример 3. Блокировка всех сканеров, кроме AdsBot
    Пользовательский агент: *
    Disallow: / 
  • Disallow: [ Как минимум один или несколько Disallow или Разрешить записей в правиле ] Каталог или страница относительно корневого домена, что вы не хотите, чтобы пользовательский агент сканировал.Если правило относится к странице, это должен быть полное имя страницы, как показано в браузере; если он относится к каталогу, он должен заканчиваться Марка /.
  • Разрешить: [ Как минимум один или несколько Запретить или Разрешить записей в правиле ] Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом. Это используется для отмены Disallow Директива , разрешающая сканирование подкаталога или страницы в запрещенном каталог.Для одной страницы полное имя страницы, отображаемое в браузере, должно быть указано. В случае каталога правило должно заканчиваться отметкой /.
  • Карта сайта: [ Необязательно, ноль или более на файл ] расположение карты сайта для этого веб-сайта. URL-адрес карты сайта должен быть полным URL-адресом; Google не предполагает и не проверяет альтернативы http / https / www.non-www. Файлы Sitemap — хороший способ указать, какой контент Google должен сканировать , а не какой контент он может или не может сканировать.Узнайте больше о файлах Sitemap. Пример:
    Карта сайта: https://example.com/sitemap.xml
    Карта сайта: http://www.example.com/sitemap.xml 

Все директивы, кроме Sitemap , поддерживают подстановочный знак * для пути префикс, суффикс или целая строка.

Строки, не соответствующие ни одной из этих директив, игнорируются.

Другой пример файла

Файл robots.txt состоит из одной или нескольких групп, каждая из которых начинается с User-agent строка, указывающая цель групп.Вот файл с двумя группы; встроенные комментарии объясняют каждую группу:

# Заблокировать googlebot из example.com/directory1 / ... и example.com/directory2 / ...
# но разрешить доступ к directory2 / subdirectory1 / ...
# Все остальные каталоги на сайте разрешены по умолчанию.
Пользовательский агент: googlebot
Запретить: / directory1 /
Запретить: / каталог2 /
Разрешить: / каталог2 / подкаталог1 /

# Блокировать весь сайт от другого сканера.
Пользовательский агент: anothercrawler
Disallow: / 

Полный синтаксис robots.txt

Вы можете найти полные robots.txt здесь. Пожалуйста, прочтите полную документацию, так как в синтаксисе robots.txt есть несколько сложных частей, которые важно узнать.

Полезные правила robots.txt

Вот несколько общих полезных правил robots.txt:

Правило Образец
Запретить сканирование всего веб-сайта. Имейте в виду, что в некоторых ситуаций URL-адреса с веб-сайта все еще могут быть проиндексированы, даже если они не были поползли.Это не соответствует различные сканеры AdsBot, который должен быть назван явно.
Пользовательский агент: *
Disallow: / 
Запретить сканирование каталога и его содержимого , следуя имя каталога с косой чертой. Помните, что вам не следует использовать robots.txt для блокировки доступ к частному контенту: вместо этого используйте правильную аутентификацию.URL-адреса, запрещенные Файл robots.txt может быть проиндексирован без сканирования, а файл robots.txt могут быть просмотрены кем угодно, потенциально раскрывая местонахождение вашего личного контента.
Пользовательский агент: *
Запретить: / календарь /
Disallow: / junk / 
.
Разрешить доступ одному искателю
User-agent: Googlebot-news
Позволять: /

Пользовательский агент: *
Disallow: / 
Разрешить доступ всем, кроме одного поискового робота
Пользовательский агент: Ненужный бот
Запретить: /

Пользовательский агент: *
Разрешить: / 

Запретить сканирование отдельной веб-страницы , указав страницу после косая черта:

Пользовательский агент: *
Запретить: / частный_файл.HTML 

Заблокировать определенное изображение из Картинок Google:

Пользовательский агент: Googlebot-Image
Запретить: /images/dogs.jpg 

Заблокировать все изображения на вашем сайте из Картинок Google:

Пользовательский агент: Googlebot-Image
Disallow: / 

Запретить сканирование файлов определенного типа (например, .gif ):

Пользовательский агент: Googlebot
Disallow: /*.gif$ 

Запретить сканирование всего сайта, но показывать рекламу AdSense на этих страницах , и запретить использование всех поисковых роботов, кроме Mediapartners-Google . Этот реализация скрывает ваши страницы из результатов поиска, но Поисковый робот Mediapartners-Google все еще может проанализировать их, чтобы решить какую рекламу показывать посетителям вашего сайта.

Пользовательский агент: *
Запретить: /

Пользовательский агент: Mediapartners-Google
Разрешить: / 
Чтобы сопоставить URL-адреса, которые заканчиваются определенной строкой , используйте $ . За Например, пример кода блокирует любые URL-адреса, заканчивающиеся на .xls :
Пользовательский агент: Googlebot
Запретить: /*.xls$
 

Создайте собственный файл robots.txt мгновенно!

Обзор нашего онлайн-генератора Robots.txt

Наш инструмент для создания файла robots.txt разработан, чтобы помочь веб-мастерам, специалистам по поисковой оптимизации и маркетологам создавать файлы robots.txt без особых технических знаний. Однако будьте осторожны, поскольку создание файла robots.txt может существенно повлиять на возможность доступа Google к вашему веб-сайту, независимо от того, создан ли он на WordPress или другой CMS.

Хотя наш инструмент прост в использовании, мы рекомендуем вам ознакомиться с инструкциями Google перед его использованием.Это связано с тем, что неправильная реализация может привести к тому, что поисковые системы, такие как Google, не смогут сканировать важные страницы вашего сайта или даже всего вашего домена, что может очень негативно повлиять на ваше SEO.

Давайте углубимся в некоторые функции, которые предоставляет наш онлайн-генератор Robots.txt.

Как создать файл Robots.txt

Как создать свой первый файл robots.txt?

Первый вариант, который вам будет предложен, — разрешить или запретить всем поисковым роботам доступ к вашему сайту.Это меню позволяет вам решить, нужно ли сканировать ваш сайт; однако могут быть причины, по которым вы можете отказаться от индексации своего веб-сайта в Google.

Второй вариант, который вы увидите, — добавлять ли файл карты сайта xml. Просто введите его местоположение в это поле. (Если вам нужно создать карту сайта в формате XML, вы можете использовать наш бесплатный инструмент.)

Наконец, вам предоставляется возможность заблокировать определенные страницы или каталоги от индексации поисковыми системами. Обычно это делается для страниц, которые не предоставляют никакой полезной информации для Google и пользователей, например страниц входа, корзины и параметров.

Когда это будет сделано, вы можете скачать текстовый файл.

После создания файла robots.txt обязательно загрузите его в корневой каталог своего домена. Например, ваш файл robots.txt должен появиться по адресу: www.yourdomain.com/robots.txt

.

Звук полезный? Мы надеемся на это!

Создайте свой первый файл robots.txt с помощью нашего инструмента и сообщите нам, как он работает для вас.

Что такое файл Robots.txt?

Файл robots.txt — это действительно простой файл в текстовом формате.Его основная функция — предотвращать сканирование и индексацию контента на веб-сайте определенными сканерами поисковых систем, такими как Google, в целях SEO.

Если вы не уверены, есть ли на вашем веб-сайте или на веб-сайте вашего клиента файл robots.txt, это легко проверить:

Просто введите yourdomain.com/robots.txt. Вы найдете либо страницу с ошибкой, либо страницу простого формата. Если вы используете WordPress и у вас установлен Yoast, то Yoast также может создать для вас текстовый файл.

Подробнее о роботах.txt файлы

Некоторые сложные фразы, которые вы можете найти в файле robots.txt, включают:

Агент пользователя:

Поскольку у каждой поисковой системы есть собственный сканер (наиболее распространенным является робот Googlebot), «пользовательский агент» позволяет вам уведомлять определенные поисковые системы о том, что для них предназначен следующий набор инструкций.

Обычно вы встретите «user-agent», за которым следует *, также известный как подстановочный знак. Это означает, что все поисковые системы должны принять к сведению следующий набор инструкций.Обычно после подстановочного знака есть фраза по умолчанию, которая говорит всем поисковым системам не индексировать какие-либо веб-страницы на вашем сайте.

Фраза по умолчанию — запретить индексирование символа «/», что, по сути, запрещает роботам все внутренние страницы, кроме вашего основного URL. Очень важно проверить эту фразу и немедленно удалить ее со страницы robots.txt.

Это будет примерно так:

User-agent: *
Disallow: /

Запрещено:

Термин «Disallow», за которым следует URL любого вида, дает строгие инструкции для вышеупомянутого пользовательского агента, которые должны появиться в строке выше.

Например, вы можете заблокировать определенные страницы от поисковых систем, которые, по вашему мнению, бесполезны для пользователей. К ним обычно относятся страницы входа в систему WordPress или страницы корзины, поэтому в файлах robots.txt на сайтах WordPress вы обычно видите следующие строки текста:

User-agent: *
Disallow: / wp-admin /

XML Sitemap:

Еще одна фраза, которую вы можете увидеть, — это ссылка на расположение вашего XML-файла карты сайта. Обычно это последняя строка вашего файла robots.txt, и он указывает поисковым системам, где находится ваша карта сайта. Включение этого упрощает сканирование и индексацию.

Вы можете оптимизировать свой собственный веб-сайт, введя следующую простую функцию:

Sitemap: yourdomain.com/sitemap.xml (или точный URL-адрес вашего xml-файла карты сайта).

Как добавить файл Robots.txt

Как добавить файл robots.txt на свой сайт

Текстовый файл роботов или файл robots.txt (часто ошибочно называемый роботом.txt) необходим на каждом веб-сайте. Добавление файла robots.txt в корневую папку вашего сайта — очень простой процесс, и наличие этого файла на самом деле является «признаком качества» для поисковых систем. Давайте посмотрим на параметры файла robots.txt, доступные для вашего сайта.

Что такое текстовый файл роботов?

Файл robots.txt — это просто файл в формате ASCII или обычный текстовый файл, который сообщает поисковым системам, где им не разрешено заходить на сайт — также известный как Стандарт для исключения роботов. Любые файлы или папки, перечисленные в этом документе, не будут сканироваться и индексироваться пауками поисковых систем.Наличие даже пустого файла robots.txt показывает, что вы признаете, что поисковые системы разрешены на вашем сайте и что они могут иметь свободный доступ к нему. Мы рекомендуем добавить текстовый файл роботов к вашему основному домену и всем субдоменам на вашем сайте.

Параметры форматирования Robots.txt

Создание robots.txt — простой процесс. Выполните следующие простые шаги:

  • Откройте Блокнот, Microsoft Word или любой текстовый редактор и сохраните файл как «robots» в нижнем регистре, не забудьте выбрать.txt в качестве расширения типа файла (в Word выберите «Обычный текст»).
  • Затем добавьте в файл следующие две строки текста:

Пользовательский агент: *
Disallow:

«Пользователь-агент» — это другое слово для роботов или пауков поисковых систем. Звездочка (*) означает, что эта строка относится ко всем паукам. Здесь нет файла или папки, перечисленных в строке Disallow, что означает, что можно получить доступ ко всем каталогам на вашем сайте. Это базовый текстовый файл для роботов.

  • Блокирование «пауков» поисковых систем со всего вашего сайта также является одним из роботов.txt параметры. Для этого добавьте в файл эти две строчки:

Пользовательский агент: *
Disallow: /

  • Если вы хотите заблокировать доступ пауков к определенным областям вашего сайта, ваш файл robots.txt может выглядеть примерно так:

User-agent: *
Disallow: / database /
Disallow: / scripts /

.

Эти три строки говорят всем роботам, что им не разрешен доступ к чему-либо в каталогах или подкаталогах базы данных и сценариев. Помните, что в строке Disallow можно использовать только один файл или папку.Вы можете добавить столько строк Disallow, сколько вам нужно.

  • Не забудьте добавить удобный для поисковых систем XML-файл карты сайта в текстовый файл robots. Это гарантирует, что «пауки» найдут вашу карту сайта и легко проиндексируют все страницы вашего сайта. Используйте этот синтаксис:

Карта сайта: http://www.mydomain.com/sitemap.xml

  • После завершения сохраните и загрузите файл robots.txt в корневой каталог вашего сайта. Например, если ваш домен www.mydomain.com, вы разместите файл по адресу www.mydomain.com/robots.txt.
  • После того, как файл будет размещен, проверьте файл robots.txt на наличие ошибок.

Search Guru может помочь реализовать этот и другие технические элементы SEO. Свяжитесь с нами сегодня чтобы начать!

Создайте файл Robots.txt | Liquid Web

Основная задача веб-робота — сканировать веб-сайты и страницы в поисках информации; они неустанно работают над сбором данных от имени поисковых систем и других приложений. Для некоторых есть веская причина держать страницы подальше от поисковых систем.Независимо от того, хотите ли вы настроить доступ к своему сайту или работать над сайтом разработки без отображения результатов Google, после внедрения файл robots.txt позволяет поисковым роботам узнать, какие части они могут собирать информацию.

Создайте файл Robots.txt

Являясь одним из первых аспектов, проанализированных поисковыми роботами, файл robots.txt может быть реализован на странице (ах) или на всем сайте, чтобы препятствовать поисковым системам показывать подробную информацию о вашем сайте. В этой статье мы расскажем, как использовать robots.txt, а также синтаксис, необходимый для защиты этих ботов.

Пользовательский агент: *
Disallow: /

Давайте разберем приведенный ниже код «пользовательский агент» относится к поисковым роботам, а знак * означает все поисковые роботы. Следовательно, первая строка привлекает внимание, говоря: «Слушайте всех поисковых роботов!» Мы переходим ко второй строке, которая позволяет поисковому роботу знать свое направление. Косая черта (/) запрещает ботам выполнять поиск на всех страницах вашего сайта.Вы также можете запретить сбор информации для одной конкретной страницы, в данном случае это карта нашего плана здания. Поскольку дизайн нашего здания не должен быть доступен для поиска, с помощью приведенной ниже команды я могу сказать всем ботам, чтобы они не указывали индекс фотографии buildinglayout.png, оставляя ее доступной для просмотра любому гостю, который хочет ее просмотреть.

User-agent: *
Disallow: /buildinglayout.png

Напротив, если вы хотите, чтобы все поисковые системы собирали информацию обо всех страницах вашего сайта, вы можете оставить поле Disallow пустым.

User-agent: *
Disallow:

Можно указать множество типов поисковых роботов (также называемых пользовательскими агентами). Ниже приведена диаграмма самых популярных поисковых роботов с указанием их ассоциаций. Кроме того, вы также можете указать этим ботам индексировать определенную страницу с помощью параметра «Разрешить», как показано в примере ниже. Вы можете реализовать эти поисковые роботы в файле robots.txt следующим образом:

Пользовательский агент: Googlebot
Разрешить: / Parkinglotmap.png
Запрещено: /buildinglayout.png


Обычно сайты не поставляются с файлом robots.txt автоматически (и не требуется), поэтому вы можете создать его с помощью текстового редактора и загрузить файл в свой корневой каталог или любой другой каталог. К счастью, если вы используете популярную CMS, WordPress и ее полезный плагин для SEO Yoast, вы увидите раздел в окне администратора для создания файла robots.txt.

Файл Robots.txt в WordPress

После входа в серверную часть WordPress (yourdomain.com / wp-login.php) найдите раздел SEO и выберите Инструменты. После нажатия на ссылку редактора файлов вы увидите страницу, похожую на код, использованный в первой части нашей статьи.

В нашем примере веб-боты не попадают на страницу входа в WordPress, включая каталог wp-includes, при этом позволяя пользователям и ботам видеть другие страницы нашего сайта. Обратите внимание на необходимые конечные косые черты после каталога (но это не требуется при запрете страниц). После редактирования выберите «сохранить изменения в robots.txt », чтобы активировать файл robots.txt.

Что такое файл Robots.txt? И как его создать? (Руководство для начинающих)

Знаете ли вы, что у вас есть полный контроль над тем, кто сканирует и индексирует ваш сайт, вплоть до отдельных страниц?

Это делается с помощью файла Robots.txt.

Robots.txt — это простой текстовый файл, который размещается в корневом каталоге вашего сайта. Он сообщает «роботам» (например, паукам поисковых систем), какие страницы сканировать на вашем сайте, а какие игнорировать.

Хотя это и не обязательно, файл Robots.txt дает вам полный контроль над тем, как Google и другие поисковые системы видят ваш сайт.

При правильном использовании это может улучшить сканирование и даже повлиять на SEO.

Но как именно создать эффективный файл Robots.txt? После создания, как вы его используете? И каких ошибок следует избегать при его использовании?

В этом посте я поделюсь всем, что вам нужно знать о файле Robots.txt и о том, как использовать его в своем блоге.

Давайте нырнем:

Что такое файл Robots.txt?

Еще на заре Интернета программисты и инженеры создали «роботов» или «пауков» для сканирования и индексации страниц в Интернете. Эти роботы также известны как «пользовательские агенты».

Иногда эти роботы пробирались на страницы, которые владельцы сайтов не хотели индексировать. Например, строящийся сайт или частный сайт.

Чтобы решить эту проблему, Мартин Костер, голландский инженер, создавший первую в мире поисковую систему (Aliweb), предложил набор стандартов, которых должен придерживаться каждый робот.Эти стандарты были впервые предложены в феврале 1994 года.

30 июня 1994 г. ряд авторов роботов и пионеров Интернета пришли к консенсусу по поводу стандартов.

Эти стандарты были приняты как «Протокол исключения роботов» (REP).

Файл Robots.txt является реализацией этого протокола.

REP определяет набор правил, которым должен следовать каждый законный поисковый робот или паук. Если Robots.txt предписывает роботам не индексировать веб-страницу, каждый законный робот — от Googlebot до MSNbot — должен следовать инструкциям.

Примечание: Список легальных поисковых роботов можно найти здесь.

Имейте в виду, что некоторые роботы-мошенники — вредоносные программы, шпионское ПО, сборщики электронной почты и т. Д. — могут не следовать этим протоколам. Вот почему вы можете видеть трафик ботов на страницах, заблокированных через файл Robots.txt.

Есть также роботы, не соблюдающие стандарты REP, которые не используются ни для чего сомнительного.

Вы можете просмотреть robots.txt любого веб-сайта, перейдя по этому адресу:

http: // [website_domain] / robots.txt

Например, вот файл Robots.txt Facebook:

А вот и файл Google Robots.txt:

.

Использование Robots.txt

Robots.txt не является важным документом для веб-сайта. Ваш сайт может отлично ранжироваться и расти без этого файла.

Однако использование Robots.txt дает некоторые преимущества:

  • Запретить ботам сканировать личные папки — Хотя это и не идеально, запрет ботам сканировать личные папки значительно затруднит их индексирование — по крайней мере, законными ботами (такими как пауки поисковых систем).
  • Контроль использования ресурсов — Каждый раз, когда бот просматривает ваш сайт, он истощает вашу полосу пропускания и ресурсы сервера — ресурсы, которые лучше потратить на реальных посетителей. Для сайтов с большим количеством контента это может привести к увеличению затрат и ухудшить впечатление реальных посетителей. Вы можете использовать Robots.txt, чтобы заблокировать доступ к скриптам, неважным изображениям и т. Д. Для экономии ресурсов.
  • Расставьте приоритеты для важных страниц — Вы хотите, чтобы пауки поисковых систем сканировали важные страницы вашего сайта (например, информационные страницы), а не тратили впустую ресурсы на бесполезные страницы (например, результаты поисковых запросов).Блокируя такие бесполезные страницы, вы можете определить приоритеты, на которых боты сосредоточены.

Как найти файл Robots.txt

Как следует из названия, Robots.txt — это простой текстовый файл.

Этот файл хранится в корневом каталоге вашего веб-сайта. Чтобы найти его, просто откройте свой инструмент FTP и перейдите в каталог своего веб-сайта в public_html.

Это крошечный текстовый файл — у меня чуть больше 100 байт.

Чтобы открыть его, используйте любой текстовый редактор, например Блокнот.Вы можете увидеть что-то вроде этого:

Есть вероятность, что вы не увидите ни одного файла Robots.txt в корневом каталоге вашего сайта. В этом случае вам придется создать файл Robots.txt самостоятельно.

Вот как:

Как создать файл Robot.txt

Поскольку Robots.txt — это простой текстовый файл, создать его ОЧЕНЬ просто — просто откройте текстовый редактор и сохраните пустой файл как robots.txt .

Чтобы загрузить этот файл на свой сервер, используйте свой любимый FTP-инструмент (я рекомендую использовать WinSCP) для входа на свой веб-сервер.Затем откройте папку public_html и откройте корневой каталог вашего сайта.

В зависимости от того, как настроен ваш веб-хостинг, корневой каталог вашего сайта может находиться непосредственно в папке public_html. Или это может быть папка внутри него.

После того, как вы откроете корневой каталог вашего сайта, просто перетащите в него файл Robots.txt.

Кроме того, вы можете создать файл Robots.txt прямо из редактора FTP.

Для этого откройте корневой каталог вашего сайта и щелкните правой кнопкой мыши -> Создать новый файл.

В диалоговом окне введите «robots.txt» (без кавычек) и нажмите «ОК».

Вы должны увидеть новый файл robots.txt внутри:

Наконец, убедитесь, что вы установили правильные права доступа для файла Robots.txt. Вы хотите, чтобы владелец — вы сами — читал и записывал файл, но не для других или общественности.

В вашем файле Robots.txt должен быть указан код разрешения «0644».

Если этого не произошло, щелкните правой кнопкой мыши файл Robots.txt и выберите «Права доступа к файлу…».

Вот и все — полнофункциональные роботы.txt файл!

Но что на самом деле можно сделать с этим файлом?

Далее я покажу вам несколько общих инструкций, которые вы можете использовать для управления доступом к своему сайту.

Как использовать Robots.txt

Помните, что Robots.txt по существу определяет, как роботы взаимодействуют с вашим сайтом.

Хотите заблокировать доступ поисковых систем к вашему сайту? Просто измените разрешения в Robots.txt.

Хотите заблокировать Bing от индексации вашей страницы контактов? Вы тоже можете это сделать.

Сам по себе файл Robots.txt не улучшит ваше SEO, но вы можете использовать его для управления поведением роботов на вашем сайте.

Чтобы добавить или изменить файл, просто откройте его в редакторе FTP и добавьте текст напрямую. Как только вы сохраните файл, изменения будут немедленно отражены.

Вот несколько команд, которые можно использовать в файле Robots.txt:

1. Заблокируйте доступ всех ботов на свой сайт

Хотите запретить всем роботам сканировать ваш сайт?

Добавьте этот код в свой Robots.txt файл:

  Агент пользователя:  * 
Запрещение: /

Вот как это будет выглядеть в фактическом файле:

Проще говоря, эта команда сообщает каждому пользовательскому агенту (*) не обращаться ни к каким файлам или папкам на вашем сайте.

Вот полное объяснение того, что здесь происходит:

  • Агент пользователя: * — Звездочка (*) — это «подстановочный знак», который применяется к каждому объекту (например, имени файла или, в данном случае, боту).Если вы выполните поиск «* .txt» на своем компьютере, он будет отображать все файлы с расширением .txt. Здесь звездочка означает, что ваша команда применяется к каждый пользовательский агент .
  • Disallow: / — «Disallow» — это команда robots.txt, запрещающая ботам сканировать папку. Одинарная косая черта (/) означает, что вы применяете эту команду к корневому каталогу.

Примечание: Это идеальный вариант, если у вас есть какой-либо частный веб-сайт, например сайт членства.Но имейте в виду, что это остановит сканирование вашего сайта всеми законными ботами, такими как Google. Используйте с осторожностью.

2. Запретить всем ботам доступ к определенной папке

Что делать, если вы хотите запретить ботам сканировать и индексировать определенную папку?

Например, папка / images?

Используйте эту команду:

  User-agent: * 
Disallow: / [имя_папки] /

Если вы хотите запретить ботам доступ к папке / images, команда должна выглядеть следующим образом:

Эта команда полезна, если у вас есть папка ресурсов, которую вы не хотите перегружать запросами роботов-роботов.Это может быть папка с неважными скриптами, устаревшими изображениями и т. Д.

Примечание: Папка / images является исключительно примером. Я не говорю, что вы должны запретить ботам сканировать эту папку. Это зависит от того, чего вы пытаетесь достичь.

Поисковые системы обычно недовольны тем, что веб-мастера блокируют своим ботам сканирование папок без изображений, поэтому будьте осторожны при использовании этой команды. Ниже я перечислил несколько альтернатив Robots.txt, которые не позволяют поисковым системам индексировать определенные страницы.

3. Заблокируйте доступ определенных ботов на свой сайт

Что делать, если вы хотите заблокировать доступ к вашему сайту определенному роботу, например роботу Googlebot?

Вот команда для этого:

  User-agent: [имя робота] 
Disallow: /

Например, если вы хотите заблокировать доступ робота Googlebot к своему сайту, вы должны использовать следующее:

У каждого легитимного бота или пользовательского агента есть определенное имя. Например, паук Google просто называется «робот Googlebot».Microsoft использует как «msnbot», так и «bingbot». Бот Yahoo называется Yahoo! Хлебать ».

Чтобы найти точные имена различных пользовательских агентов (таких как Googlebot, bingbot и т. Д.), Используйте эту страницу.

Примечание: Приведенная выше команда блокирует доступ определенного бота ко всему сайту. Робот Googlebot используется исключительно в качестве примера. В большинстве случаев вам никогда не захочется мешать Google сканировать ваш сайт. Одним из конкретных вариантов использования блокировки определенных ботов является удержание ботов, которые приносят вам пользу, приходящие на ваш сайт, и остановку тех, которые не приносят пользу вашему сайту.

4. Блокировать сканирование определенного файла

Протокол исключения роботов дает вам точный контроль над тем, какие файлы и папки вы хотите заблокировать для роботов.

Вот команда, которую вы можете использовать, чтобы запретить сканирование файла любым роботом:

  Агент пользователя: * 
Запретить: / [имя_папки] / [имя_файла.расширение]

Итак, если вы хотите заблокировать файл с именем «img_0001.png» из папки «images», вы должны использовать эту команду:

5.Блокировать доступ к папке, но разрешить индексирование файла

Команда «Запретить» запрещает ботам доступ к папке или файлу.

Команда «Разрешить» делает обратное.

Команда «Разрешить» заменяет команду «Запретить», если первая нацелена на отдельный файл.

Это означает, что вы можете заблокировать доступ к папке, но разрешить пользовательским агентам по-прежнему получать доступ к отдельному файлу в папке.

Вот используемый формат:

  Агент пользователя: * 
Запретить: / [имя_папки] /
Разрешить: / [имя_папки] / [имя_файла.расширение] /

Например, если вы хотите запретить Google сканирование папки «изображения», но все же хотите предоставить ему доступ к файлу «img_0001.png», хранящемуся в ней, вы должны использовать следующий формат:

В приведенном выше примере это будет выглядеть так:

Это остановит индексирование всех страниц в каталоге / search /.

Что, если вы хотите, чтобы все страницы, соответствующие определенному расширению (например, «.php» или «.png»), не индексировались?

Используйте это:

  User-agent: * 
Disallow: / *.расширение $

Знак ($) здесь означает конец URL-адреса, то есть расширение является последней строкой в ​​URL-адресе.

Если вы хотите заблокировать все страницы с расширением «.js» (для Javascript), вы бы использовали следующее:

Эта команда особенно эффективна, если вы хотите запретить ботам сканировать скрипты.

6. Не позволяйте ботам слишком часто сканировать ваш сайт

В приведенных выше примерах вы могли видеть эту команду:

  Агент пользователя: * 
Задержка сканирования: 20

Эта команда предписывает всем ботам ждать не менее 20 секунд между запросами сканирования.

Команда Crawl-Delay часто используется на крупных сайтах с часто обновляемым содержанием (например, в Twitter). Эта команда указывает ботам подождать минимальное время между последующими запросами.

Это гарантирует, что сервер не будет перегружен слишком большим количеством запросов одновременно от разных ботов.

Например, это файл Twitter Robots.txt, в котором ботам предписывается ждать минимум 1 секунду между запросами:

Вы даже можете контролировать задержку сканирования для отдельных ботов.Это гарантирует, что слишком много ботов не будут сканировать ваш сайт одновременно.

Например, у вас может быть такой набор команд:

Примечание: Вам действительно не нужно использовать эту команду, если только вы не используете большой сайт с тысячами новых страниц, создаваемых каждую минуту (например, Twitter).

Распространенные ошибки, которых следует избегать при использовании Robots.txt

Файл Robots.txt — это мощный инструмент для управления поведением ботов на вашем сайте.

Однако это также может привести к катастрофе SEO, если не используется правильно.Не помогает и то, что в Интернете существует ряд неправильных представлений о Robots.txt.

Вот некоторые ошибки, которых следует избегать при использовании Robots.txt:

Ошибка №1 — Использование Robots.txt для предотвращения индексации контента

Если вы «Запретите» папку в файле Robots.txt, легитимные боты не будут сканировать ее.

Но это по-прежнему означает две вещи:

  • Боты БУДУТ сканировать содержимое папки, на которую есть ссылки из внешних источников.Скажем, если другой сайт ссылается на файл в вашей заблокированной папке, боты будут его проиндексировать.
  • Боты-мошенники — спамеры, шпионское ПО, вредоносное ПО и т. Д. — обычно игнорируют инструкции Robots.txt и в любом случае индексируют ваш контент.

Это делает Robots.txt плохим инструментом для предотвращения индексации контента.

Вот что вам следует использовать вместо этого: используйте тег meta noindex.

Добавьте следующий тег на страницы, которые не нужно индексировать:

    

Это рекомендуемый, оптимизированный для SEO метод предотвращения индексации страницы (хотя он по-прежнему не блокирует спамеров).

Примечание: Если вы используете плагин WordPress, такой как Yoast SEO или All in One SEO; вы можете сделать это без редактирования кода. Например, в плагине Yoast SEO вы можете добавить тег noindex для каждой публикации / страницы следующим образом:

Просто откройте и опубликуйте / страницу и щелкните шестеренку внутри поля Yoast SEO. Затем щелкните раскрывающееся меню рядом с «Индексом мета-роботов».

Кроме того, с 1 сентября Google перестанет поддерживать использование noindex в файлах robots.txt.В этой статье SearchEngineLand есть дополнительная информация.

Ошибка № 2 — Использование Robots.txt для защиты личного содержания

Если у вас есть частный контент — скажем, PDF-файлы для курса электронной почты — блокировка каталога с помощью файла Robots.txt поможет, но этого недостаточно.

Вот почему:

Ваш контент все равно может быть проиндексирован, если на него есть ссылки из внешних источников. Кроме того, его все равно будут сканировать боты-мошенники.

Лучший способ — сохранить весь личный контент за логином.Это гарантирует, что никто — законные или мошеннические боты — не получит доступа к вашему контенту.

Обратной стороной является то, что у ваших посетителей есть дополнительный обруч, через который можно прыгнуть. Но ваш контент будет более безопасным.

Ошибка № 3 — Использование Robots.txt для предотвращения индексации дублированного контента

Дублированный контент — большой запрет, когда дело доходит до SEO.

Однако использование Robots.txt для предотвращения индексации этого контента не является решением.Опять же, нет никакой гарантии, что пауки поисковых систем не найдут этот контент из внешних источников.

Вот еще 3 способа передать дублированный контент:

  • Удалить повторяющееся содержимое. — Это полностью избавит от содержимого. Однако это означает, что вы ведете поисковые системы к 404 страницам — не идеально. По этой причине удаление не рекомендуется .
  • Использовать перенаправление 301 — перенаправление 301 указывает поисковым системам (и посетителям), что страница переместилась в новое место.Просто добавьте 301 редирект на дублированный контент, чтобы посетители переходили к вашему исходному контенту.
  • Добавить тег rel = «canonical» — этот тег является «мета» версией перенаправления 301. Тег rel = canonical сообщает Google, какой является исходный URL для конкретной страницы. Например, этот код:
    http://example.com/original-page.html ” rel = ”canonical” />
    Сообщает Google, что страница — original-page.html — это «оригинальная» версия дублирующей страницы.Если вы используете WordPress, этот тег легко добавить с помощью Yoast SEO или All in One SEO.

Если вы хотите, чтобы посетители могли получить доступ к дублированному контенту, используйте тег rel = «canonical» . Если вы не хотите, чтобы посетители или боты получали доступ к контенту, используйте 301 редирект.

Будьте осторожны при реализации любого из них, потому что они повлияют на ваше SEO.

Перед вами

Файл Robots.txt является полезным союзником в формировании способа взаимодействия пауков поисковых систем и других ботов с вашим сайтом.При правильном использовании они могут положительно повлиять на ваш рейтинг и облегчить сканирование вашего сайта.

Используйте это руководство, чтобы понять, как работает Robots.txt, как он устанавливается и некоторые общие способы его использования. И избегайте любых ошибок, о которых мы говорили выше.

Ссылки по теме:

Создайте лучший с помощью этого руководства на 2021 год

Коротко о Robots.txt

Файл robots.txt содержит директивы для поисковых систем.Вы можете использовать его, чтобы запретить поисковым системам сканировать определенные части вашего веб-сайта и давать поисковым системам полезные советы о том, как они могут лучше всего сканировать ваш сайт. Файл robots.txt играет большую роль в SEO.

При внедрении robots.txt помните о следующих передовых методах:

  • Будьте осторожны при внесении изменений в свой robots.txt: этот файл может сделать большие части вашего веб-сайта недоступными для поисковых систем.
  • Файл robots.txt должен находиться в корне вашего веб-сайта (например,грамм. http://www.example.com/robots.txt ).
  • Файл robots.txt действителен только для всего домена, в котором он находится, включая протокол ( http или https ).
  • Разные поисковые системы по-разному интерпретируют директивы. По умолчанию всегда побеждает первая соответствующая директива. Но с Google и Bing побеждает специфика.
  • По возможности избегайте использования директивы задержки сканирования для поисковых систем.

Что такое robots.txt файл?

Файл robots.txt сообщает поисковым системам, каковы правила взаимодействия с вашим сайтом. Большая часть SEO — это отправка правильных сигналов поисковым системам, а файл robots.txt — один из способов сообщить поисковым системам о ваших предпочтениях сканирования.

В 2019 году мы наблюдали некоторые изменения, связанные со стандартом robots.txt: Google предложила расширение для протокола исключения роботов и открыла исходный код своего парсера robots.txt.

TL; DR

  • Google robots.txt довольно гибкий и на удивление снисходительный.
  • В случае возникновения путаницы в директивах Google перестраховывается и предполагает, что разделы должны быть ограничены, а не неограничены.
Файл robots.txt сообщает поисковым системам, к каким URL нельзя обращаться.

Поисковые системы регулярно проверяют файл robots.txt веб-сайта, чтобы узнать, есть ли какие-либо инструкции по сканированию веб-сайта. Мы называем эти инструкции директивами .

Если нет robots.txt или при отсутствии соответствующих директив поисковые системы будут сканировать весь веб-сайт.

Хотя все основные поисковые системы уважают файл robots.txt, поисковые системы могут игнорировать (части) вашего файла robots.txt. Хотя директивы в файле robots.txt являются сильным сигналом для поисковых систем, важно помнить, что файл robots.txt представляет собой набор необязательных директив для поисковых систем, а не мандат.

robots.txt — самый конфиденциальный файл во вселенной SEO.Один персонаж может сломать весь сайт.

Терминология вокруг файла robots.txt

Файл robots.txt является реализацией стандарта исключения роботов , также называемого протоколом исключения роботов .

Зачем вам нужен файл robots.txt?

Файл robots.txt играет важную роль с точки зрения SEO. Он сообщает поисковым системам, как лучше всего сканировать ваш сайт.

Используя файл robots.txt, вы можете запретить поисковым системам доступ к определенным частям вашего веб-сайта , предотвратить дублирование контента и дать поисковым системам полезные советы о том, как они могут сканировать ваш веб-сайт более эффективно .

Будьте осторожны, при внесении изменений в ваш robots.txt: этот файл может сделать большие части вашего веб-сайта недоступными для поисковых систем.

Robots.txt часто слишком часто используется для уменьшения дублирования контента, тем самым убивая внутренние ссылки, поэтому будьте с ними очень осторожны. Мой совет — всегда использовать его только для файлов или страниц, которые поисковые системы никогда не должны видеть или которые могут значительно повлиять на сканирование, будучи допущенными к ним. Типичные примеры: области входа в систему, которые генерируют много разных URL-адресов, тестовые области или где может существовать многогранная навигация.И обязательно следите за своим файлом robots.txt на предмет любых проблем или изменений.

Большинство проблем, которые я вижу с файлами robots.txt, распадаются на три сегмента:

  1. Неправильная обработка подстановочных знаков. Довольно часто можно увидеть заблокированные части сайта, которые должны были быть заблокированы. Иногда, если вы не будете осторожны, директивы могут также противоречить друг другу.
  2. Кто-то, например разработчик, неожиданно внес изменение (часто при добавлении нового кода) и случайно изменил файл robots.txt без вашего ведома.
  3. Включение директив, которых нет в файле robots.txt. Robots.txt является веб-стандартом и имеет некоторые ограничения. Я часто вижу, как разработчики создают директивы, которые просто не работают (по крайней мере, для подавляющего большинства поисковых роботов). Иногда это безобидно, иногда не очень.

Пример

Давайте рассмотрим пример, чтобы проиллюстрировать это:

У вас есть веб-сайт электронной коммерции, и посетители могут использовать фильтр для быстрого поиска по вашим товарам.Этот фильтр генерирует страницы, которые в основном показывают то же содержание, что и другие страницы. Это отлично работает для пользователей, но сбивает с толку поисковые системы, поскольку создает дублированный контент.

Вы не хотите, чтобы поисковые системы индексировали эти отфильтрованные страницы и тратили свое драгоценное время на эти URL с отфильтрованным содержанием. Поэтому вам следует настроить правила Disallow , чтобы поисковые системы не получали доступ к этим отфильтрованным страницам продуктов.

Предотвращение дублирования контента также можно сделать с помощью канонического URL или метатега robots, однако они не решают проблему, позволяя поисковым системам сканировать только важные страницы.

Использование канонического URL или метатега robots не помешает поисковым системам сканировать эти страницы. Это только предотвратит отображение этих страниц в результатах поиска поисковыми системами. Поскольку поисковые системы имеют ограниченное время для сканирования веб-сайта, это время следует потратить на страницы, которые вы хотите отображать в поисковых системах.

Ваш robots.txt работает против вас?

Неправильно настроенный файл robots.txt может сдерживать эффективность SEO. Сразу же проверьте, так ли это на вашем сайте!

Это очень простой инструмент, но robots.txt может вызвать множество проблем, если он неправильно настроен, особенно для крупных веб-сайтов. Очень легко сделать ошибки, например заблокировать весь сайт после развертывания нового дизайна или CMS или не заблокировать разделы сайта, которые должны быть конфиденциальными. Для крупных веб-сайтов очень важно обеспечить эффективное сканирование Google, и хорошо структурированный файл robots.txt является важным инструментом в этом процессе.

Вам нужно потратить время, чтобы понять, какие разделы вашего сайта лучше всего держать подальше от Google, чтобы они тратили как можно больше своих ресурсов на сканирование страниц, которые вам действительно интересны.

Как выглядит файл robots.txt?

Пример того, как может выглядеть простой файл robots.txt для веб-сайта WordPress:

  Агент пользователя: *
Disallow: / wp-admin /  

Давайте объясним анатомию файла robots.txt на основе приведенного выше примера:

  • User-agent: user-agent указывает, для каких поисковых систем предназначены следующие директивы.
  • * : это означает, что директивы предназначены для всех поисковых систем.
  • Disallow : это директива, указывающая, какой контент недоступен для пользовательского агента .
  • / wp-admin / : это путь , который недоступен для пользовательского агента .

Вкратце: этот файл robots.txt сообщает всем поисковым системам, чтобы они не заходили в каталог / wp-admin / .

Давайте более подробно проанализируем различные компоненты файлов robots.txt:

User-agent в robots.txt

Каждая поисковая система должна идентифицировать себя с помощью пользовательского агента . Роботы Google идентифицируются как Googlebot , например, роботы Yahoo — как Slurp , а робот Bing — как BingBot и так далее.

Запись агента пользователя определяет начало группы директив. Все директивы между первым пользовательским агентом и следующей записью пользовательского агента обрабатываются как директивы для первого пользовательского агента .

Директивы

могут применяться к определенным пользовательским агентам, но они также могут применяться ко всем пользовательским агентам. В этом случае используется подстановочный знак: User-agent: * .

Директива Disallow в robots.txt

Вы можете запретить поисковым системам получать доступ к определенным файлам, страницам или разделам вашего веб-сайта. Это делается с помощью директивы Disallow . За директивой Disallow следует путь , к которому не следует обращаться. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Disallow: / wp-admin /  

В этом примере всем поисковым системам предлагается не обращаться к каталогу / wp-admin / .

Директива Allow в robots.txt

Директива Allow используется для противодействия директиве Disallow . Директива Allow поддерживается Google и Bing. Используя вместе директивы Allow и Disallow , вы можете указать поисковым системам, что они могут получить доступ к определенному файлу или странице в каталоге, который иначе запрещен.За директивой Allow следует путь , к которому можно получить доступ. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Разрешить: /media/terms-and-conditions.pdf
Disallow: / media /  

В приведенном выше примере всем поисковым системам не разрешен доступ к каталогу / media / , за исключением файла /media/terms-and-conditions.pdf .

Важно: при одновременном использовании директив Allow и Disallow не используйте подстановочные знаки, так как это может привести к конфликту директив.

Пример конфликтующих директив
  Агент пользователя: *
Разрешить: / каталог
Disallow: * .html  

Поисковые системы не будут знать, что делать с URL-адресом http://www.domain.com/directory.html . Для них неясно, разрешен ли им доступ. Когда директивы не ясны для Google, они будут использовать наименее строгую директиву, что в данном случае означает, что они фактически получат доступ к http://www.domain.com/directory.html .

Правила запрета в файле robots.txt сайта невероятно эффективны, поэтому с ними следует обращаться осторожно. Для некоторых сайтов предотвращение сканирования определенных шаблонов URL-адресов поисковыми системами имеет решающее значение для обеспечения возможности сканирования и индексации нужных страниц, но неправильное использование правил запрета может серьезно повредить SEO сайта.

Отдельная строка для каждой директивы

Каждая директива должна быть на отдельной строке, иначе поисковые системы могут запутаться при парсинге robots.txt файл.

Пример неверного файла robots.txt

Предотвратить появление файла robots.txt, подобного этому:

  Агент пользователя: * Disallow: / directory-1 / Disallow: / directory-2 / Disallow: / directory-3/ 

Robots.txt — одна из тех функций, которые, как я чаще всего наблюдаю, реализованы неправильно, поэтому он не блокирует то, что они хотели заблокировать, или блокирует больше, чем они ожидали, и оказывает негативное влияние на их веб-сайт. Robots.txt — очень мощный инструмент, но слишком часто он неправильно настраивается.

Использование подстановочного знака *

Подстановочный знак можно использовать не только для определения пользовательского агента , но и для сопоставления URL-адресов. Подстановочный знак поддерживается Google, Bing, Yahoo и Ask.

Пример
  Агент пользователя: *
Запретить: *?  

В приведенном выше примере всем поисковым системам запрещен доступ к URL-адресам, содержащим вопросительный знак (? ).

Разработчики или владельцы сайтов часто думают, что могут использовать всевозможные регулярные выражения в файле robots.txt, тогда как на самом деле допустимо только очень ограниченное количество сопоставлений с образцом — например, подстановочные знаки ( * ). Кажется, время от времени возникает путаница между файлами .htaccess и robots.txt.

Использование конца URL $

Чтобы указать конец URL-адреса, вы можете использовать знак доллара ( $ ) в конце пути .

Пример
  Агент пользователя: *
Disallow: * .php $  

В приведенном выше примере поисковым системам не разрешен доступ ко всем URL-адресам, заканчивающимся на.php. URL-адреса с параметрами, например https://example.com/page.php?lang=en не будет запрещен, поскольку URL-адрес не заканчивается после .php .

Добавьте карту сайта в robots.txt

Несмотря на то, что файл robots.txt был изобретен, чтобы указывать поисковым системам, какие страницы не сканировать , файл robots.txt также можно использовать для направления поисковым системам на карту сайта XML. Это поддерживается Google, Bing, Yahoo и Ask.

На карту сайта XML следует ссылаться как на абсолютный URL.URL-адрес , а не должен находиться на том же хосте, что и файл robots.txt.

Ссылка на XML-карту сайта в файле robots.txt — одна из лучших практик, которую мы советуем вам делать всегда, даже если вы уже отправили свою XML-карту сайта в Google Search Console или Bing Webmaster Tools. Помните, что существует больше поисковых систем.

Обратите внимание, что в файле robots.txt можно ссылаться на несколько карт сайта XML.

Примеры

Несколько файлов Sitemap XML, определенных в файле robots.txt файл:

  Агент пользователя: *
Запретить: / wp-admin /
Карта сайта: https://www.example.com/sitemap1.xml
Карта сайта: https://www.example.com/sitemap2.xml  

В приведенном выше примере говорится, что все поисковые системы не обращаются к каталогу / wp-admin / и что есть две карты сайта XML, которые можно найти по адресу https://www.example.com/sitemap1.xml и https://www.example.com/sitemap2.xml .

Одна карта сайта XML, определенная в файле robots.txt:

  Агент пользователя: *
Запретить: / wp-admin /

Карта сайта: https: // www.example.com/sitemap_index.xml  

В приведенном выше примере говорится, что все поисковые системы не должны обращаться к каталогу / wp-admin / и что карту сайта XML можно найти по адресу https://www.example.com/sitemap_index .xml .

Часто задаваемые вопросы

Комментарии

Комментарии предшествуют # и могут быть размещены в начале строки или после директивы в той же строке. Все, что находится после # , будет проигнорировано.Эти комментарии предназначены только для людей.

Пример 1
  # Не разрешать доступ к каталогу / wp-admin / для всех роботов.
Пользовательский агент: *
Disallow: / wp-admin /  
Пример 2
  User-agent: * # Применимо ко всем роботам
Disallow: / wp-admin / # Не разрешать доступ к каталогу / wp-admin /.  

В приведенных выше примерах передается одно и то же сообщение.

Задержка сканирования в robots.txt

Директива Crawl-delay — это неофициальная директива, используемая для предотвращения перегрузки серверов слишком большим количеством запросов.Если поисковые системы могут перегружать сервер, добавление Crawl-delay в ваш файл robots.txt является лишь временным решением. Дело в том, что ваш сайт работает в плохой среде хостинга и / или ваш сайт неправильно настроен, и вы должны исправить это как можно скорее.

Пример файла robots.txt с указанной задержкой сканирования для Bing

. Способ обработки поисковыми системами Crawl-delay отличается. Ниже мы объясним, как с этим справляются основные поисковые системы.

Часто задаваемые вопросы

Задержка сканирования и Google

Сканер Google, робот Google, не поддерживает директиву Crawl-delay , поэтому не беспокойтесь об определении задержки сканирования Google.

Однако Google поддерживает определение скорости сканирования (или «скорости запросов», если хотите) в консоли поиска Google.

Установка скорости сканирования в GSC

  1. Войдите в старую Google Search Console (откроется в новой вкладке).
  2. Выберите веб-сайт, для которого нужно определить скорость сканирования.
  3. Есть только один параметр, который вы можете изменить: Скорость сканирования , с ползунком, где вы можете установить предпочтительную скорость сканирования. По умолчанию для скорости сканирования установлено значение «Разрешить Google оптимизировать мой сайт (рекомендуется)».

Вот как это выглядит в Google Search Console:

Задержка сканирования и Bing, Yahoo и Яндекс

Bing, Yahoo и Яндекс поддерживают директиву Crawl-delay для ограничения сканирования веб-сайта. Однако их интерпретация задержки сканирования немного отличается, поэтому обязательно проверьте их документацию:

Директива Crawl-delay должна быть размещена сразу после директив Disallow или Allow .

Пример:
  Пользовательский агент: BingBot
Disallow: / private /
Задержка сканирования: 10  

Задержка сканирования и Baidu

Baidu не поддерживает директиву crawl-delay , однако можно зарегистрировать учетную запись Baidu Webmaster Tools, в которой вы можете контролировать частоту сканирования, аналогично Google Search Console.

Когда использовать файл robots.txt?

Мы рекомендуем всегда использовать файл robots.txt.В его наличии нет абсолютно никакого вреда, и это отличное место для передачи указаний поисковым системам о том, как им лучше всего сканировать ваш сайт.

Файл robots.txt может быть полезен для предотвращения сканирования и индексации определенных областей или документов на вашем сайте. Примерами являются, например, промежуточный сайт или PDF-файлы. Тщательно спланируйте, что нужно проиндексировать поисковыми системами, и помните, что контент, недоступный через robots.txt, может быть найден сканерами поисковых систем, если на него есть ссылки из других частей веб-сайта.

Лучшие практики robots.txt

Лучшие практики robots.txt подразделяются на следующие категории:

Расположение и имя файла

Файл robots.txt всегда должен находиться в корне веб-сайта (в каталоге верхнего уровня хоста) и иметь имя файла robots.txt , например: https: //www.example .com / robots.txt . Обратите внимание, что URL-адрес файла robots.txt, как и любой другой URL-адрес, чувствителен к регистру.

Если файл robots.txt не может быть найден в расположении по умолчанию, поисковые системы сочтут, что директивы отсутствуют, и уйдут на ваш сайт.

Порядок старшинства

Важно отметить, что поисковые системы по-разному обрабатывают файлы robots.txt. По умолчанию первая соответствующая директива всегда побеждает .

Однако с Google и Bing специфичность побеждает . Например: директива Allow имеет преимущество перед директивой Disallow , если длина ее символа больше.

Пример
  Агент пользователя: *
Разрешить: / about / company /
Запретить: / about /  

В приведенном выше примере всем поисковым системам, включая Google и Bing, не разрешен доступ к каталогу / about / , за исключением подкаталога / about / company / .

Пример
  Агент пользователя: *
Disallow: / about /
Разрешить: / about / company /  

В приведенном выше примере всем поисковым системам , кроме Google и Bing , запрещен доступ к каталогу / about / .Сюда входит каталог / about / company / .

Google и Bing имеют доступ к , поскольку директива Allow длиннее , чем директива Disallow .

Только одна группа директив на робота

Для каждой поисковой системы можно определить только одну группу директив. Наличие нескольких групп директив для одной поисковой системы сбивает их с толку.

Будьте как можно более конкретными

Директива Disallow также срабатывает при частичных совпадениях.Будьте максимально конкретными при определении директивы Disallow , чтобы предотвратить непреднамеренное запрещение доступа к файлам.

Пример:
  Агент пользователя: *
Disallow: / directory  

В приведенном выше примере поисковым системам запрещен доступ к:

  • / каталог
  • / каталог /
  • / имя-каталога-1
  • / имя-каталога.html
  • / имя-каталога.php
  • / имя-каталога.pdf

Директивы для всех роботов, а также директивы для конкретного робота

Для робота действует только одна группа директив. В случае, если директивы, предназначенные для всех роботов, сопровождаются директивами для конкретного робота, будут приняты во внимание только эти конкретные директивы. Чтобы конкретный робот также выполнял директивы для всех роботов, вам необходимо повторить эти директивы для конкретного робота.

Давайте посмотрим на пример, который прояснит это:

Пример
  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / not-loaded-yet /  

В приведенном выше примере всем поисковым системам , кроме Google , запрещен доступ к / secret / , / test / и / not-loaded-yet / . Google только не разрешен доступ к / not-loaded-yet / , но разрешен доступ к / secret / и / test / .

Если вы не хотите, чтобы робот googlebot имел доступ к / secret / и / not-loaded-yet / , вам необходимо повторить эти директивы специально для googlebot :

  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / secret /
Запретить: / not-launch-yet /  

Обратите внимание, что ваш файл robots.txt общедоступен. Запрет на использование разделов веб-сайта может быть использован злоумышленниками как вектор атаки.

Robots.txt может быть опасным. Вы не только указываете поисковым системам, куда вы не хотите, чтобы они смотрели, вы говорите людям, где вы скрываете свои грязные секреты.

Файл robots.txt для каждого (под) домена

Директивы Robots.txt применяются только к (под) домену, в котором размещен файл.

Примеры

http://example.com/robots.txt действительно для http://example.com , но не для http: // www.example.com или https://example.com .

Рекомендуется, чтобы в вашем (под) домене был доступен только один файл robots.txt.

Если у вас есть несколько файлов robots.txt, убедитесь, что они возвращают HTTP-статус 404 или 301 перенаправляют их в канонический файл robots.txt.

Противоречивые рекомендации: robots.txt и Google Search Console

Если ваш файл robots.txt конфликтует с настройками, определенными в Google Search Console, Google часто предпочитает использовать настройки, определенные в Google Search Console, вместо директив, определенных в robots.txt файл.

Следите за своим файлом robots.txt

Важно отслеживать изменения в файле robots.txt. На ContentKing мы видим множество проблем, из-за которых неправильные директивы и внезапные изменения в файле robots.txt вызывают серьезные проблемы с поисковой оптимизацией.

Это особенно актуально при запуске новых функций или нового веб-сайта, который был подготовлен в тестовой среде, поскольку они часто содержат следующий файл robots.txt:

  Агент пользователя: *
Disallow: /  

Мы построили роботов.txt, отслеживание изменений и оповещение по этой причине.

Как узнать об изменении файла robots.txt?

Мы видим это постоянно: файлы robots.txt меняются без ведома команды цифрового маркетинга. Не будь этим человеком. Начните отслеживать свой файл robots.txt, теперь получайте оповещения при его изменении!

Не используйте noindex в своем robots.txt

В течение многих лет Google уже открыто рекомендовал не использовать неофициальную директиву noindex (открывается в новой вкладке).Однако с 1 сентября 2019 года Google полностью прекратил его поддержку (открывается в новой вкладке).

Неофициальная директива noindex никогда не работала в Bing, что подтверждено Фредериком Дубутом в этом твите (открывается в новой вкладке):

Лучший способ сообщить поисковым системам, что страницы не следует индексировать, — это использовать метатег robots или X-Robots-Tag.

Часто задаваемые вопросы

Запретить спецификацию UTF-8 в файле robots.txt

BOM обозначает метку порядка байтов , невидимый символ в начале файла, используемый для обозначения кодировки Unicode текстового файла.

В то время как Google заявляет (открывается в новой вкладке), они игнорируют необязательную отметку порядка байтов Unicode в начале файла robots.txt, мы рекомендуем предотвращать «UTF-8 BOM», потому что мы видели, что это вызывает проблемы с интерпретацией файла robots.txt поисковыми системами.

Несмотря на то, что Google заявляет, что может с этим справиться, вот две причины, чтобы предотвратить использование спецификации UTF-8:

  1. Вы не хотите, чтобы у вас возникла двусмысленность в отношении ваших предпочтений при сканировании в поисковые системы.
  2. Существуют и другие поисковые системы, которые могут быть не такими снисходительными, как утверждает Google.

Примеры robots.txt

В этой главе мы рассмотрим широкий спектр примеров файлов robots.txt:

Разрешить всем роботам доступ ко всему

Есть несколько способов сообщить поисковым системам, что они имеют доступ ко всем файлам:

Или файл robots.txt пустой, или файл robots.txt вообще отсутствует.

Запретить всем роботам доступ ко всему

Пример robots.txt ниже сообщает всем поисковым системам, что им нельзя обращаться ко всему сайту:

  Агент пользователя: *
Disallow: /  

Обратите внимание, что только ОДИН дополнительный символ может иметь решающее значение.

У всех ботов Google нет доступа

  Пользовательский агент: googlebot
Disallow: /  

Обратите внимание, что запрет на использование робота Googlebot распространяется на всех роботов Googlebot. Сюда входят роботы Google, которые ищут, например, новости ( googlebot-news ) и изображения ( googlebot-images ).

Все роботы Google, кроме новостных роботов Googlebot, не имеют доступа

  Пользовательский агент: googlebot
Запретить: /

Пользовательский агент: googlebot-news
Disallow:  

У Googlebot и Slurp нет доступа

  Агент пользователя: Slurp
Пользовательский агент: googlebot
Disallow: /  

У всех роботов нет доступа к двум каталогам

  Агент пользователя: *
Запретить: / admin /
Disallow: / private /  

Не у всех роботов есть доступ к одному конкретному файлу

  Агент пользователя: *
Запретить: / каталог / some-pdf.pdf  

У робота Googlebot нет доступа к / admin /, а у Slurp нет доступа к / private /

.
  Пользовательский агент: googlebot
Запретить: / admin /

Пользовательский агент: Slurp
Disallow: / private /  

Часто задаваемые вопросы

Файл robots.txt для WordPress

Приведенный ниже файл robots.txt специально оптимизирован для WordPress, при условии:

  • Вы не хотите, чтобы ваш раздел администратора сканировался.
  • Вы не хотите, чтобы ваши страницы результатов внутреннего поиска сканировались.
  • Вы не хотите, чтобы страницы вашего тега и автора сканировались.
  • Вы не хотите, чтобы ваша страница 404 сканировалась.
  Агент пользователя: *
Запретить: / wp-admin / # заблокировать доступ к разделу администратора
Запретить: /wp-login.php # заблокировать доступ в админку
Запретить: / search / # заблокировать доступ к страницам результатов внутреннего поиска
Запретить: *? S = * # заблокировать доступ к страницам результатов внутреннего поиска
Disallow: *? P = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Disallow: * & p = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Запретить: * & preview = * # заблокировать доступ к страницам предварительного просмотра
Запретить: / tag / # заблокировать доступ к страницам тегов
Запретить: / author / # заблокировать доступ к страницам авторов
Запретить: / 404-ошибка / # заблокировать доступ к странице 404

Карта сайта: https: // www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать в большинстве случаев, но вы должны всегда настраивать его и тестировать, чтобы убедиться, что он применим к вашей конкретной ситуации.

Файл robots.txt для Magento

Приведенный ниже файл robots.txt специально оптимизирован для Magento и сделает внутренние результаты поиска, страницы входа, идентификаторы сеансов и отфильтрованные наборы результатов, которые содержат критерии price , color , материал и size , недоступными для поисковых роботов. .

  Агент пользователя: *
Запретить: / catalogsearch /
Запретить: / поиск /
Запретить: / клиент / аккаунт / логин /
Запретить: / *? SID =
Запретить: / *? PHPSESSID =
Disallow: / *? Price =
Disallow: / * & price =
Запретить: / *? Color =
Запретить: / * & color =
Disallow: / *? Material =
Запретить: / * & материал =
Запретить: / *? Size =
Запретить: / * & size =

Карта сайта: https://www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать для большинства магазинов Magento, но вы должны всегда настраивать его и проверять, чтобы убедиться, что он применим к ваша точная ситуация.

Полезные ресурсы

Я бы всегда старался блокировать результаты внутреннего поиска в robots.txt на любом сайте, потому что эти типы поисковых URL-адресов представляют собой бесконечные и бесконечные пробелы. Робот Googlebot может попасть в ловушку робота-робота.

Каковы ограничения файла robots.txt?

Файл robots.txt содержит директивы

Несмотря на то, что robots.txt пользуется большим уважением в поисковых системах, он все же является директивой, а не предписанием.

Страницы по-прежнему отображаются в результатах поиска

Страницы, которые недоступны для поисковых систем из-за файла robots.txt, но имеют ссылки на них, могут по-прежнему отображаться в результатах поиска, если на них есть ссылки со страницы, которая просматривается. Пример того, как это выглядит:

Наконечник Pro

Эти URL-адреса можно удалить из Google с помощью инструмента удаления URL-адресов в Google Search Console. Обратите внимание, что эти URL-адреса будут только временно «скрыты». Чтобы они не попадали на страницы результатов поиска Google, вам необходимо отправлять запрос на скрытие URL-адресов каждые 180 дней.

Используйте robots.txt, чтобы заблокировать нежелательные и, вероятно, вредоносные обратные ссылки на партнерские программы. Не используйте robots.txt для предотвращения индексации контента поисковыми системами, поскольку это неизбежно приведет к сбою. Вместо этого при необходимости примените директиву noindex для роботов.

Файл robots.txt кешируется до 24 часов

Google указал, что файл robots.txt обычно кэшируется на срок до 24 часов. Это важно учитывать при внесении изменений в свои robots.txt файл.

Непонятно, как другие поисковые системы борются с кэшированием robots.txt, но в целом лучше избегать кеширования файла robots.txt, чтобы поисковым системам требовалось больше времени, чем необходимо, чтобы они могли уловить изменения.

Размер файла robots.txt

Для файлов robots.txt в настоящее время Google поддерживает ограничение на размер файла в 500 кибибайт (512 килобайт). Любое содержимое после максимального размера файла может игнорироваться.

Неясно, есть ли у других поисковых систем максимальный размер файла для роботов.txt файлы.

Часто задаваемые вопросы о robots.txt

🤖 Как выглядит пример файла robots.txt?

Вот пример содержания файла robots.txt: User-agent: * Disallow:. Это говорит всем сканерам, что они могут получить доступ ко всему.

⛔ Что делает Disallow all в robots.txt?

Когда вы устанавливаете robots.txt на «Запретить все», вы, по сути, говорите всем сканерам держаться подальше. Никакие сканеры, в том числе Google, не имеют доступа к вашему сайту.Это означает, что они не смогут сканировать, индексировать и оценивать ваш сайт. Это приведет к резкому падению органического трафика.

✅ Что делает Allow all в robots.txt?

Когда вы устанавливаете robots.txt на «Разрешить все», вы сообщаете каждому сканеру, что он может получить доступ к каждому URL-адресу на сайте. Правил приема просто нет. Обратите внимание, что это эквивалентно пустому файлу robots.txt или отсутствию файла robots.txt вообще.

🤔 Насколько важен robots.txt для SEO?

В общем, роботы.txt очень важен для SEO. Для более крупных веб-сайтов файл robots.txt необходим, чтобы дать поисковым системам очень четкие инструкции о том, к какому контенту нельзя обращаться.

Дополнительная литература

Полезные ресурсы

Часто задаваемые вопросы о robots.txt

Полное руководство по robots.txt • Yoast

Йост де Валк

Йост де Валк — основатель и директор по продуктам Yoast. Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов.Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

Файл robots.txt — это один из основных способов сообщить поисковой системе, где можно, а где нельзя переходить на ваш веб-сайт. Все основные поисковые системы поддерживают базовую функциональность, которую они предлагают, но некоторые из них реагируют на некоторые дополнительные правила, которые также могут быть полезны. В этом руководстве описаны все способы использования robots.txt на вашем веб-сайте.

Предупреждение!

Любые ошибки, которые вы делаете в своих роботах.txt может серьезно навредить вашему сайту, поэтому убедитесь, что вы прочитали и поняли всю эту статью, прежде чем углубляться в нее.

Что такое файл robots.txt?

Директивы сканирования

Файл robots.txt является одной из нескольких директив сканирования. У нас есть руководства по всем из них, и вы найдете их здесь.

Файл robots.txt — это текстовый файл, который читается поисковой системой (и другими системами). Файл robots.txt, также называемый «протоколом исключения роботов», является результатом консенсуса между разработчиками первых поисковых систем.Это не официальный стандарт, установленный какой-либо организацией по стандартизации; хотя его придерживаются все основные поисковые системы.

Для чего нужен файл robots.txt?

Кэширование

Поисковые системы обычно кэшируют содержимое файла robots.txt, чтобы не загружать его постоянно, но обычно обновляют его несколько раз в день. Это означает, что изменения в инструкциях обычно отражаются довольно быстро.

Поисковые системы обнаруживают и индексируют Интернет путем сканирования страниц.По мере того как они ползут, они находят ссылки и переходят по ним. Это переведет их с сайта A, , сайта , сайта B, , сайта , сайта C, и так далее. Но прежде чем поисковая система посетит любую страницу в домене, с которым она раньше не сталкивалась, она откроет файл robots.txt этого домена. Это позволяет им узнать, какие URL-адреса на этом сайте им разрешено посещать (а какие — нет).

Куда мне поместить файл robots.txt?

Файл robots.txt всегда должен находиться в корне вашего домена.Итак, если ваш домен www.example.com , его нужно найти по адресу https://www.example.com/robots.txt .

Также очень важно, чтобы ваш файл robots.txt на самом деле назывался robots.txt. Имя чувствительно к регистру, так что сделайте это правильно, иначе оно просто не сработает.

Плюсы и минусы использования robots.txt

Pro: управление краулинговым бюджетом

Обычно считается, что поисковый паук попадает на веб-сайт с заранее определенным «допуском» в отношении того, сколько страниц он будет сканировать (или сколько ресурсов / времени он потратит, в зависимости от авторитета / размера / репутации сайта, и насколько эффективно сервер отвечает).Оптимизаторы называют это обходным бюджетом .

Если вы считаете, что у вашего веб-сайта проблемы с бюджетом сканирования, то блокировка поисковых систем от «траты энергии» на несущественные части вашего сайта может означать, что они вместо этого сосредотачиваются на разделах, которые имеют значение и .

Иногда может быть полезно заблокировать поисковые системы от сканирования проблемных разделов вашего сайта, особенно на сайтах, где требуется большая очистка SEO. После того, как вы наведете порядок, вы можете позволить им вернуться.

Примечание о блокировке параметров запроса

Одна ситуация, когда бюджет сканирования особенно важен, — это когда ваш сайт использует множество параметров строки запроса для , фильтрует или сортирует перечисляет . Предположим, у вас есть 10 различных параметров запроса, каждый с разными значениями, которые можно использовать в любой комбинации (например, футболки с несколькими цветами s и размера s). Это приводит к множеству возможных действительных URL-адресов, и все они могут быть просканированы.Блокировка параметров запроса от сканирования поможет убедиться, что поисковая система будет сканировать только основные URL-адреса вашего сайта и не попадет в огромную ловушку, которую вы в противном случае создали бы.

Con: не удалять страницу из результатов поиска

Даже если вы можете использовать файл robots.txt, чтобы сообщить пауку, где он не может перейти на ваш сайт, вы, , не можете, использовать его, чтобы сообщить поисковой системе, какие URL-адреса не показывать в результатах поиска — другими словами , его блокировка не помешает его индексации.Если поисковая система найдет достаточно ссылок на этот URL, она включит его, но просто не будет знать, что на этой странице. Итак, ваш результат будет выглядеть так:

Если вы хотите надежно заблокировать отображение страницы в результатах поиска, вам необходимо использовать мета-тег robots noindex . Это означает, что для того, чтобы найти тег noindex , поисковая система должна иметь доступ к этой странице, поэтому не блокирует с помощью robots.txt.

Директивы Noindex

Раньше можно было добавлять директивы noindex в файл robots.txt, чтобы удалить URL-адреса из результатов поиска Google и избежать появления этих «фрагментов». Это больше не поддерживается (и технически никогда не поддерживалось).

Con: не распространяется значение ссылки

Если поисковая система не может сканировать страницу, она не может распределять значение ссылки по ссылкам на этой странице. Когда страница заблокирована с помощью robots.txt, это тупиковый путь. Любое значение ссылки, которая могла перейти на эту страницу (и через нее), теряется.

Синтаксис Robots.txt

WordPress robots.txt

У нас есть целая статья о том, как лучше всего настроить robots.txt для WordPress. Не забывайте, что вы можете редактировать файл robots.txt своего сайта в разделе Инструменты SEO Yoast → Редактор файлов.

Файл robots.txt состоит из одного или нескольких блоков директив, каждый из которых начинается со строки пользовательского агента. «Пользовательский агент» — это имя конкретного паука, к которому он обращается. У вас может быть один блок для всех поисковых систем, используя подстановочный знак для пользовательского агента, или определенные блоки для определенных поисковых систем.Паук поисковой системы всегда выбирает блок, который лучше всего соответствует его названию.

Эти блоки выглядят так (не пугайтесь, объясним ниже):

 User-agent: * 
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: / not-for-bing /

Директивы

, такие как Allow и Disallow не должны быть чувствительны к регистру, поэтому вам решать, писать ли вы их в нижнем регистре или использовать в верхнем регистре.Значения чувствительны к регистру , однако / photo / не то же самое, что / Photo / . Нам нравится использовать директивы с заглавной буквы, потому что это облегчает чтение файла (для людей).

Директива агента пользователя

Первый бит каждого блока директив — это пользовательский агент, который идентифицирует конкретного паука. Поле user-agent сопоставляется с user-agent этого конкретного паука (обычно более длинного), поэтому, например, у самого распространенного паука от Google есть следующий user-agent:

 Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) 

Итак, если вы хотите сказать этому пауку, что делать, сравнительно простая строка User-agent: Googlebot сделает свое дело.

У большинства поисковых систем есть несколько пауков. Они будут использовать специальный паук для своего обычного индекса, для своих рекламных программ, для изображений, для видео и т. Д.

Поисковые системы всегда выбирают наиболее конкретный блок директив, который они могут найти. Допустим, у вас есть 3 набора директив: один для * , один для Googlebot и один для Googlebot-News .Если приходит бот, пользовательский агент которого Googlebot-Video , он будет следовать ограничениям Googlebot . Бот с пользовательским агентом Googlebot-News будет использовать более конкретные директивы Googlebot-News .

Наиболее распространенные пользовательские агенты для пауков поисковых систем

Вот список пользовательских агентов, которые можно использовать в файле robots.txt для поиска наиболее часто используемых поисковых систем:

bingbot 9023 9023 adbot-media Google Ads 902 Google Новости
Поисковая система Поле Агент пользователя
Baidu General baiduspider
Baidu Baidu изображения Мобильный baiduspider-mobile
Baidu Новости baiduspider-news
Baidu Видео
Bing Общий msnbot
Bing Изображения и видео msnbot-media
Общие Googlebot
Google Изображения Googlebot-Image
Google Mobile Googlebot-Mobile 3
Google Видео Googlebot-Video
Google AdSense Mediapartners-Google
Google6 Общие slurp
Яндекс Общие яндекс

Директива disallow

Вторая строка в любом блоке директив — это строка Disallow .У вас может быть одна или несколько таких строк, указывающих, к каким частям сайта указанный паук не может получить доступ. Пустая строка Disallow означает, что вы ничего не запрещаете, поэтому в основном это означает, что паук может получить доступ ко всем разделам вашего сайта.

В приведенном ниже примере блокируются все поисковые системы, которые «слушают» robots.txt, от сканирования вашего сайта.

 Агент пользователя: * 
Disallow: /

Если всего на один символ меньше, то в приведенном ниже примере позволит всем поисковым системам сканировать весь ваш сайт.

 Агент пользователя: * 
Disallow:

В приведенном ниже примере Google не сможет сканировать каталог Photo на вашем сайте — и все, что в нем.

 User-agent: googlebot 
Disallow: / Photo

Это означает, что все подкаталоги каталога / Photo также не будут проверяться. Это , а не , заблокировало бы Google от сканирования каталога / photo , поскольку эти строки чувствительны к регистру.

Это также заблокировало бы Google доступ к URL-адресам, содержащим / Photo , например / Photography / .

Как использовать подстановочные знаки / регулярные выражения

«Официально» стандарт robots.txt не поддерживает регулярные выражения или подстановочные знаки, однако все основные поисковые системы его понимают. Это означает, что вы можете использовать такие строки для блокировки групп файлов:

 Запрещено: /*.php 
Запрещено: /copyrighted-images/*.jpg

В приведенном выше примере * заменяется на любое имя файла, которому оно соответствует. Обратите внимание, что остальная часть строки по-прежнему чувствительна к регистру, поэтому вторая строка выше не будет блокировать файл с именем / copyrighted-images / example.JPG от сканирования.

Некоторые поисковые системы, такие как Google, позволяют использовать более сложные регулярные выражения, но имейте в виду, что некоторые поисковые системы могут не понимать эту логику. Самая полезная функция, которую он добавляет, — это долларов США, обозначающее конец URL-адреса. В следующем примере вы можете увидеть, что это делает:

 Запрещено: /*.php$ 

Это означает, что /index.php не может быть проиндексирован, но /index.php?p=1 может быть .Конечно, это полезно только в очень определенных обстоятельствах, а также довольно опасно: легко разблокировать то, что вы на самом деле не хотели разблокировать.

Нестандартные директивы сканирования robots.txt

Помимо директив Disallow и User-agent , вы можете использовать еще несколько директив сканирования. Эти директивы поддерживаются не всеми сканерами поисковых систем, поэтому убедитесь, что вы знаете об их ограничениях.

Разрешающая директива

Хотя это и не входило в исходную «спецификацию», очень рано говорилось о директиве allow .Кажется, что большинство поисковых систем понимают это, и он допускает простые и очень удобочитаемые директивы, такие как:

 Запретить: / wp-admin / 
Разрешить: /wp-admin/admin-ajax.php

Единственный другой способ достичь того же результата без директивы allow — это специально запретить каждый отдельный файл в папке wp-admin .

Директива хоста

Поддерживается Яндексом (а не Google, несмотря на то, что говорится в некоторых сообщениях), эта директива позволяет вам решить, хотите ли вы, чтобы поисковая система показывала пример .com или www.example.com . Просто укажите это так:

 хост: example.com 

Но поскольку только Яндекс поддерживает директиву host , мы не советуем вам полагаться на нее, тем более что она не позволяет вам определять схему (http или https). Лучшее решение, которое работает для всех поисковых систем, — это 301 перенаправление имен хостов, которые не нужны для в индексе, на версию, которая нужна вам и .В нашем случае мы перенаправляем www.yoast.com на yoast.com.

Директива о задержке сканирования

Bing и Яндекс иногда могут быть довольно голодными, но, к счастью, все они реагируют на директиву crawl-delay , которая их замедляет. И хотя эти поисковые системы имеют несколько разные способы чтения директивы, конечный результат в основном тот же.

Строка, подобная приведенной ниже, заставит эти поисковые системы изменить частоту запроса страниц на вашем сайте.

 задержка сканирования: 10 
Различные интерпретации

Обратите внимание, что Bing интерпретирует это как инструкцию подождать 10 секунд после сканирования, в то время как Яндекс интерпретирует ее как указание на доступ к вашему сайту только один раз в 10 секунд. Это семантическая разница, но все же интересно узнать.

Будьте осторожны при использовании директивы crawl-delay . Установив задержку сканирования в 10 секунд, вы разрешите этим поисковым системам доступ только к 8 640 страницам в день.Для небольшого сайта этого может показаться много, но для крупных сайтов не так уж много. С другой стороны, если вы почти не получаете трафика от этих поисковых систем, это хороший способ сэкономить часть полосы пропускания.

Директива карты сайта для XML-файлов Sitemap

Используя директиву sitemap , вы можете указать поисковым системам, в частности Bing, Яндекс и Google, где найти вашу карту сайта в формате XML. Вы, конечно, также можете отправить свои XML-карты сайта в каждую поисковую систему, используя соответствующие инструменты для веб-мастеров, и мы настоятельно рекомендуем вам это сделать, потому что программы инструментов для веб-мастеров поисковых систем предоставят вам много ценной информации о вашем сайте.

Leave a Reply