Ошибки, часто встречающиеся в файле robots.txt — Robots.Txt по-русски
Непосредственно ошибки
Перепутанные инструкции
Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:
User-agent: /
Disallow: Yandex
Правильно писать вот так:
User-agent: Yandex
Disallow: /
Указание нескольких каталогов в одной инструкции Disallow
Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.
Disallow: /css/ /cgi-bin/ /images/
Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.
Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
Имя файла содержит заглавные буквы
Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt
Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent
Так неправильно:
User-agent:
Disallow:
Так правильно:
User-agent: *
Disallow:
Url в директиве Host
Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
Неправильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/
Правильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки
Иногда хочется написать что-то вроде:
User-agent: *
Disallow: file*.html
для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль
Комментарии на одной строке с инструкциями
По стандарту, такая запись вполне возможна:
Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin
В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:
Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль
USER-AGENT: GOOGLEBOT
DISALLOW:
Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.
User-agent: googlebot
Disallow:
Перечисление всех файлов
Еще одной ошибкой является перечисление каждого файла в директории:
User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Вместо этого можно просто закрыть от индексации директорию целиком:
User-agent: *
Disallow: /AL/
Disallow: /Az/
Инструкции Allow не существует! [перевод устаревший]
Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетcя и Гуглом, и Яндексом. Уточняйте по использованию для других роботов.
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Отдельные роботы (например googlebot) понимают директиву Allow
Так неправильно:
User-agent: Yandex
Disallow: /john/
Allow: /jane/
А вот так – правильно:
User-agent: Yandex
Disallow: /john/
Disallow:
Использование дополнительных директив в секции *
Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».
Так неправильно:
User-agent: *
Disallow: /css/
Host: www.example.com
А вот так – правильно:
User-agent: *
Disallow: /css/User-agent: Yandex
Disallow: /css/
Host: www.example.com
Отсутствие инструкции Disallow
Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».
Так неправильно:
User-agent: Yandex
Host: www.example.com
Так правильно:
User-agent: Yandex
Disallow:
Host: www.example.com
Обсуждение этого вопроса на Searchengines.ru
Отсутствие слешей при указании директории
Как в этом случае поступит робот?
User-agent: Yandex
Disallow: john
По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:
User-agent: Yandex
Disallow: /john/
Неправильный http-заголовок
Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.
robots.txt | Вопросы-ответы на Wiki
Внимание!
Директивы, указанные в файлеrobots.txt
, являются лишь рекомендациями для ботов, они не гарантируют их выполнение отдельными сервисами.
Файл robots.txt
состоит из групп правил, которые определяют поведение роботов на сайте.
Важные моменты:
Каждая группа может содержать несколько одинаковых правил. К примеру, это удобно для указания нескольких роботов или страниц.
Группа правил должна быть в следующем порядке и состоять из указанных директив:
User-agent
— обязательная директива, может быть указана множество раз в одной группе правил.
иAllow
— обязательные директивы. Как минимум одна из них должна быть указана в каждой группе правил.Host
,Crawl-delay
,Sitemap
— необязательные директивы.
Для указания регулярных выражений используются:
Внимание!
Стоит учитывать, что указываемые в правилах адреса или имена чувствительны к регистру. УказаниеExample
и example
будет давать разный результат.
Директива User-agent
определяет имя робота, на которого будет распространяться правило. Для указания всех роботов можно использовать:
User-agent: *
Если данная директива будет указана с определенным именем робота — правило с *
будет проигнорировано.
Указанные директивы разрешат доступ роботу с именем Googlebot
и запретят остальным:
User-agent: * Disallow: / User-agent: Googlebot Disallow:
Директива Disallow
определяет страницы, к которым запрещён доступ роботов.
Запретить доступ ко всему сайту можно, указав:
Disallow: /
Запрет к отдельным страницам можно указать так:
Disallow: /admin
Внимание!
При указании/admin
доступ будет запрещён к каталогу admin
и файлам с таким именем, например admin.php
и
admin.html
. Для запрета доступа только к каталогу можно указать /admin/
.
Директива Allow
определяет страницы, к которым запрещён доступ роботов. Директива используется для создания исключений при указании Disallow
.
Следующее правило указывает заблокировать для робота Googlebot
весь сайт, кроме каталога pages
:
User-agent: Googlebot Disallow: / Allow: /pages/
Директива Host
определяет основной домен сайта. Директива полезна, если к сайту привязано несколько доменных имён и для корректной поисковой индексации, таким образом, можно указать, какой домен будет являться основным, чтобы остальные домены были определены как зеркала, технические адреса и т. д.
Пример использования директивы в рамках сайта с доменами example.com
и domain.com
, где для всех роботов example.com
будет основным доменом:
User-agent: * Disallow: Host: domain.com
Директива Crawl-delay
определяет интервал между окончанием загрузки одной страницы и началом загрузки следующей для роботов. Данная директива полезна для уменьшения запросов к сайту, что помогает снизить нагрузку на сервер. Интервал указывается в секундах.
Пример использования:
User-Agent: * Disallow: Crawl-delay: 3
Директива Sitemap
протокол://адрес/путь/к/sitemap
.
Пример использования:
Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
Внимание!
Для реализации существующий файлrobots.txt
должен быть удалён, а также в настройках сайта должен быть установлен параметр «Передавать запросы на бекенд в случае, если файл не найден» или расширение txt
должно быть удалено из статических файлов.robots\.txt$ %{HTTP_HOST}-robots.txt [L]
Проверьте вывод правил по каждому из доменов.
robots.txt функция Allow (То что никак не могу понять)
Немного не понимаю — в стандартном файле Drupal robots.txt есть что нельзя сканировать:
# DirectoriesDisallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /cron.php
Disallow: /update.php
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/password/
Disallow: /user/logout/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/
И что нужно принудительно сканировать:
# CSS, JS, Images
Allow: /misc/*.css$
Allow: /misc/*.css?
Allow: /misc/*.js$
Allow: /misc/*.js?
Allow: /misc/*.gif
Allow: /misc/*.jpg
Allow: /misc/*.jpeg
Allow: /misc/*.png
Allow: /modules/*.css$
Allow: /modules/*.css?
Allow: /modules/*.js$
Allow: /modules/*.js?
Allow: /modules/*.gif
Allow: /modules/*.jpg
Allow: /modules/*.jpeg
Allow: /modules/*.png
Allow: /profiles/*.css$
Allow: /profiles/*.css?
Allow: /profiles/*.js$
Allow: /profiles/*.js?
Allow: /profiles/*.gif
Allow: /profiles/*.jpg
Allow: /profiles/*.jpeg
Allow: /profiles/*.png
Allow: /themes/*.css$
Allow: /themes/*.css?
Allow: /themes/*.js$
Allow: /themes/*.js?
Allow: /themes/*.gif
Allow: /themes/*.jpg
Allow: /themes/*.jpeg
Allow: /themes/*.png
А остальной контент потом сканируется, или как оно работает ?
или просто будет правильнее удалить все Allow: /misc/*.css$… и оставить то чего нельзя сканировать ?
что означает и как правильно использовать
В данной статье речь пойдет о самых популярных директивах Dissalow и Allow в файле robots.txt.
Disallow
Disallow – директива, запрещающая индексирование отдельных страниц, групп страниц, их отдельных файлов и разделов сайта(папок). Это наиболее часто используемая директива, которая исключает из индекса:
- страницы с результатами поиска на сайте;
- страницы посещаемости ресурса;
- дубли;
- сервисные страницы баз данных;
- различные логи;
- страницы, содержащие персональные данные пользователей.
Примеры директивы Disallow в robots.txt:
# запрет на индексацию всего веб-ресурса
User-agent: Yandex
Disallow: /
# запрет на обход страниц, адрес которых начинается с /category
User-agent: Yandex
Disallow: /category
# запрет на обход страниц, URL которых содержит параметры
User-agent: Yandex
Disallow: /page?
# запрет на индексацию всего раздела wp-admin
User-agent: Yandex
Disallow: /wp-admin
# запрет на индексацию подраздела plugins
User-agent: Yandex
Disallow: /wp-content/plugins
# запрет на индексацию конкретного изображения в папке img
User-agent: Yandex
Disallow: /img/images.jpg
# запрет индексации конкретного PDF документа
User-agent: Yandex
Disallow: /dogovor.pdf
# запрет на индексацию не только /my, но и /folder/my или /folder/my
User-agent: Yandex
Disallow: /*my
Правило Disallow работает с масками, позволяющими проводить операции с группами файлов или папок.
После данной директивы необходимо ставить пробел, а в конце строки пробел недопустим. В одной строке с Disallow через пробел можно написать комментарий после символа “#”.
Allow
В отличие от Disallow, данное указание разрешает индексацию определенных страниц, разделов или файлов сайта. У директивы Allow схожий синтаксис, что и у Disallow.
Хотя окончательное решение о посещении вашего сайта роботами принимает поисковая система, данное правило дополнительно призывает их это делать.
Примеры Allow в robots.txt:
# разрешает индексацию всего каталога /img/
User-agent: Yandex
Allow: /img/
# разрешает индексацию PDF документа
User-agent: Yandex
Allow: /prezentaciya.pdf
# открывает доступ к индексированию определенной HTML страницы
User-agent: Yandex
Allow: /page.html
# разрешает индексацию по маске *your
User-agent: Yandex
Allow: /*your
# запрещает индексировать все, кроме страниц, начинающихся с /cgi-bin
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
Для директивы применяются аналогичные правила, что и для Disallow.
Совместная интерпретация директив
Поисковые системы используют Allow и Disallow из одного User-agent блока последовательно, сортируя их по длине префикса URL, начиная от меньшего к большему. Если для конкретной страницы веб-сайта подходит применение нескольких правил, поисковый бот выбирает последний из списка. Поэтому порядок написания директив в robots никак не сказывается на их использовании роботами.
На заметку. Если директивы имеют одинаковую длину префиксов и при этом конфликтуют между собой, то предпочтительнее будет Allow.
Пример robots.txt написанный оптимизатором:
User-agent: Yandex
Allow: /
Allow: /catalog/phones
Disallow: /catalog
Пример отсортированного файл robots.txt поисковой системой:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/phones
# запрещает посещать страницы, начинающиеся с /catalog,
# но разрешает индексировать страницы, начинающиеся с /catalog/phones
Пустые Allow и Disallow
Когда в директивах отсутствуют какие-либо параметры, поисковый бот интерпретирует их так:
# то же, что и Allow: / значит разрешает индексировать весь сайт
User-agent: Yandex
Disallow:
# не учитывается роботом
User-agent: Yandex
Allow:
Специальные символы в директивах
В параметрах запрещающей директивы Disallow и разрешающей директивы Allow можно применять специальные символы “$” и “*”, чтобы задать конкретные регулярные выражения.
Специальный символ “*” разрешает индексировать все страницы с параметром, указанным в директиве. К примеру, параметр /katalog* значит, что для ботов открыты страницы /katalog, /katalog-tovarov, /katalog-1 и прочие. Спецсимвол означает все возможные последовательности символов, даже пустые.
Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает /cgi-bin/example.aspx
# и /cgi-bin/private/test.aspx
Disallow: /*private # запрещает не только /private
# но и /cgi-bin/private
По стандарту в конце любой инструкции, описанной в Robots, указывается специальный символ “*”, но делать это не обязательно.
Пример:
User-agent: Yandex
Disallow: /cgi-bin* # закрывает доступ к страницам
# начинающимся с /cgi-bin
Disallow: /cgi-bin # означает то же самое
Для отмены данного спецсимвола в конце директивы применяют другой спецсимвол – “$”.
Пример:
User-agent: Yandex
Disallow: /example$ # закрывает /example,
# но не запрещает /example.html
User-agent: Yandex
Disallow: /example # запрещает и /example
# и /example.html
На заметку. Символ “$” не запрещает прописанный в конце “*”.
Пример:
User-agent: Yandex
Disallow: /example$ # закрывает только /example
Disallow: /example*$ # аналогично, как Disallow: /example
# запрещает и /example.html и /example
Более сложные примеры:
User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает HTML файлы
# по пути /obsolete/private/...
Disallow: /*.php$ # запрещает все *.php на сайте
Disallow: /*/private/ # запрещает все подпути содержащие /private/
# но Allow выше отменяет часть запрета
Disallow: /*/old/*.zip$ # запрещает все .zip файлы, содержащие в пути /old/
User-agent: Yandex
Disallow: /add.php?*user=
# запрещает все скрипты add.php? с параметром user
Примеры совместного применения Allow и Disallow
User-agent: Yandex
Allow: /
Disallow: /
# разрешено индексировать весь веб-ресурс
User-agent: Yandex
Allow: /$
Disallow: /
# запрещено включать в индекс все, кроме главной страницы
User-agent: Yandex
Disallow: /private*html
# заблокирован и /private*html,
# и /private/test.html, и /private/html/test.aspx и т.п.
User-agent: Yandex
Disallow: /private$
# запрещается только /private
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
# так как робот Яндекса
# выделяет записи по наличию его названия в строке User-agent:
# тогда весь сайт будет доступен для индексирования
Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.
Запрет индексации в robots.txt | REG.RU
Чтобы убрать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. Тогда контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.
Зачем нужен запрет индексации сайта через robots.txt
Первое время после публикации сайта о нем знает только ограниченное число пользователей. Например, разработчики или клиенты, которым компания прислала ссылку на свой веб-ресурс. Чтобы сайт посещало больше людей, он должен попасть в базы поисковых систем.
Чтобы добавить новые сайты в базы, поисковые системы сканируют интернет с помощью специальных программ (поисковых роботов), которые анализируют содержимое веб-страниц. Этот процесс называется индексацией.
После того как впервые пройдет индексация, страницы сайта начнут отображаться в поисковой выдаче. Пользователи увидят их в процессе поиска информации в Яндекс и Google — самых популярных поисковых системах в рунете. Например, по запросу «заказать хостинг» в Google пользователи увидят ресурсы, которые содержат соответствующую информацию:
Однако не все страницы сайта должны попадать в поисковую выдачу. Есть контент, который интересен пользователям: статьи, страницы услуг, товары. А есть служебная информация: временные файлы, документация к ПО и т. п. Если полезная информация в выдаче соседствует с технической информацией или неактуальным контентом — это затрудняет поиск нужных страниц и негативно сказывается на позиции сайта. Чтобы «лишние» страницы не отображались в поисковых системах, их нужно закрывать от индексации.
Кроме отдельных страниц и разделов, веб-разработчикам иногда требуется убрать весь ресурс из поисковой выдачи. Например, если на нем идут технические работы или вносятся глобальные правки по дизайну и структуре. Если не скрыть на время все страницы из поисковых систем, они могут проиндексироваться с ошибками, что отрицательно повлияет на позиции сайта в выдаче.
Для того чтобы частично или полностью убрать контент из поиска, достаточно сообщить поисковым роботам, что страницы не нужно индексировать. Для этого необходимо отключить индексацию в служебном файле robots.txt. Файл robots.txt — это текстовый документ, который создан для «общения» с поисковыми роботами. В нем прописываются инструкции о том, какие страницы сайта нельзя посещать и анализировать, а какие — можно.
Прежде чем начать индексацию, роботы обращаются к robots.txt на сайте. Если он есть — следуют указаниям из него, а если файл отсутствует — индексируют все страницы без исключений. Рассмотрим, каким образом можно сообщить поисковым роботам о запрете посещения и индексации страниц сайта. За это отвечает директива (команда) Disallow.
Как запретить индексацию сайта
О том, где найти файл robots.txt, как его создать и редактировать, мы подробно рассказали в статье. Если кратко — файл можно найти в корневой папке. А если он отсутствует, сохранить на компьютере пустой текстовый файл под названием robots.txt и загрузить его на хостинг. Или воспользоваться плагином Yoast SEO, если сайт создан на движке WordPress.
Чтобы запретить индексацию всего сайта:
-
1.
Откройте файл robots.txt.
-
2.
Добавьте в начало нужные строки.
- Чтобы закрыть сайт во всех поисковых системах (действует для всех поисковых роботов):
User-agent: * Disallow: /
- Чтобы запретить индексацию в конкретной поисковой системе (например, в Яндекс):
User-agent: Yandex Disallow: /
- Чтобы закрыть от индексации для всех поисковиков, кроме одного (например, Google)
User-agent: * Disallow: / User agent: Googlebot Allow: /
-
3.
Сохраните изменения в robots.txt.
Готово. Ресурс пропадет из поисковой выдачи выбранных ПС.
Запрет индексации папки
Гораздо чаще, чем закрывать от индексации весь веб-ресурс, веб-разработчикам требуется скрывать отдельные папки и разделы.
Чтобы запретить поисковым роботам просматривать конкретный раздел:
-
1.
Откройте robots.txt.
-
2.
Укажите поисковых роботов, на которых будет распространяться правило. Например:
- Все поисковые системы:
— Запрет только для Яндекса:
-
3.
Задайте правило Disallow с названием папки/раздела, который хотите запретить:
Где вместо catalog — укажите нужную папку.
-
4.
Сохраните изменения.
Готово. Вы закрыли от индексации нужный каталог. Если требуется запретить несколько папок, последовательно пропишите для каждой директиву Disallow.
Как закрыть служебную папку wp-admin в плагине Yoast SEOКак закрыть страницу от индексации в robots.txt
Если нужно закрыть от индексации конкретную страницу (например, с устаревшими акциями или неактуальными контактами компании):
-
1.
Откройте файл robots.txt на хостинге или используйте плагин Yoast SEO, если сайт на WordPress.
-
2.
Укажите, для каких поисковых роботов действует правило.
-
3.
Задайте директиву Disallow и относительную ссылку (то есть адрес страницы без домена и префиксов) той страницы, которую нужно скрыть. Например:
User-agent: * Disallow: /catalog/page.html
Где вместо catalog — введите название папки, в которой содержится файл, а вместо page.html — относительный адрес страницы.
-
4.
Сохраните изменения.
Готово. Теперь указанный файл не будет индексироваться и отображаться в результатах поиска.
Помогла ли вам статья?
1
раз уже
помогла
Что такое robots.txt и как его настроить
Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.
По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге.
Что такое robots.txt
Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации.
Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.
Комьюнити теперь в Телеграм
Подпишитесь и будьте в курсе последних IT-новостей
ПодписатьсяЗачем нам нужен этот файл
Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:
- дубли страниц;
- служебные файлы;
- файлы, которые бесполезны для посетителей;
- страницы с неуникальным контентом.
Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано.
Настройка директивов robots.txt
Директивы — это правила для роботов. И эти правила пишем мы.
User-agent
Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него.
Пример:
User-agent: Yandex
Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:
User-agent: *
Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.
Disallow и Allow
С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.
Пример:
Allow: /category/
Даем рекомендацию, чтобы индексировались категории.
Disallow: /
А вот так от индексации будет закрыт весь сайт.
Также существуют операторы, которые помогают уточнить наши правила.
- * – звездочка означает любую последовательность символов (либо отсутствие символов).
- $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.
Disallow: /category/$ # закрываем только страницу категорий Disallow: /category/* # закрываем все страницы в папке категории
Sitemap
Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap.
Пример:
Sitemap: http://site.ru/sitemap.xml
Директива host уже устарела, поэтому о ней говорить не будем.
Crawl-delay
Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.
Пример:
Crawl-delay: 10
Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.
Clean-param
Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы.
Пример:
Clean-Param: utm_source&utm_medium&utm_campaign
Как закрыть сайт от индексации
Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:
User-agent: * Disallow: /
Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.
Проверка файла robots
Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера.
Переходим в инструмент, вводим домен и содержимое вашего файла.
Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.
Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.
Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется.
Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.
Правильный robots.txt для WordPress
Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами.
User-agent: * Disallow: /cgi-bin # папка на хостинге Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp- Disallow: /xmlrpc.php # файл WordPress API Disallow: /*? # поиск Disallow: /?s= # поиск Allow: /*.css # стили Allow: /*.js # скрипты Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)
Правильный robots.txt для Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Sitemap: https://site.ru/sitemap.xml
Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.
Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.
Веб-сканер— Robots.txt: разрешить только основной веб-сканер SE
— Robots.txt: разрешить только основной SE – 1 Ответспросил
Просмотрено 25 тысяч раз
Есть ли способ настроить файл robots.txt, чтобы сайт принимал посещения ТОЛЬКО из Google, Yahoo! и пауки MSN?
Кара5,9751616 золотых знаков4949 серебряных знаков5656 бронзовых знаков
спросил 22 мар, 2009 в 19:30
6Пользовательский агент: * Запретить: / Агент пользователя: Googlebot Разрешать: / Агент пользователя: Slurp Разрешать: / Агент пользователя: msnbot Запретить:
Slurp — робот Yahoo
.ответ дан 22 мар 2009 в 19:38
НойДНоаД7,62244 золотых знака2424 серебряных знака2828 бронзовых знаков
3Почему?
Любой, делающий зло (т.g., сбор адресов электронной почты для спама) просто проигнорирует robots.txt. Таким образом, вы будете блокировать только законные поисковые системы, поскольку соответствие robots.txt является добровольным.
Но — если вы все равно настаиваете на этом — для этого предназначена строка User-Agent:
в файле robots.txt.
Агент пользователя: googlebot
Запретить:
Пользовательский агент: *
Запретить: /
Конечно, со строками для всех других поисковых систем, от которых вам нужен трафик. Robotstxt.org имеет неполный список.
ответ дан 22 мар 2009 в 19:35
деробертдероберт47.7k1111 золотых знаков9090 серебряных знаков122122 бронзовых знака
3Существует более 3 основных поисковых систем в зависимости от того, о какой стране идет речь.Facebook, кажется, хорошо справляется со списком только законных: https://facebook.com/robots.txt
Таким образом, ваш файл robots.txt может иметь вид:
. Агент пользователя: Applebot
Разрешать: /
Агент пользователя: baiduspider
Разрешать: /
Агент пользователя: Bingbot
Разрешать: /
Агент пользователя: Facebot
Разрешать: /
Агент пользователя: Googlebot
Разрешать: /
Агент пользователя: msnbot
Разрешать: /
Агент пользователя: Naverbot
Разрешать: /
Агент пользователя: seznambot
Разрешать: /
Агент пользователя: Slurp
Разрешать: /
Агент пользователя: teoma
Разрешать: /
Агент пользователя: Twitterbot
Разрешать: /
User-agent: Яндекс
Разрешать: /
Агент пользователя: Йети
Разрешать: /
Пользовательский агент: *
Запретить: /
ответ дан 23 июн 2018 в 1:01
цыплята14.1k44 золотых знака4646 серебряных знаков4949 бронзовых знаков
Как всем известно, файл robots.txt является стандартом, которому должен подчиняться сканер, и поэтому его соблюдают только хорошо ведущие себя агенты. Так что ставить или нет не имеет значения.
Если у вас есть какие-то данные, которые вы тоже не показываете на сайте, вы можете просто изменить разрешение и повысить безопасность.
ответ дан 23 окт 2012 в 19:07
мткмтк12.3k1515 золотых знаков6969 серебряных знаков109109 бронзовых знаков
Stack Overflow лучше всего работает с включенным JavaScriptВаша конфиденциальность
Нажимая «Принять все файлы cookie», вы соглашаетесь с тем, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой использования файлов cookie.
Принять все файлы cookie Настроить параметры
Как использовать robots.txt для разрешения или запрета всего
Роботы.txt — это файл, расположенный в корневом домене.
Это простой текстовый файл, основной целью которого является указание поисковым роботам и поисковым роботам файлов и папок, от которых следует держаться подальше.
Роботы поисковых систем — это программы, которые посещают ваш сайт и переходят по ссылкам на нем, чтобы узнать о ваших страницах. Примером может служить поисковый робот Google, который называется Googlebot.
Обычно боты проверяют файл robots.txt перед посещением вашего сайта. Они делают это, чтобы узнать, разрешено ли им сканировать сайт и есть ли вещи, которых следует избегать.
Файл robots.txt следует поместить в каталог верхнего уровня вашего домена, например, example.com/robots.txt.
Лучший способ отредактировать его — войти на свой веб-хост через бесплатный FTP-клиент, такой как FileZilla, а затем отредактировать файл с помощью текстового редактора, такого как Блокнот (Windows) или TextEdit (Mac).
Если вы не знаете, как войти на сервер через FTP, обратитесь в свою хостинговую компанию за инструкциями.
Некоторые плагины, такие как Yoast SEO, также позволяют редактировать файлы robots.txt из панели управления WordPress.
Как запретить всем использовать robots.txt
Если вы хотите, чтобы все роботы держались подальше от вашего сайта, то этот код вы должны поместить в свой robots.txt, чтобы запретить все:
Агент пользователя: *
Запретить: /
Часть «User-agent: *» означает, что она применяется ко всем роботам. Часть «Запретить: /» означает, что она применяется ко всему вашему сайту.
По сути, это сообщит всем роботам и поисковым роботам, что им не разрешен доступ к вашему сайту или его сканирование.
Важно: Запрет всех роботов на действующем веб-сайте может привести к удалению вашего сайта из поисковых систем и потере трафика и доходов. Используйте это, только если вы знаете, что делаете!
Как разрешить все
Robots.txt работает преимущественно путем исключения. Вы исключаете файлы и папки, к которым не хотите получать доступ, все остальное считается разрешенным.
Если вы хотите, чтобы боты могли сканировать весь ваш сайт, вы можете просто иметь пустой файл или вообще не иметь файла.
Или вы можете поместить это в свой файл robots.txt, чтобы разрешить все:
Агент пользователя: *
Запретить:
Это интерпретируется как ничего не запрещающее, поэтому фактически разрешено все.
Как запретить определенные файлы и папки
Вы можете использовать команду «Запретить:», чтобы заблокировать отдельные файлы и папки.
Вы просто помещаете отдельную строку для каждого файла или папки, которые хотите запретить.
Вот пример:
Агент пользователя: *
Запретить: /topsy/
Запретить: /crets/
Запретить: /скрытый/файл.HTML
В этом случае разрешено все, кроме двух подпапок и одного файла.
Как запретить определенных ботов
Если вы просто хотите заблокировать сканирование одного конкретного бота, то вы делаете это так:
Агент пользователя: Bingbot
Запретить: /
Пользовательский агент: *
Запретить:
Это заблокирует поисковый робот Bing от сканирования вашего сайта, но другим ботам будет разрешено сканировать все.
Вы можете сделать то же самое с Googlebot, используя «User-agent: Googlebot».
Вы также можете запретить определенным ботам доступ к определенным файлам и папкам.
Хороший файл robots.txt для WordPress
Следующий код — это то, что я использую в своем файле robots.txt. Это хорошая настройка по умолчанию для WordPress.
Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php
Карта сайта: https://searchfacts.com/sitemap.xml
Этот файл robots.txt сообщает ботам, что они могут сканировать все, кроме папки /wp-admin/.Однако им разрешено сканировать один файл в папке /wp-admin/ с именем admin-ajax.php.
Причиной этого параметра является то, что Google Search Console сообщала об ошибке, если не могла просканировать файл admin-ajax.php.
Googlebot — единственный бот, который понимает «Разрешить:» — он используется для разрешения сканирования определенного файла внутри запрещенной папки.
Вы также можете использовать строку «Карта сайта:», чтобы сообщить ботам, где найти вашу XML-карту сайта. Эта карта сайта должна содержать список всех страниц вашего сайта, чтобы поисковым роботам было легче найти их все.
Когда использовать noindex вместо robots
Если вы хотите заблокировать показ всего вашего сайта или отдельных страниц в поисковых системах, таких как Google, то robots.txt — не лучший способ сделать это.
Поисковые системы по-прежнему могут индексировать файлы, заблокированные роботами, просто они не будут показывать некоторые полезные метаданные.
Вместо этого в описании результатов поиска будет указано: «Описание этого результата недоступно из-за файла robots.txt этого сайта».
Источник: Search Engine RoundtableЕсли скрыть файл или папку с robots.txt, но потом кто-то на него ссылается, Google, скорее всего, покажет его в результатах поиска только без описания.
В этих случаях лучше использовать тег noindex, чтобы запретить поисковым системам отображать его в результатах поиска.
В WordPress, если вы перейдете в «Настройки» -> «Чтение» и отметите «Запретить поисковым системам индексировать этот сайт», на все ваши страницы будет добавлен тег noindex.
Выглядит так:
Вы также можете использовать бесплатный плагин SEO, такой как Yoast или The SEO Framework, чтобы не индексировать определенные сообщения, страницы или категории на вашем сайте.
В большинстве случаев noindex лучше блокирует индексацию, чем robots.txt.
Когда вместо этого заблокировать весь сайт
В некоторых случаях может потребоваться заблокировать доступ ко всему сайту как для ботов, так и для людей.
Лучший способ сделать это — поставить пароль на свой сайт. Это можно сделать с помощью бесплатного плагина WordPress под названием «Защищено паролем».
Важные факты о файле robots.txt
Имейте в виду, что роботы могут игнорировать ваших роботов.txt, особенно оскорбительных ботов, таких как те, которыми управляют хакеры, ищущие уязвимости в системе безопасности.
Кроме того, если вы пытаетесь скрыть папку со своего веб-сайта, просто поместить ее в файл robots.txt может быть неразумным подходом.
Любой может увидеть файл robots.txt, если введет его в свой браузер, и может понять, что вы пытаетесь скрыть таким образом.
На самом деле, вы можете посмотреть на некоторых популярных сайтах, как настроены их файлы robots.txt. Просто попробуйте добавить /robots.txt на URL-адрес домашней страницы ваших любимых веб-сайтов.
Если вы хотите убедиться, что ваш файл robots.txt работает, вы можете протестировать его с помощью Google Search Console. Вот инструкции.
Сообщение на вынос
Файл robots.txt сообщает роботам и поисковым роботам, какие файлы и папки они могут и не могут сканировать.
Его использование может быть полезно для блокировки определенных областей вашего веб-сайта или для предотвращения сканирования вашего сайта определенными ботами.
Если вы собираетесь редактировать файл robots.txt, то будьте осторожны, потому что небольшая ошибка может иметь катастрофические последствия.
Например, если вы неправильно поместите одну косую черту, она может заблокировать всех роботов и буквально удалить весь ваш поисковый трафик, пока это не будет исправлено.
До этого я работал с большим сайтом, однажды случайно поставил «Disallow: /» в их живой файл robots.txt. Из-за этой маленькой ошибки они потеряли много трафика и доходов.
Файл robots.txt является мощным, поэтому обращайтесь с ним с осторожностью.
Как запретить всем использовать robots.txt?
Если вы хотите, чтобы все роботы держались подальше от вашего сайта, то этот код вы должны поместить в свой robots.txt, чтобы запретить все:
User-agent: *
Disallow: /
Как разрешить всем использовать robots.txt?
Если вы хотите, чтобы боты могли сканировать весь ваш сайт, вы можете просто иметь пустой файл или вообще не иметь файла.
Или вы можете поместить это в свой файл robots.txt, чтобы разрешить все:
User-agent: *
Disallow:
Как запретить доступ к определенным файлам и папкам с robots.текст?
Вы просто помещаете отдельную строку для каждого файла или папки, которые хотите запретить.
Вот пример:
User-agent: *
Disallow: /topsy/
Disallow: /crets/
Disallow: /hidden/file.html
Как запретить определенных ботов с помощью файла robots.txt?
Если вы просто хотите заблокировать от сканирования одного конкретного бота, например Bing, то делаете это так:
User-agent: Bingbot
Disallow: /
Какой файл robots.txt подходит для WordPress?
Следующий код — это то, что я использую в своих файлах robots.текстовый файл. Это хорошая настройка по умолчанию для WordPress.
Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php
Карта сайта: https://searchfacts.com/sitemap.xml
Ваш Robots.txt Руководство для начинающих
- WooRank
- SEO-руководства
- Роботы и вы: Путеводитель по роботам.текст
Файл robots.txt – это обычный текстовый файл, в котором указывается, должен ли сканер получать доступ к определенным папкам, подпапкам или страницам, а также другая информация о вашем сайте. В файле используется стандарт исключения роботов — протокол, установленный в 1994 году для взаимодействия веб-сайтов со сканерами и другими ботами. Крайне важно, чтобы вы использовали обычный текстовый файл: Создание файла robots.txt с использованием HTML или текстового процессора будет содержать код, который сканеры поисковых систем будут игнорировать, если не смогут прочитать.
Как это работает?
Краулеры — это инструменты, которые анализируют ваши веб-страницы и могут использоваться для выявления проблем. Сканирование сайта WooRank помогает веб-мастерам находить и исправлять ошибки сканирования.
Когда владелец сайта хочет дать некоторые рекомендации поисковым роботам, он помещает свой файл robots.txt в корневой каталог своего сайта, например https://www.пример.com/robots.txt. Боты, которые следуют этому протоколу, будут извлекать и читать файл, прежде чем извлекать любой другой файл с сайта. Если на сайте нет файла robots.txt, сканер решит, что веб-мастер не хотел давать никаких конкретных инструкций, и продолжит сканирование всего сайта.
Robots.txt состоит из двух основных частей: User-agent и директив.
Агент пользователя
User-agent — это имя паука, к которому обращаются, а строки директив содержат инструкции для этого конкретного user-agent.Строка User-agent всегда идет перед строками директив в каждом наборе директив. Очень простой robots.txt выглядит так:
. Агент пользователя: Googlebot
Запретить: /
Эти директивы предписывают агенту пользователя Googlebot, поисковому роботу Google, держаться подальше от всего сервера — он не будет сканировать ни одну страницу на сайте. Если вы хотите давать инструкции нескольким роботам, создайте набор user-agent и запретите директивы для каждого из них.
Агент пользователя: Googlebot
Запретить: /
Агент пользователя: Bingbot
Запретить: /
Теперь пользовательские агенты Google и Bing знают, что нужно избегать сканирования всего сайта.Если вы хотите установить одинаковые требования для всех роботов, вы можете использовать так называемый подстановочный знак, представленный звездочкой (*). Поэтому, если вы хотите разрешить всем роботам сканировать весь ваш сайт, ваш файл robots.txt должен выглядеть так:
. Агент пользователя: *
Запретить:
Стоит отметить, что поисковые системы будут выбирать самые конкретные директивы пользовательского агента, которые они могут найти. Так, например, у вас есть четыре набора пользовательских агентов: один с использованием подстановочного знака (*), один для робота Googlebot, один для Googlebot-News и один для Bingbot, и ваш сайт посещает пользователь Googlebot-Images. агент.Этот бот будет следовать инструкциям для робота Googlebot, поскольку это наиболее конкретный набор директив, которые к нему применяются.
Наиболее распространенными пользовательскими агентами поисковых систем являются:
Агент пользователя | Поисковая система | Поле |
байдуспайдер | Байду | Общий |
байдуспайдер-изображение | Байду | Изображения |
байдуспайдер-мобиль | Байду | Мобильный |
baiduspider-новости | Байду | Новости |
baiduspider-видео | Байду | Видео |
Бингбот | Бинг | Общий |
msnbot | Бинг | Общий |
msnbot-media | Бинг | Изображения и видео |
adidxbot | Бинг | Объявления |
Гуглбот | Гугл | Общий |
Googlebot-изображение | Гугл | Изображения |
Googlebot для мобильных устройств | Гугл | Мобильный |
Googlebot-Новости | Гугл | Новости |
Googlebot-видео | Гугл | Видео |
Медиапартнеры-Google | Гугл | Адсенс |
AdsBot-Google | Гугл | AdWords |
чавкать | Yahoo! | Общий |
яндекс | Яндекс | Общий |
Запретить
Вторая часть роботов.txt — строка запрета. Эта директива сообщает паукам, какие страницы им не разрешено сканировать. У вас может быть несколько строк запрета на набор директив, но только один пользовательский агент.
Не нужно указывать значение для директивы disallow; боты будут интерпретировать пустое значение запрета как означающее, что вы ничего не запрещаете и получите доступ ко всему сайту. Как мы упоминали ранее, если вы хотите запретить боту (или всем ботам) доступ ко всему сайту, используйте косую черту (/).
Вы можете детализировать директивы запрета, указав определенные страницы, каталоги, подкаталоги и типы файлов.Чтобы заблокировать сканеры с определенной страницы, используйте относительную ссылку этой страницы в строке запрета:
. Агент пользователя: *
Запретить: /directory/page.html
Таким же образом заблокировать доступ ко всем каталогам:
Агент пользователя: *
Запретить: /folder1/
Запретить: /folder2/
Вы также можете использовать robots.txt, чтобы заблокировать сканирование определенных типов файлов ботами, используя подстановочный знак и тип файла в строке запрета:
Агент пользователя: *
Запретить: /*.пп
Запретить: /images/*.jpg
Запретить: /duplicatecontent/copy*.html
Хотя протокол robots.txt технически не поддерживает использование подстановочных знаков, боты поисковых систем могут распознавать и интерпретировать их. Таким образом, в приведенных выше директивах робот автоматически расширял звездочку, чтобы она соответствовала пути к имени файла. Например, он сможет определить, что www.example.com/presentations/slideshow.ppt и www.example.com/images/example.jpg запрещены, а www.example.com/presentations/slideshowtranscript.html — нет. Третий запрещает сканирование любого файла в каталоге /duplicatecontent/, который начинается с «копировать» и заканчивается на «.html». Значит эти страницы заблокированы:
- /duplicatecontent/copy.html
- /duplicatecontent/copy1.html
- /duplicatecontent/copy2.html
- /duplicatecontent/copy.html?id=1234
Однако это не запрещает любые экземпляры «copy.html», хранящиеся в другом каталоге или подкаталоге.
Одна из проблем, с которой вы можете столкнуться при работе с файлом robots.txt, заключается в том, что некоторые URL-адреса содержат исключенные шаблоны в URL-адресах, которые мы действительно хотели бы сканировать. Из нашего предыдущего примера Disallow: /images/*.jpg
этот каталог может содержать файл с именем «description-of-.jpg.html». Эта страница не будет просканирована, поскольку она соответствует шаблону исключения. Чтобы решить эту проблему, добавьте символ доллара ($), чтобы обозначить, что он представляет собой конец строки. Это укажет поисковым роботам избегать только тех файлов, которые заканчиваются шаблоном исключения.Таким образом, Disallow: /images/*.jpg$
блокирует только файлы, оканчивающиеся на «.jpg», и разрешает файлы, содержащие «.jpg» в заголовке.
Разрешить
Иногда может потребоваться исключить все файлы в каталоге, кроме одного. Вы можете сделать это сложным путем, написав строку запрета для каждого файла, кроме того, который вы хотите просканировать. Или вы можете использовать директиву Allow. Это работает примерно так, как вы ожидаете: добавьте строку «Разрешить» в группу директив для пользовательского агента:
. Агент пользователя: *
Разрешить: /папка/подпапка/файл.HTML
Запретить: /папка/подпапка/
Подстановочные знаки и правила сопоставления с образцом работают так же для директивы Allow, как и для директивы Disallow.
Нестандартные директивы
Есть несколько других директив, которые вы можете использовать в файле robots.txt, которые не всегда распознаются поисковыми системами. Одним из них является директива Host. Это признано Яндексом, самой популярной поисковой системой в России, и работает как разрешение www. Однако, поскольку кажется, что Яндекс — единственная крупная поисковая система, поддерживающая директиву Host, мы не рекомендуем ее использовать.Лучший способ справиться с разрешением www — использовать переадресацию 301.
Еще одна директива, поддерживаемая некоторыми поисковыми системами, — задержка сканирования. Он указывает числовое значение, представляющее количество секунд. Строка задержки сканирования должна выглядеть так: crawl-delay: 15
. Его по-разному используют Yahoo!, Bing и Яндекс. Яху! и Bing используют это значение как время ожидания между действиями сканирования, в то время как Яндекс будет использовать его как время ожидания доступа к вашему сайту. Если у вас большой сайт, вы, вероятно, не захотите использовать эту директиву, так как она может серьезно ограничить количество просматриваемых страниц.Однако, если у вас мало или совсем нет трафика от этих поисковых систем, вы можете использовать задержку сканирования для экономии полосы пропускания.
Вы также можете установить задержку сканирования для определенных пользовательских агентов. Например, вы можете обнаружить, что ваш сайт часто сканируется инструментами SEO, что может замедлить работу вашего сайта. Вы также можете заблокировать их все вместе, если не чувствуете, что они вам помогают.
Наконец, вы можете использовать файл robots.txt, чтобы сообщить поисковым системам, где найти вашу карту сайта, добавив строку Sitemap: в любом месте файла.Эта директива не зависит от пользовательского агента, поэтому боты смогут интерпретировать ее, где бы вы ее ни разместили, но лучше поместить ее в конец, чтобы облегчить себе задачу. Создайте новую строку карты сайта для каждой карты сайта, которая у вас есть, включая карты сайта для изображений и видео или файл индекса карты сайта. Если вы предпочитаете, чтобы ваше местоположение на карте сайта было недоступно для всех, вы можете не указывать это и вместо этого напрямую отправлять карты сайта в поисковые системы.
Узнайте больше о том, как создать и оптимизировать XML-карту сайта здесь.
Зачем он тебе?
Если весь смысл поисковой оптимизации заключается в том, чтобы ваш сайт сканировался, индексировался и занимал место в результатах поиска, зачем вам вообще исключать файлы на вашем сайте? Есть несколько причин, по которым вы хотели бы заблокировать доступ ботов к областям вашего сайта:
-
У вас есть личные папки, подпапки или файлы на вашем сайте — просто помните, что любой может прочитать ваш файл robots.txt, поэтому выделение личного файла с помощью директивы disallow откроет его миру.
-
Блокируя менее важные страницы на своем сайте, вы увеличиваете краулинговый бюджет ботов. Это означает, что они будут тратить больше времени на сканирование и индексацию ваших самых важных страниц.
-
Если вы получаете много трафика от других сканеров, не являющихся поисковыми системами (например, инструментов SEO), сэкономьте пропускную способность, запретив их пользовательские агенты.
Вы также можете использовать robots.txt, чтобы запретить поисковым системам индексировать дублированный контент. Если вы используете параметры URL, которые приводят к тому, что на вашем сайте размещается один и тот же контент на нескольких страницах, используйте подстановочные знаки, чтобы исключить эти URL-адреса:
Агент пользователя: *
Запретить: /*?
Это предотвратит доступ поисковых роботов к любым страницам, которые имеют вопросительные знаки в URL-адресе, что часто является способом добавления параметров.Это особенно полезно для сайтов электронной коммерции, которые имеют множество параметров URL, вызывающих массу дублированного контента из-за фильтрации и сортировки продуктов.
Рекомендуется заблокировать доступ к вашему сайту при редизайне или переносе, который мы подробно рассмотрели ранее. Заблокируйте доступ ко всему вашему новому сайту, чтобы он не был связан с дублирующимся контентом, что помешает его ранжированию в будущем.
Распространенные проблемы с Robots.txt и способы их устранения
Чтобы проверить, есть ли у вас проблемы с роботами.txt, откройте Google Search Console. Проверьте свой отчет «Статистика сканирования», чтобы увидеть, не произошло ли резкое снижение количества просканированных страниц в день; это может указывать на проблему с файлом robots.txt.
Возможно, самая большая проблема с файлами robots.txt — это случайный запрет на сканирование страниц, которые вы действительно хотите просканировать. Эту информацию можно найти в отчете об ошибках сканирования GSC. Проверьте страницы, которые возвращают код ответа 500. Этот код часто возвращается для страниц, заблокированных файлом robots.txt.
Проверьте все URL-адреса, которые возвращают код ошибки 500, на соответствие директивам запрета в файле robots.txt.
Некоторые другие распространенные проблемы с файлами robots.txt:
-
Случайное добавление косой черты в конце имен файлов. Несмотря на то, что ваш канонический URL-адрес может включать завершающую косую черту, добавление ее в конец строки в файле robots.txt приведет к тому, что боты будут интерпретировать его как каталог, а не как файл, блокируя каждую страницу в папке. Дважды проверьте строки запрета на наличие косых черт в конце, которых там быть не должно.
-
Блокировка ресурсов, таких как коды CSS и JavaScript, с помощью файла robots.txt. Однако это повлияет на то, как поисковые системы будут видеть вашу страницу. Некоторое время назад Google заявил, что запрет CSS и Javascript будет засчитываться против вашего SEO. Google может читать ваш код CSS и JS и использовать его, чтобы делать выводы о вашем сайте. Когда он видит такие заблокированные ресурсы, он не может правильно отобразить вашу страницу, что не позволит вам ранжироваться так высоко, как вы могли бы в противном случае.
-
Использование более одной директивы агента пользователя в строке.Поисковые системы будут игнорировать директивы, включающие более одного пользовательского агента в строке, что может привести к неправильному сканированию вашего сайта.
-
Неверное использование заглавных букв в именах каталогов, подкаталогов и файлов. В то время как фактические директивы, используемые в robots.txt, не чувствительны к регистру, их значения. Таким образом, поисковые системы видят
Disallow: page.html
,Disallow: Page.html
иDisallow: page.HTML
как три отдельных файла. Если ваш файл robots.txt содержит директивы для «Page.html», но ваш канонический URL-адрес написан строчными буквами, эта страница будет просканирована. -
Использование директивы noindex. Ни Google, ни Bing не поддерживают использование noindex в файлах robots.txt.
-
Противоречие с вашей картой сайта в файле robots.txt. Скорее всего, это произойдет, если вы используете разные инструменты для создания файлов Sitemap и robots.txt. Противоречить самому себе перед поисковыми системами — всегда плохая идея. К счастью, это довольно легко найти и исправить.Отправьте и просканируйте карту сайта через GSC. Он предоставит вам список ошибок, который вы затем сможете сверить с файлом robots.txt, чтобы увидеть, исключили ли вы его там.
- Запрещение страниц в файле robots.txt, использующих метатег noindex. Сканеры, которым заблокирован доступ к странице, не смогут увидеть тег noindex, что может привести к тому, что ваша страница появится в результатах поиска, если на нее есть ссылка с другой страницы.
С роботами тоже часто приходится бороться.txt, особенно если у вас нет большого технического образования. Одно из решений состоит в том, чтобы кто-то, кто знаком с протоколом robots, проверил ваш файл на наличие синтаксических ошибок. Другой и, возможно, лучший вариант — обратиться в Google для тестирования. Откройте тестер в Google Search Console, вставьте файл robots.txt и нажмите «Тест». Что действительно удобно, так это то, что он не только найдет ошибки в вашем файле, но вы также можете увидеть, запрещаете ли вы страницы, проиндексированные Google.
При создании или изменении файла robots.txt вы действительно должны тщательно протестировать его с помощью этого инструмента. Добавление файла robots.txt с ошибками, вероятно, серьезно повлияет на способность вашего сайта сканироваться и индексироваться, что может привести к его падению из поискового рейтинга. Вы даже можете заблокировать весь свой сайт, чтобы он не отображался в результатах поиска!
Правильно ли реализован ваш файл robots.txt? Проведите аудит своего сайта с помощью WooRank, чтобы убедиться, что он оптимизирован по более чем 70 критериям, включая страничные, технические и местные факторы.
Агент пользователя: * Запретить: /поиск Разрешить: /поиск/о Разрешить: /поиск/статические Разрешить: /search/howsearchworks Запретить: /sdch Запретить: /группы Запретить: /index.html? Запретить: /? Разрешить: /?hl= Запретить: /?hl=*& Разрешить: /?hl=*&gws_rd=ssl$ Запретить: /?hl=*&*&gws_rd=ssl Разрешить: /?gws_rd=ssl$ Разрешить: /?pt1=true$ Запретить: /imgres Запретить: /u/ Запретить: /предпочтения Запретить: /setprefs Запретить: / по умолчанию Запретить: /м? Запретить: /м/ Разрешить: /m/финансы Запретить: /wml? Запретить: /wml/? Запретить: /wml/search? Запретить: /xhtml? Запретить: /xhtml/? Запретить: /xhtml/search? Запретить: /xml? Запретить: /imode? Запретить: /imode/? Запретить: /imode/search? Запретить: /jsky? Запретить: /jsky/? Запретить: /jsky/search? Запретить: /pda? Запретить: /pda/? Запретить: /pda/search? Запретить: /sprint_xhtml Запретить: /sprint_wml Запретить: /pqa Запретить: /ладонь Запретить: /gwt/ Запретить: /покупки Запретить: /local? Запретить: /local_url Запретить: /shihui? Запретить: /shihui/ Запретить: /продукты? Запретить: /product_ Запретить: /products_ Запретить: /продукты; Запретить: /print Запретить: /книги/ Запретить: /bkshp?*q=* Запретить: /books?*q=* Запретить: /books?*output=* Запретить: /books?*pg=* Запретить: /books?*jtp=* Запретить: /books?*jscmd=* Запретить: /books?*buy=* Запретить: /books?*zoom=* Разрешить: /books?*q=related:* Разрешить: /books?*q=editions:* Разрешить: /books?*q=subject:* Разрешить: /книги/о Разрешить: /booksrightsholders Разрешить: /books?*zoom=1* Разрешить: /books?*zoom=5* Разрешить: /books/content?*zoom=1* Разрешить: /books/content?*zoom=5* Запретить: /электронные книги/ Запретить: /электронные книги?*q=* Запретить: /ebooks?*output=* Запретить: /электронные книги?*pg=* Запретить: /электронные книги?*jscmd=* Запретить: /электронные книги?*купить=* Запретить: /ebooks?*zoom=* Разрешить: /ebooks?*q=related:* Разрешить: /электронные книги?*q=редакции:* Разрешить: /ebooks?*q=subject:* Разрешить: /электронные книги?*zoom=1* Разрешить: /электронные книги?*zoom=5* Запретить: /патенты? Запретить: /патенты/скачать/ Запретить: /патенты/pdf/ Запретить: /патенты/связанные/ Запретить: /ученый Запретить: / цитирования? Разрешить: /Quotes?user= Запретить: /цитаты?*cstart= Разрешить: /citations?view_op=new_profile Разрешить: /citations?view_op=top_venues Разрешить: /scholar_share Запретить: /s? Разрешить: /maps?*output=classic* Разрешить: /карты?*file= Разрешить: /карты/d/ Запретить: /карты? Запретить: /mapstt? Запретить: /mapslt? Запретить: /maps/stk/ Запретить: /maps/br? Запретить: /mapabcpoi? Запретить: /mapp? Запретить: /mapprint? Запретить: /maps/api/js/ Разрешить: /maps/api/js Запретить: /maps/api/place/js/ Запретить: /maps/api/staticmap Запретить: /maps/api/streetview Запретить: /maps/_/sw/manifest.json Запретить: /mld? Запретить: /staticmap? Запретить: /maps/preview Запретить: /карты/место Запретить: /maps/timeline/ Запретить: /help/maps/streetview/partners/welcome/ Запретить: /help/maps/indoormaps/partners/ Запретить: /lochp? Запретить: /центр Запретить: /ie? Запретить: /blogsearch/ Запретить: /blogsearch_feeds Запретить: /advanced_blog_search Запретить: /uds/ Запретить: /диаграмма? Запретить: /транзит? Разрешить: /календарь$ Разрешить: /календарь/о программе/ Запретить: /календарь/ Запретить: /cl2/каналы/ Запретить: /cl2/ical/ Запретить: /coop/каталог Запретить: /coop/manage Запретить: /trends? Запретить: /trends/music? Запретить: /trends/hottrends? Запретить: /trends/viz? Запретить: /trends/embed.js? Запретить: /trends/fetchComponent? Запретить: /trends/beta Запретить: /trends/topics Запретить: /музыка Запретить: /musicad Запретить: /musicas Запретить: /музыка Запретить: /музыка Запретить: /musicsearch Запретить: /musicssp Запретить: /musiclp Запретить: /urchin_test/ Запретить: /movies? Запретить: /wapsearch? Разрешить: /safebrowsing/diagnostic Разрешить: /safebrowsing/report_badware/ Разрешить: /safebrowsing/report_error/ Разрешить: /safebrowsing/report_phish/ Запретить: /reviews/search? Запретить: /orkut/albums Запретить: /cbk Запретить: /recharge/dashboard/car Запретить: /recharge/dashboard/static/ Запретить: /profiles/me Разрешить: /профили Запретить: /s2/profiles/me Разрешить: /s2/профили Разрешить: /s2/oz Разрешить: /s2/фотографии Разрешить: /s2/поиск/социальные сети Разрешить: /s2/статический Запретить: /s2 Запретить: /transconsole/portal/ Запретить: /gcc/ Запретить: /aclk Запретить: /cse? Запретить: /cse/home Запретить: /cse/панель Запретить: /cse/manage Запретить: /tbproxy/ Запретить: /imesync/ Запретить: /shenghuo/search? Запретить: /support/forum/search? Запретить: /отзывы/опросы/ Запретить: /hosted/images/ Запретить: /ppob/? Запретить: /ppob? Запретить: /accounts/ClientLogin Запретить: /accounts/ClientAuth Запретить: /accounts/o8 Разрешить: /accounts/o8/id Запретить: /topicsarch?q= Запретить: /xfx7/ Запретить: /squared/api Запретить: /squared/search Запретить: /squared/table Запретить: /qnasearch? Запретить: /приложение/обновления Запретить: /sidewiki/entry/ Запретить: /quality_form? Запретить: /labs/popgadget/search Запретить: /buzz/post Запретить: /compressiontest/ Запретить: /analytics/feeds/ Запретить: /analytics/partners/comments/ Запретить: /аналитика/портал/ Запретить: /аналитика/загрузки/ Разрешить: /оповещения/управление Разрешить: /предупреждения/удалить Запретить: /оповещения/ Разрешить: /alerts/$ Запретить: /ads/search? Запретить: /ads/plan/action_plan? Запретить: /ads/plan/api/ Запретить: /ads/hotels/partners Запретить: /телефон/сравнить/? Запретить: /travel/clk Запретить: /hotelfinder/rpc Запретить: /hotels/rpc Запретить: /commercesearch/services/ Запретить: /оценка/ Запретить: /chrome/browser/mobile/tour Запретить: /сравнить/*/применить* Запретить: /forms/perks/ Запретить: /shopping/suppliers/search Запретить: /ct/ Запретить: /edu/cs4hs/ Запретить: /trustedstores/s/ Запретить: /trustedstores/tm2 Запретить: /trustedstores/verify Запретить: /adwords/предложение Запретить: /покупки?* Запретить: /покупки/продукт/ Запретить: /shopping/seller Запретить: /shopping/ratings/account/metrics Запретить: /shopping/ratings/merchant/immersivedetails Запретить: /shopping/reviewer Запретить: /о/карьере/приложениях/ Запретить: /about/careers/applications-a/ Запретить: /landing/signout.HTML Запретить: /webmasters/sitemaps/ping? Запретить: /ping? Запретить: /галерея/ Запретить: /landing/now/ontap/ Разрешить: /история поиска/ Разрешить: /карты/резерв Разрешить: /maps/reserve/partners Запретить: /maps/reserve/api/ Запретить: /maps/reserve/search Запретить: /maps/reserve/bookings Запретить: /maps/reserve/settings Запретить: /maps/reserve/manage Запретить: /maps/reserve/payment Запретить: /maps/reserve/receipt Запретить: /maps/reserve/sellersignup Запретить: /maps/reserve/payments Запретить: /maps/reserve/feedback Запретить: /maps/reserve/terms Запретить: /maps/reserve/m/ Запретить: /maps/reserve/b/ Запретить: /maps/reserve/partner-dashboard Запретить: /о/просмотры/ Запретить: /intl/*/about/views/ Запретить: /local/cars Запретить: /local/cars/ Запретить: /local/дилерский центр/ Запретить: /local/dining/ Запретить: /local/place/products/ Запретить: /local/place/reviews/ Запретить: /local/place/rap/ Запретить: /local/tab/ Запретить: /localservices/* Разрешить: /финансы Разрешить: /js/ Запретить: /nonprofits/account/ Запретить: /fbx # AdsBot Агент пользователя: AdsBot-Google Запретить: /maps/api/js/ Разрешить: /maps/api/js Запретить: /maps/api/place/js/ Запретить: /maps/api/staticmap Запретить: /maps/api/streetview # Поисковым роботам определенных сайтов социальных сетей разрешен доступ к разметке страниц, когда google.ссылки com/imgres* являются общими. Чтобы узнать больше, отправьте письмо по адресу [email protected] Агент пользователя: Twitterbot Разрешить: /imgres Агент пользователя: facebookexternalhit Разрешить: /imgres Карта сайта: https://www.google.com/sitemap.xml
Полное руководство по Robots.txt для SEO
Robots.txt — это файл, который вы можете создать для управления сканированием вашего веб-сайта.
Это практическая реализация протокола исключения роботов, который был создан для того, чтобы предотвращал перегрузку веб-сайтов поисковыми роботами слишком большим количеством запросов.
Владельцам служб может быть неудобно, если сканеры посещают все их пространство URI. В этом документе указаны правила, изначально определенные «Протоколом исключения роботов», которым должны подчиняться сканеры при доступе к URI.
источник: Протокол исключения роботов
Несмотря на то, что вашему сайту не обязательно использовать robots.txt , наличие одного может положительно повлиять на ваш бизнес, оптимизируя то, как роботы поисковых систем сканируют ваш сайт.
Согласно веб-альманаху 2021 года, около 16,5% веб-сайтов вообще не имеют файла robots.txt. Кроме того, не все реализуют его правильно.
На веб-сайтах могут быть неправильно сконфигурированы файлы robots.txt. Например, некоторые популярные веб-сайты (предположительно по ошибке) блокировали поисковые системы. Google может индексировать эти веб-сайты в течение определенного периода времени, но в конечном итоге их видимость в результатах поиска уменьшится.
В зависимости от размера вашего веб-сайта неправильное использование robots.txt может быть незначительной ошибкой или очень дорогостоящей ошибкой.
Эта статья покажет вам, как создать файл robots.txt и избежать возможных ошибок.
Что такое robots.txt?
Robots.txt — это простой текстовый файл, который вы можете разместить на своем сервере, чтобы контролировать доступ ботов к вашим страницам. Он содержит правила для поисковых роботов, определяющие, какие страницы следует или не следует сканировать.
Файл должен находиться в корневом каталоге вашего сайта. Так, например, если ваш веб-сайт называется domain.com, файл robots.txt должен располагаться по адресу domain.com/robots.txt.
Но как работает файл? Как боты узнают об этом?
Краулеры — это программы, которые сканируют Интернет. Они используются по-разному, но поисковые системы используют их для поиска веб-контента для индексации. Этот процесс можно разделить на несколько шагов:
- Поисковые роботы имеют очередь URL-адресов, содержащих как новые, так и ранее известные веб-сайты, которые они хотят просканировать.
- Перед сканированием веб-сайта сканеры сначала ищут файл robots.txt в корневом каталоге веб-сайта.
- Если файл robots.txt не существует, поисковые роботы продолжают свободно сканировать веб-сайт. Однако, если существует действительный файл robots.txt, поисковые роботы ищут в нем директивы и соответствующим образом продолжают сканировать веб-сайт.
Если поисковая система не может просканировать страницу, то эта страница не может быть проиндексирована и, следовательно, не будет отображаться на страницах результатов поиска.
Однако есть две оговорки:
1. Страница, заблокированная для сканирования, все равно может быть проиндексирована
Запрет сканирования в файле robots.txt не гарантирует, что поисковые системы не будут индексировать страницу. Они все равно могут это сделать, если найдут информацию о контенте в других источниках и решат, что это важно. Например, они могут найти ссылки, ведущие на страницу с других сайтов, использовать анкорный текст и показать его на странице результатов поиска.
2. Вы не можете заставить роботов подчиняться правилам в robots.txt
Robots.txt является лишь рекомендацией, а не обязательным правилом. Вы не можете заставить ботов ему подчиняться. Большинство сканеров, особенно те, которые используются поисковыми системами, не будут сканировать страницы, заблокированные файлом robots.txt. Однако поисковые системы не единственные, кто использует сканеры. Вредоносные боты могут проигнорировать инструкции и все равно получить доступ к страницам. Вот почему вам не следует использовать robots.txt как способ защиты конфиденциальных данных на вашем веб-сайте от сканирования. Если вам нужно убедиться, что боты не будут сканировать часть вашего контента, лучше защитить его паролем.
Зачем нужен файл robots.txt?
Robots.txt не является обязательной частью вашего веб-сайта, но хорошо оптимизированный файл может принести вашему сайту множество преимуществ.
Самое главное, это может помочь вам оптимизировать краулинговый бюджет. Боты поисковых систем имеют ограниченные ресурсы, что ограничивает количество URL-адресов, которые они могут сканировать на данном веб-сайте. Поэтому, если вы тратите свой краулинговый бюджет на менее важные страницы, его может не хватить на более ценные.Если у вас небольшой веб-сайт, это может показаться поверхностным вопросом, но любой, кто поддерживает большой веб-сайт, знает, насколько важно эффективно использовать ресурсы ботов поисковых систем.
С помощью файла robots.txt можно предотвратить сканирование определенных страниц, например некачественных . Это очень важно, потому что если у вас много индексируемых страниц низкого качества, это может повлиять на весь сайт и помешать ботам поисковых систем сканировать даже высококачественные страницы.
Кроме того, роботы.txt позволяет вам указать местоположение вашей XML-карты сайта. Карта сайта — это текстовый файл со списком URL-адресов, которые поисковые системы должны индексировать. Определение его ссылки в файле robots.txt облегчает его поиск ботам поисковых систем.
Как изменить файл robots.txt
Способ изменения файла robots.txt сильно зависит от используемой системы.
Если вы используете CMS или платформу электронной коммерции, у вас может быть доступ к специальным инструментам или плагинам, которые помогут вам легко получить доступ к файлу и изменить его.Например, Wix и Shopify позволяют напрямую редактировать файл robots.txt. Для WordPress вы можете использовать такие плагины, как Yoast SEO.
Если вы не используете CMS или платформу электронной коммерции, вам может потребоваться сначала загрузить файл, отредактировать его, а затем снова загрузить на свой сайт.
Вы можете скачать файл различными способами:
- Отобразите файл в браузере, добавив «/robots.txt» в корневой каталог, а затем просто скопируйте его содержимое.
- Используйте инструменты, предоставляемые вашим хостингом.Например, это может быть выделенная панель для управления файлами или доступа по протоколу FTP.
- Используйте инструменты консоли, такие как cURL, для загрузки файла, введя эту команду:
завиток https://example.com/robots.txt -o robots.txt
Как только вы загрузите robots.txt, вы можете просто отредактировать его в выбранном вами текстовом редакторе, таком как Блокнот (Windows) или TextEdit (Mac). Убедитесь, что файл закодирован в стандарте UTF-8, и помните, что он должен называться «robots.текст».
После модификации robots.txt вы можете загрузить файл аналогично его скачиванию. Вы можете использовать специальные инструменты, предоставляемые вашим хостингом, использовать встроенные инструменты CMS или отправлять файлы напрямую на сервер по протоколам FTP.
Как только ваш файл станет общедоступным, поисковые системы смогут найти его автоматически. Если по какой-то причине вы хотите, чтобы поисковые системы сразу же увидели изменения, вы можете использовать опцию «Отправить» в тестировщиках robots.txt от Google и Bing.
В процессе автоматического сканирования поисковые роботы Google замечают изменения, внесенные вами в файл robots.txt и обновлять кешированную версию каждые 24 часа. Если вам нужно быстрее обновить кеш, используйте функцию Submit тестера robots.txt .
Синтаксис файла robots.txt
Robots.txt состоит из блоков текста. Каждый блок начинается со строки User-agent и группирует директивы (правила) для конкретного бота.
Вот пример файла robots.txt:
Агент пользователя: * Запретить: /admin/ Запретить: /пользователи/ #специфические инструкции для робота Googlebot Агент пользователя: Googlebot Разрешить: /wp-admin/ Запретить: /пользователи/ #специфические инструкции для Bingbot Агент пользователя: Bingbot Запретить: /admin/ Запретить: /пользователи/ Запретить:/не для Bingbot/ Задержка сканирования: 10 Карта сайта: https://www.пример.com/sitemap.xml
Агент пользователя
Существуют сотни поисковых роботов, которые могут захотеть получить доступ к вашему веб-сайту. Вот почему вы можете захотеть определить для них разные границы в зависимости от их намерений. Вот когда User-agent может пригодиться.
User-agent — это строка текста, идентифицирующая конкретного бота. Так, например, Google использует Googlebot, Bing использует Bingbot, DuckDuckGo использует DuckDuckBot, а Yahoo использует Slurp. Поисковые системы также могут иметь более одного User-agent.Здесь вы можете найти полный список пользовательских агентов, используемых Google и Bing.
User-agent — обязательная строка в каждой группе директив. Вы можете думать об этом как об обращении к ботам по их именам и предоставлении каждому из них конкретной инструкции. Все директивы, которые следуют за User-agent, будут нацелены на определенного бота, пока не будет указан новый User-agent.
Вы также можете использовать подстановочный знак и давать инструкции всем ботам одновременно. Я расскажу о подстановочных знаках позже.
Директивы
Директивы — это правила, которые вы определяете для ботов поисковых систем.Каждый блок текста может иметь одну или несколько директив. Каждая директива должна начинаться с отдельной строки.
Директивы включают:
- Запретить,
- Разрешить,
- Карта сайта,
- Задержка сканирования.
Примечание. Существует также неофициальная директива noindex, которая должна указывать, что страница не должна индексироваться. Однако большинство поисковых систем, включая Google и Bing, его не поддерживают. Если вы не хотите, чтобы некоторые страницы индексировались, используйте заголовок noindex Meta Robots Tag или X-Robots-Tag (я объясню их позже в статье).
Запретить
Агент пользователя: Googlebot Запретить: /пользователи/
Эта директива указывает, какие страницы не следует сканировать. По умолчанию боты поисковых систем могут сканировать каждую страницу, не заблокированную директивой disallow.
Чтобы заблокировать доступ к определенной странице, необходимо определить ее путь относительно корневого каталога.
Давайте представим, что на вашем сайте есть два сайта:
- веб-сайт.com/products/shoes/item1.html сайт
- .ком/продукты/рубашки/item2.html
Теперь давайте рассмотрим несколько примеров блокировки этих путей:
Путь | Заблокировано |
Запретить: /item1.html | Запрещен только файл /products/shoes/item1.html |
Запретить: /products/ | И /products/shoes/item1.html, и /products/shirts/item2.html запрещены |
Вы можете запретить сканирование всего сайта, добавив символ «/» следующим образом:
Агент пользователя: Googlebot Запретить: /
Разрешить
Агент пользователя: Googlebot Запретить: /пользователи/ Разрешить: /users/very-important-user.HTML
Вы можете использовать директиву allow, чтобы разрешить сканирование страницы в каталоге, который иначе запрещен.
В приведенном выше примере запрещены все страницы в каталоге /user/, кроме одной с именем /very-important-user.html.
Карта сайта
Карта сайта: https://website.com/sitemap.xml
Директива карты сайта указывает местоположение вашей карты сайта. Вы можете добавить его в начало или конец вашего файла и определить более одной карты сайта.
В отличие от путей, определенных в других директивах, всегда добавляет полный URL-адрес вашей карты сайта, включая протокол HTTP/HTTPS или версию с www/без www.
Директива карты сайта не требуется, но настоятельно рекомендуется. Даже если вы отправили карту сайта в Google Search Console или Bing Webmaster Tools, всегда полезно добавить ее в файл robots.txt, чтобы все роботы поисковых систем могли найти ее быстрее.
Задержка сканирования
Задержка сканирования: 10
Боты поисковых систем могут просканировать многие ваши страницы за короткий промежуток времени.Каждое сканирование использует часть ресурсов вашего сервера.
Если у вас большой веб-сайт с большим количеством страниц или для открытия каждой страницы требуется много ресурсов сервера, ваш сервер может не справиться со всеми запросами. В результате он станет перегруженным, а пользователи и поисковые системы могут временно потерять доступ к вашему сайту. Вот где директива Crawl-delay может пригодиться и замедлить процесс сканирования.
Значение директивы Crawl-delay определяется в секундах.Вы можете установить его в диапазоне от 1 до 30 секунд.
Важно отметить, что не каждая поисковая система следует этой директиве. Например, Google вообще не поддерживает Crawl-delay.
Кроме того, его интерпретация может различаться в зависимости от поисковой системы. Например, для Bing и Yahoo Crawl-delay представляет собой длину промежутка между окнами, в течение которого бот может получить доступ к странице только один раз.
Для Яндекса Crawl-delay указывает время, в течение которого бот должен ждать, прежде чем запросить другую страницу.
#Блокирует доступ к разделу блога Агент пользователя: Googlebot Запретить: /блог/ Агент пользователя: Bingbot Disallow: /users/ #блокирует доступ к разделу пользователей
Вы можете добавлять комментарии в файл robots.txt, добавляя символ решетки # в начале строки или после директивы. Поисковые системы игнорируют все, что следует за # в той же строке.
Комментарии предназначены для того, чтобы люди могли объяснить, что означает конкретный раздел. Всегда полезно добавить их, потому что они позволят вам быстрее понять, что происходит, когда вы в следующий раз откроете файл.
Вы можете использовать комментарии для добавления пасхальных яиц в файл robots.txt. Если вы хотите узнать об этом больше, вы можете прочитать нашу статью о том, как сделать директивы robots интересными для людей, или посмотреть пример в файле robots.txt.
Подстановочные знаки
Подстановочные знаки — это специальные символы, которые могут использоваться в качестве заполнителей для других символов в тексте и, следовательно, упрощают процесс создания файла robots.txt. В том числе:
- Звездочка * и
- Знак доллара $.
Звездочка может заменить любую строку.
Агент пользователя: *
В приведенном выше примере звездочка в строке User-agent указывает на всех ботов поисковых систем. Следовательно, каждая директива, следующая за ней, будет направлена на всех поисковых роботов.
Запретить: /*?
Вы также можете использовать его для определения пути. Приведенные выше примеры означают, что каждый URL-адрес, оканчивающийся на «?» запрещено.
Знак доллара указывает на определенный элемент, который соответствует концу URL-адреса.
Запретить: /*.jpeg$
В приведенном выше примере показано, что все URL-адреса, оканчивающиеся на «.jpeg», должны быть запрещены.
Вы можете использовать подстановочные знаки в каждой директиве, кроме карты сайта.
Проверка файла robots.txt
Вы можете протестировать с помощью тестера robots.txt в Google Search Console и Bing Webmaster Tools. Просто введите URL-адрес, который вы хотите проверить, и инструмент покажет вам, разрешен он или запрещен.
Вы также можете отредактировать файл прямо в файле robots.txt тестеры и повторно протестируйте изменения. Имейте в виду, что изменения не сохраняются на вашем сайте. Вам необходимо самостоятельно скопировать файл и загрузить его на свой сайт.
Если вы более технически подкованы, вы также можете использовать библиотеку robots.txt с открытым исходным кодом Google для локального тестирования файла robots.txt на вашем компьютере.
Robots.txt, тег Meta Robots и тег X-Robots-Tag
Robots.txt — не единственный способ связи со сканерами. Вы также можете использовать теги Meta Robots и X-Robots-Tag.
Наиболее важным отличием является тот факт, что robots.txt контролирует сканирование веб-сайта, , а Meta Robots Tag и X-Robots-Tag позволяют контролировать его индексацию.
Кроме всего прочего, эти методы отличаются еще и способами реализации.
Реализация | |
Robots.txt | Простой текстовый файл, добавленный в корневой каталог вашего веб-сайта. |
Метатег роботов | Тег HTML добавлен в раздел кода. |
X-Robots-Tag | На стороне сервера добавлена часть заголовка ответа HTTP. |
Когда бот поисковой системы находит страницу, он сначала просматривает файл robots.txt. Если сканирование не запрещено, оно может получить доступ к веб-сайту и только после этого найти потенциальные теги Meta Robots или заголовки X-Robots-Tag. Это важно помнить по двум причинам:
- Комбинация методов — ботам поисковых систем необходимо разрешить сканировать страницу, чтобы увидеть теги Meta Robots и X-Robots-Tag.Если боты не могут получить доступ к странице, они не будут работать корректно.
- Оптимизация краулингового бюджета — из этих трех методов только robots.txt может помочь сэкономить краулинговый бюджет.
Лучшие практики
Вот несколько рекомендаций и советов по созданию файла robots.txt:
- Не блокируйте файлы JavaScript или CSS с помощью robots.txt. Боты могут неправильно отображать ваш контент, если у них нет доступа к этим ресурсам.
- Не забудьте добавить ссылку на карту сайта, чтобы поисковые роботы могли легко ее найти.
- Интерпретация синтаксиса robots.txt может различаться в зависимости от поисковой системы. Всегда перепроверяйте, как бот поисковой системы обрабатывает конкретную директиву, если вы не уверены.
- Будьте осторожны при использовании подстановочных знаков. Если вы используете их неправильно, вы можете по ошибке заблокировать доступ ко всему разделу вашего сайта.
- Не используйте robots.txt для блокировки личного контента. Если вы хотите обезопасить свою страницу, лучше защитить ее паролем. Кроме того, роботы.txt является общедоступным, и вы потенциально можете раскрыть местоположение вашего личного контента опасным ботам.
- Если запретить поисковым роботам доступ к вашему сайту, он не будет удален со страницы результатов поиска. Если есть много ссылок с описательным якорным текстом, указывающим на вашу страницу, она все равно может быть проиндексирована. Если вы хотите предотвратить это, вам следует вместо этого использовать заголовок Meta Robots Tag или X-Robots-Tag.
Средство тестирования Robots.txt — Screaming Frog
Как тестировать роботов.txt с помощью SEO Spider
Файл robots.txt используется для выдачи роботам инструкций о том, какие URL-адреса можно сканировать на веб-сайте. Все боты основных поисковых систем соответствуют стандарту исключения роботов и будут читать и выполнять инструкции файла robots.txt, прежде чем получать любые другие URL-адреса с веб-сайта.
Команды могут быть настроены для применения к определенным роботам в соответствии с их пользовательским агентом (например, «Googlebot»). URL-адрес.
Вы можете просмотреть robots.txt сайтов в браузере, просто добавив /robots.txt в конец поддомена (например, www.screamingfrog.co.uk/robots.txt).
Хотя файлы robots.txt, как правило, довольно просты для интерпретации, когда в них много строк, пользовательских агентов, директив и тысяч страниц, может быть трудно определить, какие URL-адреса заблокированы, а какие разрешены для сканирования. Очевидно, что последствия блокировки URL-адресов по ошибке могут иметь огромное влияние на видимость в результатах поиска.
Именно здесь тестер robots.txt, такой как Screaming Frog SEO Spider, и его настраиваемая функция robots.txt могут помочь тщательно проверить и проверить robots.txt сайтов в масштабе.
Прежде всего, вам необходимо скачать SEO Spider, который является бесплатным в облегченной форме для сканирования до 500 URL-адресов. Для использования более расширенных пользовательских функций robots.txt требуется лицензия.
Вы можете выполнить следующие шаги, чтобы протестировать файл robots.txt сайта, который уже запущен.Если вы хотите протестировать директивы robots.txt, которые еще не введены в действие, или синтаксис отдельных команд для роботов, читайте подробнее о пользовательских функциях robots.txt в разделе 3 нашего руководства.
1) Просканировать URL-адрес или веб-сайт
Откройте SEO Spider, введите или скопируйте сайт, который вы хотите сканировать, в поле «введите URL-адрес для паука» и нажмите «Пуск».
Если вы предпочитаете тестировать несколько URL-адресов или XML-карту сайта, вы можете просто загрузить их в режиме списка (в разделе «режим > список» в навигации верхнего уровня).
2) Просмотрите вкладку «Коды ответов» и фильтр «Заблокировано Robots.txt»
Запрещенные URL-адреса будут отображаться со статусом «Заблокировано Robots.txt» под фильтром «Заблокировано Robots.txt».
Фильтр «Заблокировано Robots.txt» также отображает столбец «Совпадающая строка Robots.txt», в котором указан номер строки и запрещенный путь записи robots.txt, исключающей все URL-адреса при сканировании.
Исходные страницы, которые ссылаются на URL-адреса, запрещенные в robots.txt можно просмотреть, щелкнув вкладку «inlinks», которая заполняет нижнюю панель окна.
Вот более близкий вид нижней панели окна, в которой подробно описаны данные «входящих ссылок» —
Их также можно экспортировать массово с помощью отчета «Массовый экспорт > Коды ответов > Заблокировано ссылками Robots.txt».
3) Протестируйте с помощью пользовательского файла robots.txt
Имея лицензию, вы также можете загружать, редактировать и тестировать файл robots.txt сайта, используя пользовательскую функцию robots.txt в разделе «Конфигурация > robots.txt > Пользовательский».
Эта функция позволяет добавлять несколько файлов robots.txt на уровне поддоменов, тестировать директивы в SEO Spider и просматривать URL-адреса, которые заблокированы или разрешены немедленно.
Вы также можете выполнить сканирование и фильтрацию заблокированных URL-адресов на основе обновленного пользовательского robots.txt («Коды ответов > Заблокировано robots.txt») и просмотреть соответствующую строку директивы robots.txt.
Пользовательский файл robots.txt использует выбранный в конфигурации пользовательский агент, который можно настроить для тестирования и проверки любых поисковых ботов.
Обратите внимание: изменения, которые вы вносите в файл robots.txt в SEO Spider, не влияют на загруженный на ваш сервер файл robots.txt. Однако, когда вы довольны результатами тестирования, вы можете скопировать содержимое в живую среду.
Как SEO-паук подчиняется robots.txt
The Screaming Frog SEO Spider подчиняется robots.txt так же, как и Google. Он проверит robots.txt поддоменов и будет следовать (разрешать/запрещать) директивам специально для пользовательского агента «Screaming Frog SEO Spider», если не Googlebot, то ВСЕХ роботов.
URL-адреса, запрещенные в robots.txt, по-прежнему будут отображаться и «индексироваться» в пользовательском интерфейсе со «статусом» «Заблокировано Robots.txt», они просто не будут сканироваться, поэтому содержимое и исходящие ссылки страница не будет видна. Отображение в пользовательском интерфейсе внутренних или внешних ссылок, заблокированных robots.txt, можно отключить в настройках robots.txt.
Важно помнить, что URL-адреса, заблокированные в robots.txt, по-прежнему могут быть проиндексированы поисковыми системами, если на них есть внутренние или внешние ссылки.Файл robots.txt просто мешает поисковым системам видеть содержимое страницы. Метатег noindex (или X-Robots-Tag) — лучший вариант для удаления контента из индекса.
Инструмент поддерживает сопоставление URL-адресов значений файлов (подстановочные знаки * / $), как и Googlebot.
Распространенные примеры robots.txt
Звездочка рядом с командой «User-agent» (User-agent: *) указывает, что директивы применяются ко ВСЕМ роботам, в то время как определенные боты User-agent также могут использоваться для определенных команд (например, User-agent: Googlebot).
Если команды используются как для всех, так и для определенных пользовательских агентов, то «все» команды будут игнорироваться конкретным ботом пользовательского агента, и будут выполняться только его собственные директивы. Если вы хотите, чтобы глобальные директивы выполнялись, вам также придется включить эти строки в конкретный раздел User-agent.
Ниже приведены некоторые распространенные примеры директив, используемых в файле robots.txt.
Блокировать всех роботов со всех URL-адресов
User-agent: *
Disallow: /
Заблокировать всех роботов из папки
Агент пользователя: *
Запретить: /папка/
Блокировать всех роботов с URL-адреса
User-agent: *
Disallow: /a-specific-url.HTML
Блокировать Googlebot со всех URL-адресов
Агент пользователя: Googlebot
Запретить: /
Блокировать и разрешать команды вместе
Агент пользователя: Googlebot
Запретить: /
Разрешить: /crawl-this/
Если у вас есть конфликтующие директивы (т. е. разрешающие и запрещающие для одного и того же пути к файлу), то совпадающая разрешающая директива превосходит совпадающую запрещающую, если она содержит одинаковое или более символов в команде.
Соответствие URL-адреса robots.txt с подстановочным знаком
Google и Bing разрешают использование подстановочных знаков в файлах robots.текст. Например, чтобы заблокировать доступ всех поисковых роботов ко всем URL-адресам, содержащим вопросительный знак (?).
Агент пользователя: *
Запретить: /*?
В конце URL-адреса можно использовать символ доллара ($). Например, чтобы заблокировать доступ всех поисковых роботов к файлу с расширением .html.
User-agent: *
Disallow: /*.html$
Подробнее о значениях пути на основе сопоставления URL-адресов можно прочитать в руководстве Google по спецификациям robots.txt.
Если у вас есть вопросы по использованию robots.txt в Screaming Frog SEO Spider, то, пожалуйста, просто свяжитесь с нашей службой поддержки.
Управление файлами robots.txt и Sitemap
- Статья
- 7 минут на чтение
- 5 участников
Полезна ли эта страница?
Да Нет
Любая дополнительная обратная связь?
Отзыв будет отправлен в Microsoft: при нажатии кнопки отправки ваш отзыв будет использован для улучшения продуктов и услуг Microsoft.Политика конфиденциальности.
Представлять на рассмотрение
Спасибо.
В этой статье
Руслан Якушев
Набор инструментов для поисковой оптимизации IIS включает функцию Исключение роботов , которую можно использовать для управления содержимым файла Robots.txt для вашего веб-сайта, а также функцию Sitemaps и индексы Sitemap , которую можно использовать для управления карты сайта.В этом пошаговом руководстве объясняется, как и зачем использовать эти функции.
Фон
Сканеры поисковых систем будут тратить ограниченное время и ресурсы на ваш веб-сайт. Поэтому очень важно сделать следующее:
- Запретить поисковым роботам индексировать содержимое, которое не является важным или которое не должно отображаться на страницах результатов поиска.
- Укажите поисковым роботам контент, который вы считаете наиболее важным для индексации.
Для выполнения этих задач обычно используются два протокола: протокол исключения роботов и протокол файлов Sitemap.
Протокол исключения роботов используется для указания поисковым роботам, какие URL-адреса НЕ следует запрашивать при сканировании веб-сайта. Инструкции по исключению помещаются в текстовый файл с именем Robots.txt, который находится в корневом каталоге веб-сайта. Большинство сканеров поисковых систем обычно ищут этот файл и следуют содержащимся в нем инструкциям.
Протокол Sitemaps используется для информирования сканеров поисковых систем об URL-адресах, доступных для сканирования на вашем веб-сайте. Кроме того, файлы Sitemap используются для предоставления некоторых дополнительных метаданных об URL-адресах сайта, таких как время последнего изменения, частота изменения, относительный приоритет и т. д.Поисковые системы могут использовать эти метаданные при индексировании вашего веб-сайта.
Предпосылки
1. Настройка веб-сайта или приложения
Для выполнения этого пошагового руководства вам потребуется размещенный веб-сайт IIS 7 или более поздней версии или веб-приложение, которым вы управляете. Если у вас его нет, вы можете установить его из галереи веб-приложений Microsoft. Для целей этого пошагового руководства мы будем использовать популярное приложение для ведения блога DasBlog.
2. Анализ веб-сайта
Если у вас есть веб-сайт или веб-приложение, вы можете проанализировать его, чтобы понять, как обычная поисковая система будет сканировать его содержимое.Для этого выполните действия, описанные в статьях «Использование анализа сайта для обхода веб-сайта» и «Использование отчетов анализа сайта». Когда вы проведете свой анализ, вы, вероятно, заметите, что у вас есть определенные URL-адреса, которые доступны для сканирования поисковыми системами, но нет никакой реальной пользы от их сканирования или индексации. Например, страницы входа или страницы ресурсов не должны даже запрашиваться сканерами поисковых систем. Такие URL-адреса следует скрывать от поисковых систем, добавляя их в файл robots.текстовый файл.
Управление файлом robots.txt
Вы можете использовать функцию исключения роботов из IIS SEO Toolkit, чтобы создать файл Robots.txt, который сообщает поисковым системам, какие части веб-сайта не следует сканировать или индексировать. Следующие шаги описывают, как использовать этот инструмент.
- Откройте консоль управления IIS, введя INETMGR в меню «Пуск».
- Перейдите на свой веб-сайт, используя древовидное представление слева (например, веб-сайт по умолчанию).
- Щелкните значок Search Engine Optimization в разделе «Управление»:
- На главной странице SEO щелкните ссылку задачи « Добавить новое правило запрета » в разделе Исключение роботов .
Добавление запрещающих и разрешающих правил
Автоматически откроется диалоговое окно «Добавить правила запрета»:
Протокол исключения роботов использует директивы «Разрешить» и «Запретить», чтобы информировать поисковые системы о том, какие URL-адреса можно сканировать, а какие нет.Эти директивы могут быть указаны для всех поисковых систем или для конкретных пользовательских агентов, идентифицируемых HTTP-заголовком пользовательского агента. В диалоговом окне «Добавить запрещающие правила» вы можете указать, к какому поисковому роботу применяется директива, введя пользовательский агент сканера в поле «Робот (пользовательский агент)».
Представление дерева URL-адресов используется для выбора запрещенных URL-адресов. Вы можете выбрать один из нескольких вариантов при выборе путей URL с помощью раскрывающегося списка «Структура URL»:
- Физическое расположение — вы можете выбрать пути из физической структуры файловой системы вашего веб-сайта.
- From Site Analysis (название анализа) — вы можете выбрать пути из структуры виртуальных URL-адресов, которая была обнаружена при анализе сайта с помощью инструмента IIS Site Analysis.
- <Запустить новый анализ сайта...> — вы можете запустить новый анализ сайта, чтобы получить структуру виртуального URL-адреса для вашего веб-сайта, а затем выбрать из нее пути URL-адресов.
После выполнения шагов, описанных в разделе предварительных условий, вам будет доступен анализ сайта. Выберите анализ в раскрывающемся списке, а затем отметьте URL-адреса, которые необходимо скрыть от поисковых систем, установив флажки в древовидном представлении «URL-пути»:
После выбора всех каталогов и файлов, которые необходимо запретить, нажмите OK.Вы увидите новые записи запрета в главном представлении функций:
.
Также будет обновлен файл Robots.txt для сайта (или создан, если он не существовал). Его содержимое будет выглядеть примерно так:
Агент пользователя: *
Запретить: /EditConfig.aspx
Запретить: /EditService.asmx/
Запретить: /изображения/
Запретить: /Login.aspx
Запретить: /скрипты/
Запретить: /SyndicationService.asmx/
Чтобы увидеть, как работает файл Robots.txt, вернитесь к функции анализа сайта и повторно запустите анализ сайта.На странице «Сводка отчетов» в категории Links выберите Links Blocked by Robots.txt . В этом отчете будут показаны все ссылки, которые не были просканированы, поскольку они были запрещены только что созданным файлом Robots.txt.
Управление файлами Sitemap
Вы можете использовать функцию Sitemaps и Sitemap Indexes набора IIS SEO Toolkit для создания файлов Sitemap на своем веб-сайте, чтобы информировать поисковые системы о страницах, которые следует просканировать и проиндексировать.Для этого выполните следующие действия:
- Откройте диспетчер IIS, введя INETMGR в меню Пуск .
- Перейдите на свой веб-сайт, используя древовидную структуру слева.
- Щелкните значок Search Engine Optimization в разделе «Управление»:
- На главной странице SEO нажмите на ссылку задачи « Создать новую карту сайта » в разделе Файлы Sitemap и индексы Sitemap .
- Диалоговое окно Добавить карту сайта откроется автоматически.
- Введите имя для файла карты сайта и нажмите OK . Появится диалоговое окно Добавить URL-адреса .
Добавление URL-адресов в карту сайта
Диалоговое окно Добавить URL-адреса выглядит следующим образом:
Файл Sitemap в основном представляет собой простой XML-файл, в котором перечислены URL-адреса вместе с некоторыми метаданными, такими как частота изменений, дата последнего изменения и относительный приоритет. Вы используете диалоговое окно Добавить URL-адреса для добавления новых записей URL-адресов в XML-файл Sitemap.Каждый URL-адрес в карте сайта должен быть в полном формате URI (т. е. он должен включать префикс протокола и имя домена). Итак, первое, что вам нужно указать, это домен, который будет использоваться для URL-адресов, которые вы собираетесь добавить в карту сайта.
Представление дерева URL-адресов используется для выбора URL-адресов, которые следует добавить в карту сайта для индексации. Вы можете выбрать один из нескольких вариантов, используя раскрывающийся список «Структура URL»:
- Физическое расположение — вы можете выбрать URL-адреса из физического макета файловой системы вашего веб-сайта.
- From Site Analysis (название анализа) — вы можете выбрать URL-адреса из виртуальной структуры URL-адресов, которая была обнаружена при анализе сайта с помощью инструмента Site Analysis.
- <Запустить новый анализ сайта...> — вы можете запустить новый анализ сайта, чтобы получить виртуальную структуру URL-адреса для вашего веб-сайта, а затем выбрать оттуда пути URL-адресов, которые вы хотите добавить для индексации.
После выполнения действий, описанных в разделе предварительных условий, вам будет доступен анализ сайта.Выберите его из раскрывающегося списка, а затем проверьте URL-адреса, которые необходимо добавить в карту сайта.
При необходимости измените параметры Частота изменения , Дата последнего изменения и Приоритет , а затем нажмите OK , чтобы добавить URL-адреса в карту сайта. Файл sitemap.xml будет обновлен (или создан, если он не существовал), и его содержимое будет выглядеть следующим образом:
<набор адресов>
<ссылка>
http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx
2009-06-03T16:05:02
еженедельно
<приоритет>0,5
<ссылка>
http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx
2009-06-03T16:05:01
еженедельно
<приоритет>0,5
Добавление карты сайта в файл robots.текстовый файл
Теперь, когда вы создали карту сайта, вам нужно сообщить поисковым системам, где она находится, чтобы они могли начать ее использовать. Самый простой способ сделать это — добавить URL-адрес карты сайта в файл Robots.txt.
В функции «Карты сайта и индексы файлов Sitemap» выберите карту сайта, которую вы только что создали, а затем нажмите Добавить в Robots.txt на панели Действия :
Ваш файл Robots.txt будет выглядеть следующим образом:
Агент пользователя: *
Запретить: /EditService.asmx/
Запретить: /изображения/
Запретить: /скрипты/
Запретить: /SyndicationService.asmx/
Запретить: /EditConfig.aspx
Запретить: /Login.aspx
Карта сайта: http://myblog/sitemap.xml
Регистрация карт сайта в поисковых системах
В дополнение к добавлению местоположения карты сайта в файл Robots.txt рекомендуется отправить URL-адрес местоположения карты сайта в основные поисковые системы. Это позволит вам получить полезный статус и статистику о вашем веб-сайте из инструментов веб-мастера поисковой системы.
Резюме
В этом пошаговом руководстве вы узнали, как использовать функции «Исключение роботов» и «Карты сайта и индексы файлов Sitemap» набора инструментов IIS Search Engine Optimization Toolkit для управления файлами Robots.txt и файлами карты сайта на вашем веб-сайте. Набор инструментов IIS Search Engine Optimization Toolkit предоставляет интегрированный набор инструментов, которые работают вместе, чтобы помочь вам создать и проверить правильность файлов Robots.