Файл robots txt онлайн: Генератор файла robots txt – проверка robots txt на ошибки

Содержание

Создать robots.txt онлайн

Чтобы активировать

PRO версию программы достаточно только нажать и поделиться страницей через социальные сети выше. Robots.txt является обыкновенным текстовым файлом, располагающимся в корне вашего сайта, просмотреть и отредактировать его можно используя любой текстовый редактор. В данном файлике записаны инструкции, которыми должны руководствоваться поисковые машины (роботы). Собственно, отсюда и пошло название этого документа. Инструкции эти указывают поисковику, что подлежит индексированию, а что трогать не нужно. Наверное, каждый вебмастер хотел бы, чтобы созданный им сайт как можно быстрее был проиндексирован поисковой системой, причем чтобы этот процесс прошел правильно и без ошибок. Поэтому, нужно понимать, что без грамотно составленного файла robots.txt это маловероятно, следовательно, нужно позаботиться о его создании. Конечно же вы можете самостоятельно написать данный файл, к тому же примеров в сети очень много. Но, намного правильнее и быстрее будет воспользоваться нашим инструментом
создания robots.txt
– это самый эффективный способ. Все что от Вас требуется это заполнить форму на нашем сайте и все. В результате вы получите уже готовый текст, который нужно просто вставить в документ и сохранить в корне вашего сайта под именем Robots.txt. При этом у вас есть возможность полностью запретить индексирование своего сайта, хотя вряд ли это кому-то понадобится. Здесь вам нужно будет указать местонахождение карты вашего сайта, а если у вас ее нету, то можно просто не заполнять данное поле. Далее вы можете выбрать поисковые системы, которым дадите право проводить индексирование страниц вашего ресурса. Рекомендуется выбирать все, это даст наиболее положительный эффект в плане посещаемости сайта. В перечне присутствуют все основные поисковые машины. Далее вам предлагается указать те страницы, которые вы бы не хотели видеть в индексе поисковиков. На этом все, ваш файлик готов, можете выкладывать его к себе на сайт.

Есть ли какие-то отличия Robots.txt для Яндекса в сравнении с файлами для других роботов?

На самом деле каждая поисковая машина использует разные методы индексирования, и вообще работают они по-разному. Каждый поисковик имеет свои методики ранжирования, присвоения сайтам определенного места в своем списке. Однако, практически все они одинаково индексируют и понимают файл Robots.txt. Практика свидетельствует, что один файл Robots.txt подходит абсолютно ко всем поисковым системам и с ним не возникает никаких проблем.

Есть ли возможность проверить существующий файл Robots.txt?

Если вы сами писали данный файл, или использовали другой генератор, и сомневаетесь в его работоспособности, то можете проверить его с помощью специального сервиса на нашем сайте. Если в ходе такой проверки обнаружатся те или иные проблемы, то вы с легкостью сможете сгенерировать новый файлик воспользовавшись нашим инструментом. Специалисты всегда рекомендуют проверять самодельные файлы Robots.txt с помощью уже проверенных генераторов, чтобы избежать возможных проблем в будущем.

Генератор robots.txt 🔧

Запрет индексации для следующих ботов:

 Для всех
 Яндекс
 Google
 Mail.ru
 Рабмлер
 Бинг
 Yahoo

Основной домен сайта:

Таймаут между переходами робота по страницам:
1 секунда5 секунд10 секунд60 секунд

Запрет индексации разделов, страниц:
   Пример:
   /contacts/
   /category1/
   /category2/
   /page.html
Пусть к карте сайте, sitemap.xml:

Готовый robots.txt:

Сохраните данные в файл «robots.txt» и скопируйте в конревую папку сайта.

Для чего предназначен инструмент «Генератор robots.txt»

С помощью «Генератор robots.txt» можно в режиме онлайн за несколько секунд создать файл robots.txt, а также установить запрет на индексацию страниц сайта определенными поисковыми системами.

Что такое robots.txt

Robots.txt – это файл, который расположен в корне сайта и в котором содержатся указания для поисковых ботов. Заходя на любой ресурс, роботы начинают с ним знакомство с файла robots.txt – своеобразной «инструкции по применению». Издатель указывает в данном файле, как роботу необходимо взаимодействовать с ресурсом. Например, здесь может содержаться запрет индексации некоторых страниц или рекомендация о соблюдении временного интервала между сохранением документов с веб-сервера.

Возможности инструмента

Веб-мастер может установить запрет на индексацию роботами поисковых систем Яндекс, Google, Mail.ru, Рамблер, Bing или Yahoo!, а также задать тайм-аут между переходами поискового робота по страницам ресурса и запретить индексацию избранных страниц сайта. Кроме этого, в специальной строке можно указать поисковым роботам путь к карте сайта (sitemap.xml).

После того, как вы заполните все поля инструмента и нажмете кнопку «Создать», система автоматически сгенерирует файл для поисковых ботов, который вы должны будете разместить в корневой зоне вашего сайта.

Обратите внимание, что файл robots.txt нельзя применять для скрытия страницы из результатов поиска, потому что на нее могут ссылаться иные ресурсы, и поисковые роботы так или иначе ее проиндексируют. Напоминаем, что для блокировки страницы в результатах поисковой выдачи используется специальный тег «noindex» или устанавливается пароль.

Стоит также отметить, что с помощью инструмента «Генератор robots.txt» вы создадите файл исключительно рекомендательного характера. Само собой, боты «прислушиваются» к указаниям, оставленным для них веб-мастерами в файле robots.txt, но иногда игнорируют их. Почему так происходит? Потому, что каждый поисковый робот имеет свои настройки, согласно которым он интерпретирует информацию, полученную из файла robots.txt.

Файл robots.txt: полное руководство | SEO-портал

Стандарт robots.txt отличается оригинальным синтаксисом. Существуют общие для всех роботов директивы (правила), а также директивы, понятные только роботам определенных поисковых систем.

Стандартные директивы

Директивами для robots.txt называются правила, состоящие из названия и значения (параметра), идущего после знака двоеточия. Например:

# Директива User-agent со значением Yandex:
User-agent: Yandex

Регистр символов в названиях директив не учитывается.

Для большинства директив стандарта в качестве значения применяется URL-префикс (часть URL-адреса). Например:

User-agent: Yandex
# URL-префикс в качестве значения:
Disallow: /admin/

Регистр символов учитывается роботами при обработке URL-префиксов.

Директива User-agent

Правило User-agent указывает, для каких роботов составлены следующие под ним инструкции.

Значения User-agent

В качестве значения директивы User-agent указывается конкретный тип робота или символ *. Например:

# Последовательность инструкций для робота YandexBot:
User-agent: YandexBot
Disallow: /

Основные типы роботов, указываемые в

User-agent:

Yandex
Подразумевает всех роботов Яндекса.
YandexBot
Основной индексирующий робот Яндекса
YandexImages
Робот Яндекса, индексирующий изображения.
YandexMedia
Робот Яндекса, индексирующий видео и другие мультимедийные данные.
Google
Подразумевает всех роботов Google.
Googlebot
Основной индексирующий робот Google.
Googlebot-Image
Робот Google, индексирующий изображения.

Регистр символов в значениях директивы User-agent не учитывается.

Обработка User-agent

Чтобы указать, что нижеперечисленные инструкции составлены для всех типов роботов, в качестве значения директивы

User-agent применяется символ * (звездочка). Например:

# Последовательность инструкций для всех роботов:
User-agent: *
Disallow: /

Перед каждым последующим набором правил для определённых роботов, которые начинаются с директивы User-agent, следует вставлять пустую строку.

User-agent: *
Disallow: /

User-agent: Yandex
Allow: /

При этом нельзя допускать наличия пустых строк между инструкциями для конкретных роботов, идущими после User-agent:

# Нужно:
User-agent: *
Disallow: /administrator/
Disallow: /files/

# Нельзя:
User-agent: *
Disallow: /administrator/

Disallow: /files/

Обязательно следует помнить, что при указании инструкций для конкретного робота, остальные инструкции будут им игнорироваться:

# Инструкции для робота YandexImages:
User-agent: YandexImages
Disallow: /
Allow: /images/

# Инструкции для всех роботов Яндекса, кроме YandexImages
User-agent: Yandex
Disallow: /images/

# Инструкции для всех роботов, кроме роботов Яндекса
User-agent: *
Disallow:
Директива Disallow

Правило Disallow применяется для составления исключающих инструкций (запретов) для роботов. В качестве значения директивы указывается URL-префикс. Первый символ / (косая черта) задает начало относительного URL-адреса. Например:

# Запрет сканирования всего сайта:
User-agent: *
Disallow: /

# Запрет сканирования конкретной директории:
User-agent: *
Disallow: /images/

# Запрет сканирования всех URL-адресов, начинающихся с /images:
User-agent: *
Disallow: /images

Применение директивы Disallow без значения равносильно отсутствию правила:

# Разрешение сканирования всего сайта:
User-agent: *
Disallow:
Директива Allow

Правило Allow разрешает доступ и применяется для добавления исключений по отношению к правилам Disallow. Например:

# Запрет сканирования директории, кроме одной её поддиректории:
User-agent: *
Disallow: /images/ # запрет сканирования директории
Allow: /images/icons/ # добавление исключения из правила Disallow для поддиректории

При равных значениях приоритет имеет директива Allow:

User-agent: *
Disallow: /images/ # запрет доступа
Allow: /images/ # отмена запрета
Директива Sitemap

Добавить ссылку на файл Sitemap в можно с помощью одноименной директивы.

В качестве значения директивы Sitemap в указывается прямой (с указанием протокола) URL-адрес карты сайта:

User-agent: *
Disallow:

# Директив Sitemap может быть несколько: 
Sitemap: https://seoportal.net/sitemap-1.xml
Sitemap: https://seoportal.net/sitemap-2.xml

Директива Sitemap является межсекционной и может размещаться в любом месте robots.txt. Удобнее всего размещать её в конце файла, отделяя пустой строкой.

Следует учитывать, что robots.txt является общедоступным, и благодаря директиве Sitemap злоумышленники могут получить доступ к новым страницам раньше поисковых роботов, что может повлечь за собой воровство контента.

Использование директивы Sitemap в robots.txt может повлечь воровство контента сайта.

Регулярные выражения

В robots.txt могут применяться специальные регулярные выражения в URL-префиксах с помощью символов * и $.

Символ /

Символ / (косая черта) является разделителем URL-префиксов, отражая степень вложенности страниц. Важно понимать, что URL-префикс с символом / на конце и аналогичный префикс, но без косой черты, поисковые роботы могут воспринимать как разные страницы:

# разные запреты:
Disallow: /catalog/ # запрет для вложенных URL (/catalog/1), но не для /catalog
Disallow: /catalog  # запрет для /catalog и всех URL, начинающихся с /catalog, в том числе:
	# /catalog1
	# /catalog1
	# /catalog1/2
Символ *

Символ * (звездочка) предполагает любую последовательность символов. Он неявно приписывается к концу каждого URL-префикса директив Disallow и Allow:

User-agent: Googlebot
Disallow: /catalog/  # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/* # то же самое

Символ * может применяться в любом месте URL-префикса:

User-agent: Googlebot
Disallow: /*catalog/ # запрещает все URL-адреса, содержащие "/catalog/":
	# /1catalog/
	# /necatalog/1
	# images/catalog/1
	# /catalog/page.htm
	# и др.
	# но не /catalog
Символ $

Символ $ (знак доллара) применяется для отмены неявного символа * в окончаниях URL-префиксов:

User-agent: Google
Disallow: /*catalog/$
	# запрещает все URL-адреса, заканчивающиеся символами "catalog/":
	# /1/catalog/
	# но не:
	# /necatalog/1
	# /necatalog
	# /catalog

Символ $ (доллар) не отменяет явный символ * в окончаниях URL-префиксов:

User-agent: Googlebot
Disallow: /catalog/* # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/*$ # то же самое
# Но:
Disallow: /catalog/ # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/$ # запрет только URL-адреса "/catalog/"

Директивы Яндекса

Роботы Яндекса способны понимать три специальных директивы:

  • Host (устарела),
  • Crawl-delay,
  • Clean-param.
Директива Host

Директива Host является устаревшей и в настоящее время не учитывается. Вместо неё необходимо настраивать редирект на страницы главного зеркала.

Директива Crawl-delay

Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Яндекс.Помощь

Правило Crawl-delay следует размещать в группу правил, которая начинается с директивы User-Agent, но после стандартных для всех роботов директив Disallow и Allow:

User-agent: *
Disallow:
Crawl-delay: 1 # задержка между посещениями страниц 1 секунда

В качестве значений Crawl-delay могут использоваться дробные числа:

User-agent: *
Disallow:
Crawl-delay: 2.5 # задержка между посещениями страниц 2.5 секунд

Директива Clean-param

Директива Clean-param помогает роботу Яндекса верно определить страницу для индексации, URL-адрес которой может содержать различные параметры, не влияющие на смысловое содержание страницы.

Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.

Яндекс.Помощь

В качестве значения правила Clean-param указывается параметр и URL-префикс адресов, для которых не следует учитывать данный параметр. Параметр и URL-префикс должны быть разделены пробелом:

User-agent: *
Disallow:
# Указывает на отсутствие значимости параметра id в URL-адресе с index.htm
# (например, в адресе seoportal.net/index.htm?id=1 параметр id не станет учитываться,
# а в индекс, вероятно, попадёт страница с URL-адресом seoportal.net/index.htm): 
Clean-param: id index.htm

Для указания 2-х и более незначительных параметров в одном правиле Clean-param применяется символ &:

User-agent: *
Disallow:
# Указывает на отсутствие значимости параметров id и num в URL-адресе с index.htm
Clean-param: id&num index.htm

Директива Clean-param может быть указана в любом месте robots.txt. Все указанные правила Clean-param будут учтены роботом Яндекса:

 User-agent: *
Allow: /
# Для разных страниц с одинаковыми параметрами в URL-адресах: 
Clean-param: id index
Clean-param: id admin

Файл robots.txt — способы анализа и проверки robots.txt

Поисковые роботы — краулеры начинают знакомство с сайтом с чтения файла robots.txt. В нем содержится вся важная для них информация. Владельцам сайтов следует создать и периодически проводить анализ robots.txt. От корректности его работы зависит скорость индексации страниц и место в поисковой выдачи.

Создание файла 

Описание. Файл robots.txt — это документ со служебной информацией. Он предназначен для поисковых роботов. В нем записывают, какие страницы можно индексировать, какие — нет и каким именно краулерам. Например, англоязычный Facebook разрешает доступ только боту Google. Файл robots.txt любого сайта можно посмотреть в браузере по ссылке www.site.ru/robots.txt. 

Он не является обязательным элементом сайта, но его наличие желательно, потому что с его помощью владельцы сайта управляют поисковыми роботами. Задавайте разные уровни доступа к сайту, запрет на индексацию всего сайта, отдельных страниц, разделов или файлов. Для ресурсов с высокой посещаемостью ограничивайте время индексации и запрещайте доступ роботам, которые не относятся к основным поисковым системам. Это уменьшит нагрузку на сервер. 

Создание. Создают файл в текстовом редакторе Notepad или подобных. Следите за тем, чтобы размер файла не превышал 32 КБ. Выбирайте для файла кодировку ASCII или UTF-8. Учтите, что файл должен быть единственным. Если сайт создан на CMS, то он будет генерироваться автоматически. 

Разместите созданный файл в корневой директории сайта рядом с основным файлом index.html. Для этого используют FTP доступ. Если сайт сделан на CMS, то с файлом работают через административную панель. Когда файл создан и работает корректно, он доступен в браузере. 

При отсутствии robots.txt поисковые роботы собирают всю информацию, относящуюся к сайту. Не удивляйтесь, когда увидите в выдаче незаполненные страницы или служебную информацию. Определите, какие разделы сайта будут доступны пользователям, остальные — закройте от индексации. 

Проверка. Периодически проверяйте, все ли работает корректно. Если краулер не получает ответ 200 ОК, то он автоматически считает, что файла нет, и сайт открыт для индексации полностью. Коды ошибок бывают такими: 

  • 3хх — ответы переадресации. Робота направляют на другую страницу или на главную. Создавайте до пяти переадресаций на одной странице. Если их будет больше, робот пометит такую страницу как ошибку 404. То же самое относится и к переадресации по принципу бесконечного цикла; 

  • 4хх — ответы ошибок сайта. Если краулер получает от файла robots.txt 400-ую ошибку, то делается вывод, что файла нет и весь контент доступен. Это также относится к ошибкам 401 и 403; 

  • 5хх — ответы ошибок сервера. Краулер будет «стучаться», пока не получит ответ, отличный от 500-го.

Правила создания 

Начинаем с приветствия. Каждый файл должен начинаться с приветствия User-agent. С его помощью поисковики определят уровень открытости. 

Код  Значение 
User-agent: *  Доступно всем
User-agent: Yandex  Доступно роботу Яндекс 
User-agent: Googlebot  Доступно роботу Google 
User-agent: Mail.ru  Доступно роботу Mail.ru 

Добавляем отдельные директивы под роботов. При необходимости добавляйте директивы для специализированных поисковых ботов Яндекса. 

Однако в этом случае директивы * и Yandex не будут учитываться. 

YandexBot    Основной робот   
YandexImages      Яндекс.Картинки   
YandexNews      Яндекс.Новости   
YandexMedia      Индексация мультимедиа   
YandexBlogs      Индексация постов и комментариев   
YandexMarket     Яндекс.Маркет
YandexMetrika    Яндекс.Метрика   
YandexDirect     Рекламная сеть Яндекса   
YandexDirectDyn     Индексация динамических баннеров   
YaDirectFetcher   Яндекс.Директ   
YandexPagechecker    Валидатор микроразметки   
YandexCalendar    Яндекс.Календарь   
   
У Google собственные боты: 
Googlebot    Основной краулер   
Google-Images    Google.Картинки
Mediapartners-Google   AdSense
AdsBot-Google    Проверка качества рекламы
AdsBot-Google-Mobile  
Проверка качества рекламы  на мобильных устройствах  
Googlebot-News    Новости Google   

Сначала запрещаем, потом разрешаем. Оперируйте двумя директивами: Allow — разрешаю, Disallow — запрещаю. Обязательно укажите директиву disallow, даже если доступ разрешен ко всему сайту. Такая директива является обязательной. В случае ее отсутствия краулер может не верно прочитать остальную информацию. Если на сайте нет закрытого контента, оставьте директиву пустой. 

Работайте с разными уровнями. В файле можно задать настройки на четырех уровнях: сайта, страницы, папки и типа контента. Допустим, вы хотите закрыть изображения от индексации. Это можно сделать на уровне: 

  • папки — disallow: /images/ 
  • типа контента — disallow: /*.jpg 
Директивы группируйте блоками и отделяйте пустой строкой. Не пишите все правила в одну строку. Для каждой страницы, краулера, папки и пр. используйте отдельное правило. Также не путайте инструкции: бота пишите в user-agent, а не в директиве allow/disallow. 
Нет  Да 
Disallow: Yandex  User-agent: Yandex 
Disallow: /   
Disallow: /css/ /images/  Disallow: /css/
Disallow: /images/                      


Пишите с учетом регистра.
Имя файла укажите строчными буквами. Яндекс в пояснительной документации указывает, что для его ботов регистр не важен, но Google просит соблюдать регистр. Также вероятна ошибка в названиях файлов и папок, в которых учитывается регистр. 

Укажите 301 редирект на главное зеркало сайта. Раньше для этого использовалась директива Host, но с марта 2018 г. она больше не нужна. Если она уже прописана в файле robots.txt, удалите или оставьте ее на свое усмотрение; роботы игнорируют эту директиву. 

Для указания главного зеркала проставьте 301 редирект на каждую страницу сайта. Если редиректа стоят не будет, поисковик самостоятельно определит, какое зеркало считать главным. Чтобы исправить зеркало сайта, просто укажите постраничный 301 редирект и подождите несколько дней. 

Пропишите директиву Sitemap (карту сайта). Файлы sitemap.xml и robots.txt дополняют друг друга. Проверьте, чтобы: 

  • файлы не противоречили друг другу; 
  • страницы были исключены из обоих файлов; 
  • страницы были разрешены в обоих файлах. 
Проводя анализ содержимого robots.txt, обратите внимание, включен ли sitemap в одноименную директиву. Записывается так: Sitemap: www.yoursite.ru/sitemap.xml 

Указывайте комментарии через символ #. Все, что написано после него, краулер игнорирует.

Проверка файла 

Проводите анализ robots.txt с помощью инструментов для разработчиков: через Яндекс.Вебмастер и Google Robots Testing Tool. Обратите внимание, что Яндекс и Google проверяют только соответствие файла собственным требованиям. Если для Яндекса файл корректный, это не значит, что он будет корректным для роботов Google, поэтому проверяйте в обеих системах. 

Если вы найдете ошибки и исправите robots.txt, краулеры не считают изменения мгновенно. Обычно переобход страниц осуществляется один раз в день, но часто занимает гораздо большее время. Проверьте через неделю файл, чтобы убедиться, что поисковики используют новую версию. 

Проверка в Яндекс.Вебмастере

Сначала подтвердите права на сайт. После этого он появится в панели Вебмастера. Введите название сайта в поле и нажмите проверить. Внизу станет доступен результат проверки. 

Дополнительно проверяйте отдельные страницы. Для этого введите адреса страниц и нажмите «проверить». 

Проверка в Google Robots Testing Tool 

Позволяет проверять и редактировать файл в административной панели. Выдает сообщение о логических и синтаксических ошибках. Исправляйте текст файла прямо в редакторе Google. Но обратите внимание, что изменения не сохраняются автоматически. После исправления robots.txt скопируйте код из веб-редактора и создайте новый файл через блокнот или другой текстовый редактор. Затем загрузите его на сервер в корневой каталог.

Запомните 

  1. Файл robots.txt помогает поисковым роботам индексировать сайт. Закрывайте сайт во время разработки, в остальное время — весь сайт или его часть должны быть открыты. Корректно работающий файл должен отдавать ответ 200. 

  2. Файл создается в обычном текстовом редакторе. Во многих CMS в административной панели предусмотрено создание файла. Следите, чтобы размер не превышал 32 КБ. Размещайте его в корневой директории сайта. 

  3. Заполняйте файл по правилам. Начинайте с кода “User-agent:”. Правила прописывайте блоками, отделяйте их пустой строкой. Соблюдайте принятый синтаксис. 

  4. Разрешайте или запрещайте индексацию всем краулерам или избранным. Для этого укажите название поискового робота или поставьте значок *, который означает «для всех». 

  5. Работайте с разными уровнями доступа: сайтом, страницей, папкой или типом файлов. 

  6. Включите в файл указание на главное зеркало с помощью постраничного 301 редиректа и на карту сайта с помощью директивы sitemap. 

  7. Для анализа robots.txt используйте инструменты для разработчиков. Это Яндекс.Вебмастер и Google Robots Testing Tools. Сначала подтвердите права на сайт, затем сделайте проверку. В Google сразу отредактируйте файл в веб-редакторе и уберите ошибки. Отредактированные файлы не сохраняются автоматически. Загружайте их на сервер вместо первоначального robots.txt. Через неделю проверьте, используют ли поисковики новую версию.

Материал подготовила Светлана Сирвида-Льорентэ.

Все о файле «robots.txt» по-русски — как составить robots.txt

Файл robots.txt

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Создание robots.txt

Файл с указанным расширением – простой текстовый документ. Он создается с помощью обычного блокнота, программ Notepad или Sublime, а также любого другого редактора текстов. Важно, что в его названии должен быть нижний регистр букв – robots.txt.

Также существует ограничение по количеству символов и, соответственно, размеру. Например, в Google максимальный вес установлен как 500 кб, а у Yandex – 32 кб. В случае их превышения корректность работы может быть нарушена.

Создается документ в кодировке UTF-8, и его действие распространяется на протоколы HTTP, HTTPS, FTP. 

При написании содержимого файла запрещается использование кириллицы. Если есть необходимость применения кириллических доменов, необходимо прибегать к помощи Punycode. Кодировка адресов отдельных страниц должна происходить в соответствии с кодировкой структуры сайта, которая была применена.

После того как файл создан, его следует запустить в корневой каталог. При этом используется FTP-клиент, проверяется возможность доступа по ссылке https://site.com./robots.txt и полнота отображения данных.

Важно помнить, что для каждого поддомена сайта оформляется свой файл с ограничениями.

Описание robots.txt

Чтобы правильно написать robots.txt, предлагаем вам изучить разделы этого сайта. Здесь собрана самая полезная информация о синтаксисе robots.txt, о формате robots.txt, примеры использования, а также описание основных поисковых роботов Рунета.

  • Как работать с robots.txt — узнайте, что вы можете сделать, чтобы управлять роботами, которые посещают ваш веб-сайт.
  • Роботы Рунета — разделы по роботам поисковых систем, популярных на просторах Рунета.
  • Частые ошибки в robots.txt — список наиболее частых ошибок, допускаемых при написании файла robots.txt.
  • ЧаВо по веб-роботам — часто задаваемые вопросы о роботах от пользователей, авторов и разработчиков.
  • Ссылки по теме — аналог оригинального раздела «WWW Robots Related Sites», но дополненый и расширенный, в основном по русскоязычной тематике.

Где размещать файл robots.txt

Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.

Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Как видите, файл robots.txt нужно класть исключительно в корень сайта.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:

Запретить весь сайт для индексации всеми роботами

User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

User-agent: *
Disallow:

Или можете просто создать пустой файл «/robots.txt».

Закрыть от индексации только несколько каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота

User-agent: BadBot
Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Запретить к индексации все файлы кроме одного

Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

User-agent: *
Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

Инфографика

Проверка

Оценить правильность созданного документа robots.txt можно с помощью специальных проверочных ресурсов:

  • Анализ robots.txt. – при работе с Yandex.
  • robots.txt Tester – для Google.

Важно помнить, что неправильно созданный или прописанный документ может являться угрозой для посещаемости и ранжирования сайта.

О сайте

Этот сайт — некоммерческий проект. Значительная часть материалов — это переводы www.robotstxt.org, другая часть — оригинальные статьи. Мы не хотим ограничиваться только robots.txt, поэтому в некоторых статьях описаны альтернативные методы «ограничения» роботов.

Россия напала на Украину!

Россия напала на Украину!

Мы, украинцы, надеемся, что вы уже знаете об этом. Ради ваших детей и какой-либо надежды на свет в конце этого ада –  пожалуйста, дочитайте наше письмо .

Всем нам, украинцам, россиянам и всему миру правительство России врало последние два месяца. Нам говорили, что войска на границе “проходят учения”, что “Россия никого не собирается захватывать”, “их уже отводят”, а мирное население Украины “просто смотрит пропаганду”. Мы очень хотели верить вам.

Но в ночь на 24-ое февраля Россия напала на Украину, и все самые худшие предсказания  стали нашей реальностью .

Киев, ул. Кошица 7а. 25.02.2022

 Это не 1941, это сегодня. Это сейчас. 
Больше 10 000 русских солдат убито в не своей и никому не нужной войне
Более 350 мирных украинских жителей погибли
Более 2 000 мирных людей ранено

Под Киевом горит нефтебаза – утро 27 февраля, 2022.

Нам искренне больно от ваших постов в соцсетях о том, что это “все сняли заранее” и “нарисовали”, но мы, к сожалению, вас понимаем.

Неделю назад никто из нас не поверил бы, что такое может произойти в 2022.

Метро Киева, Украина — с 25 февраля по сей день

Мы вряд ли найдем хоть одного человека на Земле, которому станет от нее лучше. Три тысячи ваших солдат, чьих-то детей, уже погибли за эти три дня. Мы не хотим этих смертей, но не можем не оборонять свою страну.

И мы все еще хотим верить, что вам так же жутко от этого безумия, которое остановило всю нашу жизнь.

Нам очень нужен ваш голос и смелость, потому что сейчас эту войну можете остановить только вы. Это страшно, но единственное, что будет иметь значение после – кто остался человеком.

ул. Лобановского 6а, Киев, Украина. 26.02.2022

Это дом в центре Киева, а не фото 11-го сентября. Еще неделю назад здесь была кофейня, отделение почты и курсы английского, и люди в этом доме жили свою обычную жизнь, как живете ее вы.

P.S. К сожалению, это не “фотошоп от Пентагона”, как вам говорят. И да, в этих квартирах находились люди.

«Это не война, а только спец. операция.»

Это война.

Война – это вооруженный конфликт, цель которого – навязать свою волю: свергнуть правительство, заставить никогда не вступить в НАТО, отобрать часть территории, и другие. Обо всем этом открыто заявляет Владимир Путин в каждом своем обращении.

«Россия хочет только защитить ЛНР и ДНР.»

Это не так.

Все это время идет обстрел городов во всех областях Украины, вторые сутки украинские военные борются за Киев.

На карте Украины вы легко увидите, что Львов, Ивано-Франковск или Луцк – это больше 1,000 км от ЛНР и ДНР. Это другой конец страны. 25 февраля, 2022 – места попадания ракет

25 февраля, 2022 – места попадания ракет «Мирных жителей это не коснется.»

Уже коснулось.

Касается каждого из нас, каждую секунду. С ночи четверга никто из украинцев не может спать, потому что вокруг сирены и взрывы. Тысячи семей должны были бросить свои родные города.
Снаряды попадают в наши жилые дома.

Больше 1,200 мирных людей ранены или погибли. Среди них много детей.
Под обстрелы уже попадали в детские садики и больницы.
Мы вынуждены ночевать на станциях метро, боясь обвалов наших домов.
Наши жены рожают здесь детей. Наши питомцы пугаются взрывов.

«У российских войск нет потерь.»

Ваши соотечественники гибнут тысячами.

Нет более мотивированной армии чем та, что сражается за свою землю.
Мы на своей земле, и мы даем жесткий отпор каждому, кто приходит к нам с оружием.

«В Украине – геноцид русскоязычного народа, а Россия его спасает.»

Большинство из тех, кто сейчас пишет вам это письмо, всю жизнь говорят на русском, живя в Украине.

Говорят в семье, с друзьями и на работе. Нас никогда и никак не притесняли.

Единственное, из-за чего мы хотим перестать говорить на русском сейчас – это то, что на русском лжецы в вашем правительстве приказали разрушить и захватить нашу любимую страну.

«Украина во власти нацистов и их нужно уничтожить.»

Сейчас у власти президент, за которого проголосовало три четверти населения Украины на свободных выборах в 2019 году. Как у любой власти, у нас есть оппозиция. Но мы не избавляемся от неугодных, убивая их или пришивая им уголовные дела.

У нас нет места диктатуре, и мы показали это всему миру в 2013 году. Мы не боимся говорить вслух, и нам точно не нужна ваша помощь в этом вопросе.

Украинские семьи потеряли больше 1,377,000 родных, борясь с нацизмом во время Второй мировой. Мы никогда не выберем нацизм, фашизм или национализм, как наш путь. И нам не верится, что вы сами можете всерьез так думать.

«Украинцы это заслужили.»

Мы у себя дома, на своей земле.

Украина никогда за всю историю не нападала на Россию и не хотела вам зла. Ваши войска напали на наши мирные города. Если вы действительно считаете, что для этого есть оправдание – нам жаль.

Мы не хотим ни минуты этой войны и ни одной бессмысленной смерти. Но мы не отдадим вам наш дом и не простим молчания, с которым вы смотрите на этот ночной кошмар.

Искренне ваш, Народ Украины

Файл Robots.txt: создание, настройка, проверка и индексация сайта

Здравствуйте!
В SEO мелочей не бывает. Иногда на продвижение сайта может оказать влияние всего лишь один небольшой файл — Robots.txt. Если вы хотите, чтобы ваш сайт зашел в индекс, чтобы поисковые роботы обошли нужные вам страницы, нужно прописать для них рекомендации. 

«Разве это возможно?», —  спросите вы. Возможно. Для этого на вашем сайте должен быть файл robots.txt. Как правильно составить файл роботс, настроить и добавить на сайт – разбираемся в этой статье.

Что такое robots.txt и для чего нужен

Robots.txt – это обычный текстовый файл, который содержит в себе рекомендации для поисковых роботов: какие страницы нужно сканировать, а какие нет.

Важно: файл должен быть в кодировке UTF-8, иначе  поисковые роботы могут его не воспринять.

Зайдет ли в индекс сайт, на котором не будет этого файла? Зайдет, но роботы могут «выхватить» те страницы, наличие которых в результатах поиска нежелательно: например, страницы входа, админпанель, личные страницы пользователей, сайты-зеркала и т.п. Все это считается «поисковым мусором»:

Если в результаты поиска попадёт личная информация, можете пострадать и вы, и сайт. Ещё один момент – без этого файла индексация сайта будет проходить дольше.

В файле Robots.txt можно задать три типа команд для поисковых пауков:

  1. сканирование запрещено;
  2. сканирование разрешено;
  3. сканирование разрешено частично.

Все это прописывается с помощью директив.

Как создать правильный файл Robots.txt для сайта

Файл Robots.txt можно создать просто в программе «Блокнот», которая по умолчанию есть на любом компьютере. Прописывание файла займет даже у новичка максимум полчаса времени (если знать команды).

Также можно использовать другие программы – Notepad, например. Есть и онлайн сервисы, которые могут сгенерировать файл автоматически. Например, такие как CY-PR.com или Mediasova.

Вам просто нужно указать адрес своего сайта, для каких поисковых систем нужно задать правила, главное зеркало (с www или без). Дальше сервис всё сделает сам.

Лично я предпочитаю старый «дедовский» способ – прописать файл вручную в блокноте. Есть ещё и «ленивый способ» — озадачить этим своего разработчика 🙂 Но даже в таком случае вы должны проверить, правильно ли там всё прописано. Поэтому давайте разберемся, как составить этот самый файл, и где он должен находиться.

Где должен находиться файл Robots

Готовый файл Robots.txt должен находиться в корневой папке сайта. Просто файл, без папки:

Хотите проверить, есть ли он на вашем сайте? Вбейте в адресную строку адрес: site.ru/robots.txt. Вам откроется вот такая страничка (если файл есть):

Файл состоит из нескольких блоков, отделённых отступом. В каждом блоке – рекомендации для поисковых роботов разных поисковых систем (плюс блок с общими правилами для всех), и отдельный блок со ссылками на карту сайта – Sitemap.

Внутри блока с правилами для одного поискового робота отступы делать не нужно.

Каждый блок начинается директивой User-agent. 

После каждой директивы ставится знак «:» (двоеточие), пробел, после которого указывается значение (например, какую страницу закрыть от индексации).

Нужно указывать относительные адреса страниц, а не абсолютные. Относительные – это без «www.site.ru». Например, вам нужно запретить к индексации страницу www.site.ru/shop. Значит после двоеточия ставим пробел, слэш и «shop»:

Disallow: /shop.

Звездочка (*) обозначает любой набор символов.

Знак доллара ($) – конец строки.

Вы можете решить – зачем писать файл с нуля, если его можно открыть на любом сайте и просто скопировать себе? 

Для каждого сайта нужно прописывать уникальные правила. Нужно учесть особенности CMS. Например, та же админпанель находится по адресу /wp-admin на движке WordPress, на другом адрес будет отличаться. То же самое с адресами отдельных страниц, с картой сайта и прочим.

Читайте также: Как найти и удалить дубли страниц на сайте

Настройка файла Robots.txt: индексация, главное зеркало, диррективы

Как вы уже видели на скриншоте, первой идет директива User-agent. Она указывает, для какого поискового робота будут идти правила ниже.

User-agent: * — правила для всех поисковых роботов, то есть любой поисковой системы (Google, Yandex, Bing, Рамблер и т.п.).

User-agent: Googlebot – указывает на правила для поискового паука Google.

User-agent: Yandex – правила для поискового робота Яндекс.

Для какого поискового робота прописывать правила первым, нет никакой разницы. Но обычно сначала пишут рекомендации для всех роботов.

Рекомендации для каждого робота, как я уже писала, отделяются отступом.

Disallow: Запрет на индексацию

Чтобы запретить индексацию сайта в целом или отдельных страниц, используется директива Disallow.

Например, вы можете полностью закрыть сайт от индексации (если ресурс находится на доработке, и вы не хотите, чтобы он попал в выдачу в таком состоянии). Для этого нужно прописать следующее:

User-agent: *

Disallow: /

Таким образом всем поисковым роботам запрещено индексировать контент на сайте.

А вот так можно открыть сайт для индексации:

User-agent: *

Disallow:

Потому проверьте, стоит ли слеш после директивы Disallow, если хотите закрыть сайт. Если хотите потом его открыть – не забудьте снять правило (а такое часто случается).

Чтобы закрыть от индексации отдельные страницы, нужно указать их адрес. Я уже писала, как это делается:

User-agent: *

Disallow: /wp-admin

Таким образом на сайте закрыли от сторонних взглядов админпанель.

Что нужно закрывать от индексации в обязательном порядке:

  1. административную панель;
  2. личные страницы пользователей;
  3. корзины;
  4. результаты поиска по сайту;
  5. страницы входа, регистрации, авторизации.

Можно закрыть от индексации и отдельные типы файлов. Допустим, у вас на сайте есть некоторые .pdf-файлы, индексация которых нежелательна. А поисковые роботы очень легко сканируют залитые на сайт файлы. Закрыть их от индексации можно следующим образом:

User-agent: *

Disallow: /*. pdf$

Как отрыть сайт для индексации

Даже при полностью закрытом от индексации сайте можно открыть роботам путь к определённым файлам или страницам. Допустим, вы переделываете сайт, но каталог с услугами остается нетронутым. Вы можете направить поисковых роботов туда, чтобы они продолжали индексировать раздел. Для этого используется директива Allow:

User-agent: *

Allow: /uslugi

Disallow: /

Главное зеркало сайта

До 20 марта 2018 года в файле robots.txt для поискового робота Яндекс нужно было указывать главное зеркало сайта через директиву Host. Сейчас этого делать не нужно – достаточно настроить постраничный 301-редирект.

Что такое главное зеркало? Это какой адрес вашего сайта является главным – с www или без. Если не настроить редирект, то оба сайта будут проиндексированы, то есть, будут дубли всех страниц.

Карта сайта: robots.txt sitemap

После того, как прописаны все директивы для роботов, необходимо указать путь к Sitemap. Карта сайта показывает роботам, что все URL, которые нужно проиндексировать, находятся по определённому адресу. Например:

Sitemap: site.ru/sitemap.xml

Когда робот будет обходить сайт, он будет видеть, какие изменения вносились в этот файл.  В итоге новые страницы будут индексироваться быстрее.

Директива Clean-param

В 2009 году Яндекс ввел новую директиву – Clean-param. С ее помощью можно описать динамические параметры, которые не влияют на содержание страниц. Чаще всего данная директива используется на форумах. Тут возникает много мусора, например id сессии, параметры сортировки. Если прописать данную директиву, поисковый робот Яндекса не будет многократно загружать информацию, которая дублируется.

Прописать эту директиву можно в любом месте файла robots.txt. 

Параметры, которые роботу не нужно учитывать, перечисляются в первой части значения через знак &:

Clean-param: sid&sort /forum/viewforum.php

Эта директива позволяет избежать дублей страниц с динамическими адресами (которые содержат знак вопроса).

Директива Crawl-delay

Эта директива придёт на помощь тем, у кого слабый сервер.

Приход поискового робота – это дополнительная нагрузка на сервер. Если у вас высокая посещаемость сайта, то ресурс может попросту не выдержать и «лечь». В итоге робот получит сообщение об ошибке 5хх. Если такая ситуация будет повторяться постоянно, сайт может быть признан поисковой системой нерабочим.

Представьте, что вы работаете, и параллельно вам приходится постоянно отвечать на звонки. Ваша продуктивность в таком случае падает.

Так же и с сервером.

Вернемся к директиве. Crawl-delay позволяет задать задержку сканирования страниц сайта с целью снизить нагрузку на сервер. Другими словами, вы задаете период, через который будут загружаться страницы сайта. Указывается данный параметр в секундах, целым числом:

Crawl-delay: 2

Комментарии в robots.txt

Бывают случаи, когда вам нужно оставить в файле комментарий для других вебмастеров. Например, если ресурс передаётся в работу другой команде или если над сайтом работает целая команда.

В этом файле, как и во всех других, можно оставлять комментарии для других разработчиков.

Делается это просто – перед сообщением нужно поставить знак решетки: «#». Дальше вы можете писать свое примечание, робот не будет учитывать написанное:

User-agent: *

Disallow: /*. xls$

#закрыл прайсы от индексации

Как проверить файл robots.txt

После того, как файл написан, нужно узнать, правильно ли. Для этого вы можете использовать инструменты от Яндекс и Google.

Через Яндекс.Вебмастер robots.txt можно проверить на вкладке «Инструменты – Анализ robots.txt»:

На открывшейся странице указываем адрес проверяемого сайта, а в поле снизу вставляем содержимое своего файла. Затем нажимаем «Проверить». Сервис проверит ваш файл и укажет на возможные ошибки:

Также можно проверить файл robots.txt через Google Search Console, если у вас подтверждены права на сайт.

Для этого в панели инструментов выбираем «Сканирование – Инструмент проверки файла robots.txt».

На странице проверки вам тоже нужно будет скопировать и вставить содержимое файла, затем указать адрес сайта:

Потом нажимаете «Проверить» — и все. Система укажет ошибки или выдаст предупреждения.

Останется только внести необходимые правки.

Если в файле присутствуют какие-то ошибки, или появятся со временем (например, после какого-то очередного изменения), инструменты для вебмастеров будут присылать вам уведомления об этом. Извещение вы увидите сразу, как войдете в консоль.

Частые ошибки в заполнении файла robots.txt

Какие же ошибки чаще всего допускают вебмастера или владельцы ресурсов?

1. Файла вообще нет. Это встречается чаще всего, и выявляется при SEO-аудите ресурса. Как правило, на тот момент уже заметно, что сайт индексируется не так быстро, как хотелось бы, или в индекс попали мусорные страницы.

2. Перечисление нескольких папок или директорий в одной инструкции. То есть вот так:

Allow: /catalog /uslugi /shop

Называется «зачем писать больше…». В таком случае робот вообще не знает, что ему можно индексировать. Каждая инструкция должна иди с новой строки, запрет или разрешение на индексацию каждой папки или страницы – это отдельная рекомендация.

3. Разные регистры. Название файла должно быть с маленькой буквы и написано маленькими буквами – никакого капса. То же самое касается и инструкций: каждая с большой буквы, все остальное – маленькими. Если вы напишете капсом, это будет считаться уже совсем другой директивой.

4. Пустой User-agent. Нужно обязательно указать, для какой поисковой системы идет набор правил. Если для всех – ставим звездочку, но никак нельзя оставлять пустое место.

5. Забыли открыть ресурс для индексации после всех работ – просто не убрали слеш после Disallow.

6. Лишние звездочки, пробелы, другие знаки. Это просто невнимательность.

Регулярно заглядывайте в инструменты для вебмастеров и вовремя исправляйте возможные ошибки в своем файле robots.txt. 

Удачного вам продвижения!

Генератор Robots.txt — Создайте файл robots.txt онлайн

Об этом инструменте:

Генератор robots.txt

Существует способ улучшить SEO, используя естественную часть вашего веб-сайта, которая редко обсуждается. И реализовать его тоже не сложно.

Этот метод — файл robots.txt, также известный как протокол или стандарт исключения роботов.

Что такое файл robots.txt?

Роботы.txt — это файл, содержащий инструкции «как сканировать веб-сайт, получать доступ и индексировать контент, а также предоставлять этот контент пользователям». Этот крошечный файл является неотъемлемой частью каждого веб-сайта, но об этом знает меньше людей.

  • Это стандарт, используемый веб-сайтами, чтобы сообщить сканерам/ботам, какая часть их веб-сайта нуждается в индексировании.
  • Вы также можете указать части своего веб-сайта, которые сканеры/боты не должны индексировать. Это включает в себя страницу входа в панель управления веб-сайта, дублированный контент или веб-страницы, находящиеся в стадии разработки.

Подводя итог, можно сказать, что на практике файл robots.txt указывает, могут ли определенные пользовательские агенты сканировать определенные части веб-сайта. Эти инструкции по обходу указываются путем «запрета» или «разрешения» определенных (или всех) пользовательских агентов.

Важность файла robots.txt для SEO?

Небольшой файл robots.txt позволяет повысить рейтинг вашего веб-сайта. Всякий раз, когда сканеры поисковых систем сканируют ваш сайт, первым файлом, который они посещают, является файл robots.текстовый файл. И если им не удалось найти этот файл, велика вероятность, что они не проиндексируют все страницы вашего сайта.

Google использует краулинговый бюджет, и этот бюджет основан на краулинговом лимите.

Лимит сканирования — это время, которое роботы Google проводят на вашем веб-сайте .

Однако, если Google считает, что сканирование вашего веб-сайта влияет на взаимодействие с пользователем, он будет сканировать ваш веб-сайт медленнее. Это означает, что всякий раз, когда Google отправляет сканеры. Они будут сканировать ваш веб-сайт медленнее, сканировать только важные страницы, а для индексации ваших последних сообщений всегда потребуется время.

Чтобы решить эту проблему, на вашем веб-сайте должен быть файл robots.txt и карта сайта. Это говорит поисковым системам, какие части вашего сайта требуют большего внимания.

Файл robots.txt содержит «User-agent», а под ним вы можете написать другие директивы, такие как «Allow», «Disallow», «Crawl-delay» и т. д.

Если он написан вручную, это может занять много времени, и вам придется ввести несколько строк команд в одном файле.

Базовый формат роботов .текстовый файл это

Агент пользователя: [имя агента пользователя]

Запретить: [строка URL не сканируется]

Если вы думаете, что это легко, то вы ошибаетесь. Одна неверная строка или крошечная ошибка могут исключить вашу страницу из очереди на индексацию.

Примечание: Убедитесь, что ваша главная страница не добавлена ​​в директиву disallow.

Синтаксис файла robots.txt

Если вы создаете файл robots.txt, вы должны знать несколько важных терминов, используемых в этом файле.Существует пять стандартных терминов, которые вы, скорее всего, встретите в файле robots.txt. В том числе:

  • Агент пользователя: Определенный поисковый робот (обычно поисковая система), которому вы даете инструкции по сканированию.
  • Disallow: Эта команда предписывает поисковому роботу не индексировать конкретный URL-адрес. Для каждого URL допускается только одна строка «Запретить».
  • Разрешить: Эта команда дает указание поисковому роботу проиндексировать конкретный URL-адрес. Эта команда применима и для ботов Google.Он указывает ботам Google индексировать страницу или вложенную папку, даже если ее родительская страница или вложенная папка могут быть запрещены.
  • Crawl-delay: Эта команда указывает, сколько секунд веб-сканер должен ждать перед загрузкой и сканированием содержимого страницы. Различные поисковые роботы и поисковые системы обрабатывают задержку сканирования по-разному. Для Bing это как временное окно, в котором бот зайдет на сайт только один раз. Для Яндекса это ожидание между последовательными визитами. Боты Google не распознают эту команду.Однако вы можете установить скорость сканирования в Google Search Console.
  • Карта сайта: Вызывает местоположение любой карты сайта XML, связанной с URL-адресом. Однако в настоящее время Google, Bing и Yahoo поддерживают эту команду.

Как создать файл robots.txt для роботов Google с помощью генератора файлов robots.txt?

Создание файла robots.txt вручную — сложная задача. Но онлайн-инструменты делают этот процесс относительно простым.

Для создания роботов.текстовый файл.

  • Откройте генератор robots.txt.
  • Когда вы открываете инструмент, вы видите несколько вариантов. Не все параметры являются обязательными. Но выбирать нужно тщательно. Первая строка содержит значения по умолчанию для всех роботов/веб-сканеров и задержку сканирования. Если вам нужна задержка сканирования, вы можете выбрать значение в секундах в соответствии с вашими требованиями.
  • Вторая строка посвящена карте сайта. Убедитесь, что он у вас есть, и не забудьте указать его в файле robot.txt.
  • Следующие несколько строк содержат боты поисковой системы, если вы хотите, чтобы конкретный бот поисковой системы сканировал ваш сайт.Затем выберите «Разрешено» в раскрывающемся списке для этого бота. И если вы не хотите, чтобы конкретный бот поисковой системы сканировал ваш сайт. Затем выберите «Отказано» в раскрывающемся списке для этого бота.
  • Последняя строка предназначена для запрета, если вы хотите запретить поисковым роботам индексировать области страницы. Обязательно добавьте косую черту перед заполнением поля адресом каталога или страницы.
  • После создания файла robots.txt проверьте файл robots.txt с помощью тестера robots.txt.

Robots.txt Генератор и онлайн-инструмент проверки подлинности

Сведения об инструменте и инструкции для пользователя

Создайте файл robots.txt для своего веб-сайта с помощью нашего лучшего генератора robots.txt. Этот валидатор robots.txt также дает вам возможность проверить сгенерированный код или URL-адрес robots.txt. Инструмент разделен на две секции:

— Создать файл robots и проверить.
– Получить robots.txt по URL-адресу и проверить.

Протокол исключения роботов (robots.txt) используется веб-роботами для связи с веб-сайтом. Файл сообщает роботу, какой раздел веб-сайта сканировать, а какой нет. Сканеры или роботы, занимающиеся рассылкой спама, могут не соблюдать файл robots.txt.

 Файл использует протокол с именем Robots Exclusion Standard. Протокол следует набору команд, которые могут быть прочитаны ботами, посещающими ваш сайт. Есть несколько моментов, о которых следует помнить:

— если вы запретили каталог, боты не будут индексировать или сканировать данные, если они не найдут данные из другого источника в Интернете.
— боты интерпретируют синтаксис по-разному, например, если вы устанавливаете пользовательские агенты в начале как:

 Агент пользователя: *
Запретить: /

Тогда не нужно снова запрещать роботов отдельно.
— Файл только директивный. Некоторые боты могут не учитывать файл.

Как создать файл robots.txt?

— Файл действует как карта сайта, чтобы сообщить роботам, какую часть сканировать, а какую нет.

Используйте наш инструмент для создания роботов.txt для своего веб-сайта и загрузите файл в корневой каталог вашего веб-сайта. Файл robots.txt должен быть доступен по адресу «http://www.yourdomain.com/robots.txt».

Как выглядит обычный файл robots?

Обычный или, можно сказать, «по умолчанию» robots.text выглядит так:

Агент пользователя: *
Запретить:

Но вы можете создать предварительный файл с помощью нашего генератора robots.txt.

Преимущества файла robots.txt?

1.Низкое использование пропускной способности, так как вы ограничиваете пауков только для сканирования определенных разделов веб-сайта.
2. Люди не смогут увидеть материал при посещении вашего сайта через поисковые системы.
3. Защита от спама.

Как добавить файл robots.txt на свой сайт?

1. Выберите параметры выше
2. Создайте текстовый файл с именем «robots».
3. Скопируйте содержимое текстовой области и вставьте в текстовый файл
4. Не забудьте подтвердить код вашего робота
5. Добавьте файл в корневой каталог, например, https://www.visiospark.com/robots.txt

БЕСПЛАТНЫЙ онлайн-инструмент, 100% точный [2022]

Что такое инструмент для проверки и проверки robots.txt?
Средство проверки Robots.txt предназначено для проверки правильности файла robots.txt и отсутствия ошибок. Robots.txt — это файл, который является частью вашего веб-сайта и содержит правила индексации для роботов поисковых систем, чтобы убедиться, что ваш веб-сайт сканируется (и индексируется) правильно, а наиболее важные данные на вашем веб-сайте индексируются в первую очередь.
Этот инструмент прост в использовании и дает вам отчет за считанные секунды — просто введите полный URL-адрес своего веб-сайта, а затем /robots.txt (например, yourwebsite.com/robots.txt) и нажмите кнопку «Проверить». Наша программа проверки robots.txt найдет любые ошибки (например, опечатки, синтаксические и «логические» ошибки) и даст вам советы по оптимизации вашего файла robots.txt.

Зачем мне проверять файл robots.txt?
Проблемы с файлом robots.txt — или вообще отсутствие файла robots.txt — могут негативно повлиять на ваши показатели SEO, ваш веб-сайт может ухудшиться в рейтинге на страницах результатов поисковой системы (SERP). Это связано с риском сканирования нерелевантного контента раньше или вместо важного контента.
Проверка файла перед сканированием вашего веб-сайта означает, что вы можете избежать таких проблем, как сканирование и индексирование всего содержимого вашего веб-сайта, а не только тех страниц, которые вы хотите проиндексировать. Например, если у вас есть страница, к которой вы хотите, чтобы посетители обращались только после заполнения формы подписки, или страница входа участника, но вы не исключили ее в своем файле robot.txt, она может в конечном итоге быть проиндексирована.

Что означают ошибки и предупреждения?
Существует ряд ошибок, которые могут повлиять на ваших роботов.txt, а также некоторые «рекомендуемые» предупреждения, которые вы можете увидеть при проверке файла. Это вещи, которые могут повлиять на SEO и должны быть исправлены. Предупреждения менее важны и служат советом о том, как улучшить файл robots.txt.
Вы можете увидеть следующие ошибки:
Неверный URL-адрес — вы увидите эту ошибку, если ваш файл robots.txt полностью отсутствует
Потенциальная ошибка с подстановочными знаками обычно потому что ваши robots.txt содержит подстановочный знак (*) в поле Disallow (например, Disallow: /*.rss). Это проблема передовой практики — Google разрешает использовать подстановочные знаки в поле «Запретить», но это не рекомендуется.
Общие и специальные пользовательские агенты в одном блоке кода — это синтаксическая ошибка в вашем файле robots.txt, которую следует исправить, чтобы избежать проблем со сканированием вашего веб-сайта.
Предупреждения, которые вы можете увидеть, включают:
Разрешить: / — Использование порядка разрешения не повредит вашему рейтингу или не повлияет на ваш веб-сайт, но это не стандартная практика.Основные роботы, включая Google и Bing, примут эту директиву, но не все поисковые роботы — и, вообще говоря, лучше всего сделать файл robots.txt совместимым со всеми поисковыми роботами, а не только с крупными.
Использование заглавных букв в именах полей — Хотя имена полей не обязательно чувствительны к регистру, некоторые поисковые роботы могут требовать использования заглавных букв, поэтому рекомендуется использовать заглавные буквы в именах полей для определенных пользовательских агентов
Поддержка карты сайта — Многие файлы robots.txt содержат подробные сведения карты сайта для веб-сайта, но это не считается лучшей практикой.Однако Google и Bing поддерживают эту функцию.

Как исправить ошибки в файле Robots.txt?
Исправление ошибок в файле robots.txt зависит от используемой платформы. Если вы используете WordPress, рекомендуется использовать плагин, такой как WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключите свой сайт к Google Search Console, вы также сможете редактировать там файл robots.txt.
Некоторые разработчики веб-сайтов, такие как Wix, не позволяют вам напрямую редактировать файл robots.txt, но позволяют добавлять теги без индекса для определенных страниц.

Best 10 Robots.txt Generator Tools

Когда дело доходит до вашего веб-сайта, важно сделать все возможное (цифровое) вперед. Это может означать, что некоторые страницы будут скрыты от робота Googlebot, пока он сканирует ваш сайт. К счастью, файлы robots.txt позволяют это сделать.

Ниже мы обсудим важность файлов robots.txt и то, как просто сгенерировать robots.txt с помощью бесплатных инструментов.

Что такое файл robots.txt?

Прежде чем мы перейдем к супер полезным (не говоря уже о бесплатных !) роботах.txt, которые вы должны проверить, давайте поговорим о том, что на самом деле представляет собой файл robots.txt и почему он важен.

На вашем веб-сайте могут быть страницы, которые вам не нужны или для сканирования которых требуется робот Googlebot. Файл robots.txt сообщает Google, какие страницы и файлы следует сканировать, а какие пропускать на вашем веб-сайте. Думайте об этом как о инструкции для Googlebot, чтобы сэкономить время.

Вот как это работает.

Робот хочет просканировать URL-адрес веб-сайта, например, http://www.coolwebsite.com/welcome.HTML . Во-первых, он сканирует http://www.coolwebsite.com/robots.txt и находит:

Раздел запрета сообщает Google (или другому указанному роботу поисковой системы) пропустить сканирование определенных элементов или страниц веб-сайта.

Хотите узнать больше? Прочтите наше полезное руководство по Robots.txt.

Вот несколько примеров файлов robots.txt некоторых популярных сайтов:

Apple

Файлы robots.txt от Apple содержат ряд страниц, посвященных розничным и мобильным покупкам.

Starbucks

В этом примере Starbucks внедрила задержку сканирования. Это показывает, сколько секунд робот должен ждать, прежде чем просканировать страницу. Вы можете настроить скорость сканирования через Google Search Console, но часто в этом нет необходимости.

Disney Plus

Когда бот попадает на веб-сайт Disney Plus, он не будет сканировать ни одну из этих страниц выставления счетов, учетной записи или настроек. Сообщение о запрете дает понять, что бот должен пропустить эти URL-адреса.

Теперь, когда вы знаете, что такое файл robots.txt, давайте поговорим о том, почему он важен.

Почему важен файл robots.txt?

Файл robots.txt служит многим целям SEO. Во-первых, это быстро и четко помогает Google понять, какие страницы на вашем сайте более важны, а какие менее важны.

Файлы robots.txt можно использовать для скрытия таких элементов веб-сайта, как аудиофайлы, из результатов поиска. Обратите внимание: вы не должны использовать файл robots.txt, чтобы скрыть страницы от Google, но его можно использовать для контроля трафика поисковых роботов.

В руководстве по краулинговому бюджету Google четко указано, что вы не хотите, чтобы ваш сервер:

  1. был перегружен поисковым роботом Google или
  2. тратил краулинговый бюджет на сканирование неважных или похожих страниц на вашем сайте.

Как создать файл robots.txt? Рад, что вы спросили.

Как создать файл robots.txt

Существует очень специфический способ форматирования файлов robots.txt для Google. На любом веб-сайте разрешено иметь только один файл robots.txt.Первое, что нужно знать, это то, что файл robots.txt необходимо поместить в корень вашего домена.

Конкретные инструкции по созданию файлов robots.txt вручную см. в Центре поиска Google. Мы облегчим вам задачу, предоставив 10 лучших инструментов для создания robots.txt, которые вы можете использовать бесплатно !

10 бесплатных инструментов для создания Robots.txt

Давайте начнем с бесплатных генераторов в произвольном порядке!

1. SEO Optimer

Инструмент Seo Optimer предлагает понятный интерфейс для создания файла robots.txt файл бесплатно. Вы можете установить период задержки сканирования и указать, каким ботам разрешено или запрещено сканировать ваш сайт.

2. Ryte

Бесплатный генератор Ryte имеет три варианта создания файла robots.txt: разрешить все, запретить все и настроить. Опция настройки позволяет вам указать, на каких ботов вы хотите повлиять, и включает пошаговые инструкции.

3. Better Robots.txt (WordPress)

Лучшие роботы.txt Плагин WordPress помогает улучшить SEO и возможности загрузки вашего сайта. Он поддерживается на 7 языках и может защитить ваши данные и контент от вредоносных ботов. Загрузите этот замечательный плагин для своего сайта WordPress!

4. Virtual Robots.txt (WordPress)

Плагин Virtual Robots.txt для WordPress — это автоматизированное решение для создания файла robots.txt для вашего веб-сайта WordPress. По умолчанию плагин блокирует некоторые части вашего веб-сайта и разрешает доступ к частям WordPress, к которым нужны хорошие боты.

5. Small SEO Tools

Бесплатный генератор Small SEO Tools — еще один простой инструмент, который можно использовать для создания файла robot.txt. Он использует раскрывающиеся панели для настроек каждого отдельного бота. Вы можете выбрать разрешенный или запрещенный для каждого бота.

6. Web Nots

Генератор robots.txt от Web Nots похож на генератор Small SEO Tools из-за его упрощенного дизайна. Он также использует раскрывающиеся панели и имеет раздел для ограниченных каталогов.Вы можете скачать файл robots.txt, когда закончите.

7. Отчеты о поисковых системах

Генератор отчетов о поисковых системах имеет разделы для размещения карты вашего сайта и любых каталогов с ограниченным доступом. Этот бесплатный инструмент — отличный вариант для простого создания файла robots.txt.

8. Инструменты SEO

Бесплатный генератор инструментов SEO — это простое и быстрое решение для создания файла robots.txt для вашего веб-сайта. Вы можете установить задержку сканирования, если хотите, и ввести карту своего сайта.Нажмите «Создать и сохранить как Robots.txt», когда закончите выбирать нужные параметры.

9. SEO To Checker

Генератор SEO To Checker robot.txt — еще один отличный инструмент для создания файла robots.txt. Вы можете добавить карту сайта и обновить настройки для всех поисковых роботов.

10. Google Search Console Robots.txt Tester

В Google Search Console есть отличный тестер robots.txt, который вы можете использовать после создания файла robots.текстовый файл. Отправьте свой URL-адрес в инструмент тестирования, чтобы проверить, правильно ли он отформатирован, чтобы заблокировать робота Googlebot от определенных элементов, которые вы хотите скрыть.

Повысьте уровень своего веб-сайта с помощью технических советов от Markitors!

Приведенные выше инструменты позволяют легко и быстро создать файл robots.txt. Но здоровый, хорошо работающий сайт — это не только файл robots.txt. Чтобы сделать ваш веб-сайт видимым, необходимо улучшить техническое SEO.

Существует множество способов оптимизации вашего сайта, от оценки и повышения скорости сайта до обеспечения правильной индексации.Markitors здесь, чтобы помочь вашему малому бизнесу с техническим SEO. Запишитесь на консультацию сегодня!

Как редактировать файл Shopify Robots.txt (лучшее руководство 2022 года)

How to Edit Shopify Robots.txt File (Best Tutorial for 2022) — В этой статье я объясню, что такое Shopify robots.txt файл, где он находится в вашем интернет-магазине и как скрыть страницу от поиска двигатели.

Если вы хотите изучить основы SEO для Shopify, обязательно ознакомьтесь с другими моими статьями:

Если вам нужна помощь в ранжировании вашего веб-сайта в Google, не стесняйтесь проверить наши SEO-услуги Shopify.

Что такое файл robots.txt?

В файле robots.txt вы даете Google и другим поисковым роботам инструкции о том, какие веб-страницы и ресурсы следует сканировать, а какие нет.

Например, в файле robots.txt обычно содержится указание веб-сканерам не сканировать внутренние страницы администрирования или входа в систему.

Какие изменения можно внести в файл robots.txt?

Из файла robots.txt можно внести следующие изменения:

  • разрешить или запретить сканирование определенных URL-адресов
  • добавить правила задержки сканирования для определенных сканеров
  • добавить дополнительные URL-адреса карты сайта
  • заблокировать определенные поисковые роботы

Что такое веб-краулер?

Поисковый робот, также называемый пауком или роботом поисковой системы, представляет собой автоматизированное программное обеспечение, задачей которого является обнаружение и сканирование веб-страниц и ресурсов с целью их индексации в заданной поисковой системе.

Что такое сканирование веб-страницы?

Это автоматизированный процесс, выполняемый поисковым роботом для извлечения веб-страницы или ресурса с целью его индексации в заданной поисковой системе.

Что такое основные поисковые роботы Google?

Основным поисковым роботом Google является Googlebot. Googlebot относится к двум отдельным сканерам, настольному и мобильному, имитирующим работу вашей веб-страницы пользователем соответственно на настольном и мобильном устройствах.

Хотя Google Read Aloud и не является поисковым роботом, он является важным пользовательским агентом Google.Он позволяет читать веб-страницы с помощью технологии преобразования текста в речь (TTS). Этот агент запускается только по запросу пользователя.

Чтобы узнать больше, вот список всех поисковых роботов или пользовательских агентов Google.

Сканирование и индексация веб-страницы

Сканирование — это автоматизированный процесс поиска и сканирования вашей веб-страницы или ресурсов с помощью поисковых роботов, а индексация — это процесс добавления веб-страницы или ресурсов в базу данных поисковой системы.

Где роботы Shopify.txt файл расположен?

Файл Shopify robots.txt находится в корневой папке вашего основного домена.

В твите, опубликованном 16 июня, генеральный директор Shopify Тоби Лютке подтвердил, что теперь можно редактировать файл robots.txt в Shopify.

Агент пользователя: каждый
Разрешить: /
С сегодняшнего дня у вас есть полный контроль над тем, как роботы поисковых систем видят ваш магазин. #shopifyseohttps://t.co/Hz9Ijj5h2y

— Тоби Лютке (@tobi) 18 июня 2021 г.

Как редактировать роботов Shopify.текстовый файл?

Чтобы отредактировать файл robots.txt Shopify:

  1. В админке Shopify перейдите в Интернет-магазин  >  Темы .
  2. Нажмите  Действия , а затем нажмите  Изменить код .
  3. Нажмите  Добавить новый шаблон , а затем выберите robots .
  4. Нажмите  Создать шаблон .
  5. Внесите необходимые изменения в шаблон по умолчанию
  6. Сохранить изменения в файле robots.txt.liquid в вашей опубликованной теме

Обратите внимание, что это неподдерживаемая настройка, и поддержка Shopify не поможет вам устранить любую потенциальную проблему.

 

Как скрыть страницы Shopify от Google?

Вы не можете напрямую редактировать файл Shopify robots.txt, но Вы можете запретить роботам Google сканировать одну или несколько страниц:

  • В админке Shopify перейдите в Интернет-магазин  >  Темы .
  • Найдите тему, которую хотите изменить, и нажмите  Действия  >  Изменить код .
  • Щелкните файл макета theme.liquid .

Как скрыть шаблон поиска Shopify от Google

Чтобы скрыть шаблон поиска от Google:

  • В админке Shopify перейдите в Интернет-магазин  >  Темы .
  • Найдите тему, которую хотите изменить, и нажмите  Действия  >  Изменить код .
  • Щелкните файл макета theme.liquid .
  • Вставьте следующий код в раздел :

Как скрыть определенную страницу Shopify от Google

Чтобы скрыть определенную страницу от Google:

  • В админке Shopify перейдите в Интернет-магазин  >  Темы .
  • Найдите тему, которую хотите изменить, и нажмите  Действия  >  Изменить код .
  • Щелкните файл макета theme.liquid .
  • Вставьте следующий код в раздел :

Убедитесь, что вы заменили дескриптор страницы, который вы хотите исключить , на правильный дескриптор страницы.

Что такое дескриптор страницы?

В Shopify вы называете дескриптор слагом вашего URL-адреса, который, как вы, вероятно, знаете, является частью URL-адреса в сети домена, например yourdomain.com/[это дескриптор / слаг] (источник: shopify.Разработчик:

дескриптор — название объекта в нижнем регистре, пробелы и специальные символы заменены дефисами (-)

Чтобы узнать больше, ознакомьтесь с документацией по дескриптору объекта на странице разработчиков Shopify.

Как скрыть несколько страниц Shopify от Google

Чтобы скрыть несколько страниц от Google:

  • В админке Shopify перейдите в Интернет-магазин  >  Темы .
  • Найдите тему, которую хотите изменить, и нажмите  Действия  >  Изменить код .
  • Щелкните файл макета theme.liquid .
  • Вставьте следующий код в раздел :

Убедитесь, что вы заменили дескриптор страницы, который вы хотите исключить , на правильный дескриптор страницы.

Как скрыть динамические страницы Shopify от Google

Чтобы скрыть динамические страницы от Google:

  • В админке Shopify перейдите в Интернет-магазин  >  Темы .
  • Найдите тему, которую хотите изменить, и нажмите  Действия  >  Изменить код .
  • Щелкните файл макета theme.liquid .
  • Вставьте следующий код в раздел :

Убедитесь, что вы заменили your-text правильным ключевым словом, которое хотите исключить из индексации.

Как запретить Google индексировать ваши страницы Shopify [ВИДЕО]

Примечание от автора: приведенные выше решения не касаются редактирования ваших роботов Shopify.текст. Речь идет о добавлении метатега под названием «роботы». Это означает, что ваши страницы все еще сканируются поисковыми роботами Google. Чтобы скрыть их от робота Googlebot и тому подобного, приведенное ниже решение должно заменить редактирование вашего Shopify robots.txt.

Как скрыть страницы Shopify от веб-краулеров

Чтобы скрыть страницы Shopify от поисковых роботов, таких как Googlebot:

  • В админке Shopify перейдите в Интернет-магазин  >  Темы .
  • Найдите тему, которую хотите изменить, и нажмите  Действия  >  Изменить код .
  • Щелкните файл макета theme.liquid .
  • Вставьте следующий код в раздел :

Убедитесь, что вы заменили current_tags правильным тегом, который вы уже присвоили страницам, которые хотите исключить из сканирования.

Примечание от автора: это не редактирует ваш файл Shopify Robots.txt, но является временным решением вопроса о сканировании, поднятого посетителем, на который у меня не было точного ответа.Скорее всего, это изменится, когда я лучше познакомлюсь с этой темой.

Как редактировать файл Shopify Robots.txt: Подробнее

https://help.shopify.com/en/manual/promoting-marketing/seo/editing-robots-txt
https://help.shopify.com/en/manual/promoting-marketing/seo/hide-a -page-from-search-engines
https://www.rmehdee.com/blogs/life-experiences-and-hacks/hiding-multiple-shopify-pages-from-search-engines
https://www.sovrn .com/blog/website-crawling-information/
https://www.cloudflare.com/learning/bots/what-is-a-web-crawler/
https://help.outofthesandbox.com/hc/en-us/articles/115007101508-How-can-I-prevent-certain-content -от-индексации-поисковиками-

Избранное изображение «Как редактировать файл Shopify Robots.txt (простое руководство)» с сайта Storynet.com

Robots.txt | поисковая выдача

Что такое файл robots.txt?

Файл robots.txt сообщает сканерам поисковых систем (таким как Googlebot) не сканировать страницу веб-сайта.По сути, это текстовый файл, который дает инструкции Google.

источник: keyCDN

Для более «технического» определения, вот как его определяет Википедия.

Стандарт исключения роботов, также известный как протокол исключения роботов или просто robots.txt, — это стандарт, используемый веб-сайтами для связи с поисковыми роботами и другими веб-роботами. Стандарт определяет, как информировать веб-робота о том, какие области веб-сайта не должны обрабатываться или сканироваться.

ПРИМЕЧАНИЕ: Все основные поисковые системы (Google, Bing, Yahoo) принимают роботов.тхт запросы.

Что такое роботы в SEO?

Роботы — это другое название сканеров поисковых систем. Их также можно назвать пауками или ботами.

Эти «роботы» сканируют веб-сайты, индексируя найденную информацию.

В файле robots.txt роботы называются «пользовательские агенты».

Универсального имени агента пользователя не существует — каждая поисковая система имеет свое имя для своих роботов. Google называется Googlebot. Вам нужно будет указать уникальное имя робота в файле robots.текстовый файл.

Однако вы можете использовать звездочку (*) для таргетинга на всех роботов поисковых систем. Подробнее об этом позже…

Вы можете использовать базу данных веб-сайта robots.txt, чтобы найти имена роботов каждой поисковой системы.

Роботы = поисковых робота (например, Googlebot)

Robots.txt= текстовый файл с инструкциями для роботов

Анатомия файла robots.txt

Файл robots.txt начинается с базового формата.

Агент пользователя: X
Запретить: Y

Агент пользователя: определяет, для какого поискового робота предназначены инструкции.

Disallow: Это инструкции для того, какую страницу/область веб-сайта пользовательский агент должен игнорировать (не сканировать). 

Давайте рассмотрим пример.

Агент пользователя: Googlebot
Запретить: /wp-admin/

Этот файл robots.txt указывает сканеру Google не сканировать путь /wp-admin/ веб-сайта.

Есть еще несколько важных правил, которые необходимо знать.

Агент пользователя: *

Использование звездочки (*) будет нацелено на ВСЕ сканеры поисковых систем.

Запретить: /

Использование только косой черты (/) заблокирует ВЕСЬ ваш веб-сайт.

Вы можете увидеть полную разбивку всех различных правил в Google Полезных правилах robots.txt.

Мы должны более подробно осветить отдельные аспекты файла robots.txt.

Агент пользователя

Каждая из основных поисковых систем имеет уникальное имя пользовательского агента для своих поисковых роботов.К ним относятся:

  • Googlebot (Google)
  • BingBot (Bing)
  • Slurp (Yahoo)

В файле robots.txt может существовать несколько пользовательских агентов — это выглядит так.

Агент пользователя: Googlebot
Запретить: /images

Агент пользователя: BingBot
Запретить: /junk

Все инструкции (запретить, разрешить, задержка сканирования) между первым и вторым агентом пользователя относятся к первому. В приведенном выше примере Googlebot будет указано «запретить» /images.BingBot будет сканировать /images, но не /junk.

Помните: со звездочкой (*) делает директивы robots.txt применимыми ко ВСЕМ сканерам поисковых систем.

Запретить

Директива disallow указывает роботам поисковых систем не сканировать определенные области вашего веб-сайта. Это могут быть определенные файлы, страницы или общие подкаталоги.

Вы должны указать «путь», чтобы директива запрета вступила в силу. Вот пример.

Агент пользователя: *
Запретить: /images

Путь в приведенном выше примере — /images — это указывает указанным пользовательским агентам не сканировать эту область веб-сайта.

Если вы не укажете путь, ничего не будет запрещено.

Помните: Использование косой черты (/) заблокирует весь веб-сайт.

Разрешить

Директива allow действует противоположно директиве disallow. Он существует, потому что бывают случаи, когда вы хотели бы запретить раздел своего веб-сайта, но «разрешить» отдельный элемент. Возможно, вы захотите заблокировать все изображения, кроме одного.

Вот пример.

Агент пользователя: *
Запретить: /images
Разрешить: /images/image01.jpg

В приведенном выше примере всем поисковым системам было сказано не сканировать все ваши изображения, кроме image01.jpg .

Если не указать путь для директивы allow, ничего не произойдет, она будет проигнорирована.

Карта сайта

Файлы

Robots.txt также могут указывать на XML-карту сайта веб-сайта.

К вашему сведению: XML-карта сайта — это файл, в котором перечислены все URL-адреса вашего веб-сайта. Это облегчает сканирование вашего сайта для поисковых систем.

Вот пример того, как карты сайта используются в файле robots.txt.

Агент пользователя: *
Запретить: /images
Карта сайта: https://www.serp.co/sitemap1.xml

Это приведет всех поисковых роботов к вашей XML-карте сайта. Убедитесь, что вы вводите полный URL-адрес, как в примере выше.

Директива карты сайта поддерживается всеми тремя крупными поисковыми системами: Google, Yahoo и Bing.

ПРИМЕЧАНИЕ. Вы можете использовать более одной XML-карты сайта в файле robots.текстовый файл.

Вот как это будет выглядеть.

Агент пользователя: *
Разрешить: /images
Карта сайта: https://www.serp.co/sitemap1.xml
Карта сайта: https://www.serp.co/sitemap2.xml

В этом файле robots.txt все поисковые роботы будут указывать направления к обеим картам сайта.

Задержка сканирования

Директива Crawl-delay — технически «неофициальная» директива используется для предотвращения перегрузки серверов. Иногда сканеры поисковых систем могут перегрузить ваш хост-сервер слишком большим количеством запросов.

Директива Crawl-delay дает серверу вашего веб-сайта передышку. Это не постоянное исправление — реальная проблема заключается в вашем сервере — эта директива является краткосрочным решением.

Вот пример использования.

User-agent: *
Disallow: /images
Crawl-delay: 10

Этот файл robots.txt предназначен для всех поисковых роботов, блокирующих ваш путь /images, со значением задержки сканирования, равным 10.

Значение директивы crawl-delay обычно находится в диапазоне от 0 до 30.Это секунды, сколько секунд задержки.

Убедитесь, что директивы задержки сканирования идут после директивы disallow/allow.

ВАЖНО: Директива о задержке сканирования не является официальной, ее признают только некоторые поисковые системы.

Google не поддерживает его — вместо этого у них есть собственные настройки задержки сканирования, доступные через Google Search Console.

Bing и Yahoo поддерживают его, но имеют свои уникальные инструкции.

Вы можете добавлять комментарии к файлу robots.txt, используя тире (#) перед некоторым текстом. Эти комментарии не имеют абсолютно никакого отношения к тому, что сообщается тому или иному пользовательскому агенту. Они просто существуют для людей.

Вот пример.

#Этот файл robots.txt блокирует все изображения
User-agent: *
Disallow: /images

Можно и другим способом.

User-agent: * #Этот файл robots.txt блокирует все изображения
Disallow: /images

Форматирование

Как вы форматируете файл robots.txt чрезвычайно важен. Если вы неправильно отформатируете, вы можете неправильно общаться с поисковыми системами. Черт, вы можете вообще не общаться.

Вы должны убедиться, что каждая директива (запретить, разрешить, карта сайта, задержка сканирования) имеет свою строку. Вот несколько примеров.

ИЗБЕГАЙТЕ написания файла robots.txt таким образом.  

Агент пользователя: * Запретить: /images Разрешить: /Images/Image01.jpg

Это чертовски запутает роботов, сканирующих ваш сайт.

ВМЕСТО НАПИШИТЕ это так.  

Агент пользователя: *
Запретить: /Images
Разрешить: /Images/image01.jpg

Как создать файл robots.txt

Откройте блокнот Windows и введите предпочитаемые пользовательские агенты и директивы.

Сохраните файл — дайте ему имя «Robots.txt».

Куда поместить файл robots.txt

Файл robots.txt помещается в корень вашего сайта — каталог верхнего уровня.Это можно сделать через cPanel.

URL-адрес будет выглядеть следующим образом: https://www.example.com/robot.txt

Убедитесь, что имя файла — robots.txt, и помните, что URL-адрес файла чувствителен к регистру.

Очень важно правильно указать URL — поисковые системы ищут ТОЛЬКО этот URL.

Например, если ваш URL-адрес был https://www.example.com/images/robot.txt , он не будет найден.

Почему вы должны использовать роботов.текст

В идеале всегда следует использовать файл robots.txt. Инструкции, которые он дает поисковым системам, значительно облегчают сканирование (что означает более высокий рейтинг в поисковой выдаче).

Однако я приведу несколько конкретных причин, по которым вам следует использовать файл robots.txt.

Блокировка страниц с конфиденциальной информацией

На вашем веб-сайте есть определенные страницы, которые вы НЕ хотите, чтобы поисковые системы сканировали — страницы с конфиденциальной информацией.

Общие примеры могут включать:

  • Страницы администратора/панели инструментов (/wp-admin/)
  • Страницы корзины покупок электронной коммерции (/cart/)
  • Страницы сценариев (/script/)
  • Страницы/папки общего интерфейса шлюза (/cgi-bin/)
  • Частные страницы участников сообщества форума

Убедитесь, что вы используете директиву disallow на любых страницах с потенциально конфиденциальной информацией.

Максимальное увеличение бюджета сканирования

Использование файла robots.txt может помочь оптимизировать краулинговый бюджет.

Бюджет сканирования — это SEO-термин, обозначающий объем ресурсов, которые поисковые системы используют при сканировании вашего веб-сайта.

Видите ли, существуют миллионы веб-сайтов, которые необходимо просканировать. У Google (и других поисковых систем) не так много ресурсов. Они должны выбрать, какие страницы важны, а какие нет.

Файл robots.txt может обеспечить сканирование ваших важных страниц, давая указания игнорировать нерелевантные.

Избегайте дублирования содержимого

Файл robots.txt с правильными директивами может указать сканерам поисковых систем игнорировать страницы с повторяющимся содержимым.

Распространенные типы страниц с повторяющимся содержанием включают:

  • Версия страницы для печати
  • Описания продуктов для электронной коммерции
  • Синдицированный контент для нескольких доменов
  • Страницы категорий для электронной коммерции

Блокировка этих страниц от поисковых систем защитит ваш веб-сайт от любых возможных санкций SEO.

Передовая практика

Как создать + где разместить

Мы говорили об этом ранее, но я сделаю это еще раз быстро.

  1. Откройте блокнот Windows и введите свой агент пользователя и директиву
  2. Сохраните текстовый файл как «robots.txt»
  3. Получите доступ к cPanel вашего веб-сайта и создайте новый файл с именем «robots.txt» в корне вашего веб-сайта
  4. Добавьте текстовый файл robots.txt в новый файл с именем robots.txt

ПРИМЕЧАНИЕ. Убедитесь, что файл, который вы создаете в корне вашего веб-сайта, имеет правильный URL-адрес.

Правильный URL = example.com/robots.txt

Неверный URL = example.com/images/robots.txt

Каждая директива должна иметь свою строку

Я говорил об этом ранее в разделе форматирования, но мы вернемся к этому снова.

Каждая директива в файле robots.txt ДОЛЖНА находиться на отдельной строке.

Вот пример записи файла robots.txt. ✔

Агент пользователя: *
Запретить: /images
Разрешить: /images/image01.jpg

И наоборот, вот как делать не следует. ✘

Агент пользователя: * Запретить: /images Разрешить: /images/image01.jpg

Один файл robots.txt на субдомен

Если у вас несколько поддоменов, вам потребуется файл robots.txt для каждого из них.

Например, https://serp.co будет иметь URL-адрес файла robots.txt https://serp.co/robots.txt .

http://serp.co будет другой — http://serp.co/robots.txt .

Это относится ко всем различным вариантам вашего веб-сайта, включая ccTLD.

Знать правила для разных поисковых систем

Каждая поисковая система имеет свои правила относительно файлов robots.txt — нужно знать хотя бы основные из них.

Например: знаете ли вы, что Google и Bing отдают приоритет самой длинной директиве?

Вот несколько примеров, которые помогут вам понять.

User-agent: *
Disallow: /about/
Разрешить: /about/company/

Объяснение: Все поисковые системы, кроме Google и Bing, не могут сканировать /about/ .То же самое и с /about/company/ — его могут сканировать только Google и Bing.

Видишь? Поскольку директива allow более длинная и конкретная, Google и Bing отдают ей приоритет. Она имеет приоритет над директивой disallow, несмотря на то, что находится ниже ее в хронологическом порядке. Google и Bing разрешено сканировать /about/, потому что для них это второе место.

Вот еще один пример.

User-agent: *
Разрешить: /about/team/
Запретить: /about/

Объяснение: Никакие поисковые системы, включая Google и Bing, не могут сканировать /about/ .Каждый может просканировать /about/team/ .

Поскольку директива allow является первой и по хронологии, и по длине, все поисковые системы отдают ей приоритет. Это включает в себя Google и Bing. Поскольку директива disallow занимает второе место по хронологии и длине, все могут сканироваться.

Избегайте знака порядка следования байтов (спецификация UTF-8)

Метка порядка байтов (спецификация UTF-8) — это символ Юникода, указывающий порядок байтов в файле. Он совершенно невидим для людей и буквально не выполняет функции SEO.

Поскольку это не имеет никакого отношения к поисковой оптимизации, неудивительно, что Google просто игнорирует его.

Если Google игнорирует это, то почему вы вообще должны что-то с этим делать?

Потому что не каждая поисковая система похожа на Google, и она (спецификация UTF-8) вызывает проблемы.

Иногда метка порядка байтов «душит» пользовательский агент, вызывая его ошибку. Когда пользовательский агент перестает работать, все остальное тоже.

Если у вас есть Notepad++ (это бесплатно), вы можете выбрать «Кодировать в UTF-8 без спецификации».»

Textpad (еще одна похожая программа) имеет поле, которое можно снять.

Если у вас есть файл robots.txt, в котором вы не уверены, что он содержит спецификацию UTF-8, используйте W3C Internalization Checker, чтобы выяснить это.

Это даст вам ответ.

Не используйте директиву noindex

Знаете ли вы, что для файла robots.txt существует индекс «noindex»? Технически неофициальный, но он существует.

Google неохотно поддерживал его в течение долгого времени, даже когда они сказали не использовать его.Но с сентября 2019 года они официально прекратили его поддержку.

1 сентября 2019 г. мы прекращаем поддержку всего кода, обрабатывающего неподдерживаемые и неопубликованные правила (например, noindex).

Bing такой же — по-видимому, они никогда не поддерживали noindex, по словам Фредерика Дюбута (старший руководитель программы Bing)

Оставить noindex для метатегов.

Проверьте файл robots.txt с помощью Google Search Console

Одна из самых важных вещей, которую вы можете сделать, — это протестировать своих роботов.текстовый файл. Вы можете сделать это с помощью Google Search Console.

Если в файле robots.txt есть ошибки, он сообщит вам об этом.

Последние мысли

В этом посте мы рассмотрели все, что вам нужно знать о файле robots.txt.

Файл robots.txt — это то, как вы взаимодействуете с поисковыми системами, инструктируя их поисковые роботы с директивами. Знание того, как работает файл, как его написать и как оптимизировать, имеет решающее значение для SEO.

Чтобы узнать больше о SEO, продолжайте читать руководства в нашем учебном центре и присоединяйтесь к нашей группе вдохновителей здесь: SERP University.

Robots Проверка текстовых файлов | ПейджДарт

Воспользуйтесь нашей программой проверки файла robots.txt ниже, чтобы проверить, работает ли ваш файл robots.txt.

Скопируйте и вставьте файл robots.txt в текстовое поле ниже. Вы можете найти файл robots, добавив /robots.txt на свой веб-сайт. Например, https://example.com/robots.txt .

Строка: ${error.index}

`; список результатов.innerHTML += ли; } если (ошибки.длина > 0) { результатыНазвание.innerHTML = errors.length + «Ошибки» результаты.скрытый = ложь; } еще { resultsTitle.innerHTML = «Нет ошибок» результаты.скрытый = ложь; } вернуть ложь; } window.onload = функция () { document.getElementById(«отправить»).onclick = проверить; }

Для создания этого инструмента мы проанализировали более 5000 файлов robots. В ходе нашего исследования мы обнаружили 7 распространенных ошибок.

Как только мы обнаружили эти ошибки, мы научились их исправлять. Ниже вы найдете подробные инструкции о том, как исправить все ошибки.

Продолжайте читать, чтобы узнать, почему мы создали этот инструмент и как мы завершили исследование.

Когда поисковый робот посещает ваш сайт, например Googlebot, он читает файл robots.txt, прежде чем просматривать любую другую страницу.

Он будет использовать файл robots.txt, чтобы проверить, куда он может пойти, а куда нет.

Он также будет искать вашу карту сайта, в которой будут перечислены все страницы вашего сайта.

Каждая строка в файле robots.txt — это правило, которому должен следовать сканер.

Если в правиле есть ошибка, сканер проигнорирует это правило.

Этот инструмент предоставляет простой способ быстро проверить наличие ошибок в файле robots.txt.

Мы также даем вам список того, как это исправить.

Более подробно о том, насколько важен файл robots.txt, можно прочитать в публикации Robots txt for SEO.

Как мы проанализировали более 5000 файлов robots.txt

Мы получили список из 1 миллиона лучших веб-сайтов по версии Alexa.

У них есть CSV-файл со списком всех URL-адресов, который вы можете скачать.

Мы обнаружили, что не на каждом сайте есть или нужен файл robots.txt.

Чтобы получить более 5000 файлов robots.txt, нам пришлось просмотреть более 7500 веб-сайтов.

Это означает, что из 7541 самых популярных веб-сайтов в Интернете 24% сайтов не имеют файла robots.txt.

Из 5000+ файлов robots.txt, которые мы проанализировали, мы обнаружили 7 распространенных ошибок:

  • Шаблон должен быть пустым, начинаться с «/» или «*»’
  • «$» следует использовать только в конце шаблона
  • Пользовательский агент не указан
  • Неверный протокол URL-адреса карты сайта
  • Недопустимый URL-адрес карты сайта
  • Неизвестная директива
  • Синтаксис не понят

Мы рассмотрим каждую из этих ошибок и способы их исправления ниже.

Но вот что мы обнаружили в результате нашего анализа.

Из 5732 проанализированных нами файлов robots.txt только 188 содержали ошибки.

Мы также обнаружили, что в 51 % случаев было более одной ошибки. Часто повторялась одна и та же ошибка.

Давайте посмотрим, сколько раз возникала каждая ошибка:

Ошибка Граф
Шаблон должен быть пустым, начинаться с «/» или «*»‘ 11660
«$» следует использовать только в конце шаблона 15
Пользовательский агент не указан 461
Неверный протокол URL-адреса карты сайта 0
Неверный URL-адрес карты сайта 29
Неизвестная директива 144
Синтаксис не понят 146

Как видите, шаблон должен быть пустым, начинаться с «/» или «*». — самая распространенная ошибка.

Получив данные, мы смогли понять и исправить ошибки.

Шаблон должен быть пустым, начинаться с «/» или «*»

Это была самая распространенная ошибка, которую мы обнаружили при анализе, и в этом нет ничего удивительного.

Эта ошибка относится к правилам Разрешить и Запретить . Эти правила чаще всего встречаются в файле robots.txt.

Если вы получаете эту ошибку, это означает, что первый символ после двоеточия не является «/» или «*».

Например, Разрешить: администратор вызовет эту ошибку.

Правильный способ форматирования: Разрешить: /admin .

Подстановочный знак (*) используется, чтобы разрешить все или запретить все. Например, часто можно увидеть это, когда вы хотите остановить сканирование сайта:

.

Запретить: *

Чтобы исправить эту ошибку, убедитесь, что после двоеточия стоит символ «/» или «*».

«$» следует использовать только в конце шаблона

У вас может быть знак доллара в файле robots.текстовый файл.

Вы можете использовать это, чтобы заблокировать определенный тип файла.

Например, если мы хотим заблокировать сканирование всех файлов .xls , вы можете использовать:

  Агент пользователя: *
Запретить: /*.xls$  

Знак $ сообщает сканеру, что это конец URL-адреса. Таким образом, это правило запрещает:

https://example.com/pink.xls

Но разрешить:

https://example.com/pink.xlsocks

Если у вас нет знака доллара в конце строки, например:

  Агент пользователя: *
Запретить: /*$.xls  

Это вызовет это сообщение об ошибке. Для исправления переместите в конец:

  Агент пользователя: *
Запретить: /*.xls$  

Так что используйте только знак $ в конце URL для соответствия типам файлов.

Пользовательский агент не указан

В файле robots.txt необходимо указать хотя бы один User-agent . Вы используете User-agent для идентификации и нацеливания на определенные поисковые роботы.

Если бы мы хотели настроить таргетинг только на сканер Googlebot, вы бы использовали:

  Агент пользователя: Googlebot
Запретить: /  

Используется довольно много сканеров:

  • Гуглбот
  • Бингбот
  • Хлеб
  • УткаУткаБот
  • Байдуспайдер
  • ЯндексБот
  • фейсбот
  • ia_archiver

Если вы хотите иметь разные правила для каждого, вы можете перечислить их следующим образом:

  Агент пользователя: Googlebot
Запретить: /

Агент пользователя: Bingbot
Разрешить: /  

Вы также можете использовать «*», это подстановочный знак, означающий, что он будет соответствовать всем поисковым роботам.

Убедитесь, что у вас установлен хотя бы один User-agent .

Неверный протокол URL карты сайта

При ссылке на карту сайта из файла robot.txt необходимо указать полный URL-адрес.

Этот URL-адрес должен быть абсолютным URL-адресом, например https://www.example.com/sitemap.xml .

Протокол — это https часть URL-адреса. Для URL-адреса карты сайта вы можете использовать HTTPS , HTTP или FTP . Если у вас есть что-то еще, вы увидите эту ошибку.

Неверный URL-адрес карты сайта

Вы можете сделать ссылку на карту сайта из файла robots.txt. Это должен быть полный (абсолютный) URL. Например, https://www.example.com/sitemap.xml будет абсолютным URL-адресом.

Если у вас нет абсолютного URL-адреса, например:

  Агент пользователя: *
Разрешать: /
Карта сайта: /sitemap.xml  

Это вызовет эту ошибку. Чтобы исправить это, измените абсолютный URL-адрес:

.
  Агент пользователя: *
Разрешать: /
Карта сайта: https://www.пример.com/sitemap.xml  

Неизвестная директива

При написании правила вы можете использовать только фиксированное количество «директив». Это команды, которые вы вводите перед двоеточием «:». Разрешить и Запретить обе директивы.

Вот список всех допустимых директив:

  • Карта сайта
  • Агент пользователя
  • Разрешить
  • Запретить
  • Задержка сканирования
  • Чистый параметр
  • Хост
  • Скорость запроса
  • Время посещения
  • Без индекса

Если у вас есть что-то еще за пределами списка выше, вы увидите эту ошибку.

Согласно нашему исследованию, наиболее распространенной причиной этой проблемы является опечатка в написании директивы.

Исправьте опечатку и повторите проверку.

Синтаксис не понят

Вы увидите эту ошибку, если в строке нет двоеточия.

В каждой строке должно стоять двоеточие, отделяющее директиву от значения.

Это вызовет ошибку:

Чтобы исправить, добавьте двоеточие (найдите разницу):

Поместите двоеточие после директивы, чтобы устранить проблему.

Подведение итогов, проверка файлов txt для роботов

Этот инструмент может помочь вам проверить наличие наиболее распространенных ошибок в файлах robots.txt.

Скопировав и вставив файл robots.txt в указанный выше инструмент, вы можете проверить, не содержит ли он ошибок.

Проверяем на 7 ошибок в том числе:

  • Шаблон должен быть пустым, начинаться с «/» или «*»’
  • «$» следует использовать только в конце шаблона
  • Пользовательский агент не указан
  • Неверный протокол URL-адреса карты сайта
  • Недопустимый URL-адрес карты сайта
  • Неизвестная директива
  • Синтаксис не понят

Как только вы узнаете, в какой строке ошибка, вы можете исправить ее, используя предоставленные советы.

Последние сообщения

В этом уроке мы добавим поиск Google на веб-сайт с помощью инструмента пользовательского поиска по сайту.

В этом уроке мы рассмотрим, как создать плагин WordPress.

Мы рассмотрим, как добавить строку поиска в HTML на ваш сайт и подключить поиск к поиску Google.

.

Leave a Reply