Маркетинговое агентство полного цикла

Адрес офиса:
Москва
Работаем
Онлайн





Звоните Пн-Пт: 9 - 18

+7 (914) 943-66-77 info@lukavchenko.ru

Меню сайта

Директива crawl‑delay в robots.txt

1. Введение: зачем нужна директива crawl-delay

В процессе продвижения сайта и его индексации поисковики посылают запросы (боты) к вашему серверу, сканируя страницы сайта, переходя по ссылкам и собирая данные. Если сайт большой, с динамическими разделами, параметрами URL и множеством дублей, то неблагоразумные запросы — особенно со стороны многих роботов — могут создать большую нагрузку на сервер. В таких случаях директива crawl-delay может быть использована как инструмент, чтобы снизить нагрузку и плавно распределить сканирование по времени.

 

Однако важно понимать: crawl-delay не является стандартной директивой, и не все поисковые роботы её уважают. Более того, Google официально не поддерживает crawl-delay — он просто игнорирует эту директиву.

В то же время Яндекс поддерживает crawl-delay, и вы можете указать, с каким интервалом робот Яндекса должен обращаться к сайту. Кроме того, Bing и Yahoo (и некоторые другие роботы) внимательно реагируют на crawl-delay.

Иначе говоря: директива crawl-delay — это инструмент «мягкого управления», особенно для робота Яндекса и менее строгих роботов, но не гарантированный метод для всех поисковых систем.

 

crawl‑delay в robots.txt

 


2. Что такое robots.txt и как он работает

Прежде чем углубляться в crawl-delay, давайте вспомним, что такое файл robots.txt, как поисковые системы его читают и какие директивы поддерживаются.

  • robots.txt — это текстовый файл, расположенный в корневой директории сайта (обычно https://example.com/robots.txt). Только файл в корне домена понимается как управляющий всей зоной этого домена и протокола.

  • При посещении сайта поисковый робот сначала запрашивает robots.txt, анализирует его содержимое (директивы) и на основании этого решает, какие URL он может посещать и когда.

  • robots.txt поддерживает такие стандартные директивы, как User-agent, Disallow, Allow, Sitemap.

  • Формат: каждая строка имеет <directive>: <value>, комментарии начинаются с #. Любые пробелы перед и после отбросываются.

  • Директивы Allow и Disallow указывают, какие пути URL разрешены или запрещены для сканирования конкретным роботом (user agent).

  • Директива Sitemap (указывается один или несколько полных URL к карте сайта) помогает поисковикам найти XML-карты сайта.

Важно: robots.txt не гарантирует, что URL не будут индексироваться — если URL запрещён к сканированию, поисковик может всё равно показывать его адрес в выдаче без сниппета.

Также считается, что robots.txt файл не должен превышать 500 KiB — всё, что следует после этого объёма, игнорируется.


3. Официальные директивы: user-agent, allow, disallow, sitemap

Чтобы грамотно применить crawl-delay, нужно понимать, как работают стандартные (официальные) директивы:

  • User-agent — указывает, к какому роботу применяются нижеследующие правила. Например:

    User-agent: *
    Disallow: /private/

    Здесь * означает «всех роботов».

  • Disallow — запрещает доступ к указанному пути (URL, каталогу). Путь относительно корня, начинается с /. Если Disallow: без пути — запрет не применяется.

  • Allow — более тонкий инструмент: разрешает доступ к некоторым подстраницам внутри запрещённой области. Применим, когда вы хотите закрыть всю директорию, но оставить доступ к одному ресурсу.

  • Sitemap — указывает полные URL-ссылки на карту сайта — помогает поисковикам ориентироваться. Пример:

    Sitemap: https://example.com/sitemap.xml

Эти директивы — официальные, поддерживаемые большинством поисковых систем (включая Google) и основу файла robots.txt.

Важно: директива crawl-delay не входит в официальный стандарт (Robots Exclusion Protocol) и считается неформальным расширением — поэтому её поддержка зависит от конкретной поисковой системы.


4. Директива crawl-delay: определение, синтаксис и значение

Что такое crawl-delay
Директива crawl-delay указывает для робота (user agent), сколько секунд он должен ждать между запросами к серверу при сканировании сайта.

User-agent: Yandex
Crawl-delay: 5

означает, что робот Яндекса должен делать паузу 5 секунд между запросами к разным URL.

В тексте файла robots.txt директива пишется в строке после директивы User-agent или в той же группе. Например:

User-agent: *
Crawl-delay: 10
Disallow: /admin/

Здесь Crawl-delay: 10 говорит всем роботам (user-agent: *) делать паузу 10 секунд.

Значение числа — это именно секунды, целое число. Нельзя указывать дробные значения — большинство роботов не распознают дроби.

Если указать Crawl-delay: 0 — это означает «без задержки» или директива игнорируется.


5. Как поисковые системы относятся к crawl-delay

Очень важно понимать, что не все поисковые роботы уважают директиву crawl-delay.

Google

  • Googlebot игнорирует директиву crawl-delay.

  • Если вы хотите ограничить скорость Googlebot, нужно использовать настройку crawl rate в Google Search Console.

Яндекс

  • Яндекс поддерживает директиву crawl-delay.

  • Можно указать время задержки в секундах, и робот Яндекса будет уважать это указание.

Bing, Yahoo и др.

  • Bing и Yahoo частично поддерживают crawl-delay.

  • То есть если вы укажете crawl-delay: 10, Bing может подождать 10 секунд между запросами.


6. Примеры записи crawl-delay в robots.txt

Пример 1: для всех роботов

User-agent: *
Crawl-delay: 10
Disallow: /private/
Sitemap: https://example.com/sitemap.xml

Пример 2: только для Яндекса

User-agent: Yandex
Crawl-delay: 5
Disallow: /tmp/
Allow: /tmp/allowed-page.html

Пример 3: разные группы

User-agent: Yandex
Crawl-delay: 3
Disallow: /old/
User-agent: Bingbot
Crawl-delay: 8
Disallow: /beta/

7. Когда и зачем использовать crawl-delay (и когда не стоит)

Использовать стоит:

  • Если сервер перегружен запросами роботов.

  • Если сайт большой, с множеством URL и параметров.

  • Если основной бот для продвижения — Яндекс.

Использовать не стоит:

  • Если сайт небольшой.

  • Если ваш трафик и индексация завязаны в основном на Google.

  • Если скорость индексации для вас критична.


8. Риски и ограничения директивы crawl-delay

  • Google игнорирует директиву.

  • Большое значение задержки может замедлить индексацию.

  • Не все боты уважают crawl-delay.

  • Ошибки в синтаксисе robots.txt могут заблокировать сайт.


9. Альтернативные методы управления скоростью индексации

  1. Настройка скорости обхода в Google Search Console, Яндекс.Вебмастере, Bing Webmaster Tools.

  2. Ограничения на уровне сервера (rate limiting, 503 или 429).

  3. Оптимизация структуры сайта: canonical, noindex, clean-param.

  4. Использование CDN и кеширования.


10. Проверка, тестирование и отладка robots.txt

  • Используйте валидаторы robots.txt.

  • Проверяйте логи сервера.

  • Следите за кэшем — роботы обновляют robots.txt не мгновенно.

  • Тестируйте изменения на копии сайта.


11. Кейс: интернет-магазин

Крупный магазин на 100 000 товаров страдал от нагрузки бота Яндекса. Решение:

User-agent: Yandex
Crawl-delay: 5
Disallow: /filter/
Sitemap: https://shop.example.com/sitemap.xml

В итоге нагрузка снизилась, сайт работает стабильно, индексация сохраняется.


12. Советы по технической оптимизации

  • Используйте кэширование и CDN.

  • Минимизируйте response.

  • Уберите ненужные плагины.

  • Оптимизируйте базу данных.


13. Рекомендации для CMS и WordPress

  • Используйте плагины для редактирования robots.txt.

  • Следите, чтобы автоматические обновления не ломали файл.

  • Для динамических сайтов — применяйте canonical, noindex.


14. Частые ошибки и как их избежать

  • Указывать crawl-delay без user-agent.

  • Ставить слишком большие задержки.

  • Блокировать CSS и JS.

  • Забывать про зеркала и субдомены.


15. Заключение

Директива crawl-delay полезна для Яндекса и некоторых других роботов. Но Google её игнорирует. Используйте crawl-delay с осторожностью, проверяйте логи, комбинируйте с другими методами.

Директива Crawl-delay может быть полезна для управления нагрузкой на сервер, особенно для крупных сайтов с множеством URL и параметров. Она позволяет указать интервал времени, который роботы, такие как Яндекс, должны соблюдать между запросами. Однако важно помнить, что Google игнорирует эту директиву, и для настройки скорости обхода Googlebot необходимо использовать Google Search Console.

Для сайтов, зависящих от индексации в Яндексе, Crawl-delay может помочь снизить нагрузку на сервер, особенно если сайт большой и с динамическими разделами. Важно правильно указать время задержки, чтобы не замедлить индексацию.

Альтернативные методы управления скоростью индексации включают использование инструментов вебмастеров, таких как Google Search Console и Яндекс.Вебмастер, а также оптимизацию структуры сайта и использование CDN и кеширования.

Калькулятор

расчет стоимости

Практические рекомендации по работе с robots.txt

Файл robots.txt используется практически на каждом сайте, где важно правильно управлять процессом поиска и индексации страниц. Его написание требует внимания к деталям, ведь даже один лишний знак или пустой пробел может привести к тому, что результат работы будет отличаться от ожиданий. Важно соблюдать инструкции и учитывать особенности разных поисковых систем, чтобы получить корректный эффект.

Основные правила и структура

Документ обычно содержит список директив для определенныех роботов. Например:

User-agent: *
Disallow: /admin/

В конце можно добавить Sitemap: с указанием карты сайта, что поможет ускорить обработку новых страниц. Главное — прописать правила таким образом, чтобы не закрывать необходимые разделы.

Каждая строка должна начинаться с ключевых слов, написанных с правильным регистром. Отдельно рекомендуется проверять наличие ошибок: в противном случае индекс сайта может быть нарушен.

Что важно учитывать

  1. Количество символов и последовательность — длинные строки допустимы, но стоит помнить о лимитах.

  2. Host — указывать имя главного зеркала сайта.

  3. Disallow — закрывать служебные папки, личные документы и разделы с обработкой персональных данных клиентов.

  4. Allow — разрешать загрузки изображений, css и js, чтобы контент был правильно проиндексирован.

Владелец бизнеса или руководитель проекта должен понимать: грамотно настроенный robots.txt позволяет сохранить серверные ресурсы, быстрее обновлять индекс и повышать позиции в выдаче.

Дополнительные возможности

Существует несколько вариантов расширения стандартного функционала:

  • использование специальных операторов для обработки параметров,

  • настройка отдельных правил для нового раздела сайта,

  • добавление тегов и исключений для разных агентов.

Редактор или программа для управления SEO позволит не только редактировать robots.txt, но и делать анализ, формировать отчет и даже загружать сводка изменений в интерфейс сервисов.

Практические советы

  • В начале файла укажите первую группу директив, начиная с User-agent.

  • В конце всегда добавляйте карту сайта и host.

  • Сохраняйте файл в кодировке UTF-8 без лишних символов.

  • Необходимо учитывать влияние рекламы и скачиванием видео, если сайт содержит рекламных блоков.

  • Внимание стоит уделить правильному написанию email и других идентификаторов — иногда роботы ищут такие данные в открытых документах.

Для кого это важно

  • Владельцы интернет-магазинов и целевого бизнеса.

  • Руководители команд разработки, которым нужно настроить сервис под требования ИИ и поисковиков.

  • Пользователи CMS, где robots.txt создается автоматически, но содержит ошибки.

Возможные ошибки и решения

Если обнаружена проблема (например, проиндексированы служебные папки), необходимо быстро внести изменения. Это можно сделать вручную через редактор или загрузить новый вариант через панель вебмастера. В некоторых случаях помогает использование модулем для управления robots.txt.

Если документ долго не обновлялся, рекомендуется написать заново полный файл: добавить название всех нужных разделов, учесть новые инструкции, исключить ненужные блоки. Важно описать всё словами, чтобы команда понимала каждое действие.

Почему это влияет на бизнес

Правильно составленный robots.txt помогает:

  • быстрее индексироваться новым страницам,

  • сохранить максимальное количество ресурсов,

  • исключить дубли и служебные сессий,

  • учесть требования поисковиков и ИИ-систем,

  • увеличить шанс, что сайт будет проиндексирован полностью.

Вопрос-Ответ

Работает ли crawl-delay для Googlebot?
Нет, Googlebot полностью игнорирует директиву crawl-delay. Для управления скоростью обхода страниц нужно использовать инструмент в Google Search Console — там можно задать желаемую частоту сканирования.
Что будет, если не прописывать crawl-delay в robots.txt?
Ничего страшного: роботы будут сканировать сайт с обычной скоростью, которую они сами считают оптимальной. Для большинства сайтов этого достаточно. Проблемы начинаются только тогда, когда сайт очень большой и робот создаёт нагрузку на сервер.
Нужно ли прописывать crawl-delay во всех группах user-agent?
Нет, только для тех роботов, которых вы хотите замедлить. Чаще всего это Yandex, иногда Bingbot. Для Google смысла нет, потому что он игнорирует директиву.
Есть ли альтернатива crawl-delay?
Да. Для Google и Bing лучше использовать панели вебмастера (Google Search Console, Bing Webmaster Tools, Яндекс.Вебмастер). Там можно вручную регулировать скорость обхода.
Также можно ограничить частоту запросов на сервере через 503/429 ошибки, или использовать CDN с rate limiting.
Сколько секунд ставить для Яндекса в crawl-delay?
Обычно рекомендуют ставить от 3 до 10 секунд. Всё зависит от мощности вашего сервера: если сервер слабый и сайт большой — лучше 5–10 секунд; если сервер мощный — достаточно 1–3 секунд. Слишком большие значения (например, 20–30 секунд) могут привести к замедленной индексации.
Можно ли комбинировать crawl-delay с Disallow или Allow?
Да, можно и даже нужно. Например:

User-agent: Yandex
Crawl-delay: 5
Disallow: /tmp/
Allow: /tmp/safe-page.html

Здесь мы ограничиваем скорость обхода Яндекс-бота, но одновременно регулируем доступ к разделам сайта.
Почему после crawl-delay Яндекс перестал индексировать сайт?
Возможные причины:

1) Указано слишком большое значение (например, 30 секунд), и бот просто не успевает просканировать нужный объём страниц.

2) Ошибки в синтаксисе файла robots.txt (неверный пробел, опечатка в user-agent).

3) Вместе с crawl-delay случайно был закрыт доступ ко всему сайту через Disallow: /.

Решение: проверить файл на ошибки с помощью валидатора, временно убрать crawl-delay, проанализировать логи сервера.
Можно ли ускорить индексацию с помощью crawl-delay?
Нет, директива crawl-delay работает только на замедление. Чтобы ускорить индексацию, лучше использовать:

- качественные XML-sitemap,

- внутреннюю перелинковку,

- панель вебмастера для ручного добавления страниц,

- регулярные обновления контента.

Бесплатно!

Рассчитайте стоимость продвижения прямо сейчас