Robots.txt — это специальный файл с инструкциями (директивами) для поисковых роботов, расположенный в корне сайта.
Он формирует правила индексации: какие разделы сканировать, а какие пропускать.
Этими инструкциями пользуются поисковые системы (Google, Яндекс и другие) для более эффективного обхода контента сайта.
Robots.txt — это не просто технический файл, а стратегический инструмент SEO-управления.
С его помощью вы управляете обходом сайта, направляя роботов по нужным ссылкам и оптимизируя индексацию релевантного контента.
Для мультиязычного сайта особенно важно не блокировать доступ к папкам других языковых версий и корректно разрешить поисковикам обнаруживать контент на всех языках.
Robots.txt помогает упорядочить индексацию: вы открываете только нужные разделы и закрываете служебные.
Зачем нужен robots.txt
SEO-контроль индексации
Файл robots.txt управляет обходом страниц сайта поисковыми роботами.
Он помогает оптимизировать индексацию и не тратить краулинговый бюджет на служебный или нерелевантный контент.
- Сокращает сканирование «мусорных» URL и параметров.
- Фокусирует роботов на страницах, которые должны индексироваться.
- Упрощает управление служебными разделами и дублями.
/admin//bitrix//wp-Обычно это делают директивой Disallow,
чтобы робот не тратил время на лишние разделы.
Эти правила применимы независимо от CMS или движка — WordPress, Joomla, Drupal, Bitrix и другие.
В каждой системе есть особенности: например, Drupal часто содержит готовые правила (включая обработку CSS/JS и блокировку
/includes/),
а типовой robots.txt WordPress обычно минимален.
Важно помнить: каждая директива относится к конкретным URL.
Роботы передвигаются по страницам и выполняют указанные инструкции — вы управляете тем, какие разделы будут просматриваться, а какие — закрыты.
Robots.txt не гарантирует полного исключения страницы из выдачи.
Если нужно убрать контент из поиска, используйте мета-тег
noindex
или ограничьте доступ (например, паролем).
Основные директивы robots.txt
В файле robots.txt используются простые команды для роботов. Вот основные:
| Директива | Назначение |
|---|---|
User-agent: * |
Обозначает правила для всех поисковых ботов. Используется, если инструкции должны применяться ко всем поисковым системам одновременно. |
Disallow: /путь/ |
Запрещает обход указанных URL. Например,Disallow: /admin/ закрывает служебные разделы сайтаот индексации. |
Allow: /путь/ |
Разрешает индексацию вложенного URL, даже если родительская директория закрыта директивой Disallow. |
Sitemap: URL |
Указывает поисковым системам путь к XML-карте сайта и ускоряет индексацию всех языковых версий. |
Clean-param |
Инструкция для Яндекса и Google игнорировать указанные GET-параметры (utm, openstat и другие), чтобы избежать дублей страниц. |
Host |
Используется только Яндексом для указания основного домена сайта при наличии зеркал. |
Важно: каждую директиву (Disallow, Allow и т.д.) указывают с новой строки. Нельзя писать два пути через запятую или на одной строчке.
Файл robots.txt должен быть текстовым (кодировка UTF-8 или ASCII) и называться именно robots.txt (регистр букв важен). Следите также за размером файла: Google читает не более 500 Кб, а если он не превышает 32 Кб, Яндекс может посчитать его пустым.
Как создать и разместить robots.txt
-
Создайте текстовый файл с именем
robots.txt. Не используйте другие расширения или форматы. -
Разместите файл в корне сайта: это критично. Например, если сайт на
example.com, файл должен лежать по адресуhttps://example.com/robots.txt. Если у вас несколько доменов или поддоменов, каждый из них должен иметь свой robots.txt (см. FAQ). -
Добавьте в файл нужные правила: укажите директивы
Disallow/Allowдля разделов, которые хотите закрыть или открыть. Не забудьте указатьSitemap:с полным адресом карты сайта. Вы можете редактировать robots.txt через админку или FTP (в большинстве CMS есть встроенный редактор); после редактирования можно скачать файл и проверить его локально (например,wget https://example.com/robots.txt). -
Проверьте файл: откройте
https://ваш-домен/robots.txtв браузере и убедитесь в HTTP-коде 200. Затем используйте инструменты Google Search Console или Яндекс.Вебмастера для проверки robots.txt. Они покажут, какие URL разрешены, а какие закрыты, и укажут на возможные ошибки.
Настройка robots.txt для многоязычного сайта
Для сайта с несколькими языковыми версиями обычно используют один robots.txt в корне. В нём пропишите правила для каждого языкового раздела. Пример для сайта с английской (/en/), французской (/fr/) и немецкой (/de/) версиями:
Такой robots.txt разрешит индексировать нужные каталоги и закроет только служебный /admin/. Важно указывать все языковые карты сайта: в XML-карту включаются URL каждой версии страницы (с помощью <xhtml:link rel="alternate" hreflang="xx">). Так поисковики поймут, какие страницы являются переводами, а какие – отдельными.
Если языковые сайты на разных доменах (пример: example.com и example.by), у каждого домена свой robots.txt. В этом случае рекомендуем использовать директиву Host: (Яндекс) для указания основного домена, чтобы избежать дублирования.
Примеры robots.txt (WordPress, Bitrix, общий)
-
WordPress. На типичном сайте WP в robots.txt часто закрывают админку и системные папки:
Это запрещает роботу обход
/wp-admin/и/wp-includes/, но разрешает AJAX-запросам. Вполне обычно дополнять такими строками, например,Disallow: /tag/илиDisallow: /feed/, если эти разделы не нужны в выдаче. -
1С-Битрикс. На сайтах на Bitrix для примера:
Здесь закрыты служебные папки
/bitrix/и/bitrix/admin/. В системе Битрикс обычно формируется свой sitemap, поэтому обязательно пропишите корректный путь. -
Общий шаблон (мультиязычный сайт любого типа):
В этом примере закрыты технические папки (
/cgi-bin/,/temp/,/admin/) и служебные (/wp-admin/), а открыты публичный раздел/public/и папки для языков. Дополнительно часто используютDisallow: /search(чтобы не сканировать внутреннюю выдачу сайта) иDisallow: /feed(RSS).Для блокировки страниц с комментариями (например,
/comment/reply/в Drupal) можно добавить правило с шаблоном:Disallow: /*comment/.
Для сайтов с большим количеством медиа (например, фотоальбомы, изображения или PDF-книги) можно добавить Disallow для соответствующих папок. Это предотвратит лишние запросы к этим разделам. Например:
– эти правила закроют каталоги с фотоальбомами, фотографиями и электронными книгами.
Проверка и распространённые ошибки
-
Инструменты проверки: Google Search Console и Яндекс.Вебмастер позволяют протестировать ваш robots.txt. Загрузите файл в разделе «Проверка robots.txt» – система покажет, какие URL доступны, а какие закрыты. Также есть онлайн-тестеры и плагины для SEO-анализаторов.
-
Распространённые ошибки:
- 01Неправильное имя файла: допустимо только
robots.txtв нижнем регистре. - 02Синтаксис: после
User-agent:иDisallow:
требуется двоеточие и пробел. Одна директива — одна строка
(нельзя писать два пути через запятую или в одной строке). - 03Размер файла: при большом количестве правил
(файл > 32 Кб) Яндекс может не прочитать часть инструкций. - 04Синтаксис шаблонов: не все поисковики поддерживают специальные символы,
например*и$. - 05Оптимизация: регулярно проверяйте и сокращайте файл robots.txt.
Удаляйте устаревшие правила, объединяйте инструкции и при необходимости
используйтеClean-param(Яндекс) вместо явного закрытия параметров. - 06Обращения к закрытым URL: если в логах видны многократные попытки обхода
запрещённых разделов (403 / 404), проверьте правила и при необходимости
скорректируйте пути или шаблоны.
- 01Неправильное имя файла: допустимо только
Важно: robots.txt открытый для всех – его могут прочитать любые роботы и пользователи. Не используйте его для сокрытия конфиденциальных данных. Лучше защитите важные разделы паролем. Правило Disallow лишь запрещает обход, но если URL известен, он всё равно может появиться в выдаче (хотя и без описания).
