Полный гид по настройке robots.txt: управление индексацией и защитой сайта

Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта

3 минуты

Полезное

Сайт без хорошей индексации – это как карта без указаний. Поисковые боты сами решают, что важно, а что можно игнорировать. В этом процессе решающую роль играет один простой файл – robots.txt. В этой статье разберём, как его правильно создать, заполнить и использовать для максимальной эффективности SEO.

Что такое robots.txt и зачем он нужен?

Файл robots.txt — это текстовый документ, расположенный в корне вашего домена. Он передаёт поисковым роботам инструкции о том, какие части сайта они могут сканировать, а какие – нет. Такой контроль помогает распределить нагрузку на ваш сервер, ускорить сканирование критичных страниц и исключить из индексацию дубли, архивы и тестовые разделы.

Ключевые возможности настройки robots.txt

Блокировать лишние страницы и каталоги от сканирования.
Сквозить внимания поисковиков на самые важные разделы.
Разрешить сканирование только конкретным ботам.
Указать путь к карте сайта (sitemap.xml) и ускорить индексацию.
Удалять лишние параметры из URL и избавлять от дублированного контента.
Контролировать кеширование и прозрачность в поисковиках.

Общая структура и размещение файла

Файл должен называться

robots.txt

без заглавных букв и лишних символов.

Разместите его в корне сайта: example.com/robots.txt. Поисковые роботы первый раз обращаются именно к этому адресу. Если файл недоступен, они продолжат сканирование в режиме по умолчанию.

Размер файла не должен превышать 500 КБ, чтобы гарантировать его распознавание в Яндекс. Google может обрабатывать более крупные файлы, но ограничения всё равно работают.

Для поддоменов, например m.example.com, нужен отдельный robots.txt, так как правила применяются только к домену, где находится файл.

Основные директивы

Директива	Описание
User-agent	Указывает для какого бота применяются правила.
Disallow	Запрещает сканирование указанных путей.
Allow	Разрешает сканирование конкретного пути, игнорируя более общие правила.
Sitemap	Ссылка на файл карты сайта, указывающая актуальные страницы.
Clean-param	Игнорирует дополнительные параметры URL (только в Яндексе).

Пример запрета всем ботам, кроме Яндекса

User-agent: *
Disallow: /
 
User-agent: Yandex
Allow: /

Блокировка всех PDF в Googlebot

User-agent: Googlebot
Disallow: /*.pdf

Разрешение блога в Googlebot, остальные – запрет

User-agent: Googlebot
Allow: /blog/
Disallow: /

Указание карты сайта

Sitemap: <a href="https://example.com/sitemap.xml">example.com/sitemap.xml</a>

Удаление параметров сортировки в Яндексе

User-agent: Yandex
Clean-param: sort_field&order /catalog/category/

Как корректно закрыть страницу от индексации?

Запрет в robots.txt означает только отсутствие сканирования. Если кто‑то ссылкой упомянет страницу, она может попасть в индекс без контента, доходчиво — через «тупой» сниппет.

Для полного исключения используйте:

Мета‑тег
```
noindex
```
в теле страницы.
HTTP‑заголовок X‑Robots‑Tag: noindex.
Атрибут
```
rel=nofollow
```
в ссылках.
Код возврата 401/403/404.
Удаление страницы с сервера.

Пример метатега robots

<meta name=«robots» content=«noindex, nofollow»>

HTTP‑ответ 404: лучший способ скрыть устаревшую страницу

Когда вы просто удаляете файл, поисковики немедленно перестают его индексировать и перестают показывать в результатах.

Удаление уже проиндексированной страницы

Проверьте, не указывает ли сайт нужную страницу: example.com/old-contact. Если страница всё ещё доступна и не заблокирована, она останется в индексе.

После блокировки используйте инструменты удаления: Яндекс.Вебмастер и Google Search Console. В обоих сервисах можно запрашивать временное удаление, но только до 6 месяцев. Для постоянного результата убедитесь, что URL отсутсвует в robots.txt и возвращает 404/403/401.

Шаги в Яндекс.Вебмастере

Войдите в инструмент.
Введите URL в поле.
Нажмите «Удалить».
Служба покажет статус: «В очереди», «В процессе», «Удалена».

Google Search Console – временные удаления

Перейдите в «Временные удаления».
Выберите вариант «Удаление URL».
Подтвердите запрос.

Лучшие практики и рекомендации SEO

Всегда используйте латиницу в URL и указывайте пути в robots.txt в ASCII.
Размещайте правила группами: по одному User-agent и хотя бы одному Disallow/Allow.
Не смешивайте правила без User-agent, иначе они объединятся в одну группу.
Проверьте файл на наличие ошибок через валидатор Yandex.Robot или Search Console.
Регулярно обновляйте sitemap.xml и уведомляйте поисковики о его смене.

Итоги

Файл robots.txt – мощный инструмент, но не универсальный. Он позволяет направить поисковых ботов, но гарантировать полное исключение нужной страницы должно быть признано в сочетании с другими методами (мета‑теги, заголовки, HTTP‑статусы). Следите за рекомендациями поисковых систем и периодически проверяйте файл на корректность.

Поиск

Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта