Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта
Сайт без хорошей индексации – это как карта без указаний. Поисковые боты сами решают, что важно, а что можно игнорировать. В этом процессе решающую роль играет один простой файл – robots.txt. В этой статье разберём, как его правильно создать, заполнить и использовать для максимальной эффективности SEO.
Что такое robots.txt и зачем он нужен?
Файл robots.txt — это текстовый документ, расположенный в корне вашего домена. Он передаёт поисковым роботам инструкции о том, какие части сайта они могут сканировать, а какие – нет. Такой контроль помогает распределить нагрузку на ваш сервер, ускорить сканирование критичных страниц и исключить из индексацию дубли, архивы и тестовые разделы.
Ключевые возможности настройки robots.txt
- Блокировать лишние страницы и каталоги от сканирования.
- Сквозить внимания поисковиков на самые важные разделы.
- Разрешить сканирование только конкретным ботам.
- Указать путь к карте сайта (sitemap.xml) и ускорить индексацию.
- Удалять лишние параметры из URL и избавлять от дублированного контента.
- Контролировать кеширование и прозрачность в поисковиках.
Общая структура и размещение файла
Файл должен называться
robots.txt
Разместите его в корне сайта: example.com/robots.txt. Поисковые роботы первый раз обращаются именно к этому адресу. Если файл недоступен, они продолжат сканирование в режиме по умолчанию.
Размер файла не должен превышать 500 КБ, чтобы гарантировать его распознавание в Яндекс. Google может обрабатывать более крупные файлы, но ограничения всё равно работают.
Для поддоменов, например m.example.com, нужен отдельный robots.txt, так как правила применяются только к домену, где находится файл.
Основные директивы
| Директива | Описание |
|---|---|
| User-agent | Указывает для какого бота применяются правила. |
| Disallow | Запрещает сканирование указанных путей. |
| Allow | Разрешает сканирование конкретного пути, игнорируя более общие правила. |
| Sitemap | Ссылка на файл карты сайта, указывающая актуальные страницы. |
| Clean-param | Игнорирует дополнительные параметры URL (только в Яндексе). |
Пример запрета всем ботам, кроме Яндекса
User-agent: * Disallow: / User-agent: Yandex Allow: /
Блокировка всех PDF в Googlebot
User-agent: Googlebot Disallow: /*.pdf
Разрешение блога в Googlebot, остальные – запрет
User-agent: Googlebot Allow: /blog/ Disallow: /
Указание карты сайта
Sitemap: <a href="https://example.com/sitemap.xml">example.com/sitemap.xml</a>
Удаление параметров сортировки в Яндексе
User-agent: Yandex Clean-param: sort_field&order /catalog/category/
Как корректно закрыть страницу от индексации?
Запрет в robots.txt означает только отсутствие сканирования. Если кто‑то ссылкой упомянет страницу, она может попасть в индекс без контента, доходчиво — через «тупой» сниппет.
Для полного исключения используйте:
- Мета‑тег в теле страницы.
- noindex
- HTTP‑заголовок X‑Robots‑Tag: noindex.
- Атрибут в ссылках.
- rel=nofollow
- Код возврата 401/403/404.
- Удаление страницы с сервера.
Пример метатега robots
<meta name=«robots» content=«noindex, nofollow»>
HTTP‑ответ 404: лучший способ скрыть устаревшую страницу
Когда вы просто удаляете файл, поисковики немедленно перестают его индексировать и перестают показывать в результатах.
Удаление уже проиндексированной страницы
Проверьте, не указывает ли сайт нужную страницу: example.com/old-contact. Если страница всё ещё доступна и не заблокирована, она останется в индексе.
После блокировки используйте инструменты удаления: Яндекс.Вебмастер и Google Search Console. В обоих сервисах можно запрашивать временное удаление, но только до 6 месяцев. Для постоянного результата убедитесь, что URL отсутсвует в robots.txt и возвращает 404/403/401.
Шаги в Яндекс.Вебмастере
- Войдите в инструмент.
- Введите URL в поле.
- Нажмите «Удалить».
- Служба покажет статус: «В очереди», «В процессе», «Удалена».
Google Search Console – временные удаления
- Перейдите в «Временные удаления».
- Выберите вариант «Удаление URL».
- Подтвердите запрос.
Лучшие практики и рекомендации SEO
- Всегда используйте латиницу в URL и указывайте пути в robots.txt в ASCII.
- Размещайте правила группами: по одному User-agent и хотя бы одному Disallow/Allow.
- Не смешивайте правила без User-agent, иначе они объединятся в одну группу.
- Проверьте файл на наличие ошибок через валидатор Yandex.Robot или Search Console.
- Регулярно обновляйте sitemap.xml и уведомляйте поисковики о его смене.
Итоги
Файл robots.txt – мощный инструмент, но не универсальный. Он позволяет направить поисковых ботов, но гарантировать полное исключение нужной страницы должно быть признано в сочетании с другими методами (мета‑теги, заголовки, HTTP‑статусы). Следите за рекомендациями поисковых систем и периодически проверяйте файл на корректность.