IT'S NEW IT'S NEW

Поиск

Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта

Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта
3 минуты

Сайт без хорошей индексации – это как карта без указаний. Поисковые боты сами решают, что важно, а что можно игнорировать. В этом процессе решающую роль играет один простой файл – robots.txt. В этой статье разберём, как его правильно создать, заполнить и использовать для максимальной эффективности SEO.

Что такое robots.txt и зачем он нужен?

Файл robots.txt — это текстовый документ, расположенный в корне вашего домена. Он передаёт поисковым роботам инструкции о том, какие части сайта они могут сканировать, а какие – нет. Такой контроль помогает распределить нагрузку на ваш сервер, ускорить сканирование критичных страниц и исключить из индексацию дубли, архивы и тестовые разделы.

Ключевые возможности настройки robots.txt

  • Блокировать лишние страницы и каталоги от сканирования.
  • Сквозить внимания поисковиков на самые важные разделы.
  • Разрешить сканирование только конкретным ботам.
  • Указать путь к карте сайта (sitemap.xml) и ускорить индексацию.
  • Удалять лишние параметры из URL и избавлять от дублированного контента.
  • Контролировать кеширование и прозрачность в поисковиках.

Общая структура и размещение файла

Файл должен называться

  1. robots.txt
без заглавных букв и лишних символов. 

Разместите его в корне сайта: example.com/robots.txt. Поисковые роботы первый раз обращаются именно к этому адресу. Если файл недоступен, они продолжат сканирование в режиме по умолчанию.

Размер файла не должен превышать 500 КБ, чтобы гарантировать его распознавание в Яндекс. Google может обрабатывать более крупные файлы, но ограничения всё равно работают.

Для поддоменов, например m.example.com, нужен отдельный robots.txt, так как правила применяются только к домену, где находится файл.

Основные директивы

ДирективаОписание
User-agentУказывает для какого бота применяются правила.
DisallowЗапрещает сканирование указанных путей.
AllowРазрешает сканирование конкретного пути, игнорируя более общие правила.
SitemapСсылка на файл карты сайта, указывающая актуальные страницы.
Clean-paramИгнорирует дополнительные параметры URL (только в Яндексе).

Пример запрета всем ботам, кроме Яндекса

  1. User-agent: *
  2. Disallow: /
  3.  
  4. User-agent: Yandex
  5. Allow: /

Блокировка всех PDF в Googlebot

  1. User-agent: Googlebot
  2. Disallow: /*.pdf

Разрешение блога в Googlebot, остальные – запрет

  1. User-agent: Googlebot
  2. Allow: /blog/
  3. Disallow: /

Указание карты сайта

  1. Sitemap: <a href="https://example.com/sitemap.xml">example.com/sitemap.xml</a>

Удаление параметров сортировки в Яндексе

  1. User-agent: Yandex
  2. Clean-param: sort_field&order /catalog/category/

Как корректно закрыть страницу от индексации?

Запрет в robots.txt означает только отсутствие сканирования. Если кто‑то ссылкой упомянет страницу, она может попасть в индекс без контента, доходчиво — через «тупой» сниппет.

Для полного исключения используйте:

  • Мета‑тег
    1. noindex
    в теле страницы.
  • HTTP‑заголовок X‑Robots‑Tag: noindex.
  • Атрибут
    1. rel=nofollow
    в ссылках.
  • Код возврата 401/403/404.
  • Удаление страницы с сервера.

Пример метатега robots

  1. <meta name=«robots» content=«noindex, nofollow»>

HTTP‑ответ 404: лучший способ скрыть устаревшую страницу

Когда вы просто удаляете файл, поисковики немедленно перестают его индексировать и перестают показывать в результатах.

Удаление уже проиндексированной страницы

Проверьте, не указывает ли сайт нужную страницу: example.com/old-contact. Если страница всё ещё доступна и не заблокирована, она останется в индексе.

После блокировки используйте инструменты удаления: Яндекс.Вебмастер и Google Search Console. В обоих сервисах можно запрашивать временное удаление, но только до 6 месяцев. Для постоянного результата убедитесь, что URL отсутсвует в robots.txt и возвращает 404/403/401.

Шаги в Яндекс.Вебмастере

  1. Войдите в инструмент.
  2. Введите URL в поле.
  3. Нажмите «Удалить».
  4. Служба покажет статус: «В очереди», «В процессе», «Удалена».

Google Search Console – временные удаления

  1. Перейдите в «Временные удаления».
  2. Выберите вариант «Удаление URL».
  3. Подтвердите запрос.

Лучшие практики и рекомендации SEO

  • Всегда используйте латиницу в URL и указывайте пути в robots.txt в ASCII.
  • Размещайте правила группами: по одному User-agent и хотя бы одному Disallow/Allow.
  • Не смешивайте правила без User-agent, иначе они объединятся в одну группу.
  • Проверьте файл на наличие ошибок через валидатор Yandex.Robot или Search Console.
  • Регулярно обновляйте sitemap.xml и уведомляйте поисковики о его смене.

Итоги

Файл robots.txt – мощный инструмент, но не универсальный. Он позволяет направить поисковых ботов, но гарантировать полное исключение нужной страницы должно быть признано в сочетании с другими методами (мета‑теги, заголовки, HTTP‑статусы). Следите за рекомендациями поисковых систем и периодически проверяйте файл на корректность.

19:44
99
Поделиться:
Нет комментариев. Ваш будет первым!
Оставаясь на сайте, вы соглашаетесь с Политикой в отношении cookie. Если не согласны, покиньте сайт.