Полное руководство по robots.txt: от базовой настройки до SEO-оптимизации и GEO
Файл robots.txt — фундамент SEO-оптимизации, определяющий видимость сайта в поисковых системах. Ошибочная настройка может сделать ресурс невидимым для роботов, что напрямую влияет на трафик и ранжирование. В этом руководстве детально разберем требования к файлу, ключевые директивы, их применение для SEO и GEO, а также добавим практические кейсы и инструменты контроля.
Что такое robots.txt?
Файл robots.txt — это текстовый документ формата .txt, содержащий инструкции для поисковых роботов (краулеров). Он управляет процессом индексации, указывая роботам, какие страницы сайта следует сканировать и индексировать, а какие — игнорировать. SEO-специалисты используют этот инструмент для оптимизации crawl-бюджета, предотвращения индексации технических страниц и дубликатов.
Требования к файлу robots.txt
Чтобы роботы корректно распознали правила, файл должен соответствовать строгим техническим требованиям:
- Расширение: только .txt
- Имя файла: robots.txt (строчные буквы, без пробелов и символов)
- Расположение: корневой каталог сайта (например, example.com/robots.txt)
- Максимальный размер: 500 КБ (большие файлы могут не обрабатываться)
- Кодировка: UTF-8 без BOM (Byte Order Mark)
- HTTP-статус: 200 OK
Совет: в CMS (WordPress, Bitrix, OpenCart) файл можно редактировать через административную панель, но технические требования остаются неизменными.
Ключевые директивы robots.txt
Директивы — это команды, управляющие поведением роботов. Рассмотрим основные:
User-agent
Указывает целевого робота. В файле может быть несколько секций User-agent:
- — для всех роботов
- User-agent: *
- — для роботов Яндекса
- User-agent: Yandex
- — для Google
- User-agent: Googlebot
Важно: перед каждой новой директивой User-agent добавляйте пустую строку для разделения секций.
Disallow
Запрещает индексацию определенных страниц. Применяется для:
- Технических страниц: «Регистрация», «Корзина», «Авторизация»
- Конфиденциальных данных: личных кабинетов, платежных систем
- Дубликатов: UTM-меток, версий для печати
- Логов и статистики: /admin/, /cgi-bin/
Примеры:
- — блокирует весь сайт
- Disallow: /
- — закрывает страницы с фильтрами цены
- Disallow: /*?price=
- — запрещает доступ к каталогу /private/
- Disallow: */private/
Совет: используйте wildcard «*» для гибкого управления:
Disallow: */temp/*
Allow
Разрешает доступ к разделам внутри заблокированных Disallow. Пример для интернет-магазина:
User-agent: * Disallow: /catalog/ Allow: /catalog/auto/
Здесь запрещен весь каталог, но разрешена подкатегория авто.
Sitemap
Указывает пути к картам сайта. Ключевая директива для быстрой индексации:
Sitemap: <a href="https://example.com/sitemap.xml">example.com/sitemap.xml</a> Sitemap: <a href="https://example.com/sitemap-news.xml">example.com/sitemap-news.xml</a>
Особенность: директива межсекционная (роботы видят ее в любом месте файла).
Clean-param (для Яндекса)
Устраняет дубликаты из-за динамических параметров. Пример:
User-agent: Yandex Clean-param: ref /product
Робот Яндекса объединит страницы типа
product?ref=site1
product?ref=site2
Ограничения и особенности robots.txt
- Рекомендательный характер: роботы могут игнорировать правила (особенно агрессивные сканеры)
- Не влияет на индекс: Disallow запрещает сканирование, но не удаление из индекса
- Альтернатива noindex: для полного исключения используйте тег
- <meta name="robots" content="noindex">
Ошибка: новички часто забывают, что robots.txt не защищает от сканирования — только от индексации.
Проверка robots.txt
После создания файла обязательно проверьте его:
Google Search Console
- Перейдите в раздел «Индексирование» → «Файл robots.txt»
- Проверьте синтаксис и доступ к URL
- Используйте «Тестер robots.txt» для симуляции
Яндекс Вебмастер
- Выберите «Инструменты» → «Анализ robots.txt»
- Укажите домен и запустите проверку
- Ошибки будут в разделе «Ошибки» (например, отсутствие User-agent, превышение размера)
robots.txt и SEO: лучшие практики
Кейсы управления сканированием
- Защита раздела:
- User-agent: *
- Disallow: /private/
- Разрешение только для важных страниц:
- User-agent: *
- Disallow: /
- Allow: /$
- Allow: /contacts/
- Блокировка фильтров в каталоге:
- User-agent: *
- Disallow: /*?price=
- Disallow: /*?size=
Совет: для крупных сайтов используйте
Disallow: */
Disallow: /
robots.txt и GEO: оптимизация под нейросети
GEO (Generative Engine Optimization) — адаптация контента для ИИ-ответов. Чтобы попасть в выдачу ChatGPT, Claude или Perplexity, разрешите сканирование их роботам:
# OpenAI User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / # Anthropic User-agent: ClaudeBot Allow: / # Perplexity User-agent: PerplexityBot Allow: /
Важно: это не гарантирует попадание в ИИ-выдачу, но повышает шансы на индексацию. Добавляйте эти директивы после основных (Yandex, Googlebot).
Частые ошибки и их исправление
- Неправильный путь: файл должен быть в корне сайта, а не в /robots.txt/
- Пробелы в названии: используйте только robots.txt, не Robots.txt или robot.txt
- Отсутствие Sitemap: добавьте карту сайта для ускорения индексации
- Блокировка всего сайта: проверяйте правила перед применением
Заключение
Правильная настройка robots.txt — критически важный этап SEO. Она помогает:
- Контролировать crawl-бюджет
- Устранить дубликаты
- Защитить конфиденциальные данные
- Оптимизировать под новые форматы поиска (GEO)
Регулярно тестируйте файл, обновляйте его при изменении структуры сайта и используйте инструменты вебмастеров для мониторинга.
Recovery
12 дней назад
#
Конфетка
9 дней назад
#