robots.txt для AI-ботов: GPTBot, PerplexityBot, ClaudeBot и Google-Extended
Какие user-agent сегодня важно перечислять явно, что меняет блокировка GPTBot и почему политика для CCBot — это отдельное продуктовое решение.
Автор: GEO Fix Editorial
Если вы только разрешили `User-agent: *` в robots.txt, формально AI-краулеры доступ имеют. Но для GEO-готовности этого мало: явное перечисление ботов служит сигналом «мы знаем, кого пускаем» для аудиторов, конкурентных скриптов и для самих провайдеров AI.
Минимальный набор user-agent на 2026 год
- GPTBot, ChatGPT-User, OAI-SearchBot — OpenAI: тренировка и live-поиск.
- PerplexityBot, Perplexity-User — Perplexity: контент для ответов.
- ClaudeBot, anthropic-ai, Claude-Web — Anthropic.
- Google-Extended — Gemini и AI Overviews (отдельно от Googlebot).
- Bingbot — Microsoft Copilot.
- Applebot-Extended — Apple Intelligence.
- CCBot — Common Crawl, основной обучающий датасет.
Что значит блокировать GPTBot
Disallow GPTBot убирает ваш контент из обучающих наборов OpenAI, но не из live-ответов ChatGPT — для этого есть отдельный ChatGPT-User. Поэтому решение «блокировать GPTBot» обычно касается именно тренировки модели; для live-цитирования нужен отдельный allow для ChatGPT-User и OAI-SearchBot.
CCBot как продуктовое решение
CCBot забирает данные в открытый Common Crawl, на котором учатся почти все LLM. Блокировка CCBot — самый «дешёвый» способ исключить будущие модели из тренировки на вашем контенте. Но она же лишит вас фоновых упоминаний, которые AI вытаскивает из training data. Если ваш бренд молод и вы хотите попадать в ответы — оставляйте allow.
Как поддерживать список актуальным
Вендоры регулярно добавляют новых ботов (Perplexity-User, OAI-SearchBot — оба появились в 2024–2025). Держите список user-agent в одном месте кода (у нас — `src/libs/aiBots.ts`), из которого собирается robots.txt и продуктовая UI-визуализация. Так у клиента в отчёте никогда не будет рассогласования между «что мы говорим» и «что в файле».
Обновлено:
