Дефолтна позиція
Для 95% B2B-брендів відповідь одна: пускай кожного основного AI-краулера. Блокування не захищає контент — воно просто робить тебе невидимим на тих поверхнях, де покупці зараз шукають.
Якщо тебе немає в ChatGPT — тебе немає у воронці. Вартість потрапляння в індекс приблизно нуль (твій контент і так публічний у відкритому веб), а вартість блокування — це весь канал AI-citation цілком.
Allow-list для robots.txt
Скидай це в /robots.txt на кожному сайті, з яким ми працюємо:
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: cohere-ai
Allow: /
Sitemap: https://yourdomain.com/sitemap-index.xml
Це покриває OpenAI (GPTBot, два варіанти), Anthropic (ClaudeBot + anthropic-ai), Perplexity (PerplexityBot), AI-навчання Google (Google-Extended), Common Crawl, який живить багато моделей (CCBot), індекс Apple (Applebot-Extended) і Cohere.
Легітимні винятки
Є типи контенту, де блокувати правильно:
- Paywalled контент — блокуй краулера від платної секції, не від маркетингового сайту
- MNDA / customer-only документація — блокуй від
/docs/[customer]/...шляхів - Внутрішня база знань — блокуй увесь субдомен
- User-generated контент з персональними даними — кейс за кейсом
Для типового B2B-сайту без цих категорій контенту — нічого легітимного, що варто було б ховати від AI-краулерів.
Скільки реально коштує блокування
Бренди, які явно блокують AI-краулерів, отримують:
- Нуль citation у заблокованому LLM (очевидно)
- Приблизно 30–60% втрати citation у незаблокованих LLM, бо граф AI-authority посилається на твій сайт через інших краулерів — але слабшим сигналом
- Репутаційний сигнал «цей бренд opted out», який деякі AI-екстрактори використовують, щоб занижувати навіть той контент, який вони технічно ще бачать
Компроміс — не «блокувати щоб захистити vs дозволити щоб отримати citation». Він звучить так: «бути невидимим vs бути цитованим». І жоден комерційний бренд не виграє від невидимості.
Шар заголовків /llms.txt
До allow-list додай нормальні заголовки на /llms.txt:
/llms.txt
Content-Type: text/plain; charset=utf-8
Cache-Control: public, max-age=3600
/robots.txt
Content-Type: text/plain; charset=utf-8
Cache-Control: public, max-age=86400
Cloudflare Pages робить це через _headers. На інших хостингах є еквіваленти. Без цих заголовків /llms.txt може віддаватися як octet-stream і ігноруватися краулером.
Чого ми не зробимо
- Заблокувати Google-Extended на сайті, де Google — основне джерело пошуку (відрізає твою ж AIO-поверхню)
- Заблокувати CCBot і потім питати, чому citation не ростуть (Common Crawl живить багато менших моделей)
- Додати per-LLM cloaking, який віддає різний контент різним краулерам (краулери це детектують і штрафують)
Що варто зробити сьогодні
Відкрий свій robots.txt. Перевір, що жоден з тих user-agent не має Disallow: /. Якщо має — фіксуй: або забери рядок, або зміни на Allow: /.
Це п’ятихвилинний фікс, який знімає суттєвий блокер на AI-citation.
Якщо в тебе ще немає /llms.txt — це наступний крок. Дивись наш гайд — там специфікація і готовий стартовий шаблон.