Дефолтна позиція

Для 95% B2B-брендів відповідь одна: пускай кожного основного AI-краулера. Блокування не захищає контент — воно просто робить тебе невидимим на тих поверхнях, де покупці зараз шукають.

Якщо тебе немає в ChatGPT — тебе немає у воронці. Вартість потрапляння в індекс приблизно нуль (твій контент і так публічний у відкритому веб), а вартість блокування — це весь канал AI-citation цілком.

Allow-list для robots.txt

Скидай це в /robots.txt на кожному сайті, з яким ми працюємо:

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: cohere-ai
Allow: /

Sitemap: https://yourdomain.com/sitemap-index.xml

Це покриває OpenAI (GPTBot, два варіанти), Anthropic (ClaudeBot + anthropic-ai), Perplexity (PerplexityBot), AI-навчання Google (Google-Extended), Common Crawl, який живить багато моделей (CCBot), індекс Apple (Applebot-Extended) і Cohere.

Легітимні винятки

Є типи контенту, де блокувати правильно:

  • Paywalled контент — блокуй краулера від платної секції, не від маркетингового сайту
  • MNDA / customer-only документація — блокуй від /docs/[customer]/... шляхів
  • Внутрішня база знань — блокуй увесь субдомен
  • User-generated контент з персональними даними — кейс за кейсом

Для типового B2B-сайту без цих категорій контенту — нічого легітимного, що варто було б ховати від AI-краулерів.

Скільки реально коштує блокування

Бренди, які явно блокують AI-краулерів, отримують:

  • Нуль citation у заблокованому LLM (очевидно)
  • Приблизно 30–60% втрати citation у незаблокованих LLM, бо граф AI-authority посилається на твій сайт через інших краулерів — але слабшим сигналом
  • Репутаційний сигнал «цей бренд opted out», який деякі AI-екстрактори використовують, щоб занижувати навіть той контент, який вони технічно ще бачать

Компроміс — не «блокувати щоб захистити vs дозволити щоб отримати citation». Він звучить так: «бути невидимим vs бути цитованим». І жоден комерційний бренд не виграє від невидимості.

Шар заголовків /llms.txt

До allow-list додай нормальні заголовки на /llms.txt:

/llms.txt
  Content-Type: text/plain; charset=utf-8
  Cache-Control: public, max-age=3600

/robots.txt
  Content-Type: text/plain; charset=utf-8
  Cache-Control: public, max-age=86400

Cloudflare Pages робить це через _headers. На інших хостингах є еквіваленти. Без цих заголовків /llms.txt може віддаватися як octet-stream і ігноруватися краулером.

Чого ми не зробимо

  • Заблокувати Google-Extended на сайті, де Google — основне джерело пошуку (відрізає твою ж AIO-поверхню)
  • Заблокувати CCBot і потім питати, чому citation не ростуть (Common Crawl живить багато менших моделей)
  • Додати per-LLM cloaking, який віддає різний контент різним краулерам (краулери це детектують і штрафують)

Що варто зробити сьогодні

Відкрий свій robots.txt. Перевір, що жоден з тих user-agent не має Disallow: /. Якщо має — фіксуй: або забери рядок, або зміни на Allow: /.

Це п’ятихвилинний фікс, який знімає суттєвий блокер на AI-citation.

Якщо в тебе ще немає /llms.txt — це наступний крок. Дивись наш гайд — там специфікація і готовий стартовий шаблон.