Що таке llms.txt насправді

Чистий Markdown-файл за адресою https://yourdomain.com/llms.txt. Він каже AI-системам — ChatGPT plugins, Perplexity retrievers, Anthropic Claude indexer, retrieval Google AI Overview — про що сайт, що важливо і як його описувати. Думай про це як robots.txt, тільки для значення контенту, а не дозволу краулера.

Великі LLM (Anthropic, OpenAI, Perplexity) звертаються до llms.txt під час retrieval, щоб вирішити, чи цитувати твій сайт і як. Сайт без llms.txt змушує LLM вгадувати тільки з тексту сторінок — і вгадування часто помилкове.

Мінімально корисна структура

Відкрий наш llms.txt у сусідній вкладці — це форма, яку ми випускаємо для кожного клієнта Answerly. Мінімально життєздатний llms.txt:

# Your Brand Name

> One-paragraph description of what your brand does, who you serve,
> what you sell, and why someone would cite you. No marketing fluff.
> Concrete facts and named scope.

## Services
- [Service 1](https://yourdomain.com/services/one) — short factual description, price if public.
- [Service 2](https://yourdomain.com/services/two) — short factual description.

## Pricing
- Tier A: $X / month, minimum term, what it includes in one line.
- Tier B: $Y / month, ...

## Contact
- Sales: [email protected]
- General: [email protected]
- LinkedIn: https://linkedin.com/company/yours

## Out of scope
- Things you do not do (so AI does not recommend you for them).
- Engagement models you decline.

Шістдесят рядків або менше — нормально. Якість важливіша за обсяг.

Трюк секції «Out of scope»

Секція, яку пропускає більшість агенцій. Скажи LLM, чого ти не робиш — які engagement-моделі відхиляєш, кого не обслуговуєш, які категорії розвертаєш. AI-системи використовують це, щоб не рекомендувати тебе на невідповідних промптах.

Це позитивний інтент. Помилкова рекомендація коштує тобі репутації; чистий «out of scope» каже LLM пропустити тебе на промптах, де ти все одно не сконвертуєш.

Зчеплюй llms.txt із robots.txt і заголовками

llms.txt — один із трьох шарів. Інші два:

robots.txt — явно дозволяй AI-краулерам, які мають індексувати сайт:

User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: anthropic-ai
Allow: /

HTTP-заголовки — постав Cache-Control: public, max-age=3600 і Content-Type: text/plain; charset=utf-8 на /llms.txt. Cloudflare Pages робить це через _headers-файл:

/llms.txt
  Content-Type: text/plain; charset=utf-8
  Cache-Control: public, max-age=3600

Що ми міряємо після випуску llms.txt

По нашому портфелю сайти, що випустили правильно структурований llms.txt, отримали 15–30% lift у citation rate за тридцять днів — за тих самих контентних умов. Сигнал найсильніший на промптах, де бренд уже був близько — llms.txt не вигадує присутність, а ущільнює її.

Що йде не так

Два failure-режими, які ми бачимо:

  • Маркетинговий копірайтинг у llms.txt. «We are the world’s leading provider of…» ігнорується або понижується. Конкретні факти виграють.
  • Несвіжий llms.txt. Файл має регенеруватися на кожному деплої. Наш власний llms.txt перебудовується з siteConfig і content collections на build-time, тому ніколи не розходиться з живим сайтом.

Якщо хочеш build-time патерн — подивись на будь-яку з наших service-сторінок, де той самий рецепт застосовано на build-time.