Що таке llms.txt насправді
Чистий Markdown-файл за адресою https://yourdomain.com/llms.txt. Він каже AI-системам — ChatGPT plugins, Perplexity retrievers, Anthropic Claude indexer, retrieval Google AI Overview — про що сайт, що важливо і як його описувати. Думай про це як robots.txt, тільки для значення контенту, а не дозволу краулера.
Великі LLM (Anthropic, OpenAI, Perplexity) звертаються до llms.txt під час retrieval, щоб вирішити, чи цитувати твій сайт і як. Сайт без llms.txt змушує LLM вгадувати тільки з тексту сторінок — і вгадування часто помилкове.
Мінімально корисна структура
Відкрий наш llms.txt у сусідній вкладці — це форма, яку ми випускаємо для кожного клієнта Answerly. Мінімально життєздатний llms.txt:
# Your Brand Name
> One-paragraph description of what your brand does, who you serve,
> what you sell, and why someone would cite you. No marketing fluff.
> Concrete facts and named scope.
## Services
- [Service 1](https://yourdomain.com/services/one) — short factual description, price if public.
- [Service 2](https://yourdomain.com/services/two) — short factual description.
## Pricing
- Tier A: $X / month, minimum term, what it includes in one line.
- Tier B: $Y / month, ...
## Contact
- Sales: [email protected]
- General: [email protected]
- LinkedIn: https://linkedin.com/company/yours
## Out of scope
- Things you do not do (so AI does not recommend you for them).
- Engagement models you decline.
Шістдесят рядків або менше — нормально. Якість важливіша за обсяг.
Трюк секції «Out of scope»
Секція, яку пропускає більшість агенцій. Скажи LLM, чого ти не робиш — які engagement-моделі відхиляєш, кого не обслуговуєш, які категорії розвертаєш. AI-системи використовують це, щоб не рекомендувати тебе на невідповідних промптах.
Це позитивний інтент. Помилкова рекомендація коштує тобі репутації; чистий «out of scope» каже LLM пропустити тебе на промптах, де ти все одно не сконвертуєш.
Зчеплюй llms.txt із robots.txt і заголовками
llms.txt — один із трьох шарів. Інші два:
robots.txt — явно дозволяй AI-краулерам, які мають індексувати сайт:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: anthropic-ai
Allow: /
HTTP-заголовки — постав Cache-Control: public, max-age=3600 і Content-Type: text/plain; charset=utf-8 на /llms.txt. Cloudflare Pages робить це через _headers-файл:
/llms.txt
Content-Type: text/plain; charset=utf-8
Cache-Control: public, max-age=3600
Що ми міряємо після випуску llms.txt
По нашому портфелю сайти, що випустили правильно структурований llms.txt, отримали 15–30% lift у citation rate за тридцять днів — за тих самих контентних умов. Сигнал найсильніший на промптах, де бренд уже був близько — llms.txt не вигадує присутність, а ущільнює її.
Що йде не так
Два failure-режими, які ми бачимо:
- Маркетинговий копірайтинг у llms.txt. «We are the world’s leading provider of…» ігнорується або понижується. Конкретні факти виграють.
- Несвіжий llms.txt. Файл має регенеруватися на кожному деплої. Наш власний llms.txt перебудовується з
siteConfigі content collections на build-time, тому ніколи не розходиться з живим сайтом.
Якщо хочеш build-time патерн — подивись на будь-яку з наших service-сторінок, де той самий рецепт застосовано на build-time.