Як LLM обирає 3 цитати з 50 — стек сигналів

Параметр	Значення
Розмір пулу кандидатів на промпт	30–80 URL у наших трекових Perplexity / ChatGPT-ранах
Цитувань у фінальній відповіді	2–4 (медіана 3)
Drop-off після 12 місяців без оновлення	Близько 60% наших трекових сторінок випали з топ-3 після того, як dateModified постаріла за рік
Частота double-cite з одного домену	Менш як 7% із 240 виміряних відповідей — модель свідомо розводить цитати
Snippet-first проти intro-first	Snippet-first вигравав цитування у 4,1× частіше у matched pairs
Робочий патерн title	Сутність + категорія + кваліфікатор — «Answerly Agency — AEO services for B2B SaaS»

Промпт іде в ретривер. Ретривер витягує 30–80 URL-кандидатів. LLM читає, ранжує, цитує 2–4. Решта ~50 сидять у пулі і ніколи не потрапляють у відповідь, яку прочитає користувач.

Останнє речення — це вся AEO-проблема. Можна бути в пулі і не отримати цитування. Можна програти меншій, гострішій сторінці, яка знає, на що дивиться модель.

Це те, що ми бачимо у 240 трекових відповідях за останні 90 днів — шість сигналів, які пояснюють, які URL проходять, і як інженерити під кожен. Не теоретична робота. Нотатки зі шпредшіту.

Модель retrieval-then-rerank

Пʼять двигунів, пʼять трохи різних стеків — але форма приблизно та сама. Ретривер (гібрид класичного лексичного пошуку і ембединг-моделі) витягує candidate set. Другий прохід — сам LLM або менший reranker — читає кандидатів і обирає кілька на цитування.

Два наслідки, які варто тримати перед очима.

Перший — класичне SEO заводить тебе в candidate pool. Рідко само по собі заводить у відповідь. Сторінка, що ранжується 4-ю на Google, але з якої важко extract’ити, сидітиме в пулі і дивитиметься, як сторінка з 11-го місця бере цитування.

Другий — reranker читає сніпети, не повні сторінки. У наших лог-кепчах reranker зазвичай працює з 300–800 токенами на кандидата. Тому питання не «чи є відповідь на моїй сторінці» — а «чи є відповідь у перших 600 токенах, структурована так, щоб модель її чисто витягла».

Сигнал 1 — extractability сніпета

Найбільший патерн, який ми вимірюємо. У matched pairs — дві сторінки на схожі теми, схожої авторитетності, обидві в пулі — snippet-first версія вигравала цитування у 4,1 разу частіше за intro-first.

Snippet-first означає, що пряма відповідь на промпт стоїть у першому абзаці, 25–40 слів, без преамбули. Далі Quick Facts таблиця або короткий definition list. Потім глибина.

Версія, яка програє, — та, що відкривається «In recent years, AI search has changed the way users discover information…», а реальна відповідь похована під H2 через чотири абзаци.

Цей патерн важить більше за авторитет. Ми бачили, як no-name домен віком 11 місяців забирав цитування у Forbes-колонки на тому ж промпті, бо no-name відкривався відповіддю, а Forbes відкривався гачком.

Сигнал 2 — entity match у title та H1

Title робить подвійну роботу. Це перший рядок «пітчу» кандидата до reranker, і це водночас спосіб, яким LLM визначає, про яку саме сутність ця сторінка.

Патерн, що виграє в наших даних — title містить назву бренду + категорію. «Answerly Agency — AEO services for B2B SaaS» виграє у «AEO Services Explained» на промптах з комерційним інтентом, навіть коли в другої сторінки більше беклінків.

Чому — reranker паралельно робить entity resolution разом з relevance scoring. Якщо користувач питав «best AEO agency for SaaS», модель хоче на поверхні бренди (сутності), а не дженерик-експлейнери. Title, який називає сутність, виграє слот.

Для не-комерційних промптів правило інвертується — експлейнери виграють у брендів. «What is answer engine optimization» виграє сторінка «What is Answer Engine Optimization (AEO)?», а не «Answerly Agency — AEO services».

Сигнал 3 — recency

Ми відстежували вік dateModified у 240 відповідях. Близько 60% сторінок, які втратили цитування, втратили його після того, як dateModified постаріла за 12 місяців.

Найжорсткіше recency важать два двигуни — Gemini і Perplexity. Обидва, здається, агресивно карають за stale-дати. ChatGPT і Claude милостивіші до evergreen, але навіть вони викидають сторінки з топ-3 після 18–24 місяців без refresh.

Що рахується як refresh — реальні правки, не лиш порушений dateModified. Ми перевірили обидва варіанти. Сторінки, де тільки оновили dateModified (без правок тіла), відновлювались ненадовго. Сторінки, які отримали реальні правки — новий приклад, оновлений стат, секція «що змінилось», — тримали позицію.

Деталі half-life — у нашому дослідженні half-life цитувань. Коротка версія — квартальний refresh, видимий date stamp, реальні правки.

Сигнал 4 — різноманіття джерел

Це constraint, не безперервний сигнал. У 240 виміряних відповідях модель брала два URL з одного домену менш як у 7% випадків. Три з одного домену — ніколи.

Тож якщо твій клієнтський домен уже у відповіді з одним URL, другий URL з того ж домену конкурує сам із собою, а не з рештою поля. Оптимізувати пʼять сторінок під один prompt cluster не дає пʼять цитувань. Дає те ж саме одне, інколи в ротації.

Практичний висновок — обирай одну найкращу сторінку на prompt cluster і вливай зусилля в неї, а не розпорошуй на пʼять. Ми переписували клієнтські roadmap’и після цього спостереження — менше URL, більше глибини на URL.

Сигнал 5 — уникання суперечностей

Тонший сигнал, який ми помітили приблизно у 30 випадках. Коли два кандидати дають суперечливі твердження, модель або обирає того, чия позиція збігається з консенсусом решти пулу, або не цитує жодного і хеджує.

Урок — бути контраріаном заради трафіку б’є по AEO. Сторінка, яка аргументує не-консенсусне число («AI-цитування розпадаються за 7 днів») буде пропущена, якщо решта пулу кластеризується довкола іншого числа (медіана 18 днів у наших даних). Модель не хоче цитувати щось, що сперечається з пʼятьма іншими кандидатами.

Це не означає «відмовся від гострої думки». Це означає прив’язуй гостру думку до чисел і методології, які модель може звірити з іншими джерелами — щоб ти продовжував консенсус, а не ламав його.

Сигнал 6 — domain authority, але інакше зважений

Авторитет лишається важливим. Просто не є тим домінантним сигналом, яким він є у класичному пошуку.

Що ми бачимо — авторитет працює як tiebreaker. Коли два кандидати мають схожу якість сніпета, recency, entity match — модель обирає вищеавторитетний домен. Коли в нижчеавторитетної сторінки помітно кращий сніпет — авторитет програє.

Тож Forbes-колонка з похованою відповіддю програє гострому пості на маленькому домені. Але дві однаково гострі сторінки — виграє Forbes.

Є ще категорійний ефект. На YMYL-промптах (медичних, юридичних, фінансових) авторитет важать помітно вище, і малому блогу треба бути дуже гострим, щоб витиснути регулятор-видане джерело.

Як інженерити під selection

Перестань оптимізувати під candidate pool. Ти, ймовірно, вже там. Оптимізуй під rerank-прохід.

Винеси відповідь наперед. Перший абзац, 25–40 слів, пряма відповідь на домінантний промпт цієї сторінки. Далі структура може дихати.

Title, який називає сутність на комерційному промпті, концепт на експлейнерному. Підбирай title під intent промпта, який ця сторінка ціляє.

Квартальний refresh з реальними правками і видимим date stamp. Не порушене поле. Правки, які модель може зчитати як substance.

Одна сторінка на prompt cluster. Не пʼять. Обери найкращу, вливай зусилля.

Прив’язуй гострі думки до перевіряних чисел. Гостро — добре. Сперечатись із рештою пулу без доказів — самогубство для цитування.

Що це означає для вимірювання

Якщо ти трекаєш ранкінг у candidate pool, але не цитування у фінальній відповіді — міряєш не те. Ці дві метрики корелюють слабко: високий pool rank піднімає шанси на цитування, але купа сторінок з низьким pool rank беруть цитування, і купа сторінок з високим pool rank їх не отримує.

Метрика, яка важить — на кожному трекованому промпті, на кожному двигуні: URL у cited set чи ні. Бінарно. Логається щодня. Агрегується тижнево у «актично цитується останні 7 днів».

Це водночас єдина метрика, яка не бреше тобі. Pool rank виглядає як прогрес, коли в реальній відповіді користувачу не змінюється нічого.

Якщо хочеш повний measurement-стек — промпти, платформи, логери, криві виживаності — починай з вимірювання AI-цитувань, далі AEO-чекліст для структурної роботи.

Retrieval pool заводить тебе в розгляд. Шість сигналів вище заводять тебе в цитування.

Як LLM обирає 3 цитати з 50 кандидатів — стек сигналів

Quick Facts