Eval-фреймворк для LLM
Как мерить качество промтов и агентов: test set, метрики, автоматизация.
A/B-тест промтов
Сравнить две версии промта статистически, не на глаз.
Регрессионный тест-сет
Каждый баг — новый тест. Дискаверь регрессии до прода.
Телеметрия для агентов
Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.
Eval-набор для агентов с CI
Набор задач, метрики качества, regression-detection, интеграция с CI — каждый PR с промтом проходит через эвалы.
Курация golden dataset для evals
Собрать golden dataset: что включить (happy path, edge cases, regression, antagonistic), как версионировать через git, метрики (accuracy, latency, cost), как обновлять без подгонки.
Blind A/B eval двух промтов
Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.
Cost optimization для агентов
Снижаем cost/request без потери качества: модель, кеш, контекст, batch. Что мерить и что НЕ оптимизировать.