PПромтбук

RUEN

Главная/Агенты/Эвалюация

03Агенты

Эвалюация

Метрики, LLM-judge, бенчмарки, A/B-тесты промтов.

8промтов

Сложность:Теги:

Eval-фреймворк для LLM

Как мерить качество промтов и агентов: test set, метрики, автоматизация.

evalsmetricstesting

Продвинутый30-60 мин

A/B-тест промтов

Сравнить две версии промта статистически, не на глаз.

evalsab-testingprompts

Продвинутый30-60 мин

Регрессионный тест-сет

Каждый баг — новый тест. Дискаверь регрессии до прода.

evalsregressiontesting

Начальный15-30 мин

Телеметрия для агентов

Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.

evalstelemetryobservability

Средний30-60 мин

Eval-набор для агентов с CI

Набор задач, метрики качества, regression-detection, интеграция с CI — каждый PR с промтом проходит через эвалы.

Продвинутый1-2 часа

Курация golden dataset для evals

Собрать golden dataset: что включить (happy path, edge cases, regression, antagonistic), как версионировать через git, метрики (accuracy, latency, cost), как обновлять без подгонки.

evalsdatasetgolden

Продвинутый1-2 часа

Blind A/B eval двух промтов

Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.

evalsab-testjudge

Продвинутый1-2 часа

Cost optimization для агентов

Снижаем cost/request без потери качества: модель, кеш, контекст, batch. Что мерить и что НЕ оптимизировать.

costoptimizationtokens

Средний1-2 часа

8 из 8

К разделу «Агенты»