Skip to content
PПромтбук
RUEN
Главная/Агенты/Эвалюация
03Агенты

Эвалюация

Метрики, LLM-judge, бенчмарки, A/B-тесты промтов.

8промтов
Сложность:Теги:

Eval-фреймворк для LLM

Как мерить качество промтов и агентов: test set, метрики, автоматизация.

evalsmetricstesting
Продвинутый30-60 мин

A/B-тест промтов

Сравнить две версии промта статистически, не на глаз.

evalsab-testingprompts
Продвинутый30-60 мин

Регрессионный тест-сет

Каждый баг — новый тест. Дискаверь регрессии до прода.

evalsregressiontesting
Начальный15-30 мин

Телеметрия для агентов

Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.

evalstelemetryobservability
Средний30-60 мин

Eval-набор для агентов с CI

Набор задач, метрики качества, regression-detection, интеграция с CI — каждый PR с промтом проходит через эвалы.

evalsagentsci
Продвинутый1-2 часа

Курация golden dataset для evals

Собрать golden dataset: что включить (happy path, edge cases, regression, antagonistic), как версионировать через git, метрики (accuracy, latency, cost), как обновлять без подгонки.

evalsdatasetgolden
Продвинутый1-2 часа

Blind A/B eval двух промтов

Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.

evalsab-testjudge
Продвинутый1-2 часа

Cost optimization для агентов

Снижаем cost/request без потери качества: модель, кеш, контекст, batch. Что мерить и что НЕ оптимизировать.

costoptimizationtokens
Средний1-2 часа
8 из 8