Skip to content
PПромтбук
RUEN
Тег

evals

7промтов
agents / evals

Eval-фреймворк для LLM

Как мерить качество промтов и агентов: test set, метрики, автоматизация.

evalsmetricstesting
Продвинутый30-60 мин
agents / evals

A/B-тест промтов

Сравнить две версии промта статистически, не на глаз.

evalsab-testingprompts
Продвинутый30-60 мин
agents / evals

Регрессионный тест-сет

Каждый баг — новый тест. Дискаверь регрессии до прода.

evalsregressiontesting
Начальный15-30 мин
agents / evals

Телеметрия для агентов

Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.

evalstelemetryobservability
Средний30-60 мин
agents / evals

Eval-набор для агентов с CI

Набор задач, метрики качества, regression-detection, интеграция с CI — каждый PR с промтом проходит через эвалы.

evalsagentsci
Продвинутый1-2 часа
agents / evals

Курация golden dataset для evals

Собрать golden dataset: что включить (happy path, edge cases, regression, antagonistic), как версионировать через git, метрики (accuracy, latency, cost), как обновлять без подгонки.

evalsdatasetgolden
Продвинутый1-2 часа
agents / evals

Blind A/B eval двух промтов

Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.

evalsab-testjudge
Продвинутый1-2 часа