agents / evals
Eval-фреймворк для LLM
Как мерить качество промтов и агентов: test set, метрики, автоматизация.
evalsmetricstesting
Открыть
Продвинутый30-60 мин
agents / evals
A/B-тест промтов
Сравнить две версии промта статистически, не на глаз.
evalsab-testingprompts
Открыть
Продвинутый30-60 мин
agents / evals
Регрессионный тест-сет
Каждый баг — новый тест. Дискаверь регрессии до прода.
evalsregressiontesting
Открыть
Начальный15-30 мин
agents / evals
Телеметрия для агентов
Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.
evalstelemetryobservability
Открыть
Средний30-60 мин
agents / evals
Eval-набор для агентов с CI
Набор задач, метрики качества, regression-detection, интеграция с CI — каждый PR с промтом проходит через эвалы.
evalsagentsci
Открыть
Продвинутый1-2 часа
agents / evals
Курация golden dataset для evals
Собрать golden dataset: что включить (happy path, edge cases, regression, antagonistic), как версионировать через git, метрики (accuracy, latency, cost), как обновлять без подгонки.
evalsdatasetgolden
Открыть
Продвинутый1-2 часа
agents / evals
Blind A/B eval двух промтов
Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.
evalsab-testjudge
Открыть
Продвинутый1-2 часа