agents / evals
A/B-тест промтов
Сравнить две версии промта статистически, не на глаз.
evalsab-testingprompts
Открыть
Продвинутый30-60 мин
agents / evals
Blind A/B eval двух промтов
Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.
evalsab-testjudge
Открыть
Продвинутый1-2 часа