agents / evals
Blind A/B eval двух промтов
Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.
evalsab-testjudge
Открыть
Продвинутый1-2 часа
product / experimentation
A/B-тест pricing-страницы
Гипотезы, метрики, размер выборки, риски — дизайн теста, который не даст ложный результат.
productexperimentationpricing
Открыть
Продвинутый30-60 мин
product / experimentation
Расчёт размера выборки для A/B теста
MDE, power, baseline, длительность, одно- vs двусторонний — без интуиции, по формуле.
productexperimentationstatistics
Открыть
Начальный15-30 мин