agents / evals
Blind A/B eval двух промтов
Сравнить prompt v1 vs v2 на одних inputs: judge (Claude или человек), статистическая значимость, защита от cherry-picking.
evalsab-testjudge
Открыть
Продвинутый1-2 часа
product / experimentation
Расчёт размера выборки для A/B теста
MDE, power, baseline, длительность, одно- vs двусторонний — без интуиции, по формуле.
productexperimentationstatistics
Открыть
Начальный15-30 мин
product / experimentation
Интерпретация результатов A/B-теста
Significance ≠ важность. Сегменты осторожно, ловушки: peeking, novelty, confounders.
productexperimentationstatistics
Открыть
Продвинутый30-60 мин