В чем разница MDE vs Effect Size vs Uplift, и как перестать их путать Эти… — @nodatanogrowth

В чем разница MDE vs Effect Size vs Uplift, и как перестать их путать Эти понятия часто ошибочно взаимозаменяются при работе с АБ на практике. Но они, конечно же, совершенно о разном. Сегодня разложу их для вас по полочкам. MDE (Minimum Detectable Effect) — это наименьший истинный эффект, полученный от изменений, который с заданными статистической значимостью и мощностью сможет обнаружить конкретный статистический критерий. Это тот самый эффект, который определяется на этапе дизайна эксперимента. Он говорит о том, какой эффект от эксперимента мы ожидаем засечь. Рассчитывается как разница между средними текущего значения метрики (baseline'а) и его желаемым значением на основе некоторой нашей оценки: x1 - x2. Как можно оценить MDE для эксперимента – уже рассказывал здесь. Когда в рамках АБ тестов говорится об Effect Size (размер эффекта) – в большинстве случаев речь идет о Cohen's D (d-Коэна). Cohen's D – это стандартизированный MDE. Грубо говоря, MDE с учетом дисперсии метрики. Идея расчета проста: разность между средними двух выборок делится на их общее стандартное отклонение — в результате получается разность, измеренная в стандартных отклонениях: (x1 - x2) / std, где std = (std1 + std2) / 2. Зачем может пригодиться Effect Size на практике? Можно выделить 2 причины: 1️⃣ Для какой-то метрики рост в 1% – это очень много. А для другой в 5% – может быть мало. Причина этому – различные дисперсии метрик. Благодаря Effect Size можно свести все к единой шкале для всех метрик: d = 0.2 – маленький эффект, 0.5 – средний, 0.8 – большой и т. д; 2️⃣ Функции по расчету размера выборки statsmodels (tt_ind_solve_power, TTestIndPower().solve_power, NormalIndPower().solve_power) – в качестве аргумента effect_size требуют именно Effect Size, т. е. Cohen's D. Часто по ошибке этим функциям скармливается MDE. Uplift (Lift, прирост) - фактическое изменение метрики в % непосредственно по итогам АБ: (x1 - x2) / x2. Это то, что мы проверяем на статистическую значимость, и на основе чего принимаем решение об успешности эксперимента. Важно понимать, что MDE и Effect Size интересуют нас только на этапе дизайна эксперимента – после дизайна, забываем про них и смотрим только на статистическую значимость Uplift'а. Пытаться сравнивать Uplift и MDE будет грубой методологической ошибкой, которая часто встречается.

Из этого канала