📊 80% аналитиков неправильно читают этот график Когда мы проводим A/B, мы… — @nodatanogrowth

📊 80% аналитиков неправильно читают этот график Когда мы проводим A/B, мы никогда не видим истинную величину эффекта. Мы нащупываем и видим только ее оценку на основе выборок. Именно поэтому в тестах неизбежны ошибки I и II рода. И график выше наглядно показывает, откуда они берутся. Но многие пытаются разглядеть на этом графике контрольную и тестовую выборки. Или воспринимают оба распределения как единое целое. На самом деле его нужно читать с двух сторон: 1️⃣ Когда в реальности эффекта нет ❌ Предположим, мы измеряем изменение конверсии в покупку. -> p₀ и p₁ – истинные значения конверсии в контроле и тесте; -> Δ = p₁ - p₀ – истинный эффект. Теперь смотрите только на распределение H₀ и игнорируйте H₁. Если в реальности эффекта нет, то: Δ = p₁ - p₀ = 0. Но в реальном тесте мы почти никогда не увидим ровно ноль. Потому что истинные значения p₀ и p₁ нам неизвестны. Мы наблюдаем только выборочные оценки p̄₀ и p̄₁. И уже на их основе получаем оценку эффекта Δ′=p̄₁-p̄₀. Δ′ здесь отложен на оси Х. Из-за погрешности выборочной оценки в одном тесте мы можем получить Δ′ = +0,1%, в другом -0,2%, в третьем +0,05%. То есть, даже когда истинный эффект равен нулю, наблюдаемая дельта почти всегда будет ненулевой. Именно это и показывает распределение H₀: какие значения оцененного эффекта (ось Х) и с какой вероятностью (ось Y) мы можем получить, если на самом деле эффекта нет. И если наблюдаемая дельта в рамках H₀ попадает в красную критическую область, мы говорим: «Эффект есть, отклоняем H₀». Хотя на самом деле эффекта нет. Это и есть ошибка I рода. Ее вероятность – α (обычно, 0.05). 2️⃣ Когда в реальности эффект есть ✅ Теперь наоборот: смотрите только на распределение H₁ и забудьте про H₀. Это сценарий, в котором истинный эффект существует. Например, истинные значения: p₀ = 10%, p₁ = 10.25%. Значит, Δ = 0.25%. Но и здесь мы не наблюдаем истинный эффект напрямую. Мы снова видим только оценку по выборкам. Поэтому в экспериментах мы можем наблюдать эффект Δ′ = +0.4%, +0.3%, +0.1%, а иногда даже ниже нуля. Это и показывает распределение H₁: какие значения оцененного эффекта и с какой вероятностью мы можем увидеть, если эффект в реальности есть. И если наблюдаемая дельта в рамках H₁ попадает в зеленую зону, мы не отклоняем H₀ и говорим: «Нет статистически значимой разницы». Хотя на самом деле эффект был. Просто тест не смог его обнаружить. Это ошибка II рода. Ее вероятность – β (обычно, 0.2). — Любой A/B – это решение в условиях неопределенности. И мы не можем принимать решения со 100% гарантией. Но мы можем контролировать уровни ошибок на длинной дистанции, если будем системно и корректно проводить эксперименты. В этом и состоит суть статистических решений в экспериментах. А если пост помог посмотреть на этот график иначе – поддержи его китом 🐋 #абтесты

Из этого канала