💡 Как простой трюк избавляет от подглядывания в А/В Продакты любят… — @nodatanogrowth

💡 Как простой трюк избавляет от подглядывания в А/В Продакты любят «подглядывать» в А/В тесты: День 3: «О, p-value 0.049, может выкатим?» День 4: «Эээ, уже 0.12… Ладно, подождём» День 7: «0.01! Завершаем 🚀» При таком «мониторинге» теста ошибка первого рода становится гораздо больше заявленных 5%. Неплохой способ борьбы с этим – объяснить менеджеру, что так делать нехорошо. Например, на примере симуляций. И порой это срабатывает. Но часто этого оказывается недостаточно. И вот лайфхак, который не раз выручал меня против слабой аналитической культуры: __Спрятать p-value на время эксперимента. __ Что это значит на практике: 🔹 Не отображать в дашборде во время теста p-value, значимо / не значимо и зелёных / красных маркеров успешности; 🔹 Вместо этого показывать трафик по веткам, метрики и прогресс до нужного объёма выборки (например: набрали 63% от плана); 🔹 Показывать p-value только после того, как наберется выборка и можно подводить итоги. Таким образом мы стимулируем соблюдение методологии, а также избегаем вредных триггеров и дискуссий. Типовые возражения можно парировать так: ❓ «Но мне нужно знать, как идёт тест!» – Без проблем: вот метрики и графики. На них видна реальная картина. Просто без преждевременного ярлыка значимо / незначимо. ❓ «Вы же специально скрываете информацию!» – Нет, мы показываем все данные, просто откладываем решение по статистической значимости до момента, когда тест действительно дозрел. Собственно, как диктует методология. ❓ «А если тест очевидно провален / успешен? Зачем тянуть?» – Можем предусмотреть правила ранней остановки. Но они должно быть определены на этапе дизайна. Объяснения и симуляции – это про обучение. Не показывать лишнего – это про систему, которая учитывает человеческую природу. И пока менеджер не открыт к обучению – временно поможет второй подход.) #абтесты

Из этого канала