Разбор задачи про падение метрики в тестовой группе АБ теста Условие задачи можно найти в предыдущем посте. С одной стороны fixed-horizon методология проведения АБ говорит, что мы должны определить необходимый размер выборки и покорно ждать, пока он наберется. И кейс напоминает проблему подглядывания. С другой – потенциально теряем большие деньги. И это сильно беспокоит бизнес. В комментариях к задаче были интересные варианты решения ситуации: связать продакта и не давать ему прикасаться к тесту, а также успокоить его чаем с ромашкой 🤣 Но давайте посмотрим на ситуацию с практической точки зрения. Для этого приведу 5 примеров сценариев, чем могло быть обусловлено падение метрики в тесте: 1️⃣ Технический баг – если для какого-то сегмента пользователей из теста сломалась кнопка оплаты, и они не могут оплатить, то мы сравниваем работающий контроль с не работающим тестом. Хорошо если мы сразу проверим работоспособность продукта и успеем остановить распространение урона. 2️⃣ Проблема с логированием – если разработка забыла реализовать логи для некоторого сценария тестовой группы – скорее всего мы не сможем нормально подвести итоги. А попытка использовать альтернативные источники данных – будет той еще задачей. 3️⃣ Пересечение экспериментов – параллельно тестируем новый модный-красный цвет кнопки оплаты. Да, он влияет и на контроль нашего АБ, но в совокупности с нашим условным тестом цвета плашки на кнопке – создает химию. 4️⃣ Проблема со сплитовалкой – в текущих размерах выборок SRM, а вместе с ним и некорректные доли сегментов между контролем и тестом. Прощай репрезентативность результатов. Когда последний раз проводили А/А тесты? 5️⃣ Эффект сопротивления новому – старые пользователи тестовой группы не могут найти кнопку оплаты (например, теперь до нее нужно доскролить). Бывает. Привыкнут. Да? Это далеко не полный список всего того, что могло произойти. И чтобы минимизировать риски и реальные потери – нужно постараться всесторонне проверить здоровье продукта. Не буду говорить, что это нужно делать не только тогда, когда прибежал продакт, а для каждого АБ. Если мы нашли первопричину – в зависимости от ее природы можем принять решение продолжать или перезапускать тест после починки. Если же мы все проверили и ничего не нашли – принимая риски, что все же могли что-то упустить, можем продолжить тест. А если не можем выносить убытки, но уверены в корректности реализации – можно запустить тест заново. Но по моему опыту, в подобных кейсах, проблема с высокой вероятностью есть. Мы просто не разобрались, чем она вызвана. А если тебе понравился разбор, то поддержи его огоньком 🔥. Мне будет приятно, и я буду продолжать делиться cвоим опытом в АБ ❤️🔥
Разбор задачи про падение метрики в тестовой группе АБ теста Условие задачи…
Источник
https://t.me/nodatanogrowth/836Канал No Data No Growth | Pavel Bukhtik · опубликовано 27 июн. 2025 г.
Из этого канала
- #837🎯 Шпаргалка по оконным функциям в SQL Сложно представить собеседование на SQL…
🎯 Шпаргалка по оконным функциям в SQL Сложно представить собеседование на SQL без оконных функций.
- #842🏴☠️ Что такое свобода? Каждый вкладывает в это слово что-то свое. Свобода…
🏴☠️ Что такое свобода? Каждый вкладывает в это слово что-то свое. Свобода выбора, слова, мысли, финансов. Или как некоторое внутреннее состояние.
- #843Что такое практическая значимость в АБ? Вы провели АБ-тест и получили…
Что такое практическая значимость в АБ? Вы провели АБ-тест и получили «статистически значимый» результат.
- #835🧪 Крайне популярная задача на АБ с собеседований Эту задачу я встречал на…
🧪 Крайне популярная задача на АБ с собеседований Эту задачу я встречал на продуктовых секциях в самых разных компаниях и формулировках.
- #834⏰ Как вернуть себе то, что по праву твое Вроде бы я сел за важную задачу. Через…
⏰ Как вернуть себе то, что по праву твое Вроде бы я сел за важную задачу. Через минуту уже с кем-то переписываюсь. Через пять – листаю Ozon.