Разбор задачи про падение метрики в тестовой группе АБ теста Условие задачи… — @nodatanogrowth

Разбор задачи про падение метрики в тестовой группе АБ теста Условие задачи можно найти в предыдущем посте. С одной стороны fixed-horizon методология проведения АБ говорит, что мы должны определить необходимый размер выборки и покорно ждать, пока он наберется. И кейс напоминает проблему подглядывания. С другой – потенциально теряем большие деньги. И это сильно беспокоит бизнес. В комментариях к задаче были интересные варианты решения ситуации: связать продакта и не давать ему прикасаться к тесту, а также успокоить его чаем с ромашкой 🤣 Но давайте посмотрим на ситуацию с практической точки зрения. Для этого приведу 5 примеров сценариев, чем могло быть обусловлено падение метрики в тесте: 1️⃣ Технический баг – если для какого-то сегмента пользователей из теста сломалась кнопка оплаты, и они не могут оплатить, то мы сравниваем работающий контроль с не работающим тестом. Хорошо если мы сразу проверим работоспособность продукта и успеем остановить распространение урона. 2️⃣ Проблема с логированием – если разработка забыла реализовать логи для некоторого сценария тестовой группы – скорее всего мы не сможем нормально подвести итоги. А попытка использовать альтернативные источники данных – будет той еще задачей. 3️⃣ Пересечение экспериментов – параллельно тестируем новый модный-красный цвет кнопки оплаты. Да, он влияет и на контроль нашего АБ, но в совокупности с нашим условным тестом цвета плашки на кнопке – создает химию. 4️⃣ Проблема со сплитовалкой – в текущих размерах выборок SRM, а вместе с ним и некорректные доли сегментов между контролем и тестом. Прощай репрезентативность результатов. Когда последний раз проводили А/А тесты? 5️⃣ Эффект сопротивления новому – старые пользователи тестовой группы не могут найти кнопку оплаты (например, теперь до нее нужно доскролить). Бывает. Привыкнут. Да? Это далеко не полный список всего того, что могло произойти. И чтобы минимизировать риски и реальные потери – нужно постараться всесторонне проверить здоровье продукта. Не буду говорить, что это нужно делать не только тогда, когда прибежал продакт, а для каждого АБ. Если мы нашли первопричину – в зависимости от ее природы можем принять решение продолжать или перезапускать тест после починки. Если же мы все проверили и ничего не нашли – принимая риски, что все же могли что-то упустить, можем продолжить тест. А если не можем выносить убытки, но уверены в корректности реализации – можно запустить тест заново. Но по моему опыту, в подобных кейсах, проблема с высокой вероятностью есть. Мы просто не разобрались, чем она вызвана. А если тебе понравился разбор, то поддержи его огоньком 🔥. Мне будет приятно, и я буду продолжать делиться cвоим опытом в АБ ❤️‍🔥

Из этого канала