🥊 Манна-Уитни значим, t-test – нет. Кому верить? Иногда кажется, что тесты… — @nodatanogrowth

🥊 Манна-Уитни значим, t-test – нет. Кому верить? Иногда кажется, что тесты конфликтуют: прогнали t-test и Манна-Уитни по одной метрике – один дал значимость, а другой нет. На деле это нормально: они отвечают на разные вопросы, потому что проверяют разные нулевые гипотезы: 🔸 t-test (для 2 независимых групп): отличается ли среднее между группами (проверяет разницу средних); 🔸 U-test (Манна-Уитни): отличается ли распределение (через ранги). Не среднее, не медиана – именно распределения (как формой, так и сдвигом). Отсюда и типичные ситуации, где один тест видит изменение, а другой нет: ✅ U-test значим, t-test – нет: Например, для ARPPU: стало меньше «китов» (пользователей с большими чекам), но больше пользователей с небольшими чеками → распределение поменялось. При этом одно компенсировало другое, за счет чего среднее не изменилось. ✅ t-test значим, U-test – нет: Все тот же ARPPU: cреднее сдвинулось за счет появления какого-то количества китов (выбросов), но распределение практически не изменилось. Так кому верить? 1️⃣ Спросите себя, что вам важно бизнесово: 🔹 растить среднее → логичнее применять тесты на среднее; 🔹 следить за изменением распределения → логичнее ранговые / квантильные подходы; 🔹 контроллировать реакцию китов → просто работайте с ними как отдельным сегментом. 2️⃣ Смотрите на графики, а не только на p-value – они быстро покажут сдвиг, хвост, изменение распределения и т. д. -- И главное: выбирайте стат. тест на этапе дизайна эксперимента. Если по итогам теста начать перебирать t-test / U-test / bootstrap и т.д., вы делаете множественные сравнения → растет ошибка I рода. Тесты не конфликтуют – конфликтуют ожидания. Договоритесь, какую гипотезу проверяете, и используйте релевантный тест под задачу. #абтесты

Из этого канала