🧪 Почему тестов на нормальность так много? Наверняка вы слышали про тесты Шапиро–Уилка и Колмогорова–Смирнова. При этом существует много других тестов на проверку нормальности: Андерсона–Дарлинга, Д’Агостино, Эппса-Палли, Харке-Бера, Крамера–фон Мизеса и др. Зачем? Вот ключевые причины такого разнообразия: 🔹 «Ненормальность» проявляется по-разному Одни тесты чувствительнее к асимметрии (skewness), другие – к тяжёлым хвостам/эксцессу (kurtosis), третьи – к локальным «волнам» в середине распределения. Одни тесты «ломаются» от пары выбросов/экстремумов или большого числа совпадающих значений. Другие – более устойчивы и универсальны, но менее мощны. 🔹 Чувствительность к размеру выборки Для малых n нужны чувствительные тесты, заточенные под работу с малыми размерами выборки. Шапиро-Уилка – популярный для этого выбор, хоть и тоже не всегда лучший. На больших n почти любой тест найдёт даже микроскопические отклонения. Поэтому чаще используется графическая оценка (Q-Q) и оценка практической значимости отклонения. 🔹 Технические и исторические причины Ранние тесты считались вручную, поэтому были вычислительно просты. Современные – более мощные, но требовательные к вычислительным ресурсам. Также в разных отраслях, в разное время и под разные задачи продвигались свои стандарты. --- Как итог, нет универсального лучшего способа проверить нормальность. Каждый тест «видит» разные отклонения и работает лучше других при определенных условиях. Что это значит на практике в контексте А/В? В целом – ничего. Проводите А/А тесты и симуляции Монте-Карло. Только они наверняка скажут, можно и стоит ли применять тот или иной стат. критерий (t-test, u-test, bootstrap и т.д.) в конкретной ситуации, и какой будет мощнее. На практике в A/B достаточно большие выборки, при которых ЦПТ «спасает» распределение выборочных средних. Если же исходная выборка маленькая или имеет слишком выраженную асимметрию/хвосты – тест на нормальность лишь подсветит риски.