🎲 Почему в A/A-тестах p-value распределены равномерно? В A/A тесте между группами нет реального эффекта, только случайный шум. Это значит, что в A/A разница между группами может получаться какой угодно: почти нулевой, заметной или даже значимой. И это нормально. Если эффекта нет, такие колебания – это проявление случайности. p-value – это вероятность получить такой же или более экстремальный результат, если нулевая гипотеза верна. И если нулевая гипотеза верна, а тест проведен корректно, то p-value будут распределены равномерно на отрезке [0, 1]. Почему равномерно? Это напрямую следует из смысла p-value: -> при пороге 0.05 примерно в 5% А/А p-value будет < 0.05 -> при пороге 0.10 – примерно в 10% случаев p-value < 0.10 -> при пороге 0.50 – примерно в 50% Из этого и следует равномерное распределение p-value. Если чуть формальнее, то пусть T – статистика теста, а F(T) – ее CDF (функция распределения) при верной H0 . F(T) переводит наблюдаемое значение в перцентиль. Если T действительно распределена по F(T), его процентиль равновероятно оказывается на промежутке [0,1]. Этот факт известен как probability integral transform. И это наглядно видно, если визуально посмотреть на T и его CDF. Значит, F(T) равномерно распределена на [0,1]. А потому и p-value, которое в случае одностороннего теста равно 1-F(T), тоже имеет равномерное распределение. Именно поэтому в A/A тестах иногда появляются «значимые» результаты. Это необязательно ошибка – это ожидаемое следствие случайности. И поэтому проверка распределение p-value при А/А на равномерность – это хороший способ убедиться, что система сплитования и A/B работают корректно. Разобрать еще больше таких тонкостей в A/B? Тогда поддержи пост китом 🐋