Почему в A/B сравнивают средние, а не «общие» метрики? Практически каждый, кто впервые проводит A/B, интуитивно тянется к «общим» метрикам: общая выручка, количество платящих, число установок. И бизнес тоже любит «итоги в деньгах/штуках». Но на практике в экспериментах почти всегда сравниваются «средние»: ARPU, доля платящих, конверсии. Почему так? 1️⃣ Сумма становится «шумнее», среднее – стабильнее Дисперсия суммы независимых одинаково распределенных случайных величин растёт с размером выборки: __nσ^2__. А для среднего – дисперсия падает: __(σ^2)__ __/__ __n.__ Т. е. чем больше данных, тем «шумнее» становится сумма (общая метрика, в абсолютном выражении), и тем хуже она подходит для сравнения между группами. А среднее наоборот становится все стабильнее и лучше подходит для выявления даже небольших эффектов. 2️⃣ «Общие» метрики ломаются о разный размер групп Сумма будет честной для сравнения только в редком частном случае: когда размеры групп строго равны. Тогда «деление на n» сокращается. В реальных же экспериментах группы A и B почти никогда не совпадают по размеру идеально. Если сравнивать общие значения, то большая группа чаще «победит» просто потому, что в ней больше наблюдений. Средние метрики нормализуют размер: мы сравниваем что происходит на пользователя, а не сколько пользователей попало в группу. 3️⃣ Статистические тесты заточены на средние Большинство привычных стат. тестов нацелены именно на сравнение средних (долей, отношений, квантилей и т. д.). А общая метрика по сути – это среднее × количество наблюдений. Поэтому если хочется понять влияние, например, на общую выручку – обычно достаточно проверить значимость изменения ARPU, а потом перевести это в деньги. Что тогда делать на практике? ✅ Тестируйте среднюю метрику (долю, отношение); ✅ Общую метрику показывайте как перенос эффекта на деньги/штуки. Например: -> Эффект: +0.8% ARPU; -> Импакт: при текущем трафике ≈ +X шекелей в неделю. Так вы сохраняете корректность статистики, сравнимость групп и понятность языка для бизнеса. #абтесты