Конверсия (бинарная метрика): chi-square или z-test пропорций. Среднее (выручка, время на сайте): t-test (если нормальное распределение) или Mann-Whitney (если нет). Сложные: bootstrap + permutation test.
Вероятность увидеть наблюдаемую разницу (или большую) при условии что разницы НЕТ. p < 0.05 означает: если бы группы были одинаковыми, такая разница случилась бы реже 5% времени — поэтому скорее всего разница есть.
MDE = (z_alpha + z_beta) × sqrt(2 × variance / n). Сначала фиксируешь alpha (обычно 0.05), beta (обычно 0.2 → power 0.8), variance метрики и размер выборки n — получаешь минимальный эффект который реально задетектишь.
Когда нет случайной выборки (selection bias), когда метрика зависит от других юзеров (network effect — соцсети), при очень маленькой выборке (n<100), при сильной не-нормальности и малой выборке. Альтернатива: bootstrap, difference-in-differences, synthetic control.
Controlled-experiment Using Pre-Experiment Data — техника уменьшения variance через ковариаты до эксперимента. Y_adj = Y - θ × (X_pre - mean(X_pre)). Снижает variance на 30-50%, ускоряет A/B-тесты во столько же раз.
Pandas: основы · Pandas groupby · Pandas merge / join · Pandas time series · NumPy векторизация · sklearn для аналитика · Графики: matplotlib / seaborn