Effect size простыми словами
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем это знать
«p < 0.05» не значит «эффект практически важен». С выборкой в миллион почти любая разница будет статистически значима. Но прибавка 0.01 п.п. к CR при гигантских затратах на фичу — нерентабельна. Effect size измеряет практическую значимость, а не только статистическую.
На собесе middle+ аналитика часто спрашивают: «p < 0.05, что дальше?». Правильный ответ: «посмотрю effect size». Без этого — junior-ский ответ.
В статье:
- Что такое effect size
- Cohen's d для сравнения средних
- Phi / Cramér's V для categorical
- Когда значимо но небольшой effect
- Когда большой effect, но незначимо
Короткое объяснение
Effect size — мера «величины» эффекта. Отвечает на вопрос «насколько большая разница», в отличие от p-value, который говорит «есть ли вообще разница».
Cohen's d
Для сравнения средних:
d = (mean1 − mean2) / pooled_stdИнтерпретация Cohen's:
- d = 0.2: small
- d = 0.5: medium
- d = 0.8: large
Пример
A/B-тест. Control mean = 100, test mean = 105. Pooled std = 20.
d = (105 − 100) / 20 = 0.25Small effect.
В Python:
import numpy as np
from numpy import mean, std
def cohens_d(x, y):
nx, ny = len(x), len(y)
dof = nx + ny - 2
pooled_std = np.sqrt(((nx-1)*std(x)**2 + (ny-1)*std(y)**2) / dof)
return (mean(x) - mean(y)) / pooled_stdДругие effect sizes
Hedge's g
Corrected Cohen's d для small samples.
Pearson's r
Correlation — effect size для связи двух переменных.
Odds ratio
В classification / medical. OR = 2 → «в 2 раза больше шанс».
Eta-squared / η²
Для ANOVA. Доля explained variance.
Cramér's V
Для categorical × categorical. От 0 до 1.
Cliff's delta
Non-parametric. Для unlikely distributions.
p-value vs effect size
| Small effect Large effect
p < 0.05 | Significant, но Significant и
| мало важен важен
p > 0.05 | Не значим, Не значим,
| не важен возможно power lowScenario 1: p < 0.05, d = 0.05. Статистически значимо, но effect так мал, что не стоит внедрять.
Scenario 2: p = 0.12, d = 0.6. Не значимо, но effect большой. Возможно, нужно больше данных (low power).
В A/B-тестах
MDE (Minimum Detectable Effect)
Вместо Cohen's d часто используют относительный effect — например «+5% CR». Это и есть MDE.
n ∝ 1 / MDE²Определяете заранее, какой effect size важен → сколько выборки нужно.
Пример
Хочу детектировать +1 п.п. к CR (c 10% до 11%). Это мой MDE. Power analysis даст N.
Практическая значимость
«Practical significance» — другое имя для effect size.
Conversion rate А: 10.0%
Conversion rate Б: 10.1%
p-value: 0.03 (significant)
Effect size (lift): +1% relativeСтоит ли катка? Зависит от:
- Стоимости внедрения
- Масштаба (1% от миллиарда = много)
- Риска для other metrics
На собесе
«Чем effect size отличается от p?» P — статистическая значимость. Effect size — практическая.
«Что такое Cohen's d?» Стандартизованная разница средних.
«Когда effect size важнее?» Большая выборка, маленькие эффекты. Или наоборот — small sample с видимым lift.
«MDE — это effect size?» Да, это effect size, который вы хотите детектировать.
Частые ошибки
1. Только p-value
«Значимо» без effect size → может быть trivial.
2. Только effect size
«Большой effect» на small sample → может быть noise.
3. Ignore confidence interval
CI показывает range effect. Узкий — точно. Широкий — надо больше данных.
4. Сравнивать effect sizes разных методов
Cohen's d ≠ Pearson's r ≠ Cramér's V — разные шкалы.
Связанные темы
- P-value простыми словами
- Что такое effect size
- Размер выборки для A/B
- Power analysis простыми словами
FAQ
Cohen's d ok для non-normal?
Лучше Cliff's delta или bootstrap-based effect size.
Правило 0.2/0.5/0.8 строгое?
Нет, rule of thumb. Контекст имеет значение.
Effect size в процентах?
Да, если hablas Lift %. Absolute (п.п.) или relative (%) — уточняйте.
Confidence interval effect size?
Да, обязательно. d = 0.3 [95% CI: 0.1, 0.5].
Тренируйте статистику — откройте тренажёр с 1500+ вопросами для собесов.