T-tests на собеседовании Data Scientist
Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.
Содержание:
One-sample
Compare sample mean против known value (μ₀).
H0: μ = μ₀
H1: μ ≠ μ₀
t = (x̄ - μ₀) / (s / √n)p-value < 0.05 → reject H0.
Two-sample
Compare means двух groups.
H0: μ_A = μ_B
H1: μ_A ≠ μ_B
t = (x̄_A - x̄_B) / SEStandard error depends на pooled / unpooled variance.
Paired t-test
Когда samples paired (before / after, matched subjects).
diff = X_after - X_before
t = mean(diff) / (sd(diff) / √n)Pairing reduces noise → more power.
Welch's t-test
Two-sample без pooled variance. Used когда variances unequal.
t = (x̄_A - x̄_B) / √(s²_A/n_A + s²_B/n_B)scipy.stats.ttest_ind(equal_var=False).
Default modern — Welch's t-test (более robust).
Assumptions
Normality. Sample mean normally distributed. CLT helps for large n.
Independence. Observations independent.
Equal variance (для standard, не Welch's).
Если violated:
- Heavy-tailed → Mann-Whitney U.
- Categorical / binary → chi-square / proportions test.
- Small n + non-normal → bootstrap CI.
Связанные темы
- Confidence intervals для DS
- A/B testing fundamentals
- Causal inference для DS
- Bayesian методы для DS
- Подготовка к собесу Data Scientist
FAQ
Это официальная информация?
Нет. Статья основана на классической статистике.
Тренируйте Data Science — откройте тренажёр с 1500+ вопросами для собесов.