21 апреля 2026 г.·3 мин чтения

Sample vs population: разница

Проверь себя · 1/3разбор после ответа

В отчёте нужно посчитать выручку по странам пользователей только по оплаченным заказам за период, причём шаг «оплаченные за период» используется ещё в трёх соседних метриках. Какой подход обычно делает запрос проверяемее и позволяет переиспользовать фильтрацию?

Короткий ответ

Population (генеральная совокупность) — ВСЕ объекты, которые вас интересуют
Sample (выборка) — часть population, которую вы реально измерили

Статистика использует выборку, чтобы делать выводы о всей population.

Пример

Цель: узнать средний возраст россиян.

Population: все ~145 млн россиян
Sample: 1000 случайно выбранных людей

Измеряем выборку → делаем оценку для всей population.

Главные отличия

	Population	Sample
Размер	N (часто огромный / бесконечный)	n (обычно сотни-тысячи)
Mean	μ (параметр)	x̄ (статистика)
Standard deviation	σ	s
Что считаем	параметры	оценки параметров
Формула variance	Σ(x−μ)² / N	Σ(x−x̄)² / (n−1)

Почему n−1 в sample?

Это поправка Бесселя. Даёт несмещённую оценку дисперсии.

Интуиция: в выборке вы оцениваете x̄ из тех же данных. Это «съедает» одну степень свободы — поэтому делите на n−1.

С population вы знаете настоящее μ — не нужна поправка.

Несмещённость (unbiased)

Несмещённая оценка — в среднем по многим выборкам даёт правильное значение параметра.

Sample variance с n−1 несмещённая. С n — занижает σ² (смещена).

В Python

import numpy as np

data = [50, 60, 70, 80, 90]

# population (делит на n)
np.var(data)              # 200
np.std(data)              # 14.14

# sample (делит на n-1, стандарт в pandas)
np.var(data, ddof=1)      # 250
np.std(data, ddof=1)      # 15.81

import pandas as pd
pd.Series(data).var()     # 250 — по умолчанию sample
pd.Series(data).std()     # 15.81

ddof = delta degrees of freedom. ddof=1 → n−1.

Готовься к собесу аналитика как в Duolingo

10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram

Открыть Карьерник в Telegram

Inferential statistics

Суть вывода — от выборки к population.

Доверительный интервал

«С 95% уверенностью настоящее μ population лежит в интервале [a, b]».

Hypothesis testing

«H0: μ = 100 vs H1: μ ≠ 100». Используем выборку для проверки.

Размер выборки

Чем больше n — тем уже ДИ. Чем меньше — тем шире.

Смещение выборки (sampling bias)

Если выборка не представительна → выводы неверные.

Примеры

Опрос только активных пользователей → не учитывает ушедших
Опрос через интернет → пропускает пожилых
Опрос только в одном регионе → пропускает других

Survivorship bias — частный случай.

Случайная vs произвольная выборка

Random sample — каждый объект population имеет равные шансы попасть
Convenience sample — берём тех, кто удобен (часто = смещение)

Для валидных выводов нужна random. Или specific schemes (stratified, cluster).

В контексте продуктовой аналитики

Population — все пользователи

Обычно невозможно собрать данные ВСЕХ.

Sample — те, по кому есть данные

Например, прошли onboarding и начали использовать продукт. Но это sample с selection bias.

A/B-тест — special case

Обе группы — случайные выборки из одной population. Сравниваем напрямую.

Частые ошибки

1. Не различать формулы

Использовать population variance для sample → занижение разброса.

2. Игнорировать sampling bias

Опросить только довольных → выводы не валидны для всех.

3. Sample size fallacy

N = 30 — достаточно? Зависит от задачи. Для t-test — обычно да. Для rare events — нет.

4. Генерализация на другую population

«У нас в России так» ≠ «в Казахстане тоже».

Связанные темы

FAQ

Sample или population в A/B?

Обе группы — sample из одной population. Сравниваем sample statistics.

Почему n−1, а не n?

Поправка Бесселя. Даёт несмещённую оценку.

Когда использовать ddof=0?

Только если у вас вся population (что редко).

Random sample — обязательно?

Для валидных выводов да. Convenience sample даёт bias.