Описательная статистика на собеседовании

Q: Что такое 5-number summary?

Пять чисел, которые описывают распределение: минимум, Q1 (25-й перцентиль), медиана (50-й), Q3 (75-й), максимум. Это основа box plot. Вместе с средним и std дают полную картину данных. На собеседовании полезно начать описание датасета именно с этих показателей.

Q: Зачем нужен коэффициент вариации?

Коэффициент вариации (CV) = std / mean. Позволяет сравнивать разброс метрик с разным масштабом. Revenue со средним 10 000 и std 5 000 (CV=50%) более вариативен, чем конверсия со средним 5% и std 1% (CV=20%). Полезен при выборе метрики для A/B-теста: метрика с меньшим CV потребует меньше данных.

Q: Можно ли использовать только медиану и забыть про среднее?

Нет. Среднее обладает свойством аддитивности (сумма средних = среднее сумм), что критично для финансовых метрик. Общий revenue = среднее * количество пользователей — с медианой так не работает. Используйте обе метрики: медиану для описания типичного пользователя, среднее для агрегированных расчётов.

Проверь себя · 1/3разбор после ответа

Если все значения выборки умножить на 3, как изменится стандартное отклонение std?

Зачем спрашивают описательную статистику

Описательная статистика — фундамент любого анализа данных. Прежде чем строить модели или запускать A/B-тесты, аналитик должен понять данные: какое у них распределение, где центр, насколько сильный разброс, есть ли аномалии.

На собеседовании вопросы по описательной статистике проверяют базовое мышление аналитика. Кандидат, который не может объяснить разницу между средним и медианой или не знает, когда использовать перцентили — вряд ли справится с более сложными задачами.

Меры центральной тенденции

Mean (среднее арифметическое). Сумма всех значений, делённая на их количество. Самая распространённая мера центра, но чувствительна к выбросам. Один пользователь с чеком в миллион рублей сдвигает среднее для всей выборки.

Median (медиана). Значение, которое делит упорядоченную выборку пополам. Устойчива к выбросам: один экстремальный наблюдение не влияет на медиану. Для скошенных данных (revenue, время сессии) медиана лучше отражает «типичного» пользователя.

Mode (мода). Наиболее часто встречающееся значение. Полезна для категориальных данных и дискретных метрик. Для непрерывных данных используется редко — мода зависит от группировки.

Когда что использовать. Среднее — для симметричных данных с конечной дисперсией. Медиана — для скошенных данных или при наличии выбросов. Мода — для категорий и дискретных распределений. На собеседовании сильный ответ: «Зависит от распределения данных и задачи».

Меры разброса

Standard deviation (стандартное отклонение). Среднее отклонение от среднего. Чем больше std — тем сильнее разброс. Для нормального распределения 68% данных лежит в пределах 1 std от среднего, 95% — в пределах 2 std.

Variance (дисперсия). Квадрат стандартного отклонения. Используется в формулах (дисперсия суммы = сумма дисперсий для независимых величин), но менее интуитивна — единицы измерения квадратные.

IQR (межквартильный размах). Q3 - Q1 — разброс «центральных» 50% данных. Устойчив к выбросам. Используется для box plot и определения аномалий.

Range (размах). Max - min. Самая грубая мера разброса, полностью определяется двумя крайними значениями. Полезна для быстрой проверки данных: если max revenue = 999 999 999, вероятно, это ошибка.

Среднее без стандартного отклонения — число без контекста. Говорить «средний чек 5 000 рублей» без упоминания разброса — значит скрыть половину информации.

Перцентили и квантили

Перцентиль — значение, ниже которого находится определённый процент данных. P50 = медиана, P25 = Q1, P75 = Q3. P90, P95, P99 — важные метрики для технических систем (latency) и бизнеса (топ-пользователи).

Зачем нужны. Среднее и медиана не показывают хвосты распределения. P95 времени ответа сервера — 200 мс, а P99 — 2 секунды. Это значит, что 1% запросов в 10 раз медленнее, и пользователи это ощущают.

На собеседовании. Часто спрашивают: «Какую метрику использовать для мониторинга latency?» Правильный ответ: P95 или P99, не среднее. Среднее скрывает длинный хвост, а перцентиль показывает worst-case для большинства пользователей.

Skewness и форма распределения

Positive skew (правый хвост). Среднее > медианы. Типично для revenue, времени сессии, количества покупок. Большинство значений маленькие, но есть длинный хвост вправо.

Negative skew (левый хвост). Среднее < медианы. Встречается реже: например, оценки на экзамене с лёгкими вопросами — большинство получают высокий балл.

Практическое значение. Skewness определяет выбор метрик и методов. Для скошенных данных: используйте медиану вместо среднего, логарифмическую трансформацию для нормализации, робастные методы для доверительных интервалов.

Типичные вопросы на собеседовании

«Среднее время сессии 10 минут, медиана 3 минуты. Что это значит?» — распределение сильно скошено вправо: есть пользователи с очень длинными сессиями, которые «тянут» среднее. Медиана лучше описывает типичную сессию
«Когда среднее лучше медианы?» — для симметричных данных (рост, вес), при агрегации (сумма средних = среднее сумм), в статистических тестах (t-тест работает со средним)
«Как описать распределение данных за 2 минуты?» — 5-number summary (min, Q1, median, Q3, max) + среднее + std + визуализация (гистограмма или box plot)

Частые ошибки кандидатов

Путают std и variance — std в тех же единицах, что и данные, variance — в квадратных. На практике используют std
Используют среднее для скошенных данных — «средняя зарплата в стране» искажена верхним хвостом, медианная — ближе к реальности
Забывают про контекст — называют число, но не объясняют, что оно значит для бизнеса

На собеседовании описательная статистика — это не про формулы. Это про умение рассказать историю по данным: что происходит, где проблемы, на что обратить внимание.

FAQ

Что такое 5-number summary?