Описательная статистика: вопросы для собеседования (часть 8)

Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 3640 из 40

36Дано: Q1 = 10, Q3 = 18. По правилу выбросов через `IQR` (границы Q1 − 1.5*`IQR` и Q3 + 1.5*`IQR`) какое значение точно будет выбросом?
A5
B31
C29
D12
Ответ: Сначала найдите `IQR`, затем верхнюю и нижнюю границы для выбросов.

`IQR` = 18 − 10 = 8. Верхняя граница: 18 + 1.5*8 = 30, нижняя: 10 − 1.5*8 = -2. Значения выше 30 или ниже -2 считаются выбросами, поэтому 31 — выброс. Типичная ошибка — использовать Q1 + 1.5*`IQR` вместо Q3 + 1.5*`IQR`.

37Три региона поставляют разные объёмы товара. Нужно оценить общее стандартное отклонение цены с учётом объёмов. Какой первый шаг корректен?
AВычислить взвешенное среднее, затем взвешенную сумму квадратов отклонений от него
BВычислить стандартное отклонение каждой группы и усреднить их арифметически
CСложить дисперсии всех групп, разделить на число групп и извлечь корень
DВзять максимальное стандартное отклонение среди групп как верхнюю оценку
Ответ: Сначала нужно вычислить взвешенное среднее (с весами-объёмами), затем — взвешенную сумму квадратов отклонений от этого среднего.

Взвешенное стандартное отклонение: σ_w = √(Σwᵢ(xᵢ − μ_w)² / Σwᵢ), где μ_w — взвешенное среднее. Простое усреднение стандартных отклонений по группам некорректно: оно не учитывает разницу средних между группами (межгрупповую дисперсию). Сумма дисперсий групп также ошибочна — группы с бо́льшим объёмом должны вносить больший вклад.

38Даны отсортированные значения 2, 4, 6, 8, 10, 12, 14, 16. Чему равен `quantile` уровня 0.75 (Q3), если считать его как `median` верхней половины данных?
A13
B12
C14
D10
Ответ: Q3 — это `median` верхней половины, то есть центральное значение среди последних 4 элементов.

Верхняя половина: 10, 12, 14, 16. Её `median` — среднее двух центральных значений: (12 + 14) / 2 = 13, значит Q3 = 13. Важно заранее договориться о методе вычисления `quantile`, потому что в разных инструментах есть варианты. Типичная ошибка — брать просто третье значение с конца без учёта чётного числа элементов.

39Аналитик построил эмпирическую функцию распределения (ECDF) времени загрузки страниц. Что показывает значение ECDF в точке x = 3 секунды?
AПлотность вероятности в точке x — высота столбца гистограммы для данного интервала
BВероятность того, что случайная величина примет значение строго равное x в выборке
CДолю наблюдений, лежащих строго между средним и значением x без учёта самого x
DДолю наблюдений в выборке, не превышающих значение x: F̂(x) = #{xᵢ ≤ x} / n
Ответ: ECDF(3) показывает долю всех наблюдений, где время загрузки не превысило 3 секунды: F̂(3) = (число значений ≤ 3) / n.

Эмпирическая функция распределения F̂(x) = #{xᵢ ≤ x} / n — ступенчатая функция, растущая от 0 до 1. Каждое наблюдение добавляет ступеньку высотой 1/n. Если ECDF(3) = 0.72, это значит 72% загрузок уложились в 3 секунды. В отличие от гистограммы, ECDF не зависит от выбора ширины интервалов и однозначно определена для любых данных. Полезна для визуального сравнения распределений и оценки перцентилей.

40Аналитик подготавливает признаки для модели: доход (тысячи ₽) и возраст (годы). Чем стандартизация (z-score) отличается от min-max нормализации?
AСтандартизация приводит к диапазону [0, 1], нормализация — к среднему 0 и дисперсии 1
BСтандартизация убирает выбросы из данных, нормализация сохраняет их без изменений
CСтандартизация приводит к среднему 0 и дисперсии 1, нормализация — к диапазону [0, 1]
DСтандартизация применяется только к нормальным данным, нормализация — к любым распределениям
Ответ: Стандартизация вычитает среднее и делит на σ (результат: μ=0, σ=1). Min-max нормализация масштабирует в [0, 1] через (x − min)/(max − min).

Стандартизация (z-score): z = (x − μ)/σ — центрирует и масштабирует в единицах стандартного отклонения. Значения не ограничены диапазоном и могут быть отрицательными. Min-max нормализация: (x − min)/(max − min) — сжимает в [0, 1], но чувствительна к выбросам: один экстремум «сплющит» остальные данные. Стандартизация не требует нормальности данных — это распространённое заблуждение.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей