Question 1

Дано: Q1 = 10, Q3 = 18. По правилу выбросов через `IQR` (границы Q1 − 1.5*`IQR` и Q3 + 1.5*`IQR`) какое значение точно будет выбросом?

Accepted Answer

Сначала найдите `IQR`, затем верхнюю и нижнюю границы для выбросов. `IQR` = 18 − 10 = 8. Верхняя граница: 18 + 1.5*8 = 30, нижняя: 10 − 1.5*8 = -2. Значения выше 30 или ниже -2 считаются выбросами, поэтому 31 — выброс. Типичная ошибка — использовать Q1 + 1.5*`IQR` вместо Q3 + 1.5*`IQR`.

Question 2

Три региона поставляют разные объёмы товара. Нужно оценить общее стандартное отклонение цены с учётом объёмов. Какой первый шаг корректен?

Accepted Answer

Сначала нужно вычислить взвешенное среднее (с весами-объёмами), затем — взвешенную сумму квадратов отклонений от этого среднего. Взвешенное стандартное отклонение: σ_w = √(Σwᵢ(xᵢ − μ_w)² / Σwᵢ), где μ_w — взвешенное среднее. Простое усреднение стандартных отклонений по группам некорректно: оно не учитывает разницу средних между группами (межгрупповую дисперсию). Сумма дисперсий групп также ошибочна — группы с бо́льшим объёмом должны вносить больший вклад.

Question 3

Даны отсортированные значения 2, 4, 6, 8, 10, 12, 14, 16. Чему равен квантиль уровня 0.75 (Q3), если считать его как медиану верхней половины данных?

Accepted Answer

Q3 — это медиана верхней половины: среднее двух центральных значений среди последних 4 элементов. Верхняя половина: 10, 12, 14, 16. Её медиана — среднее двух центральных значений: (12 + 14) / 2 = 13, значит Q3 = 13. Важно заранее договориться о методе вычисления квантиля, потому что в разных инструментах есть варианты. Типичная ошибка — брать просто третье значение с конца без учёта чётного числа элементов или ошибочно принимать минимум верхней половины за Q3.

Question 4

Аналитик построил эмпирическую функцию распределения (ECDF) времени загрузки страниц. Что показывает значение ECDF в точке x = 3 секунды?

Accepted Answer

ECDF(3) показывает долю всех наблюдений, где время загрузки не превысило 3 секунды: F̂(3) = (число значений ≤ 3) / n. Эмпирическая функция распределения F̂(x) = #{xᵢ ≤ x} / n — ступенчатая функция, растущая от 0 до 1. Каждое наблюдение добавляет ступеньку высотой 1/n. Если ECDF(3) = 0.72, это значит 72% загрузок уложились в 3 секунды. В отличие от гистограммы, ECDF не зависит от выбора ширины интервалов и однозначно определена для любых данных. Полезна для визуального сравнения распределений и оценки перцентилей.

Question 5

Аналитик подготавливает признаки для модели: доход (тысячи ₽) и возраст (годы). Чем стандартизация (z-score) отличается от min-max нормализации?

Accepted Answer

Стандартизация вычитает среднее и делит на σ (результат: μ=0, σ=1). Min-max нормализация масштабирует в [0, 1] через (x − min)/(max − min). Стандартизация (z-score): z = (x − μ)/σ — центрирует и масштабирует в единицах стандартного отклонения. Значения не ограничены диапазоном и могут быть отрицательными. Min-max нормализация: (x − min)/(max − min) — сжимает в [0, 1], но чувствительна к выбросам: один экстремум «сплющит» остальные данные. Стандартизация не требует нормальности данных — это распространённое заблуждение.

Описательная статистика: вопросы для собеседования (часть 8)

Вопросы 36–40 из 40

Хотите тренировать интерактивно?

Другие темы: Статистика