Описательная статистика: вопросы для собеседования (часть 7)

Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 3135 из 40

31В отчёте по ARPU один пользователь совершил очень крупную покупку (выброс), и `mean` резко вырос. Что лучше всего сделать, чтобы донести картину честно и полезно для решения?
AПоказывать только `mean` и не упоминать выброс
BУдалить крупную покупку из данных без комментариев
CПоказывать только `std`, без мер центра и без квантилей
DПоказать `median` и несколько `quantile` (например, 0.9), отдельно описать вклад выброса и как он влияет на `mean`
Ответ: При выбросах полезно дополнять `mean` более устойчивыми метриками: `median`, `quantile`, `IQR`.

`Mean` может быть полезен, но при единичных крупных покупках он перестаёт отражать «типичного» пользователя. `Median` и `quantile` показывают центр и хвост без сильного влияния одной точки, а комментарий про выброс помогает правильно интерпретировать рост. Это особенно важно в продуктовых решениях: иначе можно переоценить эффект для большинства. Типичная ошибка — «чистить» данные без прозрачности и терять доверие к отчёту.

32В каждом из трёх городов канал A показывает конверсию выше, чем канал B. Но в сумме по всем городам канал B лидирует. Как такое возможно?
AДанные содержат ошибку — невозможно, чтобы в каждом городе было лучше, а в сумме хуже
BСредняя конверсия по компании выше, потому что общий объём трафика больше у лучшего канала
CПарадокс Симпсона: доли трафика по каналам различаются между городами, что меняет итог
DСтатистическая значимость различий недостаточна из-за малого объёма выборки в каждом городе
Ответ: Это парадокс Симпсона: канал B получает больше трафика в городе с высокой базовой конверсией, что перевешивает при агрегации.

Парадокс Симпсона возникает, когда тренд внутри подгрупп меняется на противоположный при объединении. Причина — неравномерное распределение наблюдений по группам. Если канал B получает 90% трафика из города с конверсией 15%, а канал A — 90% из города с конверсией 3%, общий средний B будет выше, хотя в каждом городе A лидирует. Решение — анализировать данные с учётом структуры подгрупп.

33Для оценки разброса зарплат аналитик выбрал MAD (median absolute deviation) вместо стандартного отклонения. Как вычисляется MAD?
AСреднее абсолютных отклонений от среднего арифметического — мера на основе среднего
BКвадратный корень из суммы квадратов отклонений от медианы, делённой на n − 1
CРазность между 75-м и 25-м перцентилями, делённая на два для нормирования
DМедиана абсолютных отклонений каждого наблюдения от медианы всей выборки
Ответ: MAD = median(|xᵢ − median(x)|): сначала находят медиану, затем абсолютные отклонения от неё, и берут медиану этих отклонений.

MAD устойчив к выбросам дважды: и в оценке центра (медиана вместо среднего), и в оценке разброса (медиана отклонений вместо среднего). Для нормального распределения MAD ≈ 0.6745σ — для перевода в шкалу σ делят на 0.6745. В задачах с зарплатами, где несколько очень высоких значений сильно раздувают стандартное отклонение, MAD даёт более реалистичную оценку типичного разброса.

34У двух отделов разный размер. В отделе A `mean` продаж 100 при 100 сотрудниках, в отделе B `mean` продаж 200 при 10 сотрудниках. Как корректнее получить общий `mean` по компании?
AВзять (100 + 200) / 2, потому что отделов два
BВзять 200, потому что второй отдел эффективнее
CСложить 100 и 200, потому что это уже средние
DПосчитать взвешенный `mean` по числу сотрудников: (100*100 + 200*10) / (100 + 10)
Ответ: При объединении групп нужен взвешенный `mean`, иначе теряется информация о размерах групп.

Простое среднее из средних работает только если размеры групп одинаковы. Здесь отдел A в 10 раз больше, поэтому он должен сильнее влиять на общий `mean`. Взвешивание по числу наблюдений сохраняет корректную «базу» (размер выборки) при объединении. Типичная ошибка в отчётах — усреднять средние по регионам, игнорируя размеры аудиторий.

35Распределение суммы покупок сильно скошено вправо: большинство чеков маленькие, но есть редкие крупные. Зачем аналитик применяет логарифмическое преобразование?
AСделать данные строго нормальными — после логарифма любое распределение становится симметричным
BСжать правый хвост и растянуть левый — уменьшить влияние крупных значений на анализ
CУвеличить дисперсию данных для повышения чувствительности статистических тестов
DПреобразовать отрицательные значения в положительные для корректного расчёта среднего
Ответ: Логарифм сжимает большие значения сильнее малых, что уменьшает правую асимметрию и снижает влияние крупных выбросов на статистики.

При правой асимметрии логарифм «подтягивает» правый хвост: разница между 100 и 1000 (×10) становится разницей между 2 и 3 (log₁₀). Это делает распределение ближе к симметричному — но не гарантирует нормальность. Логарифм не работает для нулей и отрицательных значений — используют log(x + 1) или другие преобразования. Увеличения дисперсии не происходит: наоборот, она уменьшается.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей