Question 1

В отчёте по ARPU один пользователь совершил очень крупную покупку (выброс), и среднее резко выросло. Что лучше всего сделать, чтобы донести картину честно и полезно для решения?

Accepted Answer

При выбросах полезно дополнять среднее устойчивыми мерами: медианой, квантилями и межквартильным размахом. Среднее может быть полезным, но при единичных крупных покупках оно перестаёт отражать «типичного» пользователя. Медиана и квантили показывают центр и хвост без сильного влияния одной точки, а комментарий про выброс помогает правильно интерпретировать рост. Это особенно важно в продуктовых решениях: иначе можно переоценить эффект для большинства. Типичная ошибка — «чистить» данные без прозрачности и терять доверие к отчёту.

Question 2

В каждом из трёх городов канал A показывает конверсию выше, чем канал B. Но в сумме по всем городам канал B лидирует. Как такое возможно?

Accepted Answer

Это парадокс Симпсона: канал B получает больше трафика в городе с высокой базовой конверсией, что перевешивает при агрегации. Парадокс Симпсона возникает, когда тренд внутри подгрупп меняется на противоположный при объединении. Причина — неравномерное распределение наблюдений по группам. Если канал B получает 90% трафика из города с конверсией 15%, а канал A — 90% из города с конверсией 3%, общий средний B будет выше, хотя в каждом городе A лидирует. Решение — анализировать данные с учётом структуры подгрупп.

Question 3

Для оценки разброса зарплат аналитик выбрал MAD (median absolute deviation) вместо стандартного отклонения. Как вычисляется MAD?

Accepted Answer

MAD = median(|xᵢ − median(x)|): сначала находят медиану, затем абсолютные отклонения от неё, и берут медиану этих отклонений. MAD устойчив к выбросам дважды: и в оценке центра (медиана вместо среднего), и в оценке разброса (медиана отклонений вместо среднего). Для нормального распределения MAD ≈ 0.6745σ — для перевода в шкалу σ делят на 0.6745. В задачах с зарплатами, где несколько очень высоких значений сильно раздувают стандартное отклонение, MAD даёт более реалистичную оценку типичного разброса.

Question 4

У двух отделов разный размер. В отделе A среднее продаж 100 при 100 сотрудниках, в отделе B среднее продаж 200 при 10 сотрудниках. Как корректнее получить общее среднее по компании?

Accepted Answer

При объединении групп нужно взвешенное среднее, иначе теряется информация о размерах групп. Простое среднее из средних работает только если размеры групп одинаковы. Здесь отдел A в 10 раз больше, поэтому он должен сильнее влиять на общую оценку. Взвешивание по числу наблюдений сохраняет корректную «базу» (размер выборки) при объединении. Типичная ошибка в отчётах — усреднять средние по регионам или отделам, игнорируя размеры аудиторий.

Question 5

Распределение суммы покупок сильно скошено вправо: большинство чеков маленькие, но есть редкие крупные. Зачем аналитик применяет логарифмическое преобразование?

Accepted Answer

Логарифм сжимает большие значения сильнее малых, что уменьшает правую асимметрию и снижает влияние крупных выбросов на статистики. При правой асимметрии логарифм «подтягивает» правый хвост: разница между 100 и 1000 (×10) становится разницей между 2 и 3 (log₁₀). Это делает распределение ближе к симметричному — но не гарантирует нормальность. Логарифм не работает для нулей и отрицательных значений — используют log(x + 1) или другие преобразования. Увеличения дисперсии не происходит: наоборот, она уменьшается.

Описательная статистика: вопросы для собеседования (часть 7)

Вопросы 31–35 из 40

Хотите тренировать интерактивно?

Другие темы: Статистика