Question 1

Две кампании дают одинаковое среднее по выручке на пользователя, но у кампании B дисперсия заметно больше. Что это обычно означает для интерпретации результата?

Accepted Answer

Большая дисперсия означает больший разброс вокруг центра и меньшую предсказуемость результата. Одинаковое среднее не гарантирует одинаковый пользовательский опыт: при большой дисперсии результаты сильнее колеблются. Это может быть нормально (например, сегменты очень разные), а может быть риском для бизнеса. Часто полезно дополнительно смотреть стандартное отклонение и квантили, чтобы понимать хвосты распределения. Ошибка — игнорировать разброс и принимать решение только по среднему значению.

Question 2

Какая формула верно связывает дисперсию и стандартное отклонение?

Accepted Answer

Стандартное отклонение — это квадратный корень из дисперсии. Дисперсия измеряет средний квадрат отклонения от центра, поэтому у неё «квадратные» единицы. Стандартное отклонение берёт корень и возвращает масштаб разброса в исходных единицах. Из-за этого стандартное отклонение легче интерпретировать на практике. Ошибка — путать их и сравнивать напрямую как числа одного масштаба.

Question 3

Какая мера разброса обычно наиболее устойчива к выбросам в данных?

Accepted Answer

Межквартильный размах (IQR) опирается на квантили и слабо реагирует на выбросы. Дисперсия и стандартное отклонение сильно зависят от экстремальных значений, потому что используют квадраты отклонений от среднего. Среднее значение вообще не мера разброса и тоже чувствительно к выбросам. Межквартильный размах (IQR) учитывает только Q1 и Q3, то есть центральные 50% данных, поэтому обычно устойчивее. Частая ошибка — сравнивать разброс по стандартному отклонению, не замечая, что его раздувают единичные точки.

Question 4

Если все значения выборки умножить на 3, как изменится стандартное отклонение `std`?

Accepted Answer

При умножении данных на `k` стандартное отклонение `std` умножается на `|k|`. Разброс в исходных единицах растёт пропорционально масштабу данных. Если умножить каждое значение на 3, отклонения от центра тоже умножатся на 3, поэтому `std` станет в 3 раза больше. При этом дисперсия увеличилась бы в 9 раз, потому что использует квадраты отклонений. Типичная ошибка — путать, как ведут себя дисперсия и `std` при масштабировании, и применять к одной из них правило другой.

Question 5

Метрика времени ответа поддержки имеет длинный правый хвост: большинство обращений закрывается быстро, но иногда встречаются очень долгие случаи. Какая мера центра обычно лучше отражает «типичное» значение?

Accepted Answer

Для скошенных распределений медиана часто лучше описывает типичный центр, чем среднее арифметическое. При длинном хвосте редкие очень большие значения тянут среднее вверх. Медиана устойчивее к таким значениям и ближе к тому, что испытывает большинство пользователей. Полезно дополнить картину квантилями (например, 0.9), чтобы видеть хвост. Ошибка — трактовать рост среднего как ухудшение для всех, когда проблема только в хвосте.

Описательная статистика: вопросы для собеседования (часть 4)

Вопросы 16–20 из 40

Хотите тренировать интерактивно?

Другие темы: Статистика