Описательная статистика: вопросы для собеседования (часть 4)

Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1620 из 40

16Две кампании дают одинаковый `mean` по выручке на пользователя, но у кампании B `variance` заметно больше. Что это обычно означает для интерпретации результата?
AКампания B обязательно лучше, потому что `variance` больше
B`variance` не относится к неопределённости, важен только `mean`
CУ кампании B выше разброс результатов и выше неопределённость/риск по отдельным пользователям или дням
DЭто автоматически означает наличие `mode` у распределения
Ответ: Большая `variance` означает больший разброс вокруг центра и меньшую предсказуемость.

Одинаковый `mean` не гарантирует одинаковый пользовательский опыт: при большой `variance` результаты сильнее колеблются. Это может быть нормально (например, сегменты очень разные), а может быть риском для бизнеса. Часто полезно дополнительно смотреть `std` и `quantile`, чтобы понимать хвосты. Ошибка — игнорировать разброс и принимать решение только по среднему.

17Какая формула верно связывает `variance` и `std`?
A`variance` = `std`
B`std` = `variance`^2
C`variance` = sqrt(`std`)
D`std` = sqrt(`variance`)
Ответ: `std` — это квадратный корень из `variance`.

`Variance` измеряет средний квадрат отклонения от центра, поэтому у неё 'квадратные' единицы. `Std` берёт корень и возвращает масштаб разброса в исходных единицах. Из-за этого `std` легче интерпретировать на практике. Ошибка — путать `variance` и `std` и сравнивать их напрямую как числа одного масштаба.

18Какая мера разброса обычно наиболее устойчива к `выбросы`?
A`variance`
B`mean`
C`IQR`
D`std`
Ответ: `IQR` опирается на квантили и меньше реагирует на `выбросы`.

`Variance` и `std` сильно зависят от экстремальных значений, потому что используют квадраты отклонений. `Mean` вообще не мера разброса и тоже чувствителен к `выбросы`. `IQR` учитывает только Q1 и Q3, то есть центральные 50% данных, поэтому обычно устойчивее. Частая ошибка — сравнивать разброс по `std`, не замечая, что его раздувают единичные точки.

19Если все значения умножить на 3, как изменится `std`?
AНе изменится
BУвеличится в 9 раз
CУвеличится в 3 раза
DУменьшится в 3 раза
Ответ: При умножении данных на k значение `std` умножается на |k|.

Разброс в исходных единицах растёт пропорционально масштабу данных. Если умножить каждое значение на 3, отклонения от центра тоже умножатся на 3, значит `std` станет в 3 раза больше. При этом `variance` увеличилась бы в 9 раз, потому что использует квадраты. Типичная ошибка — путать, как ведут себя `variance` и `std` при масштабировании.

20Метрика времени ответа поддержки имеет длинный правый хвост: большинство обращений закрывается быстро, но иногда встречаются очень долгие случаи. Какая мера центра обычно лучше отражает 'типичное' значение?
A`median`
B`variance`
C`std`
D`mode`
Ответ: Для скошенных распределений `median` часто лучше описывает типичный центр, чем `mean`.

При длинном хвосте редкие очень большие значения тянут `mean` вверх. `Median` устойчивее к таким значениям и ближе к тому, что испытывает большинство пользователей. Полезно дополнить картину `quantile` (например, 0.9), чтобы видеть хвост. Ошибка — трактовать рост `mean` как ухудшение для всех, когда проблема только в хвосте.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей