Описательная статистика: вопросы для собеседования (часть 6)
Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.
Вопросы 26–30 из 40
26Какое утверждение про `mode` верно?
A`mode` всегда ровно одна и всегда существует
B`mode` всегда равна `median`
CУ распределения может быть несколько `mode`, если несколько значений встречаются одинаково часто
D`mode` всегда совпадает с `mean`
Ответ: `Mode` может быть не единственной: распределение бывает мультимодальным.
Если два разных значения встречаются одинаково часто и чаще остальных, у набора будет две `mode`. Также бывает, что у непрерывных данных `mode` трудно определять без биннинга. Поэтому `mode` полезна не всегда, но иногда хорошо описывает 'пиковые' значения. Ошибка — считать `mode` обязательной и единственной мерой центра.
27Исследование показало корреляцию r = 0.85 между продажами мороженого и уровнем преступности по месяцам. Какое объяснение наиболее вероятно?
AМороженое содержит сахар, который повышает уровень агрессии и провоцирует преступления
BСтатистика ошибочна: корреляция при большой выборке всегда оказывается значимой
CПреступность вызывает рост продаж — люди покупают мороженое, чтобы снять стресс
DОбе переменные зависят от третьего фактора (жаркая погода), а не друг от друга
Ответ: Это классический пример ложной корреляции: обе переменные растут летом из-за жары, а не потому что одна вызывает другую.
Высокая корреляция не означает причинно-следственную связь. Здесь скрытый конфаундер — температура воздуха: летом больше и продаж мороженого, и уличной преступности. Чтобы установить причинность, нужен эксперимент или контроль за конфаундерами. На практике аналитики часто путают корреляцию метрик с причинностью, что ведёт к ошибочным продуктовым решениям.
28Аналитик хочет использовать 10%-усечённое среднее (trimmed mean) для метрики ARPU, чтобы снизить влияние выбросов. Как оно рассчитывается?
AОтбросить по 10% наименьших и наибольших значений и вычислить среднее по оставшимся 80%
BЗаменить все значения выше 90-го перцентиля на значение 90-го перцентиля перед расчётом
CВычислить среднее, а затем исключить все значения, отличающиеся от него более чем на 10%
DВзять медиану вместо среднего — это стандартный способ усечения при наличии выбросов
Ответ: 10%-усечённое среднее отбрасывает по 10% наблюдений с каждого края распределения и считает обычное среднее по оставшимся 80%.
Усечённое среднее — компромисс между средним (чувствительно к выбросам) и медианой (игнорирует величину значений). При 10%-усечении отсортированный ряд «обрезают» с обоих концов на 10% и считают среднее оставшихся. Это не то же самое, что винсоризация: при винсоризации крайние значения заменяются на граничные, а не удаляются. Замена выбросов на перцентиль — это именно винсоризация.
29Ковариация между числом рекламных показов и количеством регистраций положительна. Что это означает?
AОба показателя имеют одинаковую дисперсию и одинаковый масштаб измерения
BКогда один показатель выше среднего, второй тоже чаще выше своего среднего
CМежду показателями существует причинно-следственная связь с высокой надёжностью
DЛинейная связь между показателями сильная — коэффициент корреляции близок к единице
Ответ: Положительная ковариация означает, что показатели отклоняются от своих средних в одном направлении: когда один растёт, второй тоже чаще растёт.
Ковариация измеряет совместную изменчивость двух переменных. Положительный знак означает согласованное отклонение: выше среднего по одной — чаще выше среднего по другой. Но величина ковариации зависит от масштаба данных — нельзя судить о силе связи без нормирования. Для оценки силы связи используют корреляцию Пирсона (ковариация / произведение стандартных отклонений). Причинность ковариация не устанавливает.
30Среднее время выполнения задачи — 70 секунд, стандартное отклонение — 10 секунд. Сотрудник выполнил задачу за 85 секунд. Чему равен его z-score и что он означает?
Az = (85 − 70) / 10 = 1.5 — значение на 1.5 стандартных отклонения выше среднего
Bz = (85 − 70) / 100 = 0.15 — значение на 0.15 дисперсии выше среднего уровня
Cz = (70 − 85) / 10 = −1.5 — значение на 1.5 стандартных отклонения ниже среднего
Dz = 85 / 70 = 1.21 — значение в 1.21 раза больше среднего значения выборки
Ответ: z-score = (x − μ) / σ = (85 − 70) / 10 = 1.5. Это значит, что результат на 1.5 стандартных отклонения выше среднего.
Z-score показывает, на сколько стандартных отклонений наблюдение удалено от среднего. Формула: z = (x − μ) / σ. Здесь (85 − 70) / 10 = 1.5 — результат выше среднего. Отрицательный z-score означал бы, что значение ниже среднего. Типичная ошибка — делить на дисперсию (σ²) вместо стандартного отклонения (σ), что занижает результат.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram