Question 1

Какое утверждение про моду распределения верно?

Accepted Answer

Мода может быть не единственной: распределение бывает мультимодальным. Если два разных значения встречаются одинаково часто и чаще остальных, у набора будет две моды. Также бывает, что у непрерывных данных моду трудно определять без биннинга. Поэтому мода полезна не всегда, но иногда хорошо описывает «пиковые» значения. Ошибка — считать моду обязательной и единственной мерой центра наряду со средним и медианой.

Question 2

Исследование показало корреляцию r = 0.85 между продажами мороженого и уровнем преступности по месяцам. Какое объяснение наиболее вероятно?

Accepted Answer

Это классический пример ложной корреляции: обе переменные растут летом из-за жары, а не потому что одна вызывает другую. Высокая корреляция не означает причинно-следственную связь. Здесь скрытый конфаундер — температура воздуха: летом больше и продаж мороженого, и уличной преступности. Чтобы установить причинность, нужен эксперимент или контроль за конфаундерами. На практике аналитики часто путают корреляцию метрик с причинностью, что ведёт к ошибочным продуктовым решениям.

Question 3

Аналитик хочет использовать 10%-усечённое среднее (trimmed mean) для метрики ARPU, чтобы снизить влияние выбросов. Как оно рассчитывается?

Accepted Answer

10%-усечённое среднее отбрасывает по 10% наблюдений с каждого края распределения и считает обычное среднее по оставшимся 80%. Усечённое среднее — компромисс между средним (чувствительно к выбросам) и медианой (игнорирует величину значений). При 10%-усечении отсортированный ряд «обрезают» с обоих концов на 10% и считают среднее оставшихся. Это не то же самое, что винсоризация: при винсоризации крайние значения заменяются на граничные, а не удаляются. Замена выбросов на перцентиль — это именно винсоризация.

Question 4

Ковариация между числом рекламных показов и количеством регистраций положительна. Что это означает?

Accepted Answer

Положительная ковариация означает, что показатели отклоняются от своих средних в одном направлении: когда один растёт, второй тоже чаще растёт. Ковариация измеряет совместную изменчивость двух переменных. Положительный знак означает согласованное отклонение: выше среднего по одной — чаще выше среднего по другой. Но величина ковариации зависит от масштаба данных — нельзя судить о силе связи без нормирования. Для оценки силы связи используют корреляцию Пирсона (ковариация / произведение стандартных отклонений). Причинность ковариация не устанавливает.

Question 5

Среднее время выполнения задачи — 70 секунд, стандартное отклонение — 10 секунд. Сотрудник выполнил задачу за 85 секунд. Чему равен его z-score и что он означает?

Accepted Answer

z-score = (x − μ) / σ = (85 − 70) / 10 = 1.5. Это значит, что результат на 1.5 стандартных отклонения выше среднего. Z-score показывает, на сколько стандартных отклонений наблюдение удалено от среднего. Формула: z = (x − μ) / σ. Здесь (85 − 70) / 10 = 1.5 — результат выше среднего. Отрицательный z-score означал бы, что значение ниже среднего. Типичная ошибка — делить на дисперсию (σ²) вместо стандартного отклонения (σ), что занижает результат.

Описательная статистика: вопросы для собеседования (часть 6)

Вопросы 26–30 из 40

Хотите тренировать интерактивно?

Другие темы: Статистика