Описательная статистика: вопросы для собеседования (часть 3)

Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 1115 из 40

11Как обычно называют `quantile` уровня 0.25?
AПервый квартиль (Q1)
BТретий квартиль (Q3)
C`median`
D`mode`
Ответ: `quantile` 0.25 соответствует первому квартилю Q1.

Квантиль 0.25 — это значение, ниже которого находится примерно 25% наблюдений. Его часто обозначают как Q1. `Median` — это `quantile` 0.5, а Q3 — это `quantile` 0.75. Типичная путаница — перепутать 0.25 и 0.75.

12Как правильно определяется `IQR`?
AQ1 − Q3
BQ3 − Q1
C(Q1 + Q3) / 2
D`std`
Ответ: `IQR` — это межквартильный размах: Q3 минус Q1.

`IQR` показывает разброс центральных 50% данных и вычисляется как Q3 − Q1. Он устойчивее к `выбросы`, чем показатели на основе квадратов отклонений. Ошибка — перепутать порядок квартилей и получить отрицательное значение. `Std` — другая мера разброса и считается иначе.

13Если величина измеряется в минутах, в каких единицах измеряется `std` этой величины?
AВ минутах
BВ минутах в квадрате
CВ процентах
DБез единиц
Ответ: `std` измеряется в тех же единицах, что и исходная величина.

`Std` — это корень из `variance`, поэтому он возвращает исходный масштаб измерения. Если время в минутах, то `variance` будет в минутах в квадрате, а `std` снова в минутах. Это делает `std` удобным для 'человеческой' интерпретации. Ошибка — говорить про `variance` как про 'минуты', игнорируя квадратные единицы.

14Два набора имеют одинаковый `mean` = 5: A = 5, 5, 5 и B = 1, 5, 9. У какого набора больше `std`?
AУ A
BОдинаково
CНельзя сравнить без `quantile`
DУ B
Ответ: `std` больше там, где значения сильнее разбросаны вокруг `mean`.

В наборе A все значения равны, разброса нет, значит `std` близко к нулю. В наборе B значения отклоняются от 5 на 4 в обе стороны, поэтому разброс существенно больше. Это хороший пример, почему одного `mean` недостаточно для описания данных. Типичная ошибка — думать, что одинаковый `mean` означает одинаковое поведение распределений.

15В отчёте о зарплатах есть редкие очень большие значения (`выбросы`). Какую меру центра обычно лучше использовать вместо `mean`, чтобы не исказить картину?
A`mean`
B`mode`
C`variance`
D`median`
Ответ: `median` обычно устойчивее к `выбросы`, чем `mean`.

Большие `выбросы` сильно тянут `mean` вверх, даже если таких наблюдений мало. `Median` зависит только от порядка значений и почти не реагирует на редкие экстремальные точки. Поэтому для перекошенных распределений `median` часто даёт более типичную 'центральную' оценку. Ошибка — сравнивать группы по `mean`, не проверив влияние `выбросы`.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей