Question 1

Как обычно называют квантиль уровня 0.25 в описательной статистике?

Accepted Answer

Квантиль уровня 0.25 соответствует первому квартилю Q1. Квантиль уровня 0.25 — это значение, ниже которого находится примерно 25% наблюдений выборки. Его обычно обозначают как первый квартиль Q1. Медиана соответствует квантилю 0.5, а Q3 — квантилю 0.75. Мода — это вообще другая характеристика: самое частое значение, никак не связанное с долей наблюдений ниже порога.

Question 2

Как правильно определяется `IQR`?

Accepted Answer

`IQR` — это межквартильный размах: Q3 минус Q1. Межквартильный размах (`IQR`, interquartile range) — это разница между третьим и первым квартилем, `Q3 - Q1`. Он показывает ширину центральных 50% данных и используется как робастная мера разброса и для построения box plot. Запись `Q1 - Q3` даёт отрицательное число и не имеет смысла как мера разброса. Полусумма квартилей — это медиана трёхквантильной сводки, не разброс. Размах `max - min` (range) тоже мера разброса, но он чувствителен к выбросам, в отличие от `IQR`.

Question 3

Если величина измеряется в минутах, в каких единицах измеряется стандартное отклонение этой величины?

Accepted Answer

Стандартное отклонение измеряется в тех же единицах, что и исходная величина. Стандартное отклонение — это корень из дисперсии, поэтому оно возвращается на исходный масштаб измерения. Если время в минутах, то дисперсия будет в минутах в квадрате, а корень из неё снова в минутах. Это делает стандартное отклонение удобным для «человеческой» интерпретации. Безразмерной мерой разброса является коэффициент вариации, а не само стандартное отклонение.

Question 4

Два набора имеют одинаковое среднее, равное 5: A = 5, 5, 5 и B = 1, 5, 9. У какого набора больше стандартное отклонение?

Accepted Answer

Стандартное отклонение больше там, где значения сильнее разбросаны вокруг среднего. В наборе A все значения равны, разброса нет, и стандартное отклонение равно нулю. В наборе B значения отклоняются от 5 на 4 в обе стороны, поэтому разброс существенно больше. Это хороший пример, почему одного среднего недостаточно для описания данных. Типичная ошибка — думать, что одинаковое среднее означает одинаковое поведение распределений.

Question 5

В отчёте о зарплатах есть редкие очень большие значения (выбросы). Какую меру центра обычно лучше использовать вместо среднего, чтобы не исказить картину?

Accepted Answer

Медиана обычно устойчивее к выбросам, чем среднее арифметическое. Большие выбросы сильно тянут среднее арифметическое вверх, даже если таких наблюдений мало. Медиана зависит только от порядка значений и почти не реагирует на редкие экстремальные точки. Поэтому для перекошенных распределений медиана часто даёт более типичную центральную оценку. Типичная ошибка — сравнивать группы по среднему, не проверив влияние выбросов и не посмотрев на распределение.

Описательная статистика: вопросы для собеседования (часть 3)

Вопросы 11–15 из 40

Хотите тренировать интерактивно?

Другие темы: Статистика