Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.
Квантиль 0.25 — это значение, ниже которого находится примерно 25% наблюдений. Его часто обозначают как Q1. `Median` — это `quantile` 0.5, а Q3 — это `quantile` 0.75. Типичная путаница — перепутать 0.25 и 0.75.
`IQR` показывает разброс центральных 50% данных и вычисляется как Q3 − Q1. Он устойчивее к `выбросы`, чем показатели на основе квадратов отклонений. Ошибка — перепутать порядок квартилей и получить отрицательное значение. `Std` — другая мера разброса и считается иначе.
`Std` — это корень из `variance`, поэтому он возвращает исходный масштаб измерения. Если время в минутах, то `variance` будет в минутах в квадрате, а `std` снова в минутах. Это делает `std` удобным для 'человеческой' интерпретации. Ошибка — говорить про `variance` как про 'минуты', игнорируя квадратные единицы.
В наборе A все значения равны, разброса нет, значит `std` близко к нулю. В наборе B значения отклоняются от 5 на 4 в обе стороны, поэтому разброс существенно больше. Это хороший пример, почему одного `mean` недостаточно для описания данных. Типичная ошибка — думать, что одинаковый `mean` означает одинаковое поведение распределений.
Большие `выбросы` сильно тянут `mean` вверх, даже если таких наблюдений мало. `Median` зависит только от порядка значений и почти не реагирует на редкие экстремальные точки. Поэтому для перекошенных распределений `median` часто даёт более типичную 'центральную' оценку. Ошибка — сравнивать группы по `mean`, не проверив влияние `выбросы`.
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram