Вопросы по теме «Описательная статистика»
Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.
Всего в этом разделе 40 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 8 частей по 5 вопросов.
Вопросы 1–5 из 40
1Распределение доходов домохозяйств имеет положительную асимметрию. Как это выглядит на графике и как соотносятся среднее и медиана?
AПравый хвост длиннее левого, среднее обычно больше медианы
BЛевый хвост длиннее правого, среднее обычно меньше медианы
CОба хвоста одинаковой длины, среднее равно медиане
DРаспределение двухвершинное, среднее не информативно
Ответ: При положительной (правой) асимметрии длинный хвост тянется вправо — туда, где находятся редкие высокие доходы, которые тянут среднее выше медианы.
Положительная асимметрия означает, что основная масса наблюдений сосредоточена слева, а редкие крупные значения создают вытянутый правый хвост. Среднее чувствительно к этим выбросам и смещается вправо — оно оказывается больше медианы. Отрицательная асимметрия — зеркальная ситуация: левый хвост длиннее, среднее меньше медианы.
2В гистограмме 120 из 400 пользователей попали в интервал «от 5 до 10 минут». Чем относительная частота отличается от абсолютной?
AОтносительная частота — это абсолютная частота, умноженная на объём выборки
BОтносительная частота — это доля наблюдений в интервале от общего числа наблюдений
CОтносительная частота — это логарифм абсолютной частоты для нормализации шкалы
DОтносительная частота — это абсолютная частота, поделённая на ширину интервала
Ответ: Абсолютная частота — 120 человек, относительная — 120/400 = 0.3, то есть доля от общего числа наблюдений.
Абсолютная частота показывает сколько наблюдений попало в интервал. Относительная частота нормирует это число на объём выборки: 120/400 = 0.3 (или 30%). Это позволяет сравнивать распределения выборок разного размера. Деление частоты на ширину интервала — это уже плотность (density), которая используется при неравных интервалах.
3Аналитик построил пятичисловую сводку (five-number summary) для набора данных. Какие именно пять статистик входят в эту сводку?
AМинимум, Q1, медиана, Q3, максимум — пять значений, описывающих распределение
BСреднее, дисперсия, асимметрия, эксцесс, размах — пять моментов распределения
CМода, медиана, среднее, дисперсия, стандартное отклонение — основные статистики
DМинимум, среднее, мода, стандартное отклонение, максимум — сводка по выборке
Ответ: Пятичисловая сводка включает минимум, первый квартиль (Q1), медиану, третий квартиль (Q3) и максимум — по ней строится диаграмма размаха.
Пятичисловая сводка делит данные на четыре части: от минимума до Q1, от Q1 до медианы, от медианы до Q3 и от Q3 до максимума. Эти пять значений дают компактное описание формы распределения: центр, разброс и степень симметрии. Именно их визуализирует box plot. Среднее и дисперсия в сводку не входят — они относятся к моментным характеристикам.
4На диаграмме размаха (box plot) «усы» (whiskers) тянутся от коробки в обе стороны. Что они показывают в стандартном варианте построения?
AСреднее арифметическое и стандартное отклонение от центра распределения
BМинимум и максимум всех значений выборки без исключения каких-либо точек
CГраницы доверительного интервала для медианы на уровне значимости 95%
DНаименьшее и наибольшее значения в пределах 1.5 IQR от краёв коробки
Ответ: Стандартные усы доходят до самого дальнего наблюдения, которое не выходит за пределы 1.5 IQR от Q1 и Q3. Точки за усами отображаются как выбросы.
Коробка показывает IQR (от Q1 до Q3), линия внутри — медиану. Усы тянутся до последнего наблюдения внутри границ Q1 − 1.5·IQR и Q3 + 1.5·IQR. Точки за пределами усов считаются потенциальными выбросами и рисуются отдельно. Это не минимум и максимум всей выборки — если есть выбросы, усы заканчиваются раньше.
5P90 времени на сайте равен 12 минутам. Как это интерпретировать?
AРовно 90% пользователей проводят на сайте больше 12 минут
BЗначение 12 минут встречается в выборке ровно 90 раз
C90% пользователей проводят на сайте не более 12 минут
DСреднее время на сайте равно 12 минутам для 90% страниц
Ответ: P90 = 12 минут означает, что 90% наблюдений не превышают 12 минут, а 10% — превышают.
Перцентиль P90 — это значение, ниже или равное которому находятся 90% наблюдений. Если P90 = 12 минут, значит только каждый десятый пользователь проводит на сайте больше 12 минут. Перцентили удобны для понимания «хвостов» распределения: P50 — это медиана, P99 часто используют для мониторинга задержек серверов.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram