Описательная статистика: вопросы для собеседования (часть 2)

Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 610 из 40

6Для набора данных 3, 7, 12, 15, 28 аналитик вычислил размах (range). Как рассчитывается эта мера разброса?
AРазность между медианой и средним арифметическим выборки
BРазность между максимальным и минимальным значениями выборки
CСумма абсолютных отклонений каждого значения от среднего
DКвадратный корень из дисперсии, делённой на объём выборки
Ответ: Размах — простейшая мера разброса, равная разности максимального и минимального значений: 28 − 3 = 25.

Размах показывает общий «разлёт» данных и вычисляется как max − min. В данном примере это 28 − 3 = 25. Его недостаток — полная зависимость от двух крайних точек: один выброс может кратно увеличить размах, не отражая реального разброса большинства наблюдений. Поэтому на практике чаще используют IQR или стандартное отклонение.

7Для набора значений 2, 4, 6, 8 чему равно `mean`?
A5
B4
C6
D20
Ответ: `mean` — это сумма значений, делённая на их количество.

Складываем значения: 2 + 4 + 6 + 8 = 20. Делим на количество наблюдений 4 и получаем 5. Типичная ошибка — забыть разделить на количество элементов или перепутать с `median`.

8Даны значения 1, 3, 7, 9, 10. Чему равна `median`?
A3
B7
C8
D9
Ответ: `median` — это середина отсортированного списка.

При нечётном количестве значений медиана — центральный элемент после сортировки. Здесь список уже отсортирован, центральное значение — 7. Частая ошибка — выбирать среднее арифметическое вместо `median`.

9Для набора 1, 2, 2, 3, 3, 3, 4 чему равна `mode`?
A2
B1
C3
DМоды нет
Ответ: `mode` — значение, которое встречается чаще всего.

В этом наборе число 3 встречается три раза, число 2 — два раза, остальные — по одному. Значит, `mode` равна 3. Ошибка новичков — думать, что `mode` всегда равна `median` или `mean`.

10Как обычно вычисляют `median`, если наблюдений чётное число?
AБерут минимальное значение
BБерут среднее двух центральных значений после сортировки
CБерут наиболее частое значение (`mode`)
DБерут `mean` всего набора
Ответ: При чётном количестве элементов `median` — среднее двух центральных после сортировки.

Сначала сортируют данные, затем находят два центральных значения. Медианой берут их среднее, чтобы получить точку, делящую данные примерно пополам. Это определение сохраняет смысл `median` как 'середины' распределения. Ошибка — выбирать одно из центральных значений произвольно.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей