Описательная статистика: вопросы для собеседования (часть 5)

Среднее, медиана, мода, стандартное отклонение, квантили, IQR — базовые метрики для описания данных. На собеседовании спрашивают, когда медиана лучше среднего, как выбросы влияют на дисперсию и что показывает коэффициент вариации. Это фундамент, без которого невозможно анализировать данные.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей

Вопросы 2125 из 40

21Аналитик построил гистограмму времени сессий, но результат выглядит неинформативно. Как ширина интервалов (bin width) влияет на полезность гистограммы?
AСлишком узкие интервалы сглаживают данные — теряются детали и модальность
BШирина интервала не влияет на вид гистограммы, меняется только высота столбцов
CСлишком широкие интервалы скрывают структуру, слишком узкие создают шум — нужен баланс
DОптимальная ширина всегда равна стандартному отклонению, делённому на число наблюдений
Ответ: Слишком широкие интервалы усредняют данные и скрывают детали (мультимодальность, выбросы). Слишком узкие — показывают случайный шум вместо закономерностей.

Выбор ширины интервала — ключевой шаг при построении гистограммы. Широкие интервалы (мало столбцов) «сглаживают» распределение: два пика могут слиться в один. Узкие интервалы (много столбцов) показывают каждое колебание, и закономерность теряется за шумом. Эвристики вроде правила Стёрджеса или Фридмана–Диакониса помогают найти баланс автоматически.

22Если ко всем значениям набора прибавить 5, как изменится `mean`?
AУменьшится на 5
BУвеличится на 5
CУвеличится в 5 раз
DНе изменится
Ответ: При добавлении константы к каждому наблюдению `mean` сдвигается на эту константу.

Если каждое значение увеличили на 5, то и среднее значение увеличится на 5. Это следует из линейности сумм: сумма всех значений вырастет на 5 * число элементов, а при делении на число элементов получится +5. Важно отличать сдвиг от масштабирования: умножение ведёт себя иначе. Частая ошибка — думать, что среднее «не чувствительно» к одинаковым изменениям.

23Курьер проехал первую половину пути со скоростью 60 км/ч, вторую — со скоростью 40 км/ч. Какова средняя скорость на всём пути?
AАрифметическое среднее: (60 + 40) / 2 = 50 км/ч — стандартный расчёт средней скорости
BГеометрическое среднее: √(60 × 40) ≈ 49.0 км/ч — корень из произведения скоростей
CМедиана двух значений: (60 + 40) / 2 = 50 км/ч — центральное значение упорядоченного ряда
DГармоническое среднее: 2 / (1/60 + 1/40) = 48 км/ч — корректное усреднение скоростей
Ответ: Когда усредняются скорости на равных расстояниях, правильный ответ — гармоническое среднее: 2/(1/60 + 1/40) = 48 км/ч.

Арифметическое среднее даёт 50 км/ч, но это неверно: на медленном участке курьер тратит больше времени, и вклад низкой скорости должен быть больше. Гармоническое среднее учитывает это: H = n / Σ(1/xᵢ). Для двух скоростей на равных расстояниях: 2/(1/60+1/40) = 2/0.0417 = 48 км/ч. Проверка: если путь 120 км, время = 60/60 + 60/40 = 1 + 1.5 = 2.5 ч, средняя = 120/2.5 = 48.

24Выручка росла по годам с коэффициентами 1.10, 0.95, 1.20 (×1.10 = +10%, ×0.95 = −5%, ×1.20 = +20%). Какой средний годовой темп роста корректен?
AАрифметическое среднее: (1.10 + 0.95 + 1.20) / 3 ≈ 1.083, то есть рост 8.3% в год
BМедиану коэффициентов: отсортировать и взять средний — 1.10, то есть рост 10% в год
CГеометрическое среднее: (1.10 × 0.95 × 1.20)^(1/3) ≈ 1.078, то есть рост 7.8% в год
DГармоническое среднее: 3 / (1/1.10 + 1/0.95 + 1/1.20) ≈ 1.076, то есть рост 7.6% в год
Ответ: Для мультипликативных величин (темпов роста, процентов) используют геометрическое среднее: ∛(1.10 × 0.95 × 1.20) ≈ 1.078.

Арифметическое среднее завышает средний темп роста, потому что рост и падение несимметричны: +10% и −10% в итоге дают убыток, а не ноль. Геометрическое среднее перемножает коэффициенты и берёт корень n-й степени, что корректно отражает итоговый результат: 100 × 1.10 × 0.95 × 1.20 = 125.4 — то же, что 100 × 1.078³. Гармоническое среднее подходит для усреднения ставок и скоростей.

25Аналитик сравнивает распределения времени отклика двух серверов и замечает, что у одного эксцесс (kurtosis) значительно выше. Что это говорит о данных?
AСтепень отклонения распределения от симметрии — насколько один хвост длиннее другого
BТяжесть хвостов распределения — насколько часто встречаются экстремальные значения
CШирину центральной части распределения — какая доля данных лежит вблизи среднего
DКоличество вершин (пиков) в распределении — одномодальное оно или многомодальное
Ответ: Высокий эксцесс указывает на тяжёлые хвосты: экстремальные значения (очень быстрые или медленные отклики) встречаются чаще, чем при нормальном распределении.

Эксцесс измеряет «тяжесть хвостов» — насколько вероятны экстремальные отклонения. Высокий эксцесс (лептокуртическое распределение) означает больше выбросов и более острый пик. Низкий (платикуртическое) — хвосты легче, данные более равномерные. Асимметрию измеряет другая характеристика — skewness. Количество пиков — это модальность, не связанная с эксцессом.

12345678

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыВыборка и смещениеТесты для среднихТесты для долей