Вопросы по теме «Распределения и выбросы»

Гистограмма, box plot, violin plot — инструменты для визуализации распределений и обнаружения выбросов. На собеседовании спрашивают, как визуализировать распределение времени загрузки страницы или как обнаружить и обработать выбросы. Выбор между гистограммой и box plot зависит от того, что именно нужно показать аудитории.

Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.

Сравнения и ранжированиеДашборды и сторителлингОсновы визуализации и выбор графикаЗависимости и scatter-графикиВременные ряды

Вопросы 15 из 20

1Для метрики с сильной `skewness` (тяжёлый хвост) какая характеристика чаще всего более устойчива к `outliers`?
AМедиана (`p50`) и `percentiles`
BСреднее
CМаксимум
DРазмах (max-min)
Ответ: `percentiles` и медиана менее чувствительны к `outliers`, чем среднее.

Когда распределение асимметрично, редкие большие значения могут сильно сдвинуть среднее. Медиана (`p50`) и другие `percentiles` меняются меньше, потому что зависят от порядка, а не от величины хвоста. Поэтому для отчетов по тяжелым хвостам часто показывают медиану и `p90`/`p95`.

2Если распределение метрики имеет сильную правую `skewness`, какое утверждение чаще всего верно?
AСреднее обычно меньше медианы
BМедиана всегда равна `p25`
CСреднее обычно больше медианы
DСреднее и медиана всегда совпадают
Ответ: При правой `skewness` редкие большие значения тянут среднее вверх.

Правый хвост добавляет большие значения, которые сильно влияют на среднее. Медиана зависит от порядка и устойчивее к хвостам. Поэтому при правой `skewness` среднее часто выше медианы, и полезно показывать `percentiles` вместо одного среднего.

3Если цель — показать хвост распределения времени ответа, какие `percentiles` чаще всего полезно добавить к `p50`?
A`p90` и `p95`
B`p10` и `p20`
CТолько `p25`
DТолько максимум
Ответ: Для хвостов обычно смотрят высокие `percentiles`, например `p90` и `p95`.

Время ответа часто имеет правый хвост, и среднее может скрывать проблемы в хвосте. Высокие `percentiles` показывают качество для 'медленных' случаев и хорошо дополняют медиану. Максимум часто слишком нестабилен и может быть `outlier`.

4В `boxplot` «коробка» обычно соответствует какому диапазону `percentiles`?
AОт 0-го до 100-го
BОт 25-го до 75-го
CОт 10-го до 90-го
DОт 45-го до 55-го
Ответ: Коробка в `boxplot` — это интерквартильный размах `p75 - p25`.

Стандартный `boxplot` показывает медиану и коробку между `p25` и `p75`. Это устойчивое описание центра и разброса без сильной чувствительности к `outliers`. «Усы» и точки обычно дополняют картину хвостов.

5Что лучше всего показывает `histogram`?
AРаспределение значений метрики по диапазонам
BТренд метрики во времени
CСвязь между двумя метриками по точкам
DДолю категорий в общем объеме
Ответ: `histogram` показывает форму распределения, а не динамику.

`histogram` группирует значения метрики в интервалы и показывает, сколько наблюдений попало в каждый интервал. Это помогает понять форму распределения, включая `skewness` и наличие хвостов. Для тренда во времени нужен другой тип графика.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Визуализация данных

Сравнения и ранжированиеДашборды и сторителлингОсновы визуализации и выбор графикаЗависимости и scatter-графикиВременные ряды