Выборка и смещение: вопросы для собеседования (часть 4)

Систематическая ошибка выборки, survivorship bias, selection bias — источники смещения, которые превращают любой анализ в мусор. На собеседовании дают кейс и просят найти, где может возникнуть смещение. Понимание этой темы показывает, способен ли аналитик критически мыслить о данных, а не просто считать метрики.

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыТесты для среднихТесты для долей

Вопросы 1620 из 20

16В логировании покупок иногда происходит повторная отправка (`retry`), и одно событие фиксируется дважды. Вы считаете выручку как сумму по событиям. Как лучше описать проблему?
AЭто `survivorship bias`, потому что покупают только выжившие
BЭто `selection bias`, потому что покупки выбираются неслучайно
CЭто `measurement error` из-за дублей, который приводит к завышению метрики
DЭто улучшает `репрезентативность`, потому что данных становится больше
Ответ: Дубли в событиях — это `measurement error`, который систематически искажает метрики.

Если одно и то же действие учитывается несколько раз, сумма и производные метрики становятся завышенными. В отличие от случайного шума, дубль создаёт направленное смещение, которое не исчезает при росте объёма данных. Типичная ошибка — лечить это статистикой, хотя нужен `deduplication` по `event_id` или идемпотентность.

17Вы оцениваете вероятность клика по карточке товара, используя только показы, которые алгоритм рекомендаций решил показать пользователю. Почему такая оценка может быть смещена?
AПотому что это всегда `survivorship bias` и он не зависит от алгоритма
BПотому что `measurement error` неизбежен в кликах
CПотому что есть `selection bias`: попадание в `sample` показов зависит от признаков и ожиданий алгоритма, связанных с кликом
DПотому что `population` показов равна только показам из алгоритма
Ответ: Если механизм отбора в `sample` зависит от исхода, возникает `selection bias`, и причинные выводы могут стать некорректными.

Алгоритм чаще показывает то, что считает релевантным, а значит `sample` показов не случайный. Тогда оценка кликабельности будет отражать не только качество карточки, но и правила отбора, и может быть завышена. Для корректного сравнения нужен эксперимент или данные со случайными показами. Типичная ошибка — считать, что наблюдаемые показы представляют всю `population` возможных показов.

18Вы считаете длительность сессии по `client_time`, но у части устройств неверные часы, и длительность иногда получается отрицательной. Что лучше всего добавить в данные, чтобы снизить `measurement error`?
AТолько название модели телефона
BТолько язык интерфейса
CЛогировать `server_time` вместе с `client_time` и `timezone_offset`, чтобы нормализовать время и находить некорректные события
DУдалять все сессии короче 1 минуты без дополнительной информации
Ответ: Чтобы снизить `measurement error` по времени, нужно иметь независимую опору вроде `server_time` и параметры часового пояса.

Клиентское время может быть смещено из-за неправильных часов, смены часового пояса или багов SDK. `server_time` позволяет восстановить порядок и длительности, а `timezone_offset` помогает корректно интерпретировать локальные времена. Типичная ошибка — просто отрезать «плохие» значения, создавая новый `selection bias` вместо исправления измерений.

19Вы хотите оценить churn подписчиков за месяц, но берёте в анализ только тех, кто открывал приложение на прошлой неделе. Что наиболее вероятно произойдёт с оценкой churn и почему?
AChurn будет завышен из-за `measurement error`
BChurn будет точным, потому что активные лучше отражают `population`
CChurn не изменится, потому что выборка случайная
DChurn будет занижен, потому что вы исключили «тихо ушедших» и получили `selection bias` с элементами `survivorship bias`
Ответ: Если вы исключаете неактивных, вы меняете `population` анализа и обычно занижаете churn.

Выборка только активных смещена в сторону пользователей, которые с большей вероятностью остаются, поэтому churn в такой `sample` будет ниже, чем в полной `population` подписчиков. Это смещение похоже на `survivorship bias`, потому что вы анализируете тех, кто «дожил» до условия активности. Типичная ошибка — не замечать, что фильтр по активности меняет сам объект оценки.

20Вы сделали пост-стратификационное взвешивание, чтобы `sample` совпал с `population` по полу и возрасту. Какое утверждение наиболее корректно?
AВзвешивание полностью убирает любой `selection bias`
BВзвешивание исправляет `measurement error` в ответах
CВзвешивание автоматически увеличивает размер `sample`
DВзвешивание снижает смещение по известным признакам, но не исправляет смещения по неизвестным причинам самоотбора
Ответ: Взвешивание помогает по тем признакам, которые вы контролируете, но не лечит весь `selection bias` автоматически.

Если вы выровняли состав по полу и возрасту, оценки становятся ближе к `population` по этим осям. Но если вероятность ответа связана с удовлетворённостью или доходом, а вы это не измерили, смещение может остаться. Кроме того, веса могут увеличить дисперсию оценок, если некоторые группы недопредставлены. Типичная ошибка — считать веса «магическим» решением для любого bias.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Статистика

Хи-квадрат и таблицы сопряжённостиДоверительные интервалыКорреляция и регрессияОписательная статистикаОсновы проверки гипотезМножественные сравненияТочечные оценки и MLEСлучайные величины и выборочные распределенияБутстреп и перестановочные тестыТесты для среднихТесты для долей