Выборка и смещение: вопросы для собеседования (часть 2)
Систематическая ошибка выборки, survivorship bias, selection bias — источники смещения, которые превращают любой анализ в мусор. На собеседовании дают кейс и просят найти, где может возникнуть смещение. Понимание этой темы показывает, способен ли аналитик критически мыслить о данных, а не просто считать метрики.
Вопросы 6–10 из 20
6У вас есть база email, которая покрывает только 70% пользователей. Как лучше всего назвать эту базу в контексте построения `sample`?
AЭто `sampling frame` (основа отбора), из которого берут `sample`, и его неполнота влияет на покрытие `population`
BЭто и есть вся `population`, потому что 70% достаточно
CЭто `measurement error`, потому что email не точный
DЭто `survivorship bias`, потому что email есть только у выживших
Ответ: Список, из которого вы отбираете `sample`, может быть неполным относительно `population` и это важно явно фиксировать.
Даже при случайном отборе внутри базы вы не получите репрезентативность для тех, кого в базе нет. Это ограничение покрытия, которое может приводить к смещённым выводам. Типичная ловушка — воспринимать доступный список как полную `population` и не замечать, кого он исключает.
7Вы случайно отбираете для анализа не пользователей, а сессии (каждая сессия равновероятна попасть в `sample`). Какой риск для оценки среднего числа сессий на пользователя?
A`sample` будет переоценивать heavy users, и среднее по пользователям может оказаться смещённым
BВозникнет `survivorship bias`, потому что сессии не умирают
CЭто `measurement error`, потому что сессия измеряется неточно
DРиска нет, потому что случайность отбора гарантирует `репрезентативность`
Ответ: Важно выбирать правильную единицу отбора: `sample` по сессиям даёт другой объект оценки, чем по пользователям.
Пользователи с большим числом сессий попадают в выборку чаще, поэтому выборка по сессиям смещена в сторону более активных пользователей. Если ваша цель — среднее по пользователям, нужно отбирать пользователей или корректировать веса. Типичная ловушка — считать, что «случайная» выборка всегда репрезентативна для любой метрики.
8Вы измеряете удовлетворённость поддержкой и отправляете опрос только пользователям, у которых тикет закрыт статусом 'resolved'. Какой bias наиболее вероятен?
AЭто `survivorship bias`, потому что тикеты не выживают
BЭто `selection bias`, потому что в `sample` попадают только успешные кейсы, и оценка может быть завышена
CЭто чистый `measurement error`, потому что опросы неточны
DСмещения нет, потому что 'resolved' означает завершённый процесс
Ответ: Если попадание в опрос зависит от исхода процесса, возникает `selection bias`.
Пользователи с нерешёнными проблемами или эскалациями исключаются из `sample`, поэтому средняя оценка может быть завышена относительно всей `population` обращений. Корректнее включать все обращения или анализировать удовлетворённость по стадиям. Типичная ошибка — мерить качество только по «закрытым успешно» кейсам и принимать это за общую картину.
9Если `measurement error` является случайным и имеет нулевое среднее (например, `E[error]=0`), то какое влияние он чаще всего оказывает на оценку среднего значения метрики?
AСоздаёт `selection bias`, потому что измерения становятся выборочными
BСистематически завышает среднее метрики
CАвтоматически делает `sample` репрезентативной
DУвеличивает дисперсию оценки и снижает точность, но не вносит направленного смещения в среднее
Ответ: Случайный `measurement error` обычно повышает шум, но не создаёт систематическое смещение среднего.
Если ошибка измерения симметрична и в среднем равна нулю, то среднее значение не смещается, но становится менее точным из-за большей дисперсии. На практике это ухудшает доверительные интервалы и снижает чувствительность анализов. Типичная ошибка — путать случайный шум и систематическую ошибку, которая действительно смещает оценки.
10В A/B тесте фича работает только у пользователей с новой версией приложения, а обновляются быстрее более активные пользователи. Что лучше проверить первым, чтобы понять риск смещения?
AСравнить состав `sample` по активности/сегментам между вариантами и понять, какая `population` фактически попала в тест
BСравнить только `p-value`, игнорируя состав аудитории
CУдалить из анализа всех активных пользователей, чтобы уравнять группы
DСчитать, что рандомизация автоматически устраняет любые проблемы покрытия
Ответ: Если попадание в тест зависит от поведения, возможен `selection bias` и нужно проверить состав выборки.
Когда фича доступна не всем, фактическая `population` теста сужается до обновившихся, и это может зависеть от активности. Даже при рандомизации внутри этой подгруппы выводы могут не переноситься на всех пользователей. Типичная ошибка — считать, что тест измеряет эффект на всей аудитории, хотя на самом деле измеряется эффект на подвыборке.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram