Вопросы по теме «Выборка и смещение»
Систематическая ошибка выборки, survivorship bias, selection bias — источники смещения, которые превращают любой анализ в мусор. На собеседовании дают кейс и просят найти, где может возникнуть смещение. Понимание этой темы показывает, способен ли аналитик критически мыслить о данных, а не просто считать метрики.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является `population`?
AВсе пользователи продукта за неделю, для которых вы хотите сделать вывод
BТолько 5% пользователей, попавших в `sample`
CТолько пользователи, которые совершили покупку
DТолько пользователи, которые заходили в приложение каждый день
Ответ: `population` — это вся совокупность, про которую вы делаете вывод, а `sample` — наблюдаемая часть.
Если цель — понять средний чек всех пользователей, то `population` — это именно все пользователи, а не только те, кто попал в выборку. `sample` — это 5% случайно выбранных пользователей, по которым вы оцениваете параметр `population`. Типичная ошибка — считать `sample` и `population` одним и тем же и забывать про ограничения покрытия.
2Вы измерили NPS только у iOS-пользователей через in-app опрос и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
AЭто `survivorship bias`, потому что iOS-пользователи всегда остаются дольше
BНарушена `репрезентативность`: `sample` по iOS может не отражать `population` всех платформ
CЭто чистый `measurement error`, потому что NPS всегда измеряется неверно
DРиска нет, потому что iOS и Android всегда одинаковы
Ответ: Если `sample` покрывает только часть аудитории, страдает `репрезентативность` относительно `population`.
iOS-аудитория может отличаться по доходу, поведению и источникам трафика, поэтому выводы по ней не обязаны переноситься на Android и web. Это проблема покрытия и `репрезентативности`, а не обязательно ошибка измерения. Типичная ловушка — делать общие выводы, не проверив различия по ключевым сегментам `population`.
3Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
AЭто `survivorship bias`, потому что отвечают только те, кто остался
BЭто `measurement error`, потому что ответы субъективны
CЭто `selection bias`, потому что участие в опросе добровольное и зависит от мотивации
DЭто репрезентативная случайная выборка, потому что ответы реальные
Ответ: При добровольных опросах часто возникает `selection bias` из-за самоотбора.
Когда вероятность попасть в `sample` зависит от отношения к продукту, выборка становится смещённой. Недовольные пользователи чаще тратят время на ответ, и итоговые оценки могут систематически занижать удовлетворённость `population`. Типичная ошибка — интерпретировать такой опрос как «мнение всех пользователей» без поправок.
4Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какой bias здесь наиболее характерен?
AЭто `selection bias`, потому что выбрали случайных пользователей
BЭто `measurement error`, потому что доход всегда измеряется с шумом
CЭто ошибка определения `population`, но смещения нет
DЭто `survivorship bias`, потому что из анализа исключены ушедшие пользователи
Ответ: `survivorship bias` возникает, когда анализируют только «выживших» и игнорируют тех, кто выбыл.
Пользователи, дожившие до 30-го дня, обычно отличаются от тех, кто ушёл раньше: они могут быть более вовлечёнными и платежеспособными. Поэтому средний доход по «выжившим» завышает оценку для всей `population` новичков. Типичная ловушка — строить метрики на условной подвыборке и выдавать их как общие.
5В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
AЭто систематический `measurement error`, который смещает оценку среднего вниз даже при хорошем `sample`
BЭто `survivorship bias`, потому что бедные отвечают чаще
CЭто повышает `репрезентативность`, потому что ошибки взаимно компенсируются
DЭто устраняет `selection bias`, потому что ответы становятся одинаковыми
Ответ: Систематический `measurement error` приводит к смещению оценки, а не только к шуму.
Если ошибки измерения имеют направление (например, занижение), то среднее по `sample` будет смещено относительно истинного среднего `population`. В отличие от случайного шума, такой `measurement error` не «усредняется» при большом объёме данных. Типичная ошибка — думать, что больше ответов автоматически исправит систематическую ошибку измерения.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram