В опросе пользователи систематически занижают свой доход. Как лучше всего описать проблему в терминах качества данных?
AЭто систематический
measurement error, который смещает оценку среднего вниз даже при хорошем sampleBЭто
survivorship bias, потому что бедные отвечают чащеCЭто повышает
репрезентативность, потому что ошибки взаимно компенсируютсяDЭто устраняет
selection bias, потому что ответы становятся одинаковымиПравильный ответ. Систематический
measurement error приводит к смещению оценки, а не только к шуму.Разбор
Если ошибки измерения имеют направление (например, занижение), то среднее по sample будет смещено относительно истинного среднего population. В отличие от случайного шума, такой measurement error не «усредняется» при большом объёме данных. Типичная ошибка — думать, что больше ответов автоматически исправит систематическую ошибку измерения.
Проверь себя · 1/3разбор после ответа
Вы оцениваете среднюю доходность фондов за 10 лет, используя только фонды, которые существуют сегодня, и игнорируете закрытые фонды. Какой bias наиболее вероятен и в какую сторону?
Ещё вопросы по теме «Выборка и смещение»
- Вы хотите оценить средний чек за неделю для всех пользователей продукта. У вас есть данные по 5% пользователей, отобранных случайно. Что в этой задаче является `population`?
- Вы измерили NPS только у iOS-пользователей через in-app опрос и хотите распространить результат на всех пользователей. Какой риск здесь ключевой?
- Вы выложили ссылку на опрос в соцсетях и получили ответы в основном от людей с сильным недовольством продуктом. Какое смещение наиболее вероятно?
- Аналитик посчитал средний доход на пользователя только среди тех, кто остался активным до 30-го дня, и сделал вывод о среднем доходе всех новичков. Какой bias здесь наиболее характерен?
- В email-опросе ответили 8% пользователей, и среди ответивших сильно больше VIP-клиентов, чем в `population`. Какой шаг наиболее уместен, чтобы снизить `selection bias` по известным признакам?
- Все вопросы по «Выборка и смещение» →