Вы случайно отбираете для анализа не пользователей, а сессии (каждая сессия равновероятна попасть в sample). Какой риск для оценки среднего числа сессий на пользователя?

Asample будет переоценивать heavy users, и среднее по пользователям может оказаться смещённым
BВозникнет survivorship bias, потому что сессии не умирают
CЭто measurement error, потому что сессия измеряется неточно
DРиска нет, потому что случайность отбора гарантирует репрезентативность
Правильный ответ. Важно выбирать правильную единицу отбора: sample по сессиям даёт другой объект оценки, чем по пользователям.

Разбор

Пользователи с большим числом сессий попадают в выборку чаще, поэтому выборка по сессиям смещена в сторону более активных пользователей. Если ваша цель — среднее по пользователям, нужно отбирать пользователей или корректировать веса. Типичная ловушка — считать, что «случайная» выборка всегда репрезентативна для любой метрики.

Проверь себя · 1/3разбор после ответа
Если measurement error является случайным и имеет нулевое среднее (например, E[error]=0), то какое влияние он чаще всего оказывает на оценку среднего значения метрики?
Тренировать статистику в Telegram

Ещё вопросы по теме «Выборка и смещение»