Вы случайно отбираете для анализа не пользователей, а сессии (каждая сессия равновероятна попасть в выборку). Какой риск возникает для оценки среднего числа сессий на пользователя?

Question

Карьерник · Accepted Answer

Правильный ответ: Выборка переоценит активных пользователей: среднее число сессий на пользователя окажется смещённым вверх. Важно выбирать правильную единицу отбора: выборка по сессиям даёт другой объект оценки, чем выборка по пользователям. Пользователи с большим числом сессий чаще попадают в выборку — это классическое смещение по единице наблюдения (size-biased sampling). Если цель оценки — среднее по пользователям, нужно отбирать пользователей или корректировать веса обратно пропорционально активности. Типичная ловушка — считать, что «случайная» выборка автоматически репрезентативна для любой метрики; репрезентативность всегда определяется относительно конкретной единицы и метрики. Систематическая ошибка выживания и ошибка измерения здесь ни при чём.

Разбор

Ещё вопросы по теме «Выборка и смещение»