Question 1

В логировании покупок иногда происходит повторная отправка одного и того же события, и оно фиксируется дважды. Вы считаете выручку как сумму по событиям. Как лучше описать проблему?

Accepted Answer

Дубли в событиях — это ошибка измерения, которая систематически завышает метрики, а не случайный шум. Дублирование событий при повторной отправке — типичная measurement error: одно и то же действие пользователя записывается несколько раз, и сумма выручки систематически завышается. Лечится дедупликацией по `event_id` или паре (`order_id`, `event_name`) и идемпотентным consumer-ом в `ETL`. Survivorship bias тут не подходит: «выжившие» наблюдения — это не дубли. Selection bias предполагает неслучайный отбор объектов, а не их повторение. Утверждение про улучшение репрезентативности — обратное правды: дубли искажают, а не уточняют.

Question 2

Вы оцениваете вероятность клика по карточке товара, используя только показы, которые алгоритм рекомендаций решил показать пользователю. Почему такая оценка может быть смещена?

Accepted Answer

Если механизм отбора в выборку зависит от исхода, возникает смещение отбора, и причинные выводы могут стать некорректными. Алгоритм рекомендаций не показывает карточки случайно — он отбирает их по предсказанной вероятности клика. Поэтому распределение признаков среди показанных карточек смещено в сторону тех, по которым алгоритм ожидает высокий CTR. Если оценивать вероятность клика только по этим показам, она систематически завышена для слабых карточек и не сравнима с вероятностью клика по случайной выборке карточек. Это classic selection bias. Survivorship bias требует выбытия объектов, ошибки измерения — искажений в записи данных. Подмена генеральной совокупности на «то, что показал алгоритм» — это игнорирование задачи.

Question 3

Вы считаете длительность сессии по `client_time`, но у части устройств неверные часы, и длительность иногда получается отрицательной. Что лучше всего добавить в данные, чтобы снизить ошибку измерения?

Accepted Answer

Чтобы снизить `measurement error` по времени, нужно иметь независимую опору вроде `server_time` и параметры часового пояса. Когда `client_time` ненадёжен (часы устройства сбиты, пользователь крутит время вручную), нужен второй источник времени для коррекции — это `server_time`, проставляемое сервером в момент приёма события. Дополнительно `timezone_offset` позволяет привести всё к единому UTC и считать локальное время. Имея пару `client_time` + `server_time`, можно ловить события с большой разницей и помечать их некорректными. Логировать только модель устройства, локаль или версию SDK — отдельные полезные поля, но без второго таймстампа они не решают проблему: сравнивать остаётся не с чем.

Question 4

Вы хотите оценить отток подписчиков за месяц, но берёте в анализ только тех, кто открывал приложение на прошлой неделе. Что наиболее вероятно произойдёт с оценкой оттока и почему?

Accepted Answer

Если вы исключаете неактивных, вы меняете объект анализа (генеральную совокупность) и обычно занижаете отток. Выборка только активных смещена в сторону пользователей, которые с большей вероятностью остаются, поэтому отток в такой выборке будет ниже, чем в полной совокупности подписчиков. Это смещение похоже на survivorship bias (смещение выживших), потому что вы анализируете тех, кто «дожил» до условия активности. Типичная ошибка — не замечать, что фильтр по активности меняет сам объект оценки.

Question 5

Вы сделали пост-стратификационное взвешивание, чтобы выборка совпала с генеральной совокупностью по полу и возрасту. Какое утверждение наиболее корректно?

Accepted Answer

Взвешивание помогает по тем признакам, которые вы контролируете, но не лечит смещение отбора по неизвестным причинам автоматически. Если вы выровняли состав по полу и возрасту, оценки становятся ближе к генеральной совокупности по этим осям. Но если вероятность ответа связана с удовлетворённостью или доходом, а вы это не измерили, смещение может остаться. Кроме того, веса могут увеличить дисперсию оценок, если некоторые группы недопредставлены. Типичная ошибка — считать веса «магическим» решением для любого смещения отбора.

Выборка и смещение: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Статистика