Question 1

Аналитик считает удержание так: берёт всех активных пользователей на неделе 1 и смотрит, сколько из них активны на неделе 2. В чём риск такого подхода и что корректнее для когортного анализа?

Accepted Answer

Удержание для сравнения групп считают относительно фиксированной когорты, иначе база постоянно меняется и сравнение теряет смысл. Подход «активные на неделе 1 → активные на неделе 2» смешивает новых и старых пользователей. Из-за этого показатель похож больше на общую повторную активность, а не на когортное удержание. Для корректного анализа нужно определить когорту (например, по дате регистрации или первой активности) и считать удержание W1, W2 и далее для этой же базы.

Question 2

Вы сравниваете удержание на 30-й день для когорты сентября и когорты ноября. Для ноябрьской когорты прошло только 15 дней с момента дня 0. В чём проблема и как корректнее поступить?

Accepted Answer

Для `D30 retention` когорты должны быть достаточно «старыми», иначе сравнение искажает `right censoring`. Если с дня 0 прошло меньше 30 дней, часть пользователей физически не могла попасть в день 30. Тогда удержание на 30-й день будет занижено не из-за поведения, а из-за неполного окна наблюдения и эффекта правостороннего цензурирования. Корректнее дождаться полного горизонта или сравнивать когорты одинакового возраста.

Question 3

В воронке покупки: шаг 1 = `view_product`, шаг 2 = `add_to_cart`, шаг 3 = `purchase`. Часть пользователей покупает через `buy_now` и не делает `add_to_cart`. Что правильнее сделать, чтобы воронка отражала реальный путь и шаговая конверсия была интерпретируема?

Accepted Answer

Определение шагов воронки должно соответствовать реальным путям пользователя, иначе шаговая конверсия вводит в заблуждение. Текущая воронка измеряет путь через корзину, поэтому пользователи `buy_now` не обязаны проходить шаг 2. В результате воронка будет недооценивать часть покупок и смещать интерпретацию «узкого места». Правильнее явно учесть альтернативный путь: отдельной воронкой или шагом `start_checkout`, который покрывает оба сценария и даёт корректную шаговую конверсию.

Question 4

Вы считаете уникальных пользователей, воронку и удержание по `device_id`, но один человек может пользоваться двумя устройствами. Какое искажение наиболее вероятно?

Accepted Answer

Неверный идентификатор пользователя завышает число уникальных пользователей, искажает когорты и расчёты удержания. Если один человек использует два значения `device_id`, то он будет посчитан как два разных пользователя. Это раздувает знаменатель, меняет размеры когорты и влияет на пошаговую конверсию и удержание. Для аналитики обычно используют единый идентификатор `user_id` или объединяют устройства в одного пользователя по правилам. Версии «никакого искажения», «только сдвиг даты» или «убрать дедупликацию» либо игнорируют проблему, либо ухудшают её, добавляя ещё больше шума в расчёты.

Question 5

В отчёте по воронке общая конверсия шага выросла, но в разрезе по каждому каналу трафика она снизилась. Какое объяснение наиболее вероятно и что стоит проверить?

Accepted Answer

Противоречие между общим результатом и сегментами часто объясняется смещением состава и парадоксом Симпсона. Общий показатель — это смесь сегментов, и он может расти, если увеличилась доля канала с более высокой базовой конверсией. При этом внутри каждого канала метрика может падать. Проверьте распределение пользователей по каналам в шаге 1 и сравнивайте сегменты на одинаковых весах либо отдельно по каждому каналу.

Воронки и когортные рассуждения: вопросы для собеседования (часть 4)

Вопросы 16–20 из 20

Хотите тренировать интерактивно?

Другие темы: Логика