Question 1

Эксперимент рассчитан только на новых пользователей. Критерий «новый пользователь» пересчитывается каждый день из-за особенностей `ETL`, и часть пользователей может внезапно перестать удовлетворять этому критерию в середине эксперимента. Какой риск самый существенный и как его снизить?

Accepted Answer

Сегмент, зависящий от времени или данных после старта, может привести к выборочной потере пользователей и несопоставимости групп. Если пользователь может внезапно перестать удовлетворять критерию, вы фактически меняете состав выборки по ходу эксперимента. Это может происходить неодинаково в тестовой и контрольной группах, особенно если продуктовые изменения влияют на события, из которых строится сегмент. В результате сравнение становится смещённым и плохо интерпретируемым. Надёжный приём — фиксировать принадлежность к сегменту на момент назначения по `user_id` и анализировать по этому фиксированному признаку.

Question 2

Эксперимент меняет алгоритм распределения заказов между курьерами. Курьеры обслуживают сразу нескольких пользователей, и решение для одного заказа влияет на время доставки других. Какой подход к рандомизации чаще всего лучше уменьшит взаимное влияние групп?

Accepted Answer

При сильной взаимосвязи через общие ресурсы помогает рандомизация на уровне кластера, чтобы взаимодействия оставались внутри кластеров. Если один курьер одновременно обслуживает тестовую и контрольную группы, изменения в маршрутизации и очередях будут влиять на обе группы. Это приводит к перетеканию эффекта и нарушению предпосылок независимости. Рандомизация по кластеру, связанному с общим ресурсом (зона, смена, склад), уменьшает смешивание вариантов. Цена такого решения — меньшая статистическая мощность, потому что независимых наблюдений становится меньше.

Question 3

Ожидаемое разбиение — 50/50. По логам экспозиций видно `N_treat / N_control = 1.30`. Какой вывод и следующий шаг наиболее корректны?

Accepted Answer

Заметный перекос `N_treat / N_control` часто сигнализирует `SRM` (Sample Ratio Mismatch) и требует проверки механики назначения и учета экспозиций. `SRM` (Sample Ratio Mismatch) означает, что фактическое распределение по группам отличается от ожидаемого сильнее, чем можно объяснить случайностью. Причина может быть в баге `bucketing` (разбивка пользователей на группы), в некорректных фильтрах (например, разные условия попадания в лог экспозиции) или в проблемах идентификации. Правильный шаг — сверить распределение на уровне факта назначения и отдельно на уровне экспозиций, а также проверить `SRM` (Sample Ratio Mismatch) внутри ключевых сегментов. До выяснения причин интерпретировать эффект опасно.

Question 4

Из-за взаимного влияния пользователей вы решили рандомизировать по кластеру (например, по магазину), а не по `user_id`. Что обычно происходит с точностью оценки эффекта при том же количестве пользователей?

Accepted Answer

Кластерная рандомизация уменьшает эффективный размер выборки, потому что наблюдения внутри одного кластера коррелируют между собой. При рандомизации по кластеру независимых единиц становится меньше, даже если пользователей много. Поведение внутри одного магазина или зоны обычно похоже, поэтому добавление новых пользователей внутри того же кластера даёт меньше новой информации. Это увеличивает дисперсию оценки и требует либо больше кластеров, либо более долгого теста. Кластерная рандомизация часто неизбежна при взаимном влиянии пользователей, но её нужно учитывать в ожиданиях по мощности.

Question 5

Назначение групп 50/50 по `user_id` корректно, но в лог экспозиции попадает только событие `page_render`. В тестовой группе страница грузится медленнее, и часть пользователей уходит до `page_render`, поэтому в логах экспозиции виден перекос соотношения. Какой фикс наиболее правильный?

Accepted Answer

`SRM` (Sample Ratio Mismatch) часто возникает из-за разных путей логирования между вариантами, поэтому событие учёта экспозиции должно быть согласованным. Если экспозиция фиксируется только после `page_render`, варианты с более высокой задержкой не попадают в лог. Назначение может быть корректным, но анализ по экспозициям даст перекошенную выборку и потенциально смещённую оценку эффекта. Лучшее решение — разделить события назначения и экспозиции или сделать определение экспозиции одинаковым для контрольной и тестовой групп. После фикса полезно пересчитать `SRM` и убедиться, что перекос исчез.

Дизайн эксперимента и рандомизация: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты