Question 1

Эксперимент длился 2 дня и пришёлся только на выходные, а в будни поведение заметно другое. Какой риск наиболее важен?

Accepted Answer

Короткий тест на «особые» дни может быть искажен `seasonality` и плохо переноситься на другие периоды. В выходные меняется состав трафика и сценарии использования, поэтому эффект может отличаться от будней. Это и есть риск `seasonality`: вы измеряете не только влияние фичи, но и календарный контекст. Обычно эксперимент планируют так, чтобы покрыть типичный цикл (например, неделю) или как минимум сопоставимые дни недели.

Question 2

Когда `A/B test` обычно предпочтительнее, чем сразу делать полный `rollout` изменения?

Accepted Answer

`A/B test` полезен, когда вы можете рандомизировать `control/treatment` и до `rollout` проверить эффект и риски. Полный `rollout` без проверки увеличивает риск выкатить ухудшение и долго его искать. `A/B test` позволяет изолировать эффект изменения и проверить, что `primary metric` улучшается без провала по `guardrail metric`. Сравнение с прошлым месяцем часто смешивает эффект фичи с `seasonality` и другими внешними изменениями.

Question 3

Вы увеличиваете частоту push-уведомлений, ожидая рост заказов. Какая метрика наиболее уместна как `guardrail metric`?

Accepted Answer

`guardrail metric` защищает от ухудшения опыта пользователя и рисков, даже если `primary metric` растёт. Увеличение push часто повышает краткосрочные метрики, но может раздражать пользователей. Поэтому важно контролировать `guardrail metric`, которая отражает негативный опыт: отключения уведомлений, жалобы, отписки. Количество отправок и открытий — это скорее механика и промежуточные показатели, а не ограничение риска.

Question 4

Какой подход к остановке эксперимента лучше всего снижает риск `peeking` (подглядывания) и спорных выводов?

Accepted Answer

Чтобы снизить риск `peeking`, заранее фиксируют правило остановки и придерживаются его. Если постоянно подглядывать и останавливать по удобному моменту, возрастает шанс принять случайный шум за эффект. Поэтому командно договариваются о длительности, критерии успеха по `primary metric` и ограничениях по `guardrail metric`. Такой процесс делает решение воспроизводимым и снижает вероятность самообмана.

Question 5

Вы планировали сплит 50/50 между `control` и `treatment`, но стабильно видите 62/38 по пользователям. Что это наиболее вероятно и что делать?

Accepted Answer

Сильный перекос сплита часто указывает на `SRM` и требует проверки пайплайна до анализа метрик. `SRM` (sample ratio mismatch) обычно означает проблему с рандомизацией, таргетингом или логированием. При `SRM` группы могут стать несопоставимыми, и эффект по `primary metric` может быть неверным. Правильный шаг — проверить механизм назначения `control/treatment`, фильтры, дедупликацию пользователей и только затем продолжать анализ.

Вопросы по теме «A/B-тесты в продуктовой аналитике»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Продуктовая аналитика