Вопросы по теме «QA, SRM и раскатка»
SRM (Sample Ratio Mismatch) — один из главных диагностических инструментов: если группы разъехались по размеру, результатам эксперимента нельзя доверять. На собеседовании спрашивают, как обнаружить SRM, какие причины за ним стоят и как безопасно раскатывать изменения после успешного теста.
Всего в этом разделе 20 вопросов. Каждый — с правильным ответом и кратким разбором теории. Разбито на 4 части по 5 вопросов.
Вопросы 1–5 из 20
1Команда готовит крупный A/B‑эксперимент и хочет сначала запустить `A/A test`. Какова главная цель `A/A test`?
AПроверить, что разбиение, сбор метрик и аналитический пайплайн не создают ложных различий между одинаковыми вариантами
BПовысить конверсию за счёт того, что пользователи видят новую фичу дважды
CСразу выбрать победителя без статистики и доверительных интервалов
DУменьшить `SRM` (Sample Ratio Mismatch), добавив третий вариант
Ответ: `A/A test` используют, чтобы проверить корректность рандомизации, сбора событий и расчёта метрик до запуска настоящего A/B.
В `A/A test` оба варианта логически одинаковые, поэтому существенных различий в метриках быть не должно. Если различия появляются, это часто указывает на проблемы с разбиением трафика, сегментацией или подсчётом метрик. Такой тест помогает поймать ошибки до запуска настоящего A/B, где иначе можно принять баг за эффект.
2Что такое `SRM` (Sample Ratio Mismatch) (`sample ratio mismatch`) в контексте экспериментов?
AСитуация, когда средние значения метрик в вариантах отличаются сильнее ожидаемого
BОтклонение фактических долей трафика по вариантам от ожидаемого распределения
CСезонный эффект, который делает результаты нерепрезентативными
DСлучай, когда p-value слишком маленький из-за большой выборки
Ответ: `SRM` (Sample Ratio Mismatch) означает, что в эксперимент попали не те доли пользователей, которые планировались.
Обычно в эксперименте ожидают распределение вроде 50/50 или 90/10, но фактически получают другое. Это может быть из-за ошибок в assignment, фильтров, сбоев трекинга или особенностей доставки фичи. `SRM` (Sample Ratio Mismatch) опасен тем, что группы могут стать несопоставимыми, и выводы по эффекту перестают быть надёжными.
3Команда смотрит результаты каждый день и останавливает эксперимент, как только видит p-value < 0.05. Какой основной риск такого подхода?
AРиск `SRM` (Sample Ratio Mismatch) автоматически возрастает с каждым просмотром дашборда
BУвеличивается вероятность ложноположительных выводов из-за множественных проверок без правил остановки
CНевозможно посчитать среднее значение метрики без полного месяца данных
DЭксперимент всегда покажет нулевой эффект, если проверять часто
Ответ: Частые проверки и остановка «как только стало значимо» (optional stopping) увеличивают риск ложноположительных выводов без корректного sequential-дизайна.
Если останавливать тест при первом «красивом» p-value, вы фактически делаете много попыток найти значимость. Это ведёт к завышенной доле ложноположительных результатов и нестабильным решениям. Лучше заранее определить длительность, критерии остановки или использовать корректные последовательные методы.
4Почему `SRM` (Sample Ratio Mismatch) опасен, даже если целевая метрика выглядит хорошей?
A`SRM` (Sample Ratio Mismatch) влияет только на графики, но не влияет на статистику
BПри `SRM` (Sample Ratio Mismatch) можно просто пересчитать p-value, и проблема исчезнет
C`SRM` (Sample Ratio Mismatch) всегда означает, что эксперимент выиграл вариант B
D`SRM` (Sample Ratio Mismatch) может означать несопоставимые группы и смещение оценки эффекта, поэтому выводы по A/B становятся ненадёжными
Ответ: `SRM` (Sample Ratio Mismatch) нарушает предпосылку корректного сравнения групп и может смещать оценку эффекта.
Если группы не соответствуют ожидаемому разбиению, это часто значит, что в эксперимент попали разные типы пользователей или часть трафика/событий пропала. Тогда даже «красивый» эффект может быть артефактом. Поэтому при обнаружении `SRM` (Sample Ratio Mismatch) обычно сначала чинят причину и только потом доверяют результатам.
5В первые сутки эксперимента метрика выросла на 12%, но через 3 дня рост исчез и эффект стал около 0. Какое объяснение наиболее вероятно и что делать дальше?
AЭто похоже на `novelty effect` (эффект новизны); стоит смотреть результаты на более длинном горизонте и проверять устойчивость по когортам
BРост в первый день доказывает успех; нужно срочно делать rollout на 100%
CЭто обязательно `SRM`; нужно только пересчитать тест на `sample ratio mismatch`
DЭто означает, что эксперимент «сломался»; любые данные после первого дня нужно выбросить
Ответ: Краткосрочный всплеск может быть из-за `novelty effect` (эффект новизны) и/или календарных факторов, поэтому важно проверять устойчивость эффекта на более длинном горизонте.
Пользователи могут активно взаимодействовать с новой фичей из любопытства, но затем возвращаются к прежнему поведению. Поэтому важно смотреть не только быстрый рост, но и устойчивость эффекта на неделе или дольше, а также разрезы по новым/старым пользователям. Если долгосрочного эффекта нет, выкатка может не принести реальной пользы.
Хотите тренировать интерактивно?
В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.
Тренировать в Telegram