Question 1

В `A/A test` вы заметили значимое отличие по `invariant metrics`, например по числу пользователей, попавших в эксперимент, или по распределению платформ. Что это чаще всего означает?

Accepted Answer

Отклонение `invariant metrics` в `A/A test` обычно сигнализирует о проблеме в данных или рандомизации. `Invariant metrics` должны оставаться одинаковыми, потому что продукт и логика одинаковы в обоих вариантах. Если они различаются, значит, в группы попали разные типы пользователей или часть данных теряется несимметрично. В этом случае лучше остановиться и починить разбиение/трекинг до запуска настоящего A/B.

Question 2

Вы обнаружили `SRM` (Sample Ratio Mismatch): фактическое распределение трафика 47/53 вместо ожидаемых 50/50, и тест на `sample ratio mismatch` показывает сильную значимость. Какой следующий шаг наиболее полезен для диагностики?

Accepted Answer

При `SRM` (Sample Ratio Mismatch) важно локализовать источник перекоса: разрезы + проверка всей цепочки assignment обычно дают самый быстрый сигнал. Сам факт `SRM` (Sample Ratio Mismatch) говорит, что что-то пошло не так с трафиком или включением в эксперимент. Разрезы по платформам и версиям часто быстро показывают, где перекос сильнее всего, а значит — где искать причину. Параллельно важно проверить, что ключ assignment одинаков на всех шагах и что фильтры включения не зависят от варианта.

Question 3

В середине эксперимента команда изменила схему события и обновила логику подсчёта метрики, не зафиксировав версию. Какой подход к исправлению наиболее корректен?

Accepted Answer

Изменение определения метрики без версионирования делает сравнение некорректным и требует унификации расчёта. Если метрика считалась по-разному в разные дни или в разных вариантах, вы сравниваете не одно и то же. В таких случаях нужно зафиксировать определение (версию) и пересчитать результаты единообразно для всего периода. Если пересчёт невозможен или смешение слишком сильное, честнее перезапустить эксперимент после исправления `logging`.

Question 4

Какое поведение p-value вы ожидаете увидеть в корректном `A/A test`, если проводить много независимых прогонов?

Accepted Answer

В корректном `A/A test` p-value должен вести себя как при отсутствии эффекта, без систематического смещения. Если статистика и данные корректны, `A/A test` имитирует ситуацию без эффекта. Тогда при уровне значимости 0.05 примерно 5% прогонов могут случайно показать «значимость» — это ожидаемо. Если значимых результатов намного больше или они повторяются стабильно, это повод искать проблему в разбиении или `logging`.

Question 5

В целом метрика в варианте B выросла, но в разрезе iOS и Android она падает в обоих сегментах. Что это чаще всего подсказывает и что стоит проверить?

Accepted Answer

Противоречие между общим эффектом и эффектами в сегментах часто означает смещение состава или некорректную агрегацию. Если доли сегментов в вариантах отличаются, общий результат может быть «искусственным» за счёт перераспределения аудитории. В таких случаях важно проверить распределение платформ, источников трафика и других ключевых признаков, а также убедиться, что метрики агрегируются одинаково. Иногда помогает стратификация или анализ по заранее заданным сегментам. Это может быть проявлением эффекта смешения (например, парадокса Симпсона).

QA, SRM и раскатка: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: A/B-тесты