Интерпретация результатов A/B-теста на собеседовании
Почему интерпретация важнее расчётов
Посчитать p-value — техническая задача, с которой справится любой калькулятор. Интерпретировать результат и принять решение — аналитическая задача, которая требует понимания бизнеса, статистики и здравого смысла. На собеседовании именно этот навык отделяет сильных кандидатов от средних.
Интервьюер может дать готовые результаты теста и спросить: «Что вы рекомендуете?» Ответ «p-value < 0.05, значит раскатываем» — слабый. Сильный ответ включает анализ размера эффекта, проверку guardrail-метрик, оценку рисков и чёткую рекомендацию с обоснованием.
Статистическая vs практическая значимость
Статистическая значимость означает, что наблюдаемый эффект вряд ли объясняется случайностью. При большой выборке статистически значимым может быть изменение конверсии на 0.01 п.п. — слишком маленькое, чтобы влиять на бизнес.
Практическая значимость — это бизнес-ценность эффекта. Рост конверсии на 0.5 п.п. при базовой 3% — это +17% относительно. Для e-commerce с миллионом транзакций — миллионы рублей в год. Для маленького сервиса — несколько заказов.
Четыре сценария:
- Значим статистически и практически — раскатываем. Проверяем guardrail-метрики и принимаем решение
- Значим статистически, незначим практически — не раскатываем. Эффект есть, но слишком мал для бизнеса. Ресурсы на поддержку фичи не окупятся
- Незначим статистически, но эффект в направлении гипотезы — нужен анализ. Возможно, не хватило мощности. Посмотреть на доверительный интервал
- Незначим статистически, эффект около нуля — не раскатываем. Фича не работает
Решение по A/B-тесту — это не бинарный ответ «значимо/не значимо». Это оценка баланса между размером эффекта, уверенностью в результате и бизнес-контекстом.
Что делать с пограничным результатом
Пограничный результат — p-value близко к 0.05 (например, 0.06 или 0.04). Это самый сложный случай, и именно его чаще всего обсуждают на собеседованиях.
Посмотрите на доверительный интервал. Если CI для эффекта полностью выше нуля — уверенность в направлении эффекта высокая, даже если p-value чуть выше 0.05. Если CI включает и положительные, и отрицательные значения — данных недостаточно.
Оцените размер эффекта. Если точечная оценка эффекта большая и бизнес-значимая, а p-value = 0.06 — стоит рассмотреть продление теста. Если эффект маленький и p-value = 0.04 — это скорее шум, пойманный на границе.
Проверьте вторичные метрики. Если основная метрика пограничная, но смежные метрики показывают согласованное улучшение — уверенность в результате возрастает. Если вторичные метрики противоречат — повод для сомнений.
Не делите alpha на 0.05. Разница между p = 0.04 и p = 0.06 статистически несущественна. Если ваше решение кардинально меняется при сдвиге на 0.02 — у вас недостаточно данных или неправильно выбран MDE.
Как принимать решение
Стоимость ошибок. Оцените, что хуже: раскатить неработающую фичу (ложноположительный результат) или не раскатить работающую (ложноотрицательный). Для рискованных изменений (платёжный флоу) порог должен быть строже. Для косметических — можно быть менее консервативным.
Guardrail-метрики. Даже при значимом улучшении основной метрики проверьте, что не ухудшились критически важные показатели: время загрузки, конверсия в регистрацию, retention. Рост CTR при падении retention — плохой trade-off.
Сегменты. Общий результат может скрывать разнонаправленные эффекты в сегментах. Проверьте ключевые срезы, но помните о проблеме множественных сравнений.
Документация решения. Зафиксируйте результат, обоснование и альтернативы. Это помогает в будущем при анализе серии тестов и показывает зрелость аналитического процесса.
Типичные вопросы на собеседовании
- «p-value = 0.03, uplift = 0.1%. Раскатываем?» — нет, эффект статистически значим, но практически ничтожен. Стоимость поддержки фичи превысит выигрыш
- «Тест незначим, но PM хочет раскатить. Что скажете?» — покажите CI, объясните риски. Предложите продлить тест или изменить подход. Не блокируйте решение, но дайте объективную оценку
- «Как вы определяете, что тест "провалился"?» — тест не проваливается, он даёт информацию. Незначимый результат — тоже результат: гипотеза не подтвердилась при данном MDE
Как готовиться
Разберите 5-7 кейсов с разными комбинациями: значимый/незначимый, большой/маленький эффект, чистые/противоречивые guardrails. Для каждого сформулируйте рекомендацию с обоснованием. На собеседовании ценится структура рассуждения, а не конкретный ответ.
Лучший ответ на вопрос «раскатываем?» начинается не с «да» или «нет», а с «давайте посмотрим на размер эффекта, доверительный интервал и guardrail-метрики».
FAQ
Можно ли продлить тест, если результат пограничный?
Можно, но только если это было предусмотрено в дизайне (sequential testing) или вы пересчитываете размер выборки для нового MDE. Просто «подождать ещё неделю» — это peeking, который раздувает ошибку первого рода. Корректный путь — зафиксировать текущий результат как inconclusive и запланировать follow-up тест.
Что важнее: p-value или размер эффекта?
Размер эффекта. P-value отвечает на вопрос «есть ли эффект вообще?», а размер эффекта — «стоит ли он того?». На практике решения принимаются на основе комбинации: CI, размер эффекта, guardrails, бизнес-контекст. p-value — лишь один из сигналов.
Как объяснить незначимый результат бизнесу?
Избегайте формулировки «тест не показал ничего». Скажите: «С вероятностью 80% эффект меньше X%. Это значит, что даже если фича работает, её влияние слишком мало для нашего бизнеса». Переведите статистику в бизнес-термины: деньги, пользователи, время.