Сегментация в A/B-тестах на собеседовании
Зачем анализировать сегменты
Общий результат A/B-теста — это среднее по всем пользователям. Но средний эффект может маскировать важные различия: новая фича повышает конверсию десктопных пользователей на 10% и снижает мобильных на 5%. В среднем — +2%, но решение «раскатить на всех» навредит мобильной аудитории.
На собеседовании вопросы про сегментацию проверяют, понимает ли кандидат ограничения среднего эффекта и умеет ли корректно работать с подгруппами. Это тема middle-senior уровня, и ошибки здесь особенно показательны.
Post-hoc анализ сегментов
Post-hoc сегментация — это разбивка результатов теста по подгруппам после завершения эксперимента. Типичные срезы: платформа, страна, новые vs старые пользователи, источник трафика.
Когда полезно. Post-hoc анализ помогает понять, для кого эффект сильнее, и генерирует гипотезы для будущих тестов. Если изменение работает только для нового трафика — возможно, старые пользователи привыкли к текущему интерфейсу.
Когда опасно. Если вы нарезаете данные на 20 сегментов и ищете значимость в каждом — вы гарантированно найдёте «эффект» даже при отсутствии реального влияния. Это классическая проблема множественных сравнений.
Post-hoc анализ сегментов — это инструмент генерации гипотез, а не принятия решений. Если вы нашли сегмент с аномально сильным эффектом, проверьте его в отдельном тесте.
Проблема множественных сравнений
При alpha = 0.05 и одном тесте вероятность ложноположительного результата — 5%. Но если вы проверяете 10 сегментов — вероятность хотя бы одного ложного срабатывания возрастает до 40%. При 20 сегментах — 64%.
Коррекция Бонферрони. Самый простой метод: делите alpha на количество сравнений. При 10 сегментах порог становится 0.005 вместо 0.05. Надёжно, но консервативно — реальные эффекты можно пропустить.
FDR (False Discovery Rate). Метод Бенджамини-Хохберга контролирует долю ложных открытий среди всех значимых результатов. Менее консервативен, чем Бонферрони, и лучше подходит для множественных сегментов.
Практика. На собеседовании достаточно упомянуть проблему и знать оба метода коррекции. Важнее — не делать вид, что post-hoc находка — это окончательный результат.
Стратифицированная рандомизация
Стратификация — это планирование сегментного анализа до начала теста. Вы определяете ключевые сегменты заранее и обеспечиваете их пропорциональное представительство в каждой группе.
Как работает. Пользователи делятся на страты (например, мобильные/десктоп), и рандомизация происходит внутри каждой страты. Это гарантирует, что в контроле и тесте одинаковая доля мобильных пользователей.
Преимущества. Снижает дисперсию между группами, повышает чувствительность и позволяет корректно анализировать заранее определённые сегменты без штрафа за множественные сравнения (pre-registered subgroups).
Ограничения. Количество страт должно быть небольшим (2-5 признаков). Слишком мелкие страты не дают статистической мощности внутри сегмента.
Heterogeneous Treatment Effects (HTE)
HTE — это разница в эффекте изменения между подгруппами пользователей. На senior-собеседованиях могут спросить, как обнаружить и оценить HTE.
Causal Forest. Машинно-обучаемый метод обнаружения HTE. Строит дерево решений, оптимизируя не предсказание метрики, а различие в эффекте между подгруппами. Хорош для exploration, но требует большой выборки.
Uplift-модели. Предсказывают индивидуальный эффект воздействия. Применяются в маркетинге для таргетирования: показывать акцию только тем, на кого она влияет положительно.
Практический подход. Определите 3-5 ключевых сегментов до начала теста (pre-registration). Анализируйте их как основные, а остальные — как exploratory. Это даёт статистическую корректность и бизнес-ценность.
Типичные вопросы на собеседовании
- «Тест не значим в среднем, но значим в одном сегменте. Что делать?» — проверить коррекцию на множественные сравнения, оценить бизнес-значимость, запустить отдельный тест для этого сегмента
- «Как определить, для кого работает фича?» — стратификация до теста, post-hoc анализ с коррекцией, HTE-модели для exploration
- «Зачем стратифицировать, если рандомизация и так случайная?» — снижение дисперсии и возможность корректного сегментного анализа
Умение работать с сегментами — это умение отличать сигнал от шума в данных. Интервьюер оценивает не глубину знания методов, а способность не обмануть себя ложными паттернами.
FAQ
Сколько сегментов можно проверять без коррекции?
Только заранее определённые (pre-registered) сегменты, включённые в дизайн эксперимента. Обычно это 1-3 ключевых среза. Всё остальное — exploratory анализ, результаты которого требуют подтверждения в отдельном тесте или коррекции на множественность.
Что если эффект противоположен в разных сегментах?
Это называется Simpson's paradox. Общий эффект может быть положительным, отрицательным или нулевым при разнонаправленных эффектах в сегментах. Решение: анализировать сегменты отдельно и принимать решение с учётом бизнес-контекста — возможно, раскатывать нужно не на всех.
Как объяснить бизнесу, что post-hoc находка ненадёжна?
Используйте аналогию: «Если подбросить монету 20 раз и каждый раз проверять разные гипотезы, одна из них окажется "подтверждённой" случайно». Предложите конкретный план: подтвердить находку в отдельном тесте на целевом сегменте — это займёт меньше времени, чем полный тест.