30 вопросов по A/B-тестам для собеседования аналитика
Почему A/B-тесты так важны на собеседованиях
A/B-тестирование — один из ключевых навыков продуктового и data-аналитика. На собеседованиях вопросы по A/B-тестам проверяют понимание статистики, умение проектировать эксперименты и интерпретировать результаты.
Ниже — 30 вопросов, которые реально задают на собеседованиях в Яндекс, Тинькофф, Ozon, VK и другие компании. Вопросы разбиты по темам и уровню сложности.
Основы (Junior)
1. Что такое A/B-тест?
Метод сравнения двух вариантов (A — контроль, B — тест) на случайных группах пользователей. Цель — определить, какой вариант лучше по выбранной метрике, и убедиться, что разница не случайна.
2. Зачем нужна контрольная группа?
Без контрольной группы невозможно понять, вызвано ли изменение метрики вашим вмешательством или внешними факторами (сезонность, маркетинговые акции, технические сбои).
3. Что такое нулевая и альтернативная гипотеза?
Нулевая гипотеза (H0): разницы между группами нет. Альтернативная (H1): разница есть. Цель теста — собрать достаточно данных, чтобы отвергнуть H0 или не отвергнуть её.
4. Что такое p-value?
Вероятность получить такую же или более экстремальную разницу между группами, если на самом деле разницы нет (H0 верна). Если p-value < 0.05, разницу считают статистически значимой. Подробнее: p-value простыми словами.
5. Что такое уровень значимости (alpha)?
Порог, при котором мы отвергаем H0. Обычно alpha = 0.05 (5%). Это значит, что мы готовы принять 5% риск ложноположительного результата.
6. Чем отличается ошибка I рода от ошибки II рода?
Ошибка I рода (false positive): отвергли H0, хотя она верна. Решили, что изменение работает, а на самом деле нет. Ошибка II рода (false negative): не отвергли H0, хотя она ложна. Пропустили реальный эффект.
7. Что такое мощность теста (power)?
Вероятность обнаружить реальный эффект, если он существует. Стандартная мощность = 80%. Power = 1 - P(ошибка II рода).
Дизайн экспериментов (Middle)
8. Как рассчитать размер выборки для A/B-теста?
Зависит от четырёх параметров: текущая конверсия, минимальный детектируемый эффект (MDE), уровень значимости (alpha) и мощность (power). Формула основана на z-статистике для пропорций. На практике используют калькуляторы или statsmodels.stats.power.
9. Что такое MDE (Minimum Detectable Effect)?
Минимальный размер эффекта, который мы хотим обнаружить. Чем меньше MDE, тем больше нужна выборка. Бизнес определяет MDE: «нас интересует рост конверсии на 5% относительных или больше».
10. Как выбрать метрику для A/B-теста?
Хорошая метрика: чувствительна к изменениям, понятна бизнесу, не подвержена шуму. Избегайте составных метрик (revenue per user = конверсия × средний чек — если одна растёт, а другая падает, метрика может не измениться).
11. Что такое guardrail-метрики?
Метрики, которые не должны ухудшиться в результате эксперимента. Например, тестируем новый checkout → основная метрика: конверсия в покупку, guardrail: время загрузки страницы, процент ошибок. Подробнее: guardrail-метрики.
12. Как рандомизировать пользователей?
Обычно по user_id через хеш-функцию: hash(user_id + salt) % 100. Если значение < 50 → группа A, иначе → группа B. Salt меняется для каждого эксперимента, чтобы пересечения не влияли.
13. Можно ли запускать несколько A/B-тестов одновременно?
Да, если тесты затрагивают разные части продукта. Если тесты пересекаются по аудитории и метрикам — возможна интерференция. Решение: ортогональная рандомизация (разные salt для разных тестов).
14. Что такое AA-тест и зачем он нужен?
A/A-тест — эксперимент без изменений (обе группы видят одинаковый вариант). Проверяет корректность системы сплитования и метрик. Если AA-тест показывает значимую разницу — проблема в инфраструктуре.
Статистика (Middle–Senior)
15. Какой тест использовать для сравнения конверсий?
Z-тест для пропорций (при больших выборках) или точный тест Фишера (при маленьких). Для непрерывных метрик (средний чек, время на сайте) — t-тест или Mann-Whitney U.
16. Что такое множественные сравнения и как с ними бороться?
Если тестируете 20 метрик с alpha = 0.05, ожидайте 1 ложноположительный результат. Решения: поправка Бонферрони (alpha / число метрик), FDR (Benjamini-Hochberg), или разделение метрик на основные и guardrail. Подробнее: поправка на множественное сравнение.
17. Что такое подглядывание (peeking) и почему это проблема?
Проверка результатов теста до набора нужной выборки. При множественных проверках p-value «случайно» может стать < 0.05, и вы остановите тест на ложноположительном результате. Решение: фиксировать размер выборки заранее или использовать sequential testing.
18. Что такое CUPED?
Метод снижения дисперсии метрики за счёт данных до эксперимента. Если метрика сильно коррелирует с пре-периодом (например, DAU прошлой недели), CUPED вычитает эту корреляцию и повышает чувствительность теста на 30–50%. Подробнее: CUPED.
19. Что такое стратификация в A/B-тестах?
Разделение аудитории на страты (например, по стране или платформе) перед рандомизацией. Гарантирует, что в каждой группе одинаковое распределение по важным признакам. Уменьшает дисперсию. Подробнее: стратификация в A/B-тестах.
20. Когда использовать бутстреп вместо z-теста?
Когда метрика не подчиняется нормальному распределению (например, revenue per user — сильно скошена). Бутстреп не требует предположения о нормальности, но вычислительно дороже.
Интерпретация результатов (Middle–Senior)
21. P-value = 0.06. Что делать?
Нельзя просто округлить до «значимо». Варианты: (1) продолжить тест с большей выборкой, (2) посмотреть на размер эффекта — если он бизнесово значим, можно принять риск, (3) проверить на подсегментах.
22. Тест показал рост конверсии, но падение revenue. Как быть?
Возможная причина: больше мелких покупок, но меньше крупных. Нужно посмотреть на распределение чеков в обеих группах. Решение зависит от бизнес-контекста: что важнее — количество покупок или выручка?
23. Можно ли доверять результату теста на выборке 200 человек?
Зависит от размера эффекта. Для обнаружения роста конверсии с 5% до 6% (20% относительных) нужно ~16 000 пользователей. Для роста с 5% до 10% (100% относительных) — ~300. При маленькой выборке можно обнаружить только очень большие эффекты.
24. Как объяснить результаты A/B-теста продакт-менеджеру?
Без статистического жаргона: «Мы проверили новый дизайн на 10 000 пользователях. Конверсия выросла на 8% (с 3.2% до 3.5%). Мы уверены на 95%, что это не случайность. Рекомендую раскатить на всех». Избегайте: «p-value ниже alpha при двустороннем z-тесте».
25. Эффект новизны — что это и как учитывать?
Пользователи могут реагировать на новый вариант просто потому, что он новый (novelty effect). Через 1–2 недели эффект пропадает. Решение: запускать тест минимум на 2 недели и проверять, стабилен ли эффект по дням.
Практические кейсы (Senior)
26. Как провести A/B-тест, если аудитория маленькая?
Увеличить MDE (искать только большие эффекты), использовать CUPED для снижения дисперсии, выбрать более чувствительную метрику, или перейти к байесовскому подходу, который лучше работает на малых выборках.
27. Как тестировать изменения в алгоритме рекомендаций?
Особенности: (1) эффект может проявляться с задержкой, (2) метрики — CTR рекомендаций, долгосрочный engagement, (3) важно учитывать network effects, (4) часто нужна стратификация по сегментам пользователей.
28. Что делать, если A/B-тест невозможен?
Альтернативы: diff-in-diff (сравнение до/после с контрольной группой), прерванные временные ряды, causal impact, synthetic control. Все эти методы слабее рандомизированного эксперимента, но лучше, чем ничего.
29. Как тестировать ценообразование?
Сложно: разные цены для разных пользователей могут вызвать негатив. Решения: тестировать на новых пользователях, тестировать скидки вместо повышения, использовать гео-тесты (разные цены в разных регионах).
30. Как устроена инфраструктура A/B-тестирования в крупных компаниях?
Обычно: (1) система рандомизации (Experiment Platform), (2) хранилище метрик (ClickHouse, BigQuery), (3) статистический движок (автоматический расчёт p-value, CI, MDE), (4) дашборд с результатами. В Яндексе — свой внутренний инструмент, в Ozon — AirLab, в Тинькофф — аналогичная платформа.
Как готовиться
- Разберитесь в основах статистики: проверка гипотез, p-value
- Выучите продвинутые методы: CUPED, стратификация
- Знайте типичные ошибки: ошибки в A/B-тестах
- Практикуйтесь на вопросах в тренажёре и по примерам
Читайте также
- A/B-тестирование на собеседовании
- Ошибки в A/B-тестах
- CUPED: снижение дисперсии
- P-value простыми словами
- Статистика на собеседовании аналитика
FAQ
Сколько вопросов по A/B-тестам задают на собеседовании?
Обычно 3–5 вопросов, от базовых (что такое p-value) до кейсовых (как протестировать новую фичу). На позицию продуктового аналитика — больше, на аналитика данных — меньше.
Нужно ли уметь считать вручную?
Формулы z-теста и размера выборки стоит знать. Но на собеседовании важнее понимание: когда какой тест использовать, как интерпретировать результаты, какие ошибки бывают. Калькулятор — это нормально.
Какие книги/ресурсы рекомендуете?
«Trustworthy Online Controlled Experiments» (Kohavi, Tang, Xu) — библия A/B-тестирования. На русском — статьи на Habr про A/B в Яндексе и Тинькофф. Для практики — задачи в Карьернике.
На каких языках/инструментах нужно уметь считать A/B-тесты?
Python (scipy.stats, statsmodels) — основной инструмент. SQL — для выгрузки данных эксперимента. Excel — для быстрых калькуляций. Знание R — плюс, но не обязательно.
Потренируйтесь отвечать на вопросы по A/B-тестам — откройте тренажёр с вопросами по статистике и экспериментам.