Задачи на A/B-тесты на собеседовании аналитика
Что спрашивают по A/B на собеседовании
A/B-тесты — одна из главных тем для продуктового аналитика. Обычно спрашивают в трёх форматах:
- Теоретические вопросы — что такое p-value, ошибки I/II рода, мощность.
- Кейсы — «у нас тест показал лифт 3%, что делать дальше?».
- Вычислительные задачи — посчитайте размер выборки / мощность / p-value на данных.
Ниже — 15 задач из реальных собесов, по возрастанию сложности. Проверьте себя.
1. Базовая задача на размер выборки
Текущая конверсия 10%. Хотим детектировать эффект +1 п.п. (с 10% до 11%). α=0.05, мощность 80%. Какой размер выборки в каждой группе?
Решение. Формула для двухпропорционного теста:
$$n = \frac{(z_{\alpha/2} + z_\beta)^2 \cdot (p_1(1-p_1) + p_2(1-p_2))}{(p_1 - p_2)^2}$$
С z(0.025)=1.96, z(0.2)=0.84, p1=0.10, p2=0.11:
$$n \approx \frac{(1.96 + 0.84)^2 \cdot (0.09 + 0.0979)}{0.0001} \approx 14,700$$
На группу нужно ~14 700 пользователей. Ответ, который ждут: «порядка 15 тысяч на вариант».
Подробнее — как считать размер выборки для A/B-теста.
2. Sample Ratio Mismatch (SRM)
В тесте 50/50 у вас 52 000 в контроле и 48 200 в тесте. Что не так?
Решение. Проверяем через chi-square или биномиальный тест:
- Ожидаемое распределение: 50 100 / 50 100.
- Наблюдаемое: 52 000 / 48 200.
- Разница 3800 при ожидаемых 100 200 — хи-квадрат даст p-value < 0.001.
Это SRM — сломанная рандомизация. Результаты теста доверять нельзя, пока не найдена причина (баг в сплитере, боты попали в одну группу, фильтрация после сплита). Подробнее — в статье про SRM.
3. Peeking problem
Запустили тест на 2 недели. На пятый день увидели p=0.04, хотим остановиться. Правильно?
Нет. Подглядывание (peeking) и остановка при первом p<0.05 раздувает ложноположительные выше заявленных 5%. После 10 проверок реальная альфа может быть ~20%. Либо:
- Ждём запланированный срок.
- Используем sequential testing (группа методов типа SPRT, Always Valid Inference от Optimizely) — там можно подглядывать.
4. Не значимый результат — что делать?
Прогнали тест 2 недели, p=0.18. Лифт +1.5%. Что скажете продакту?
Правильный ответ структурный:
- Проверить достоверность: SRM нет, guardrail-метрики не просели.
- Посчитать мощность post-hoc: если MDE был задизайнен больше, чем наблюдаемый лифт, результат ожидаем. Значит нужно больше данных.
- Оценить бизнес-логику: что ожидалось? Если реальный эффект действительно мал — продлевать бесполезно.
- Решения: а) продлить тест до нужного N, б) зафиксировать как «нет значимого эффекта», в) если направление согласуется с гипотезой и цена внедрения низкая — принять решение на свой риск.
На собеседовании хотят услышать, что вы не ищете p<0.05 любой ценой и умеете интерпретировать незначимый результат.
5. Guardrail-метрики просели
Основная метрика (конверсия в покупку) +2% значимо. Но время загрузки +300мс, retention D7 −0.5%. Катим?
Нет. Guardrail-метрики — это предохранители. Если критически важная метрика (retention, NPS, скорость) просела — даже победа на основной метрике не стоит того. Возможные варианты:
- Откатить, найти причину, оптимизировать.
- Принять trade-off, если retention просел в пределах noise и бизнес осознанно выбирает краткосрочную конверсию.
Ответ на собесе: никаких катов, если guardrail просел значимо.
Тренироваться на таких вопросах можно в Telegram-боте Карьерник — там 1500+ задач с реальных собесов с разборами.
6. Почему лифт огромный в первые дни?
Запустили тест. Первые 3 дня лифт +15%, к концу недели — +2%. Что происходит?
Два объяснения:
- Novelty effect — новое всегда привлекает внимание, эффект со временем убывает. Подробнее — в статье про novelty effect.
- Primacy effect — наоборот, пользователи привыкли к старому и первое время сопротивляются новому.
На продуктовых командах это лечат запуском на 2+ недели и анализом когорт по дню экспозиции.
7. Кейс: A/A-тест показал p=0.03
В A/A-тесте (обе группы одинаковы) получили p=0.03. Баг?
Не обязательно. При α=0.05 примерно каждый 20-й A/A-тест покажет «значимый» результат — это и есть ошибка I рода. Если у вас 1 из 20 — ок. Если 3 из 10 — баг в сплите или метрике. Подробнее про A/A-тесты.
8. Медиана vs среднее
В тесте средний чек вырос с 1200 до 1300 (p<0.01). Катим?
Сначала смотрим распределение. Если у 99% пользователей чек не изменился, а у 10 китов с чеками ~100 000 вырос — среднее двинулось из-за них. Для таких метрик:
- Смотрим медиану и перцентили (P90, P95).
- Используем Mann-Whitney U вместо t-test.
- Или CUPED для снижения дисперсии.
Классический ответ: «среднее — это удобно, но в тяжёлых хвостах оно врёт». Медиана vs среднее.
9. Стратификация и CUPED
Команда говорит: «нам нужно очень мало данных, давайте CUPED». Что такое CUPED и когда он работает?
CUPED (Controlled Pre-Experiment Data) — метод снижения дисперсии через ковариату из pre-period. Работает, когда pre-period метрика коррелирует с экспериментальной. Формула:
$$Y_{\text{cuped}} = Y - \theta(X - \bar{X})$$
где X — метрика пользователя до эксперимента. При корреляции 0.5 дисперсия падает на ~25%, при 0.7 — на ~50%. Это эквивалентно увеличению выборки в 2 раза.
Когда работает плохо: новые пользователи без pre-period, резкие изменения поведения между периодами.
Подробнее — в статье про CUPED.
10. Расчёт p-value вручную
В контроле 1000 конверсий из 10 000 (10%). В тесте 1100 из 10 000 (11%). p-value?
Z-статистика для двух пропорций:
$$z = \frac{p_2 - p_1}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_1} + \frac{1}{n_2})}}$$
$$\bar{p} = \frac{1000 + 1100}{20,000} = 0.105$$
$$z = \frac{0.01}{\sqrt{0.105 \cdot 0.895 \cdot 0.0002}} = \frac{0.01}{0.00434} \approx 2.30$$
Двусторонний p-value ≈ 0.021 — значимо при α=0.05.
11. Многоруким бандитам vs A/B
В каких случаях мы НЕ должны использовать A/B, а лучше взять многоруких бандитов?
Бандиты хороши, когда:
- Горит время — заголовки новостей, баннеры с истекающим сроком.
- Не нужна статистическая строгость — просто быстро оптимизировать конверсию.
- Много вариантов (5+) — A/B растягивается надолго.
A/B лучше, когда:
- Нужен точный lift для бизнеса / принятия долгосрочных решений.
- Есть guardrail-метрики, которые нужно аккуратно измерить.
- Поведение пользователей может меняться со временем.
Подробнее — многорукие бандиты vs A/B-тест.
12. Много метрик — проблема множественных сравнений
В тесте считаем 20 метрик. У 2 p<0.05. Значимо?
При 20 независимых метриках и α=0.05 в среднем у 1 метрики будет ложноположительный результат. Если значимых 2 — это почти noise.
Решения:
- Поправка Бонферрони — α делится на количество тестов. Для 20 метрик: α=0.0025. Консервативно.
- Поправка Беньямини-Хохберга (BH) — контролирует FDR, мягче Бонферрони.
- Pre-register primary metric — заранее зафиксировать одну главную метрику.
Подробнее про поправку на множественные сравнения.
К слову, набить руку на таких кейсах удобно через тренажёр в Telegram — разбирайте по 10 вопросов в день, через 2 недели тема становится рефлексом.
13. Средний чек вырос, количество заказов упало
В тесте: средний чек +10% (p<0.01), заказов −5% (p<0.05). Выручка?
Выручка = заказы × чек = 0.95 × 1.10 = 1.045. Формально +4.5%, но:
- Значимость выручки нужно проверять отдельно.
- Комбинированные метрики (GMV, revenue per user) ведут себя хуже в t-test — больше шума.
- Внедрение зависит от бизнес-модели: если продукт зарабатывает на LTV, важнее частота заказов, а не чек.
Ответ: «нужно посчитать p-value для выручки напрямую и оценить импакт на long-term метрики».
14. Сегментация результатов теста
Тест показал лифт 0% в среднем. Но по сегментам: +5% на Android, −5% на iOS. Что делать?
Это типичный случай гетерогенного эффекта. В среднем ничего, но есть реальный сигнал:
- Проверить гипотезу — почему на iOS хуже? (баг в верстке, iOS-пользователи консервативнее).
- Sliced rollout — раскатать только на Android.
- Осторожно с post-hoc сегментацией — если копаться во всех разрезах, ошибка I рода растёт. Нужна поправка на множественность или pre-register сегментов.
Подробнее — сегментация в A/B-тестах.
15. Кейс: тест длился месяц, всё отлично, катим на 100%. Через неделю метрика упала
Регресс. Почему?
Варианты:
- Эффект новизны — в тесте работал novelty, после раскатки ушёл.
- Bias в выборке — в тесте были только активные пользователи, на 100% попали спящие.
- Сезонность — условия изменились (праздники, погода, релиз конкурента).
- Внутренняя когорта изменилась — в тестовой группе был перекос.
- Бизнес-процессы — маркетинг перенаправил трафик, и это сбило распределение.
На собесе хотят услышать структурный ответ: проверить эти 5 гипотез по очереди, начиная с самой вероятной для контекста.
Как подготовиться
Задачи по A/B на собеседованиях редко про формулы — чаще про рассуждение. Вас проверяют на ловушки: peeking, SRM, novelty, множественные сравнения, тяжёлые хвосты. Если эти слова вам не говорят ничего — начинайте с них.
Тренажёр Карьерник содержит блок A/B-тестов с реальными задачами из продуктовых команд — от базовой логики до CUPED и sequential testing. Короткие разборы после каждого вопроса позволяют понять, где пробелы.
Совет: на собесе, отвечая на кейс по A/B, используйте структуру «1) проверил бы достоверность, 2) посмотрел бы гард-рейлы и сегменты, 3) принял бы решение с обоснованием». Даже если не знаете точного ответа — такой каркас покажет зрелость.
Читайте также
- Задачи на SQL на собеседовании
- Задачи на вероятность на собеседовании
- Типичные ошибки в A/B-тестах
- Подготовка к собеседованию аналитика
FAQ
Сколько задач по A/B обычно на собеседовании?
От одной теоретической («что такое мощность теста») до трёх кейсовых. В продуктовых компаниях (Яндекс, Wildberries, Avito, Ozon) — целый блок на 30-40 минут: теория + кейс + расчёт. В data-heavy командах могут попросить посчитать размер выборки на листочке.
Нужно ли знать формулы p-value наизусть?
Z-статистику для двух пропорций — да, её спрашивают часто. t-test на память — не обязательно. Главное: понимать смысл p-value (вероятность получить такой или более экстремальный результат при верной H0) и уметь интерпретировать.
Что важнее: знать CUPED или SRM?
SRM намного важнее. CUPED — продвинутая техника, её спрашивают не везде. SRM — базовая гигиена, её должен знать любой аналитик, работающий с A/B. Если у теста есть SRM — любые выводы мусорные.
Как готовиться к A/B-кейсам?
Разбирать реальные кейсы из блогов Netflix, Uber, Booking, Авито, Wildberries. Практиковать структурный ответ: достоверность → guardrails → сегменты → решение. Каждый кейс пропускать через 5-6 типичных ловушек — SRM, peeking, novelty, множественные сравнения, гетерогенный эффект, сезонность.