Задачи на A/B-тесты на собеседовании аналитика

Что спрашивают по A/B на собеседовании

A/B-тесты — одна из главных тем для продуктового аналитика. Обычно спрашивают в трёх форматах:

  • Теоретические вопросы — что такое p-value, ошибки I/II рода, мощность.
  • Кейсы — «у нас тест показал лифт 3%, что делать дальше?».
  • Вычислительные задачи — посчитайте размер выборки / мощность / p-value на данных.

Ниже — 15 задач из реальных собесов, по возрастанию сложности. Проверьте себя.

1. Базовая задача на размер выборки

Текущая конверсия 10%. Хотим детектировать эффект +1 п.п. (с 10% до 11%). α=0.05, мощность 80%. Какой размер выборки в каждой группе?

Решение. Формула для двухпропорционного теста:

$$n = \frac{(z_{\alpha/2} + z_\beta)^2 \cdot (p_1(1-p_1) + p_2(1-p_2))}{(p_1 - p_2)^2}$$

С z(0.025)=1.96, z(0.2)=0.84, p1=0.10, p2=0.11:

$$n \approx \frac{(1.96 + 0.84)^2 \cdot (0.09 + 0.0979)}{0.0001} \approx 14,700$$

На группу нужно ~14 700 пользователей. Ответ, который ждут: «порядка 15 тысяч на вариант».

Подробнеекак считать размер выборки для A/B-теста.

2. Sample Ratio Mismatch (SRM)

В тесте 50/50 у вас 52 000 в контроле и 48 200 в тесте. Что не так?

Решение. Проверяем через chi-square или биномиальный тест:

  • Ожидаемое распределение: 50 100 / 50 100.
  • Наблюдаемое: 52 000 / 48 200.
  • Разница 3800 при ожидаемых 100 200 — хи-квадрат даст p-value < 0.001.

Это SRM — сломанная рандомизация. Результаты теста доверять нельзя, пока не найдена причина (баг в сплитере, боты попали в одну группу, фильтрация после сплита). Подробнее — в статье про SRM.

3. Peeking problem

Запустили тест на 2 недели. На пятый день увидели p=0.04, хотим остановиться. Правильно?

Нет. Подглядывание (peeking) и остановка при первом p<0.05 раздувает ложноположительные выше заявленных 5%. После 10 проверок реальная альфа может быть ~20%. Либо:

  • Ждём запланированный срок.
  • Используем sequential testing (группа методов типа SPRT, Always Valid Inference от Optimizely) — там можно подглядывать.

4. Не значимый результат — что делать?

Прогнали тест 2 недели, p=0.18. Лифт +1.5%. Что скажете продакту?

Правильный ответ структурный:

  1. Проверить достоверность: SRM нет, guardrail-метрики не просели.
  2. Посчитать мощность post-hoc: если MDE был задизайнен больше, чем наблюдаемый лифт, результат ожидаем. Значит нужно больше данных.
  3. Оценить бизнес-логику: что ожидалось? Если реальный эффект действительно мал — продлевать бесполезно.
  4. Решения: а) продлить тест до нужного N, б) зафиксировать как «нет значимого эффекта», в) если направление согласуется с гипотезой и цена внедрения низкая — принять решение на свой риск.

На собеседовании хотят услышать, что вы не ищете p<0.05 любой ценой и умеете интерпретировать незначимый результат.

5. Guardrail-метрики просели

Основная метрика (конверсия в покупку) +2% значимо. Но время загрузки +300мс, retention D7 −0.5%. Катим?

Нет. Guardrail-метрики — это предохранители. Если критически важная метрика (retention, NPS, скорость) просела — даже победа на основной метрике не стоит того. Возможные варианты:

  • Откатить, найти причину, оптимизировать.
  • Принять trade-off, если retention просел в пределах noise и бизнес осознанно выбирает краткосрочную конверсию.

Ответ на собесе: никаких катов, если guardrail просел значимо.

Тренироваться на таких вопросах можно в Telegram-боте Карьерник — там 1500+ задач с реальных собесов с разборами.

6. Почему лифт огромный в первые дни?

Запустили тест. Первые 3 дня лифт +15%, к концу недели — +2%. Что происходит?

Два объяснения:

  • Novelty effect — новое всегда привлекает внимание, эффект со временем убывает. Подробнее — в статье про novelty effect.
  • Primacy effect — наоборот, пользователи привыкли к старому и первое время сопротивляются новому.

На продуктовых командах это лечат запуском на 2+ недели и анализом когорт по дню экспозиции.

7. Кейс: A/A-тест показал p=0.03

В A/A-тесте (обе группы одинаковы) получили p=0.03. Баг?

Не обязательно. При α=0.05 примерно каждый 20-й A/A-тест покажет «значимый» результат — это и есть ошибка I рода. Если у вас 1 из 20 — ок. Если 3 из 10 — баг в сплите или метрике. Подробнее про A/A-тесты.

8. Медиана vs среднее

В тесте средний чек вырос с 1200 до 1300 (p<0.01). Катим?

Сначала смотрим распределение. Если у 99% пользователей чек не изменился, а у 10 китов с чеками ~100 000 вырос — среднее двинулось из-за них. Для таких метрик:

  • Смотрим медиану и перцентили (P90, P95).
  • Используем Mann-Whitney U вместо t-test.
  • Или CUPED для снижения дисперсии.

Классический ответ: «среднее — это удобно, но в тяжёлых хвостах оно врёт». Медиана vs среднее.

9. Стратификация и CUPED

Команда говорит: «нам нужно очень мало данных, давайте CUPED». Что такое CUPED и когда он работает?

CUPED (Controlled Pre-Experiment Data) — метод снижения дисперсии через ковариату из pre-period. Работает, когда pre-period метрика коррелирует с экспериментальной. Формула:

$$Y_{\text{cuped}} = Y - \theta(X - \bar{X})$$

где X — метрика пользователя до эксперимента. При корреляции 0.5 дисперсия падает на ~25%, при 0.7 — на ~50%. Это эквивалентно увеличению выборки в 2 раза.

Когда работает плохо: новые пользователи без pre-period, резкие изменения поведения между периодами.

Подробнее — в статье про CUPED.

10. Расчёт p-value вручную

В контроле 1000 конверсий из 10 000 (10%). В тесте 1100 из 10 000 (11%). p-value?

Z-статистика для двух пропорций:

$$z = \frac{p_2 - p_1}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_1} + \frac{1}{n_2})}}$$

$$\bar{p} = \frac{1000 + 1100}{20,000} = 0.105$$

$$z = \frac{0.01}{\sqrt{0.105 \cdot 0.895 \cdot 0.0002}} = \frac{0.01}{0.00434} \approx 2.30$$

Двусторонний p-value ≈ 0.021 — значимо при α=0.05.

11. Многоруким бандитам vs A/B

В каких случаях мы НЕ должны использовать A/B, а лучше взять многоруких бандитов?

Бандиты хороши, когда:

  • Горит время — заголовки новостей, баннеры с истекающим сроком.
  • Не нужна статистическая строгость — просто быстро оптимизировать конверсию.
  • Много вариантов (5+) — A/B растягивается надолго.

A/B лучше, когда:

  • Нужен точный lift для бизнеса / принятия долгосрочных решений.
  • Есть guardrail-метрики, которые нужно аккуратно измерить.
  • Поведение пользователей может меняться со временем.

Подробнее — многорукие бандиты vs A/B-тест.

12. Много метрик — проблема множественных сравнений

В тесте считаем 20 метрик. У 2 p<0.05. Значимо?

При 20 независимых метриках и α=0.05 в среднем у 1 метрики будет ложноположительный результат. Если значимых 2 — это почти noise.

Решения:

  • Поправка Бонферрони — α делится на количество тестов. Для 20 метрик: α=0.0025. Консервативно.
  • Поправка Беньямини-Хохберга (BH) — контролирует FDR, мягче Бонферрони.
  • Pre-register primary metric — заранее зафиксировать одну главную метрику.

Подробнее про поправку на множественные сравнения.

К слову, набить руку на таких кейсах удобно через тренажёр в Telegram — разбирайте по 10 вопросов в день, через 2 недели тема становится рефлексом.

13. Средний чек вырос, количество заказов упало

В тесте: средний чек +10% (p<0.01), заказов −5% (p<0.05). Выручка?

Выручка = заказы × чек = 0.95 × 1.10 = 1.045. Формально +4.5%, но:

  • Значимость выручки нужно проверять отдельно.
  • Комбинированные метрики (GMV, revenue per user) ведут себя хуже в t-test — больше шума.
  • Внедрение зависит от бизнес-модели: если продукт зарабатывает на LTV, важнее частота заказов, а не чек.

Ответ: «нужно посчитать p-value для выручки напрямую и оценить импакт на long-term метрики».

14. Сегментация результатов теста

Тест показал лифт 0% в среднем. Но по сегментам: +5% на Android, −5% на iOS. Что делать?

Это типичный случай гетерогенного эффекта. В среднем ничего, но есть реальный сигнал:

  1. Проверить гипотезу — почему на iOS хуже? (баг в верстке, iOS-пользователи консервативнее).
  2. Sliced rollout — раскатать только на Android.
  3. Осторожно с post-hoc сегментацией — если копаться во всех разрезах, ошибка I рода растёт. Нужна поправка на множественность или pre-register сегментов.

Подробнее — сегментация в A/B-тестах.

15. Кейс: тест длился месяц, всё отлично, катим на 100%. Через неделю метрика упала

Регресс. Почему?

Варианты:

  • Эффект новизны — в тесте работал novelty, после раскатки ушёл.
  • Bias в выборке — в тесте были только активные пользователи, на 100% попали спящие.
  • Сезонность — условия изменились (праздники, погода, релиз конкурента).
  • Внутренняя когорта изменилась — в тестовой группе был перекос.
  • Бизнес-процессы — маркетинг перенаправил трафик, и это сбило распределение.

На собесе хотят услышать структурный ответ: проверить эти 5 гипотез по очереди, начиная с самой вероятной для контекста.


Как подготовиться

Задачи по A/B на собеседованиях редко про формулы — чаще про рассуждение. Вас проверяют на ловушки: peeking, SRM, novelty, множественные сравнения, тяжёлые хвосты. Если эти слова вам не говорят ничего — начинайте с них.

Тренажёр Карьерник содержит блок A/B-тестов с реальными задачами из продуктовых команд — от базовой логики до CUPED и sequential testing. Короткие разборы после каждого вопроса позволяют понять, где пробелы.

Совет: на собесе, отвечая на кейс по A/B, используйте структуру «1) проверил бы достоверность, 2) посмотрел бы гард-рейлы и сегменты, 3) принял бы решение с обоснованием». Даже если не знаете точного ответа — такой каркас покажет зрелость.

Читайте также

FAQ

Сколько задач по A/B обычно на собеседовании?

От одной теоретической («что такое мощность теста») до трёх кейсовых. В продуктовых компаниях (Яндекс, Wildberries, Avito, Ozon) — целый блок на 30-40 минут: теория + кейс + расчёт. В data-heavy командах могут попросить посчитать размер выборки на листочке.

Нужно ли знать формулы p-value наизусть?

Z-статистику для двух пропорций — да, её спрашивают часто. t-test на память — не обязательно. Главное: понимать смысл p-value (вероятность получить такой или более экстремальный результат при верной H0) и уметь интерпретировать.

Что важнее: знать CUPED или SRM?

SRM намного важнее. CUPED — продвинутая техника, её спрашивают не везде. SRM — базовая гигиена, её должен знать любой аналитик, работающий с A/B. Если у теста есть SRM — любые выводы мусорные.

Как готовиться к A/B-кейсам?

Разбирать реальные кейсы из блогов Netflix, Uber, Booking, Авито, Wildberries. Практиковать структурный ответ: достоверность → guardrails → сегменты → решение. Каждый кейс пропускать через 5-6 типичных ловушек — SRM, peeking, novelty, множественные сравнения, гетерогенный эффект, сезонность.