15 апреля 2026 г.·10 мин чтения

Задачи на A/B-тесты на собеседовании аналитика

Q: Сколько задач по A/B обычно на собеседовании?

От одной теоретической («что такое мощность теста») до трёх кейсовых. В продуктовых компаниях (Яндекс, Wildberries, Avito, Ozon) — целый блок на 30-40 минут: теория + кейс + расчёт. В data-heavy командах могут попросить посчитать размер выборки на листочке.

Q: Нужно ли знать формулы p-value наизусть?

Z-статистику для двух пропорций — да, её спрашивают часто. t-test на память — не обязательно. Главное: понимать смысл p-value (вероятность получить такой или более экстремальный результат при верной H0) и уметь интерпретировать.

Q: Что важнее: знать CUPED или SRM?

SRM намного важнее. CUPED — продвинутая техника, её спрашивают не везде. SRM — базовая гигиена, её должен знать любой аналитик, работающий с A/B. Если у теста есть SRM — любые выводы мусорные.

Q: Как готовиться к A/B-кейсам?

Разбирать реальные кейсы из блогов Netflix, Uber, Booking, Авито, Wildberries. Практиковать структурный ответ: достоверность → guardrails → сегменты → решение. Каждый кейс пропускать через 5-6 типичных ловушек — SRM, peeking, novelty, множественные сравнения, гетерогенный эффект, сезонность.

Проверь себя · 1/3разбор после ответа

Вы заранее выбрали alpha 0.05. В результате теста получили p-value 0.06. Какой вывод корректнее всего?

Содержание:

Что спрашивают по A/B на собеседовании
Базовая задача на размер выборки
Sample Ratio Mismatch (SRM)
Не значимый результат — что делать?
Как подготовиться
FAQ

Что спрашивают по A/B на собеседовании

A/B-тесты — одна из главных тем для продуктового аналитика. Обычно спрашивают в трёх форматах:

Теоретические вопросы — что такое p-value, ошибки I/II рода, мощность.
Кейсы — «у нас тест показал лифт 3%, что делать дальше?».
Вычислительные задачи — посчитайте размер выборки / мощность / p-value на данных.

Ниже — 15 задач из реальных собесов, по возрастанию сложности. Проверьте себя.

1. Базовая задача на размер выборки

Текущая конверсия 10%. Хотим детектировать эффект +1 п.п. (с 10% до 11%). α=0.05, мощность 80%. Какой размер выборки в каждой группе?

Решение. Формула для двухпропорционного теста:

n = (z_α/2 + z_β)² × (p₁(1−p₁) + p₂(1−p₂)) / (p₁ − p₂)²

С z(0.025)=1.96, z(0.2)=0.84, p₁=0.10, p₂=0.11:

n ≈ (1.96 + 0.84)² × (0.09 + 0.0979) / 0.0001 ≈ 14 700

На группу нужно ~14 700 пользователей. Ответ, который ждут: «порядка 15 тысяч на вариант».

Подробнее — как считать размер выборки для A/B-теста.

2. Sample Ratio Mismatch (SRM)

В тесте 50/50 у вас 52 000 в контроле и 48 200 в тесте. Что не так?

Решение. Проверяем через chi-square или биномиальный тест:

Ожидаемое распределение: 50 100 / 50 100.
Наблюдаемое: 52 000 / 48 200.
Разница 3800 при ожидаемых 100 200 — хи-квадрат даст p-value < 0.001.

Это SRM — сломанная рандомизация. Результаты теста доверять нельзя, пока не найдена причина (баг в сплитере, боты попали в одну группу, фильтрация после сплита). Подробнее — в статье про SRM.

3. Peeking problem

Запустили тест на 2 недели. На пятый день увидели p=0.04, хотим остановиться. Правильно?

Нет. Подглядывание (peeking) и остановка при первом p<0.05 раздувает ложноположительные выше заявленных 5%. После 10 проверок реальная альфа может быть ~20%. Либо:

Ждём запланированный срок.
Используем sequential testing (группа методов типа SPRT, Always Valid Inference от Optimizely) — там можно подглядывать.

4. Не значимый результат — что делать?

Прогнали тест 2 недели, p=0.18. Лифт +1.5%. Что скажете продакту?

Правильный ответ структурный:

Проверить достоверность: SRM нет, guardrail-метрики не просели.
Посчитать мощность post-hoc: если MDE был задизайнен больше, чем наблюдаемый лифт, результат ожидаем. Значит нужно больше данных.
Оценить бизнес-логику: что ожидалось? Если реальный эффект действительно мал — продлевать бесполезно.
Решения: а) продлить тест до нужного N, б) зафиксировать как «нет значимого эффекта», в) если направление согласуется с гипотезой и цена внедрения низкая — принять решение на свой риск.

На собеседовании хотят услышать, что вы не ищете p<0.05 любой ценой и умеете интерпретировать незначимый результат.

5. Guardrail-метрики просели

Основная метрика (конверсия в покупку) +2% значимо. Но время загрузки +300мс, retention D7 −0.5%. Катим?

Нет. Guardrail-метрики — это предохранители. Если критически важная метрика (retention, NPS, скорость) просела — даже победа на основной метрике не стоит того. Возможные варианты:

Откатить, найти причину, оптимизировать.
Принять trade-off, если retention просел в пределах noise и бизнес осознанно выбирает краткосрочную конверсию.

Ответ на собесе: никаких катов, если guardrail просел значимо.

Тренироваться на таких вопросах можно в Telegram-боте Карьерник — там 1500+ задач с реальных собесов с разборами.

6. Почему лифт огромный в первые дни?

Запустили тест. Первые 3 дня лифт +15%, к концу недели — +2%. Что происходит?

Два объяснения:

Novelty effect — новое всегда привлекает внимание, эффект со временем убывает. Подробнее — в статье про novelty effect.
Primacy effect — наоборот, пользователи привыкли к старому и первое время сопротивляются новому.

На продуктовых командах это лечат запуском на 2+ недели и анализом когорт по дню экспозиции.

7. Кейс: A/A-тест показал p=0.03

В A/A-тесте (обе группы одинаковы) получили p=0.03. Баг?

Не обязательно. При α=0.05 примерно каждый 20-й A/A-тест покажет «значимый» результат — это и есть ошибка I рода. Если у вас 1 из 20 — ок. Если 3 из 10 — баг в сплите или метрике. Подробнее про A/A-тесты.

8. Медиана vs среднее

В тесте средний чек вырос с 1200 до 1300 (p<0.01). Катим?

Сначала смотрим распределение. Если у 99% пользователей чек не изменился, а у 10 китов с чеками ~100 000 вырос — среднее двинулось из-за них. Для таких метрик:

Смотрим медиану и перцентили (P90, P95).
Используем Mann-Whitney U вместо t-test.
Или CUPED для снижения дисперсии.

Классический ответ: «среднее — это удобно, но в тяжёлых хвостах оно врёт». Медиана vs среднее.

Подготовься к собесу по A/B и статистике

300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки

Тренировать A/B в Telegram

9. Стратификация и CUPED

Команда говорит: «нам нужно очень мало данных, давайте CUPED». Что такое CUPED и когда он работает?

CUPED (Controlled Pre-Experiment Data) — метод снижения дисперсии через ковариату из pre-period. Работает, когда pre-period метрика коррелирует с экспериментальной. Формула:

Y_cuped = Y − θ × (X − X̄)

где X — метрика пользователя до эксперимента. При корреляции 0.5 дисперсия падает на ~25%, при 0.7 — на ~50%. Это эквивалентно увеличению выборки в 2 раза.

Когда работает плохо: новые пользователи без pre-period, резкие изменения поведения между периодами.

Подробнее — в статье про CUPED.

10. Расчёт p-value вручную

В контроле 1000 конверсий из 10 000 (10%). В тесте 1100 из 10 000 (11%). p-value?

Z-статистика для двух пропорций:

z = (p₂ − p₁) / sqrt(p̄(1−p̄) × (1/n₁ + 1/n₂))

Где p̄ = (1000 + 1100) / 20 000 = 0.105.

z = 0.01 / sqrt(0.105 × 0.895 × 0.0002)
  = 0.01 / 0.00434
  ≈ 2.30

Двусторонний p-value ≈ 0.021 — значимо при α=0.05.

11. Многоруким бандитам vs A/B

В каких случаях мы НЕ должны использовать A/B, а лучше взять многоруких бандитов?

Бандиты хороши, когда:

Горит время — заголовки новостей, баннеры с истекающим сроком.
Не нужна статистическая строгость — просто быстро оптимизировать конверсию.
Много вариантов (5+) — A/B растягивается надолго.

A/B лучше, когда:

Нужен точный lift для бизнеса / принятия долгосрочных решений.
Есть guardrail-метрики, которые нужно аккуратно измерить.
Поведение пользователей может меняться со временем.

Подробнее — многорукие бандиты vs A/B-тест.

12. Много метрик — проблема множественных сравнений

В тесте считаем 20 метрик. У 2 p<0.05. Значимо?

При 20 независимых метриках и α=0.05 в среднем у 1 метрики будет ложноположительный результат. Если значимых 2 — это почти noise.

Решения:

Поправка Бонферрони — α делится на количество тестов. Для 20 метрик: α=0.0025. Консервативно.
Поправка Беньямини-Хохберга (BH) — контролирует FDR, мягче Бонферрони.
Pre-register primary metric — заранее зафиксировать одну главную метрику.

Подробнее про поправку на множественные сравнения.

К слову, набить руку на таких кейсах удобно через тренажёр в Telegram — разбирайте по 10 вопросов в день, через 2 недели тема становится рефлексом.

13. Средний чек вырос, количество заказов упало

В тесте: средний чек +10% (p<0.01), заказов −5% (p<0.05). Выручка?

Выручка = заказы × чек = 0.95 × 1.10 = 1.045. Формально +4.5%, но:

Значимость выручки нужно проверять отдельно.
Комбинированные метрики (GMV, revenue per user) ведут себя хуже в t-test — больше шума.
Внедрение зависит от бизнес-модели: если продукт зарабатывает на LTV, важнее частота заказов, а не чек.

Ответ: «нужно посчитать p-value для выручки напрямую и оценить импакт на long-term метрики».

14. Сегментация результатов теста

Тест показал лифт 0% в среднем. Но по сегментам: +5% на Android, −5% на iOS. Что делать?

Это типичный случай гетерогенного эффекта. В среднем ничего, но есть реальный сигнал:

Проверить гипотезу — почему на iOS хуже? (баг в верстке, iOS-пользователи консервативнее).
Sliced rollout — раскатать только на Android.
Осторожно с post-hoc сегментацией — если копаться во всех разрезах, ошибка I рода растёт. Нужна поправка на множественность или pre-register сегментов.

Подробнее — сегментация в A/B-тестах.

15. Кейс: тест длился месяц, всё отлично, катим на 100%. Через неделю метрика упала

Регресс. Почему?

Варианты:

Эффект новизны — в тесте работал novelty, после раскатки ушёл.
Bias в выборке — в тесте были только активные пользователи, на 100% попали спящие.
Сезонность — условия изменились (праздники, погода, релиз конкурента).
Внутренняя когорта изменилась — в тестовой группе был перекос.
Бизнес-процессы — маркетинг перенаправил трафик, и это сбило распределение.

На собесе хотят услышать структурный ответ: проверить эти 5 гипотез по очереди, начиная с самой вероятной для контекста.

Как подготовиться

Задачи по A/B на собеседованиях редко про формулы — чаще про рассуждение. Вас проверяют на ловушки: peeking, SRM, novelty, множественные сравнения, тяжёлые хвосты. Если эти слова вам не говорят ничего — начинайте с них.

Тренажёр Карьерник содержит блок A/B-тестов с реальными задачами из продуктовых команд — от базовой логики до CUPED и sequential testing. Короткие разборы после каждого вопроса позволяют понять, где пробелы.

Совет: на собесе, отвечая на кейс по A/B, используйте структуру «1) проверил бы достоверность, 2) посмотрел бы гард-рейлы и сегменты, 3) принял бы решение с обоснованием». Даже если не знаете точного ответа — такой каркас покажет зрелость.

FAQ

Сколько задач по A/B обычно на собеседовании?