Вопросы по A/B-тестированию на собеседовании аналитика

Проверь себя · 1/3разбор после ответа

Тест нового онбординга: через месяц средний чек оставшихся пользователей тестовой группы на 25% выше контроля. Но retention в тестовой группе на 10% ниже — больше пользователей ушли. Что не так с выводом о росте среднего чека?

Что спрашивают по A/B-тестированию

A/B-тестирование — обязательная секция для продуктового аналитика и частый блок для маркетингового, growth- и даже junior-аналитика. Компании, которые принимают решения на данных, проверяют не умение посчитать p-value в калькуляторе, а понимание всего цикла эксперимента: от формулировки гипотезы до решения «катим или откатываем». Именно на A/B чаще всего отсеивают тех, кто выучил определения, но ни разу не задумывался, зачем эти определения нужны.

Хорошая новость в том, что набор тем конечен и повторяется из собеседования в собеседование. Если один раз разобрать дизайн эксперимента, статистику за ним и типичные ловушки, секция превращается из лотереи в предсказуемый разговор, где вы ведёте линию рассуждения, а не оправдываетесь. Интервьюер почти всегда идёт от простого к сложному и останавливается там, где вы начинаете плыть.

Схема A/B-теста

Базовый уровень. Здесь проверяют, что у вас нет дыр в фундаменте: понимаете ли вы, что вообще измеряете и почему результат можно (или нельзя) считать значимым.

Что такое A/B-тест и какую задачу он решает
Нулевая и альтернативная гипотезы
Ошибки I и II рода (alpha и beta)
p-value и статистическая значимость
Мощность теста и зачем считать размер выборки заранее

Средний уровень. Тут начинается дизайн эксперимента и работа с метриками — то, на чём отсеивается большинство кандидатов «с курсов», знающих термины, но не умеющих собрать тест целиком.

Как выбрать метрику: primary, guardrail, proxy
MDE (минимальный детектируемый эффект) и расчёт длительности
Проблема подглядывания (peeking) и ранней остановки
Множественные сравнения и поправки (Бонферрони, Холм)
AA-тест и проверка корректности рандомизации

Продвинутый уровень. На senior-позициях важнее объяснить trade-off и подводные камни реальных запусков, чем вспомнить формулу.

Эффект новизны и сезонность, выбор окна теста
Снижение дисперсии: CUPED, стратификация, бакетирование
Network effects и интерференция между группами
Sequential testing и групповой последовательный анализ
Ratio-метрики, дельта-метод и парадокс Симпсона в сегментах

Как проходит секция A/B

Формат зависит от компании, но почти всегда сводится к нескольким сценариям, и к каждому стоит готовиться отдельно.

Самый частый — кейс на дизайн и интерпретацию. Вам дают продуктовую ситуацию вроде «хотим поменять кнопку оформления заказа» или «новая лента рекомендаций» и просят спроектировать эксперимент с нуля: какую гипотезу проверяем, какая метрика главная, какие guardrail-метрики защищаем, как считаем размер выборки и сколько крутим тест. Затем интервьюер подкидывает результат — например, конверсия выросла на 1,5%, но p-value 0,08 — и смотрит, как вы его интерпретируете. Здесь оценивают ход мысли, а не заученные цифры: проговаривайте вслух, почему берёте именно эту метрику и что будете делать с пограничным результатом.

Второй формат — устный разбор концепций. Интервьюер спрашивает «почему нельзя останавливать тест, как только p-value опустился ниже 0,05» или «зачем нужен AA-тест, если рандомизация и так случайная». Заучивать определения тут бесполезно — нужно понимать механику, потому что follow-up-вопрос всегда уводит на уровень глубже.

Третий — реже, но встречается: домашнее задание или задача в тренажёре платформы, где надо посчитать размер выборки, проверить значимость или разобрать готовый дашборд эксперимента. Здесь важна аккуратность с метриками отношения и корректная работа с дисперсией.

В любом из форматов выигрывает не тот, кто сыплет терминами, а тот, кто строит решение по шагам и сам проговаривает риски: где тест может соврать и как это поймать.

Почему A/B-тесты проваливают

Проблема почти никогда не в математике, а в понимании «зачем». Многие кандидаты уверенно считают p-value, но рассыпаются на вопросе, почему его вообще нельзя смотреть посреди теста. Самая частая яма — подглядывание: человек объясняет, что при многократной проверке значимости по ходу эксперимента вероятность ложного срабатывания накапливается, но не может предложить, что с этим делать, и не вспоминает про sequential testing или фиксированный заранее размер выборки.

Вторая распространённая ошибка — путать статистическую и практическую значимость. Кандидат радуется p-value меньше 0,05, не замечая, что эффект составляет доли процента и не окупает разработку, либо наоборот объявляет тест провалом при незначимом результате, забывая, что отсутствие значимости — это не доказательство отсутствия эффекта, а часто просто нехватка мощности. Сюда же относится неумение работать с guardrail-метриками: целевая метрика выросла, но кандидат не проверяет, не просели ли удержание, выручка или скорость загрузки.

Третья яма — игнорирование дизайна. Тест запускают без расчёта размера выборки и MDE, ловят эффект новизны в первые дни, не учитывают недельную сезонность или смешивают сегменты так, что в каждом из них эффект одного знака, а в сумме — другого (парадокс Симпсона). Кандидат, который сам проговаривает эти риски до того, как его спросят, выглядит на голову сильнее того, кто отвечает только на прямой вопрос.

Примеры вопросов с разбором

Попробуйте ответить без подсказок, прежде чем читать разбор.

Как выбрать основную метрику эксперимента? Она должна быть прямо связана с гипотезой, чувствительной к изменению и не слишком шумной. Хорошая primary-метрика отражает целевое поведение (конверсия, выручка на пользователя), а не промежуточный сигнал. Параллельно фиксируют guardrail-метрики, которые нельзя ухудшать, и proxy-метрики, которые двигаются быстрее, но лишь косвенно говорят об успехе.
Что такое MDE и зачем он нужен? MDE (minimum detectable effect) — минимальный размер эффекта, который тест способен надёжно обнаружить при выбранной мощности и уровне значимости. Его задают до запуска: он связывает размер выборки, дисперсию метрики и длительность теста. Если реальный эффект меньше MDE, тест его, скорее всего, не увидит, и незначимый результат ничего не докажет.
Что делать, если результат статистически незначим? Незначимость — не доказательство отсутствия эффекта. Сначала проверяют, хватило ли мощности: возможно, выборка мала или эффект меньше заложенного MDE. Дальше смотрят на доверительный интервал: если он узкий и около нуля — эффекта, скорее всего, нет; если широкий — данных просто не хватило. Решение зависит от цены ошибки: иногда тест продлевают, иногда фичу откатывают.
Почему нельзя остановить тест, как только p-value опустился ниже 0,05? Это подглядывание (peeking). При фреквентистском подходе уровень значимости рассчитан на одну проверку в конце. Если подсматривать и останавливаться на первом «значимом» моменте, фактическая вероятность ошибки I рода сильно превышает заявленные 5%. Корректные варианты — заранее зафиксировать размер выборки или применить sequential testing с поправкой на многократные проверки.
Зачем нужны guardrail-метрики? Чтобы не выиграть бой, проиграв войну. Целевая метрика может вырасти за счёт ухудшения чего-то важного: агрессивные пуши поднимают клики, но роняют отписки и удержание. Guardrail-метрики (выручка, retention, скорость загрузки, жалобы) задают границы, выход за которые отменяет раскатку даже при успешной primary-метрике.
Как поймать парадокс Симпсона в A/B-тесте? Он возникает, когда эффект в отдельных сегментах одного знака, а в агрегате — другого, обычно из-за неравномерного распределения групп по сегментам или поломанной рандомизации. Ловят его, разбивая результат по ключевым срезам (платформа, новые/старые пользователи, страна) и проверяя, что направление эффекта согласуется с общим. Расхождение — сигнал проверить рандомизацию и состав выборки.
Зачем нужен AA-тест? Это эксперимент, где обе группы получают одинаковый опыт. Он проверяет корректность рандомизации и системы подсчёта: если в AA-тесте видна «значимая» разница, проблема в инфраструктуре сплитования или метриках, а не в продукте. Заодно AA помогает оценить фактический уровень ложных срабатываний и реальную дисперсию метрики.
Чем отличаются ошибки I и II рода? Ошибка I рода (alpha) — отвергнуть верную нулевую гипотезу, то есть увидеть эффект там, где его нет. Ошибка II рода (beta) — не заметить реально существующий эффект. Мощность теста равна единице минус beta. Снижая alpha, мы при прочих равных повышаем риск ошибки II рода, поэтому баланс между ними задают исходя из цены каждой ошибки.
Что делает CUPED и когда он помогает? CUPED уменьшает дисперсию метрики, используя ковариату — обычно значение той же метрики до эксперимента. Меньше дисперсия — выше чувствительность при том же размере выборки, значит, тест можно сделать короче. Работает тем лучше, чем сильнее доэкспериментальное поведение коррелирует с метрикой во время теста.
Как множественные сравнения ломают вывод и что с этим делать? Если в одном тесте проверяют много метрик или вариантов, вероятность поймать хотя бы одно ложное «значимое» различие растёт с числом проверок. Лечится поправками на множественность (Бонферрони, более мягкий Холм) или контролем FDR. На собеседовании достаточно объяснить механику и назвать хотя бы одну поправку.

В Карьернике 200+ вопросов по A/B-тестированию — от базовых определений до CUPED и sequential testing, каждый с разбором сразу после ответа.

Подробные разборы по подтемам

Как готовиться к секции A/B

Начните с фундамента: убедитесь, что своими словами объясняете ошибки I и II рода, p-value, мощность и разницу между статистической и практической значимостью. Без этого слоя всё остальное не ложится, а follow-up-вопросы вскрывают пробелы за пару минут. Заучивать формулы при этом не нужно — гораздо ценнее понимать, от чего зависит размер выборки и почему незначимый результат не равен отсутствию эффекта.

Дальше отрабатывайте полный цикл эксперимента на конкретных продуктовых ситуациях: гипотеза, метрики (primary и guardrail), MDE, размер выборки, длительность, интерпретация и решение. На собеседовании часто просят описать весь процесс на придуманном кейсе, поэтому полезно прогнать несколько разных продуктов в голове заранее. Отдельно разберите ловушки — peeking, множественные сравнения, эффект новизны, парадокс Симпсона — именно на них интервьюеры любят ловить на краевых случаях.

Лучше всего паттерны закрепляются на коротких вопросах с быстрым разбором, а не на чтении длинных статей. Удобно гонять их в тренажёре по A/B-тестам: вопросы идут от базовых к сложным, а объяснение появляется сразу после ответа, поэтому ошибка превращается в выученный кейс, а не в случайный промах. Полезные материалы по теме собраны на Карьернике.

Частые ошибки на собеседовании

Главная ошибка — бросаться в формулы и термины вместо того, чтобы выстроить решение по шагам. Интервьюер хочет услышать рассуждение: какую гипотезу проверяем, какую метрику считаем главной, что защищаем guardrail-метриками и как поймём, что тесту можно верить. Вторая частая ошибка — отвечать только на прямой вопрос и не проговаривать риски: peeking, недостаток мощности, эффект новизны, неоднородные сегменты. Кандидат, который сам поднимает эти темы, выглядит сильнее того, кто ждёт наводящего вопроса. Третья — переоценивать статистическую значимость и забывать про практическую: эффект в доли процента может быть «значимым», но не окупать разработку, а узкий доверительный интервал около нуля честнее, чем голое p-value. И почти всегда подводит игнорирование edge-кейсов — пустые сегменты, ratio-метрики с раздутой дисперсией, сломанная рандомизация.

Другие темы

FAQ

Спрашивают ли A/B-тесты на junior-позициях?

Да, но на базовом уровне: что такое A/B-тест, нулевая и альтернативная гипотезы, ошибки I и II рода, что такое p-value и зачем нужен размер выборки. CUPED, sequential testing и тонкости дисперсии — это уже middle и senior.

Что важнее на собеседовании — теория или опыт проведения тестов?

Опыт ценится выше, но теория — фундамент, без которого опыт звучит неубедительно. Если вы проводили тесты, разберите конкретный кейс: гипотеза, метрики, результат, решение. Если опыта нет, покажите, что понимаете процесс и подводные камни на придуманном примере.

Нужно ли знать формулы наизусть?

Нет. Важнее понимать, от чего зависит результат: мощность теста растёт с размером выборки и величиной эффекта и падает с дисперсией метрики. Это объяснение ценнее, чем формула power, выписанная по памяти.

Почему нельзя просто взять выборку побольше и не считать MDE?

Без MDE и расчёта размера выборки вы не знаете, какой эффект тест вообще способен поймать и когда его можно останавливать. Слишком маленькая выборка не увидит реальный эффект, слишком большая ловит статистически значимые, но бесполезные на практике различия и тратит трафик.

Как отвечать, если результат оказался незначимым?

Не объявляйте сразу, что эффекта нет. Проверьте, хватило ли мощности, посмотрите на доверительный интервал и сравните наблюдаемый эффект с заложенным MDE. Незначимость часто означает нехватку данных, а не отсутствие эффекта, и честный ответ про это ценится выше поспешного вывода.

Сколько вопросов по A/B-тестам в Карьернике?

200+ вопросов, разбитых по подтемам: основы и гипотезы, размер выборки и мощность, метрики и guardrail, ловушки и peeking, CUPED и sequential testing. Каждый — с подробным разбором сразу после ответа.

Тренировать A/B в Telegram