Что такое A/B-тест простыми словами

Определение

A/B-тест — эксперимент, в котором пользователей случайно делят на две группы:

  • Группа A (контроль) — видит старую версию.
  • Группа B (тест) — видит новую версию.

После периода измерения сравниваем метрику (например, конверсию) и делаем вывод: новая версия лучше, хуже или нет разницы.

Простая аналогия

Вы выбираете между двумя блюдами в ресторане. Вы пробуете только одно — и делаете вывод. Но это ненадёжно: может, вам просто повезло с ингредиентами.

Если бы вы могли раздвоиться и попробовать оба блюда одновременно — сравнение было бы честным. A/B-тест делает именно это: часть пользователей получает версию A, часть — B, и дальше сравниваем результаты.

Как работает

Шаг 1. Гипотеза

«Если мы изменим кнопку "Купить" с синей на красную, конверсия вырастет на 5%».

Шаг 2. Дизайн теста

  • Метрика: конверсия в покупку.
  • Контроль: синяя кнопка.
  • Тест: красная.
  • Размер выборки: 10 000 пользователей на группу.
  • Длительность: 2 недели.

Шаг 3. Сплитерование

Система случайно делит пользователей: 50% видят контроль, 50% — тест.

Шаг 4. Сбор данных

За 2 недели считаем конверсии в каждой группе.

Шаг 5. Анализ

  • Контроль: 5% конверсия (500 из 10 000).
  • Тест: 5.5% конверсия (550 из 10 000).
  • Лифт: +0.5 п.п. (+10% относительно).
  • Статтест: p-value = 0.04.

Шаг 6. Решение

p < 0.05 — значимо. Новая версия работает лучше. Катим на 100%.

Зачем нужен A/B-тест

Без теста

  • «Давай сделаем красную кнопку, мне кажется она лучше».
  • «Бюджет не позволяет две версии тестировать — катим интуитивно».
  • Через месяц: «цифры не выросли, но может и выросли бы».

С тестом

  • «Красная кнопка дала +0.5% конверсии, значимо».
  • «Катим осознанно, знаем цифру».
  • Защита от ложной веры.

Больше таких примеров с разборами — в Telegram-тренажёре. Короткие сессии, прогресс по темам, объяснения после каждого ответа.

Ключевые термины

Метрика

Что измеряем: конверсия, ARPU, retention, время в приложении.

Контроль (A)

Старая версия, бейзлайн.

Тест (B)

Новая версия, которую проверяем.

MDE (Minimum Detectable Effect)

Минимальный эффект, который тест сможет задетектить. Планируется заранее.

Статистическая значимость (p-value)

Вероятность, что разница случайна. Порог обычно 0.05 (5%).

Мощность теста

Вероятность задетектить реальный эффект. Порог 0.8 (80%).

Частые ошибки

1. Слишком маленькая выборка

Выборка 100 пользователей — любой шум значим. Надо считать размер выборки заранее через MDE.

2. Смотреть результаты до конца теста (peeking)

«Уже день идёт, давайте посмотрим» → p-value скачет, растёт число ложноположительных.

3. Остановиться сразу при достижении значимости

После пиков значимости при продолжении они могут исчезнуть. Ждите спланированный срок.

4. Игнорировать guardrail-метрики

Основная метрика выросла, но retention просел → катить нельзя.

5. Множественные сравнения

Тестируете 10 метрик — 1 из них случайно покажет «значимость». Нужна поправка (Бонферрони, BH).

Классический пример: Google и 41 оттенок синего

Известная история: Google тестировал 41 оттенок синего для ссылок и выбрал тот, что дал +$200M выручки/год.

Никакая «интуиция дизайнера» так не сработала бы.

Когда A/B-тест не нужен

  • Критические изменения UX — нельзя тестировать поломку.
  • Юридические требования — GDPR, локализация.
  • Очень маленький эффект — не хватит мощности.
  • Быстрый рынок — бандиты или just-ship могут работать лучше.

Если готовишься к собесу — бот @kariernik_bot закрывает 80% технических вопросов. SQL, Python, A/B, продуктовые метрики — всё в одном месте.

Что делать с результатами

Значимый положительный

Катить на 100%. Фиксировать эффект. Следить за долгосрочными метриками.

Значимый отрицательный

Не катить. Разбираться, почему гипотеза не сработала.

Не значимый

Не значит «эффекта нет». Значит «при этом размере выборки мы не смогли отличить от случайности». Варианты: продлить тест или закрыть гипотезу.

Следующие шаги

Если вы знакомы с A/B, следующая глубина:

Читайте также

FAQ

Сколько длится A/B-тест?

Обычно 1–3 недели. Меньше — риск weekly-паттернов. Больше — риск внешних изменений.

Сколько пользователей нужно?

Зависит от MDE, base rate и α/β. Обычно 10k–100k на группу.

A/B или A/B/C?

A/B/C/D — больше вариантов, но нужна больше выборка и сложнее интерпретация. Стандарт — A/B.

Можно ли тестировать цены?

Юридически рискованно (антимонопольные регуляторы). Обычно тестируют через промокоды, а не прямые цены.