Метрики эксперимента на собеседовании

Проверь себя · 1/3разбор после ответа

Вы тестируете новый экран оплаты. Пользователь может заходить в приложение много раз. Метрика — конверсия в покупку за 7 дней на уровне user_id. Какую единицу рандомизации выбрать, чтобы минимизировать смешение вариантов?

Почему выбор метрики — ключевой навык

Неправильная метрика делает весь эксперимент бесполезным. Можно идеально рассчитать выборку, избежать всех ловушек и получить статистически значимый результат — но если метрика не отражает цель бизнеса, решение будет ошибочным.

На собеседовании вопросы про метрики проверяют продуктовое мышление: кандидат должен не просто назвать метрику, а обосновать выбор, объяснить trade-off и предложить систему из нескольких метрик.

Типы метрик эксперимента

Primary metric (North Star) — главная метрика, по которой принимается решение о результате теста. Одна на эксперимент. Она должна быть напрямую связана с целью продукта и достаточно чувствительна, чтобы поймать эффект за разумное время.

Secondary metrics — дополнительные метрики, которые помогают понять механизм эффекта. Если primary выросла — secondary объясняют, за счёт чего. Анализируются без строгой поправки на множественные сравнения, но с осторожностью.

Guardrail metrics — метрики-ограничители, которые не должны ухудшиться. Даже если primary растёт, но guardrail упал — тест провален. Примеры: скорость загрузки страницы, crash rate, retention.

Proxy metrics — приближения к основной метрике, которые можно измерить быстрее или точнее. Вместо долгосрочного LTV измеряют конверсию в первую покупку. Вместо годового retention — D7 retention.

На собеседовании идеальный ответ — не просто «я бы измерил конверсию», а система: «Primary — конверсия в покупку. Secondary — средний чек и количество просмотренных товаров. Guardrail — скорость загрузки и bounce rate».

Как выбирать primary metric

Связь с бизнес-целью. Метрика должна отражать то, что бизнес действительно хочет улучшить. «Клики на кнопку» — плохая primary, если цель — увеличить выручку. Пользователи могут кликать чаще, но покупать реже.

Чувствительность. Метрика должна реагировать на изменение, которое вы тестируете. Revenue per user имеет высокую дисперсию — нужна огромная выборка. Конверсия в клик — более чувствительна, но менее связана с бизнес-целью. Это trade-off.

Направленность. Рост метрики должен однозначно означать «стало лучше». Количество обращений в поддержку — неоднозначно: рост может означать и проблемы с продуктом, и то, что больше пользователей нашли форму обратной связи.

Устойчивость к манипуляциям. Метрика не должна легко «хакаться». CTR можно поднять кликбейтом, но satisfaction и retention от этого упадут.

Чувствительность метрики

Чувствительность — способность метрики обнаружить реальный эффект при заданном размере выборки. Что повышает чувствительность: низкая дисперсия, линеаризация ratio-метрик (метод дельта), CUPED (снижает дисперсию на 30-50% за счёт ковариат), trimming/winsorization выбросов.

На собеседовании могут спросить: «Как сделать тест короче, не снижая мощность?» Ответ — выбрать более чувствительную метрику или применить variance reduction techniques.

Примеры для разных доменов

E-commerce: primary — конверсия в покупку; secondary — add-to-cart rate, средний чек; guardrail — page load time, bounce rate; proxy — CTR на рекомендации.

Подписочный сервис: primary — конверсия из trial в платную подписку; secondary — engagement во время trial, NPS; guardrail — churn rate, обращения в поддержку; proxy — activation rate (ключевая функция в первые 3 дня).

Мобильное приложение: primary — D7 retention или DAU/MAU; secondary — количество сессий, ключевые действия; guardrail — crash rate, uninstall rate; proxy — D1 retention.

Типичные вопросы на собеседовании

«Предложите метрику для теста нового экрана онбординга». Сильный ответ: primary — completion rate онбординга, secondary — D1 retention и time-to-first-action, guardrail — drop-off rate на каждом шаге.

«Почему нельзя использовать revenue как primary для каждого теста?» Revenue имеет высокую дисперсию (выбросы от крупных заказов), низкую чувствительность и долго накапливается. Для большинства тестов proxy-метрика эффективнее.

«Метрика выросла статистически значимо, но на 0.1%. Внедряем?» Зависит от масштаба. 0.1% от миллиарда рублей — это миллион. Но нужно учесть: стоимость внедрения, риск регрессии, надёжность результата. Статистическая значимость не равна практической значимости.

Сильные кандидаты всегда разделяют статистическую и практическую значимость. На собеседовании покажите, что вы думаете не только о p-value, но и о бизнес-импакте.

FAQ

Сколько метрик должно быть в одном тесте?

Рекомендуемая структура: одна primary, 2-5 secondary, 2-3 guardrail. Больше — сложнее интерпретировать и выше риск множественных сравнений. Primary анализируется строго, secondary — exploratory, guardrail — проверяются на отсутствие деградации.

Что делать, если primary не изменилась, а secondary выросла?

Формально тест неуспешен — решение принимается по primary. Но результат по secondary — это гипотеза для следующего теста. Возможно, эффект есть, но primary недостаточно чувствительна, или нужно больше времени. Не внедряйте изменение на основании secondary — это peeking по метрикам.

Как валидировать proxy-метрику?

Проверьте корреляцию proxy с основной метрикой на исторических данных: если proxy растёт, растёт ли основная метрика? Проведите ретроспективный анализ прошлых экспериментов — совпадают ли решения по proxy и по основной метрике. Идеально — запустить несколько тестов, где вы измеряете обе метрики, и убедиться в согласованности.

Смотрите также

Тренировать A/B в Telegram