Метрики эксперимента на собеседовании
Почему выбор метрики — ключевой навык
Неправильная метрика делает весь эксперимент бесполезным. Можно идеально рассчитать выборку, избежать всех ловушек и получить статистически значимый результат — но если метрика не отражает цель бизнеса, решение будет ошибочным.
На собеседовании вопросы про метрики проверяют продуктовое мышление: кандидат должен не просто назвать метрику, а обосновать выбор, объяснить trade-off и предложить систему из нескольких метрик.
Типы метрик эксперимента
Primary metric (North Star) — главная метрика, по которой принимается решение о результате теста. Одна на эксперимент. Она должна быть напрямую связана с целью продукта и достаточно чувствительна, чтобы поймать эффект за разумное время.
Secondary metrics — дополнительные метрики, которые помогают понять механизм эффекта. Если primary выросла — secondary объясняют, за счёт чего. Анализируются без строгой поправки на множественные сравнения, но с осторожностью.
Guardrail metrics — метрики-ограничители, которые не должны ухудшиться. Даже если primary растёт, но guardrail упал — тест провален. Примеры: скорость загрузки страницы, crash rate, retention.
Proxy metrics — приближения к основной метрике, которые можно измерить быстрее или точнее. Вместо долгосрочного LTV измеряют конверсию в первую покупку. Вместо годового retention — D7 retention.
На собеседовании идеальный ответ — не просто «я бы измерил конверсию», а система: «Primary — конверсия в покупку. Secondary — средний чек и количество просмотренных товаров. Guardrail — скорость загрузки и bounce rate».
Как выбирать primary metric
Связь с бизнес-целью. Метрика должна отражать то, что бизнес действительно хочет улучшить. «Клики на кнопку» — плохая primary, если цель — увеличить выручку. Пользователи могут кликать чаще, но покупать реже.
Чувствительность. Метрика должна реагировать на изменение, которое вы тестируете. Revenue per user имеет высокую дисперсию — нужна огромная выборка. Конверсия в клик — более чувствительна, но менее связана с бизнес-целью. Это trade-off.
Направленность. Рост метрики должен однозначно означать «стало лучше». Количество обращений в поддержку — неоднозначно: рост может означать и проблемы с продуктом, и то, что больше пользователей нашли форму обратной связи.
Устойчивость к манипуляциям. Метрика не должна легко «хакаться». CTR можно поднять кликбейтом, но satisfaction и retention от этого упадут.
Чувствительность метрики
Чувствительность — способность метрики обнаружить реальный эффект при заданном размере выборки. Что повышает чувствительность: низкая дисперсия, линеаризация ratio-метрик (метод дельта), CUPED (снижает дисперсию на 30-50% за счёт ковариат), trimming/winsorization выбросов.
На собеседовании могут спросить: «Как сделать тест короче, не снижая мощность?» Ответ — выбрать более чувствительную метрику или применить variance reduction techniques.
Примеры для разных доменов
E-commerce: primary — конверсия в покупку; secondary — add-to-cart rate, средний чек; guardrail — page load time, bounce rate; proxy — CTR на рекомендации.
Подписочный сервис: primary — конверсия из trial в платную подписку; secondary — engagement во время trial, NPS; guardrail — churn rate, обращения в поддержку; proxy — activation rate (ключевая функция в первые 3 дня).
Мобильное приложение: primary — D7 retention или DAU/MAU; secondary — количество сессий, ключевые действия; guardrail — crash rate, uninstall rate; proxy — D1 retention.
Типичные вопросы на собеседовании
«Предложите метрику для теста нового экрана онбординга». Сильный ответ: primary — completion rate онбординга, secondary — D1 retention и time-to-first-action, guardrail — drop-off rate на каждом шаге.
«Почему нельзя использовать revenue как primary для каждого теста?» Revenue имеет высокую дисперсию (выбросы от крупных заказов), низкую чувствительность и долго накапливается. Для большинства тестов proxy-метрика эффективнее.
«Метрика выросла статистически значимо, но на 0.1%. Внедряем?» Зависит от масштаба. 0.1% от миллиарда рублей — это миллион. Но нужно учесть: стоимость внедрения, риск регрессии, надёжность результата. Статистическая значимость не равна практической значимости.
Сильные кандидаты всегда разделяют статистическую и практическую значимость. На собеседовании покажите, что вы думаете не только о p-value, но и о бизнес-импакте.
FAQ
Сколько метрик должно быть в одном тесте?
Рекомендуемая структура: одна primary, 2-5 secondary, 2-3 guardrail. Больше — сложнее интерпретировать и выше риск множественных сравнений. Primary анализируется строго, secondary — exploratory, guardrail — проверяются на отсутствие деградации.
Что делать, если primary не изменилась, а secondary выросла?
Формально тест неуспешен — решение принимается по primary. Но результат по secondary — это гипотеза для следующего теста. Возможно, эффект есть, но primary недостаточно чувствительна, или нужно больше времени. Не внедряйте изменение на основании secondary — это peeking по метрикам.
Как валидировать proxy-метрику?
Проверьте корреляцию proxy с основной метрикой на исторических данных: если proxy растёт, растёт ли основная метрика? Проведите ретроспективный анализ прошлых экспериментов — совпадают ли решения по proxy и по основной метрике. Идеально — запустить несколько тестов, где вы измеряете обе метрики, и убедиться в согласованности.