Постановка задачи: вопросы для собеседования (часть 2)

Как превратить бизнес-вопрос в аналитическую задачу: определить метрику, выбрать гранулярность, учесть ограничения данных. На собеседовании дают кейс вроде «продажи упали» и ждут, что кандидат задаст правильные уточняющие вопросы, прежде чем бросаться писать запрос. Фреймирование задачи — первый шаг любого анализа.

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьДоли и процентыSanity-check и оценкаСегментация и конфаундингТеория множеств и дедупликацияВзвешенные средние и смешение

Вопросы 610 из 20

6Задача: Сделай `cohort` анализ `retention`. Какое уточнение нужно сделать в первую очередь, чтобы `definition` была однозначной?
AХотим ли мы красивую тепловую карту или достаточно таблицы
BНужно ли разделять по устройствам и регионам
CЧто является событием попадания в `cohort`, что считается событием возврата, и какой `time window` для измерения `retention`
DНужно ли показать среднее или медиану
Ответ: В когортном анализе ключевы `definition` когорты, событие возврата и `time window`, иначе результаты не сравнимы.

Когорту можно определять по регистрации, первой покупке или первому запуску, и это разные `population`. Возврат тоже нужно формализовать через конкретный `event`, иначе метрика будет плавающей. Наконец, `time window` и шаги измерения (дни, недели) должны быть согласованы заранее, чтобы отчеты разных периодов были сопоставимы.

7Запрос: Сколько новых пользователей пришло за неделю. Что важнее всего уточнить для корректной `definition` и `population`?
AУточнить, какой временной период считать неделей (`calendar week` или скользящие 7 дней), и какой часовой пояс брать за основу
BЧто значит новый пользователь по `definition` (первый запуск, регистрация, первая покупка), по какому идентификатору считаем `population`, и как решаем `edge cases` с несколькими устройствами
CСпросить, нужна ли разбивка по каналам привлечения (`organic`, `paid`, `referral`) и сегментация по платформам
DВыяснить, нужно ли сравнение с предыдущей неделей и визуализация в виде `funnel`, чтобы правильно выбрать формат отчёта
Ответ: `definition` нового пользователя должна быть привязана к идентификатору и `time window`, иначе счет будет нестабилен и несопоставим.

Новый пользователь по первому запуску и новый пользователь по регистрации могут сильно различаться по числу и по смыслу. Выбор идентификатора влияет на дедупликацию в `population`, например один человек с двумя устройствами может считаться дважды. Также важно проговорить `edge cases`, например переустановки и возвраты. После фиксации `definition` можно добавлять разрезы по странам и каналам.

8В задаче написано: Посчитай `conversion` из установки в регистрацию. Какое уточнение наиболее критично для корректной `definition` `numerator` и `denominator`?
AНужен ли график в разрезе городов и устройств
BНужно ли округлять результат до двух знаков после запятой
CЧто является событием установки и регистрации, на каком идентификаторе строим `population`, и какой `time window` даем на регистрацию после установки
DХотим ли мы сделать прогноз `conversion` на следующий месяц
Ответ: Для `conversion` нужно явно задать `definition` `numerator`, `denominator` и `time window`, иначе получатся разные ответы на один и тот же вопрос.

Если не зафиксировать, что именно считается установкой и регистрацией, вы можете получить несовместимые результаты между командами. Также важно понять `population` и идентификатор: `device_id` и `user_id` дают разные счета. Наконец, без `time window` непонятно, считать ли регистрацию через неделю или через месяц той же установкой.

9Маркетинг говорит: трафик из канала A лучше, чем из канала B. Какое уточнение наиболее критично, чтобы корректно определить `criteria` качества в одном `scope`?
AНужно ли сравнивать только мобильных пользователей или еще и веб
BКакая `metric` означает качество, какая `population` сравнивается (например, новые пользователи), какой `time window` и какая `attribution window` для привязки конверсий к каналу
CВ каком формате сделать презентацию результатов
DНужно ли обязательно включать график по дням недели
Ответ: Сравнение каналов требует явных `criteria` качества и `attribution window` для одной сопоставимой `population`.

Качество может означать `conversion`, `retention`, `LTV` или прибыльность с учетом затрат, и без согласования `metric` вы сравните разные вещи. Также критично зафиксировать `population` и `time window`, чтобы не смешать разные когорты и сезонность. Наконец, без `attribution window` и правил атрибуции легко приписать каналу то, что случилось позже по другой причине.

10Руководитель спрашивает: Какая версия приложения лучше, 1.0 или 1.1. Какой ответный вопрос лучше всего, чтобы уточнить `criteria` и снизить риск опасных `assumptions`?
AКакие цвета в новой версии вам нравятся больше
BМожно ли просто сравнить среднюю оценку в сторе
CДавайте считать лучше той, у которой больше `DAU`
DЧто значит лучше: какая `metric` и `criteria` важны, какая `population` сравнивается, и нет ли различий в `scope` релиза (постепенный rollout, регионы, платформы)
Ответ: Нельзя сравнивать версии без явных `criteria` и проверки сопоставимости `population` в одном `scope`.

Версия может быть лучше по стабильности, конверсии, удержанию или выручке, и эти цели конфликтуют. Если релиз шел поэтапно, то `population` 1.0 и 1.1 может быть разной, и сравнение будет смещено из-за скрытых `assumptions`. Поэтому сначала фиксируют `criteria` успеха и проверяют `scope` и состав аудитории, а затем выбирают дизайн сравнения.

1234

Хотите тренировать интерактивно?

В приложении — таймер, прогресс, стрики и 1700+ вопросов по всем темам.

Тренировать в Telegram

Другие темы: Логика

Булева логика и фильтрыКачество данных и инвариантыВоронки и когортные рассужденияJOIN и кардинальностьДоли и процентыSanity-check и оценкаСегментация и конфаундингТеория множеств и дедупликацияВзвешенные средние и смешение