Question 1

Вы посчитали средний чек по каждому продавцу, а затем усреднили эти значения по продавцам, чтобы получить «средний чек маркетплейса». Что здесь потенциально неверно?

Accepted Answer

Простое среднее средних по продавцам — это среднее средних, и оно искажает результат без весов по числу заказов. Продавец с одним заказом и продавец с тысячью заказов получат одинаковый вклад, если просто усреднить их средние чеки. Чтобы получить честный чек по всем заказам маркетплейса, нужно взвешенное среднее с весом, равным количеству заказов продавца. Тогда каждый отдельный заказ имеет одинаковый вес и уровень агрегации совпадает с уровнем заказа. Иначе мелкие продавцы перекосят итог в свою сторону.

Question 2

У вас есть p95 времени ответа по регионам и количество запросов в каждом регионе. Можно ли корректно получить общий p95 как взвешенное среднее региональных p95 с весами по числу запросов?

Accepted Answer

Процентили не агрегируются через среднее: их нельзя корректно получить из одних только сегментных значений и весов. p95 зависит от формы распределения, а не только от среднего значения сегмента. Два сегмента с одинаковым p95 могут иметь разные «хвосты», и при объединении общий p95 может измениться непредсказуемо. Чтобы получить p95 на нужном уровне агрегации, нужно пересчитать его на объединённой выборке или иметь доступ к распределению или сырым логам. Взвешенное среднее, простое среднее или максимум по сегментам не дают корректного значения общего процентиля.

Question 3

Вы считаете среднее время ответа поддержки по каналам (чат, email). В чате много тикетов, в email мало. Что неправильно в простом усреднении средних времён по каналам?

Accepted Answer

Простое усреднение по каналам — это среднее средних, и оно неверно, если веса (число тикетов) сильно различаются. Канал с малым количеством тикетов может слишком сильно повлиять на итоговую метрику, если получит такой же вес, как крупный канал. Если продуктовый вопрос звучит как «среднее время ответа по всем тикетам», уровень агрегации — тикет. Тогда нужно считать взвешенное среднее каналов с весами, равными количеству тикетов, или пересчитать из суммарного времени и общего числа тикетов. Брать максимум по каналам или утверждать, что состав не влияет, — обе крайности.

Question 4

У вас есть ARPPU по регионам и число платящих пользователей в каждом регионе. Как корректно получить общий ARPPU по продукту?

Accepted Answer

Если метрика «на пользователя», общий показатель — это взвешенное среднее с весом по числу пользователей, иначе получается среднее средних. ARPPU по региону — это выручка региона, делённая на число платящих в этом регионе, поэтому при объединении регионов весом должно быть число платящих, а не общая аудитория или визиты. Простое среднее региональных значений завысит вклад маленьких регионов и исказит итог. Правильно посчитать общую выручку и общее число платящих или эквивалентно применить взвешенное среднее с корректными весами на уровне платящего пользователя.

Question 5

ARPU за период вырос, но в разрезе iOS и Android ARPU снизился в каждом сегменте. Что корректнее всего сделать перед выводом о росте продукта?

Accepted Answer

Когда итоговая метрика конфликтует с сегментами, проверьте сдвиг состава аудитории и стандартизируйте расчёт с фиксированными весами. Рост общей метрики может быть вызван тем, что выросла доля платформы с более высоким базовым ARPU, даже если внутри платформ ARPU падает. Это эффект сдвига состава, а не обязательно улучшение продукта. Практика — сравнить метрики на одинаковом уровне агрегации внутри сегментов и собрать общий результат через взвешенное среднее с фиксированными весами по платформам.

Взвешенные средние и смешение: вопросы для собеседования (часть 3)

Вопросы 11–15 из 20

Хотите тренировать интерактивно?

Другие темы: Логика