Question 1

Какое описание наиболее точно передаёт интуицию парадокса Симпсона?

Accepted Answer

Парадокс Симпсона — это когда агрегированный тренд отличается по направлению от трендов внутри сегментов из-за сдвига состава и весов. На уровне сегментов вы можете видеть улучшение (или ухудшение), но при объединении сегментов меняются доли, и итог становится другим. Интуитивно это происходит потому, что общий результат — взвешенное среднее, а веса между группами отличаются. Поэтому анализ без разрезов может приводить к неверным продуктовым решениям.

Question 2

У вас есть среднее время доставки по городам и число заказов в каждом городе. Как корректно получить среднее время доставки по всем заказам, избегая ошибки «среднее средних»?

Accepted Answer

Чтобы получить общий показатель из городских средних, используйте взвешенное среднее с весами, равными объёму заказов на нужном уровне агрегации. Если цель — среднее время доставки по всем заказам, то базовая единица — заказ. Тогда город с малым числом заказов не должен влиять так же, как город с большим объёмом. Взвешивание по числу заказов даёт корректный общий показатель и устраняет ошибку «среднее средних», когда мелкие сегменты тянут итоговое значение.

Question 3

У вас есть показатель удовлетворённости по месяцам и число ответов в каждом месяце. Как корректно получить показатель за квартал, если объёмы ответов по месяцам сильно разные?

Accepted Answer

Если размеры месяцев различаются, квартальная оценка — это не простое среднее, а взвешенное среднее с весами по числу ответов или пересчёт из суммарных счётчиков. Месяц с малым количеством анкет не должен иметь такой же вклад, как месяц с большим количеством ответов. Простое среднее месячных значений — это среднее средних, которое может сильно колебаться. Корректнее взвесить месяцы по числу ответов или, если есть данные, пересчитать показатель из суммарных счётчиков на уровне анкеты.

Question 4

Вы сравниваете конверсию между двумя периодами, но микс каналов изменился. Какой подход лучше всего помогает убрать влияние сдвига микса и сравнить периоды «при одинаковом составе»?

Accepted Answer

Чтобы убрать влияние сдвига микса между периодами, собирайте общий показатель через взвешенное среднее с фиксированными весами и проверяйте риск парадокса Симпсона. Если доли каналов изменились, общий показатель может вырасти или упасть даже при неизменных канальных конверсиях. Сначала посчитайте метрику по каждому каналу на одном уровне агрегации, затем объедините её с одинаковыми весами (например, веса из базового периода). Это позволяет сравнить периоды «при одинаковом составе» и отделить эффект продукта от состава. Такой подход снижает вероятность неправильных выводов в духе парадокса Симпсона. Усреднение с равными весами или сравнение по одному каналу искажают вклад крупных сегментов.

Question 5

У вас есть прирост конверсии по странам, но страны сильно различаются по трафику. Как корректно получить общий эффект по всем странам, избегая «среднего средних»?

Accepted Answer

При разном трафике по сегментам общий эффект нужно считать на правильном уровне агрегации или как взвешенное среднее с релевантными весами. Если страны разные по размеру, простое среднее приростов — это «среднее средних», где маленькая страна может переопределить вывод. Корректнее собрать данные по всем пользователям и посчитать метрику для A и B в целом. Альтернатива — взвесить сегментные приросты с весами, равными трафику, что эквивалентно вычислению на правильном уровне агрегации. Выбор лучшей страны или сумма приростов по странам не имеют статистического смысла и искажают итоговую оценку эффекта.

Взвешенные средние и смешение: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Логика