В таблице orders каждая строка — один заказ (событие), а один user_id может сделать несколько заказов. Вы хотите посчитать число покупателей как уникальных пользователей. Какой счётчик соответствует задаче дедупликации покупателей?
A
COUNT(*) по таблице orders: даёт общее число записей и растёт при повторных покупках одних и тех же пользователейB
COUNT(DISTINCT order_id): возвращает число уникальных заказов как событий и завышает ответ при нескольких покупках на пользователяC
COUNT(DISTINCT user_id): возвращает число уникальных пользователей, совершивших хотя бы один заказ, что соответствует числу покупателейD
SUM(order_amount): возвращает общую выручку по таблице заказов и для подсчёта покупателей применить нельзяПравильный ответ. Для подсчёта покупателей как уникальных пользователей нужна дедупликация по
user_id, а не по событиям-заказам.Разбор
Счётчик COUNT(*) или COUNT(DISTINCT order_id) показывает количество заказов, то есть событий, и растёт, если один пользователь покупает много раз. Для аудитории покупателей нужно считать уникальные user_id, то есть размер множества покупателей. Эта проверка здравого смысла помогает не перепутать метрики объёма продаж и охвата уникальных пользователей.
Проверь себя · 1/3разбор после ответа
Аналитик сложил
DAU за 30 дней и получил 3 млн, а MAU за тот же месяц равен 400 тыс уникальных пользователей. Почему это может быть нормально?Ещё вопросы по теме «Теория множеств и дедупликация»
- В таблице событий за день записано 2 млн строк, а в отчёте по аудитории видно 1.2 млн уникальных пользователей. Какое объяснение наиболее вероятно?
- В канале «поиск» 400 тыс уникальных пользователей, в канале «соцсети» 300 тыс, а пересечение между ними 100 тыс. Сколько уникальных пользователей в объединении этих двух множеств?
- В отчёте уникальные пользователи по каналам: email 200 тыс, push 150 тыс, sms 50 тыс. Сумма по строкам — 400 тыс, а общий итог по всем каналам — 260 тыс уникальных пользователей. Что это чаще всего означает?
- Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?
- Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?
- Все вопросы по «Теория множеств и дедупликация» →