Question 1

Чтобы посчитать число уникальных пользователей в объединении двух множеств `A` и `B`, зная `|A|`, `|B|` и `|A intersection B|`, какую формулу включения–исключения нужно использовать?

Accepted Answer

Для двух множеств принцип включения–исключения требует вычесть пересечение, чтобы убрать двойной счёт пересекающихся элементов. Каждый пользователь из пересечения попадает и в `A`, и в `B`, поэтому при суммировании он считается дважды. Вычитание `|A intersection B|` возвращает правильный размер объединения. Эта формула лежит в основе многих задач про уникальных пользователей по нескольким источникам.

Question 2

Вы считаете число покупателей как уникальных пользователей за день. В данных есть `device_id` и `user_id` (если пользователь залогинен). Какой подход к дедупликации обычно более корректен?

Accepted Answer

Ключ дедупликации должен соответствовать сущности: для уникальных пользователей это обычно стабильный `user_id`, а не `device_id`. Если один человек совершает покупку с двух устройств, подсчёт по `device_id` завышает аудиторию и создаёт искусственное пересечение между платформами. Подсчёт по `user_id` ближе к бизнес-смыслу уникального человека, но требует отдельного решения для анонимных. Важно заранее определить, что считается уникальными пользователями, и быть последовательным во всех отчётах, иначе цифры между дашбордами не будут сходиться.

Question 3

Аналитик сложил `DAU` за 30 дней и получил 3 млн, а `MAU` за тот же месяц равен 400 тыс уникальных пользователей. Почему это может быть нормально?

Accepted Answer

Сумма `DAU` по дням повторно считает пересечение пользователей между днями, а `MAU` — это объединение уникальных за месяц. Один и тот же `user_id` может быть активен много дней подряд и попадает в каждое дневное множество `DAU`. Сложение дневных значений не учитывает пересечение между днями и завышает итог. `MAU` — это дедупликация по `user_id` на уровне месяца, то есть объединение всех дневных множеств. Поэтому сумма `DAU` обычно сильно больше `MAU` — это не ошибка, а следствие повторного учёта.

Question 4

У вас есть два источника событий: `web_events` и `app_events`. В каждом вы умеете считать уникальных пользователей по `user_id`. Как корректно получить общее число уникальных пользователей по двум источникам?

Accepted Answer

Если `user_id` может быть и в `web_events`, и в `app_events`, то суммирование двух `COUNT(DISTINCT user_id)` без объединения завышает результат из-за пересечения. Здесь каждый источник — это множество значений `user_id`, и вам нужен размер их объединения. Самый прямой способ — объединить источники и сделать дедупликацию через `COUNT(DISTINCT user_id)`. Если просто сложить два `COUNT(DISTINCT user_id)`, вы посчитаете пересечение дважды и получите завышение, а пересечение в чистом виде даст заниженное число; `COUNT(*)` по сырым строкам считает события, а не пользователей. Такая проверка адекватности важна для отчётов по аудитории на нескольких платформах.

Question 5

В отчёте по кампании указано: множество A имеет 100 тыс уникальных пользователей, множество B имеет 80 тыс уникальных пользователей, а их пересечение равно 120 тыс уникальных пользователей. Какой вывод наиболее корректен?

Accepted Answer

По правилам теории множеств размер пересечения всегда меньше или равен размеру каждого из множеств. Если пересечение больше A, значит вы считаете разные сущности или нарушили дедупликацию (например, в одном месте считаете пользователей, а в другом — устройства). Такая проверка адекватности нужна, чтобы быстро обнаружить неверные ключи, дубли после джойнов или смешение единиц учёта. До исправления нельзя интерпретировать ни пересечение, ни объединение. Варианты про равенство объединения 120 тысячам или отсутствие пересечения переворачивают определения; вариант про многократный учёт внутри одной кампании как раз и есть симптом сломанной дедупликации, а не объяснение.

Теория множеств и дедупликация: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Логика