Вы строите отчёт по platform и видите ios и android. Какое утверждение о intersection наиболее корректно в зависимости от ключа deduplication?

AЕсли считать по user_id, то intersection между ios и android всегда равна 0.
BЕсли считать по device_id, то intersection между ios и android всегда больше 0.
CЕсли intersection между ios и android не нулевая, значит обязательно ошибка в данных.
DЕсли считать unique users по user_id, возможен overlap (intersection), потому что один user может использовать два device; если считать по device_id, такие set обычно не пересекаются.
Правильный ответ. Размер intersection зависит от ключа deduplication: user_id даёт кросс-platform overlap, device_id делает set почти раздельными.

Разбор

Если цель — считать людей, используйте user_id, и тогда один user может попадать в ios и android, создавая intersection. Если цель — считать устройства, то device_id обычно уникален в пределах одного platform, и intersection будет близка к 0. В интервью важно уточнять units и ключ deduplication, иначе выводы про overlap будут неверными.

Проверь себя · 1/3разбор после ответа
Чтобы посчитать unique users в union двух set A и B, зная |A|, |B| и |A intersection B|, какую формулу включение–исключение нужно использовать?
Открыть Карьерник в Telegram

Ещё вопросы по теме «Теория множеств и дедупликация»