Вы хотите убрать дубликаты для purchase_succeeded. Какой dedup_key наиболее безопасен, чтобы не «съесть» реальные повторные покупки одного пользователя?
AИспользовать
dedup_key=user_id, чтобы у пользователя была только одна покупка.BИспользовать
dedup_key=event_time, потому что одинаковое время означает дубликат.CИспользовать
dedup_key=order_id (или transaction_id) и дополнительно event_id для повторных отправок одного и того же события.DИспользовать
dedup_key=amount_minor, потому что одинаковая сумма означает дубликат.Правильный ответ. Дедупликация должна опираться на идентификатор транзакции (
order_id), а не на время или пользователя.Разбор
Пользователь может совершать несколько покупок, поэтому user_id не подходит как ключ дедупа. Время устройства может быть неточным, а разные покупки могут происходить близко по времени. Сумма также не уникальна и приведёт к потере валидных событий. Order_id или transaction_id отражают уникальность покупки, а event_id помогает удалять повторные доставки одного и того же события в пайплайне logging.
Проверь себя · 1/3разбор после ответа
В мобильном приложении события могут копиться офлайн и отправляться позже. Какие поля времени лучше заложить в
logging, чтобы корректно строить user journey и контролировать задержки?Ещё вопросы по теме «Инструментация и качество данных»
- Вы проектируете `event taxonomy` для регистрации. Какой вариант `instrumentation` лучше всего подходит, чтобы считать конверсию в успешную регистрацию и понимать, через какой способ вошли?
- Вы хотите логировать применение фильтров в каталоге. Какой вариант лучше для `event taxonomy` и последующей аналитики?
- Вы настраиваете мониторинг `data quality` для платёжного флоу. Какой набор `invariants` наиболее практичен и устойчив к сезонности?
- После обновления SDK вы видите, что сумма по `purchase_succeeded` выросла почти в 2 раза, но платежный провайдер этого не подтверждает. Что наиболее вероятно и какое действие по `data quality` самое уместное?
- В мобильном приложении события могут копиться офлайн и отправляться позже. Какие поля времени лучше заложить в `logging`, чтобы корректно строить `user journey` и контролировать задержки?
- Все вопросы по «Инструментация и качество данных» →