Question 1

Вы логируете событие `experiment_exposure` для A/B тестов. Какой `invariants` наиболее полезен для контроля `data quality`?

Accepted Answer

Инварианты для `experiment_exposure` должны ловить противоречия в назначении варианта и обязательные поля, а не требовать идеальной пропорции. Равномерность распределения может колебаться из-за сегментации и рандомизации, поэтому это плохой жёсткий инвариант. Гораздо важнее, чтобы один пользователь не попадал в разные варианты одного эксперимента, иначе нарушается корректность интерпретации. Обязательные свойства и допустимые значения позволяют быстро ловить баги в `logging`. Частые повторные экспозиции могут раздуть события и усложнить дедупликацию, поэтому их нужно контролировать.

Question 2

Вы описываете `event taxonomy` для `purchase_succeeded`. Как лучше хранить сумму покупки в `properties`, чтобы избежать проблем `data quality` при агрегациях?

Accepted Answer

Для аналитики лучше хранить числовое поле и валюту отдельно, чтобы избежать парсинга и неоднозначностей в `properties`. Строковые суммы легко ломаются из-за форматирования, пробелов и локалей, что создаёт ошибки в отчётах. Число в минимальных единицах удобно суммировать и сравнивать без плавающих ошибок, а `currency` отделяет контекст. Такой формат проще валидировать и поддерживать при изменениях. Это повышает надёжность `logging` и снижает стоимость последующей очистки данных.

Question 3

Какой санити-чек лучше всего подходит для свойства `currency` в событиях покупок с точки зрения `invariants` и `data quality`?

Accepted Answer

Инвариант для перечислимого поля должен проверять не пустоту и допустимый набор значений, иначе ошибки будут скрыты. Жёстко фиксировать одну валюту нельзя, если продукт международный или планы могут измениться. Разрешать любые значения тоже опасно: опечатки и разные форматы начнут «размножаться» и ломать отчёты. Проверка допустимых кодов даёт ранний сигнал о баге `instrumentation` или о новом бизнес-кейсе, который нужно поддержать. Это простой, но очень эффективный контроль `data quality`.

Question 4

Какие `properties` полезно добавлять почти ко всем событиям, чтобы быстрее диагностировать проблемы `instrumentation` после релизов?

Accepted Answer

Поля версии и платформы в `logging` помогают быстро понять, где именно сломалась `instrumentation`. Если метрика падает после релиза, первый вопрос: это реальное поведение или сломанные события в конкретной версии. `App_version` и `platform` позволяют сегментировать и увидеть резкие разрывы, а `sdk_version` помогает отделить баг SDK от кода приложения. Без этих полей диагностика превращается в гадание и долгие переписки. Это один из самых дешёвых способов улучшить `data quality`.

Question 5

Вы хотите логировать применение фильтров в каталоге. Какой вариант лучше для `event taxonomy` и последующей аналитики?

Accepted Answer

Стабильные имена `event` и параметры в `properties` обычно лучше, чем динамические имена событий. Динамические имена раздувают таксономию и усложняют запросы и мониторинг `data quality`. Единый `event` с параметрами позволяет добавлять новые фильтры без взрыва количества событий. Такой подход проще валидировать и сравнивать между платформами. Текстовые поля и скриншоты плохо подходят для надёжной аналитики и автоматических проверок.

Вопросы по теме «Инструментация и качество данных»

Вопросы 1–5 из 20

Хотите тренировать интерактивно?

Другие темы: Продуктовая аналитика