Question 1

Вы проектируете схему событий для регистрации. Какой вариант сбора событий лучше всего подходит, чтобы считать конверсию в успешную регистрацию и понимать, через какой способ вошли?

Accepted Answer

Хорошая схема событий фиксирует смысловое событие и ключевые свойства, а ошибки лучше отделять отдельным событием с причиной. Событие `signup_completed` отражает факт успешного результата и удобно для воронки. Свойства вроде метода и платформы помогают сегментировать, не раздувая набор имён событий. Отдельный `signup_failed` позволяет анализировать причины падения конверсии без смешивания успеха и ошибок в одном событии. `button_click` без контекста не даёт уверенности, что регистрация завершилась.

Question 2

На `iOS` свойство товара приходит как `productId`, а на `Android` как `product_id`. В отчётах часть событий не объединяется. Что правильнее сделать для качества данных?

Accepted Answer

Единая схема событий и нормализация свойств между платформами уменьшают ошибки логирования и упрощают аналитику. Расхождение названий между платформами — это нарушение единой таксономии событий. Правильный путь — зафиксировать единый стандарт (snake_case как `product_id`), отразить его в контракте схемы и либо обновить инструментирование на проблемной платформе, либо нормализовать поле в ETL. `COALESCE` в каждом запросе размножает технический долг и ломается при добавлении новых полей. Считать платформы отдельно — отказ от кросс-платформенных метрик. Переименование на одной платформе без контракта приводит к тому, что следующий разработчик снова разойдётся.

Question 3

Как лучше организовать таксономию событий для ошибок оплаты, чтобы аналитика быстро находила причины падения конверсии и не путала успех с ошибкой?

Accepted Answer

Разделение успеха и ошибки на разные события и явные свойства делают качество данных и диагностику лучше. Хорошая таксономия для оплат — два события (`payment_succeeded` и `payment_failed`) и набор свойств: `stage` (где упало), `error_code` (тип ошибки), `provider` (платёжный провайдер). Так аналитика быстро строит воронку и сводку причин падения конверсии. Разные имена событий под каждую причину дробят таксономию: каждое новое значение `error_code` требует нового события и обновления всех дашбордов. Одно общее `payment_event` теряет различие успеха и ошибки в названии и осложняет фильтры. Опираться только на системные сообщения устройства нельзя — они не содержат бизнес-контекста.

Question 4

Вы включили семплирование 10% для высокочастотного события `scroll` (в инструментировании событий оно отправляется не всегда). Как сделать так, чтобы аналитика и качество данных не пострадали?

Accepted Answer

При семплировании важно фиксировать `sample_rate` и не семплировать события, которые являются основой воронок и инвариантов. При семплировании высокочастотных событий критично сохранить возможность правильно пересчитывать метрики. Поэтому в само событие кладут поле `sample_rate` (или эквивалент), а в SQL-агрегациях умножают `COUNT(*)` на обратный коэффициент. Критичные события (покупка, регистрация) не семплируют вовсе — они и так редкие. Делать единый коэффициент на все события — терять на критичных. Игнорировать долю в расчётах работает только для долей и средних, но ломается на абсолютных счётчиках, и в пересечении когорт даёт смещение.

Question 5

После обновления SDK сумма по `purchase_succeeded` выросла почти в 2 раза, но платёжный провайдер этого не подтверждает. Что наиболее вероятно и какое действие по качеству данных самое уместное?

Accepted Answer

Дубликаты часто возникают из-за повторной отправки при сетевых ретраях, поэтому нужна дедупликация через `event_id` или `dedup_key`. Если источник истины (провайдер) не подтверждает рост, это сильный сигнал, что проблема в инструментировании или в обработке событий. Удаление по `event_time` опасно: реальные покупки могут происходить близко по времени, а часы на устройстве могут быть неточными. Правильнее закладывать дедупликацию на уровне идентификаторов события и транзакции. Затем инварианты по уникальности `order_id` помогут автоматически ловить повторения.

Инструментация и качество данных: вопросы для собеседования (часть 2)

Вопросы 6–10 из 20

Хотите тренировать интерактивно?

Другие темы: Продуктовая аналитика