Data governance для аналитика
Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.
Зачем это знать
В крупных компаниях 10 аналитиков считают «revenue» по-разному → 10 разных ответов CEO. Это governance problem. Data governance — процессы, которые обеспечивают consistency, quality и trust данным.
На собесах в enterprise (Сбер, Яндекс, Ozon, Tinkoff) governance questions часты. Junior не знает, senior обязан.
Что такое data governance
Системный подход к управлению данными:
- Metric definitions (единая истина)
- Data quality (корректность)
- Ownership (кто отвечает)
- Access control (кто видит)
- Lineage (откуда пришло)
Metric definitions
Проблема
«Revenue» в Marketing ≠ Revenue в Finance. Gross vs net, include refunds or not, accrual vs cash basis.
Решение
Metric dictionary:
- Каждая метрика — 1 определение
- SQL source
- Owner
- Related metrics
Tools: Looker LookML, dbt metrics, Atlan, Collibra.
Data quality
Dimensions
- Completeness: all expected data arrived
- Accuracy: values correct
- Consistency: across sources
- Timeliness: fresh
- Uniqueness: no duplicates
- Validity: format ok
Tests
- dbt tests (not_null, unique, relationships, accepted_values)
- Great Expectations (Python library)
- Soda Core
# dbt schema.yml
models:
- name: orders
columns:
- name: id
tests: [unique, not_null]
- name: status
tests:
- accepted_values:
values: ['pending', 'completed', 'cancelled']Ownership
Каждый dataset / metric — owner:
- Team + individual
- Responsible for quality, fixes, updates
Без owner → data rots, nobody fixes issues.
Data lineage
«Откуда пришло это число?» — показывает dependency chain.
Source → ETL → raw table → transformed → dashboard.
Tools:
- dbt docs (lineage graphs)
- Atlan / Collibra (enterprise)
- OpenLineage (open-source)
Access control
Не все data — public внутри компании.
Levels
- Public: everyone
- Restricted: specific teams
- Confidential: specific users
PII (personal identifiable info)
- Names, emails, phones — encrypted или masked
- Legal requirement (GDPR, ФЗ-152)
Schema changes
Chaotic schema changes break downstream → broken dashboards.
Process
- Additive changes (add column) — safe
- Breaking changes (rename, remove) — require migration
- Deprecation — notice period
- Contracts — interface между producers / consumers
Data contracts
Formal agreement между data producers и consumers:
- Schema
- SLA (freshness, accuracy)
- Change notifications
Popularized by Chad Sanderson, emerging standard.
SLA для метрик
Freshness
«Revenue updated within 2 hours of close».
Accuracy
«99.5% correct».
Availability
«Dashboard uptime 99.9%».
Without SLA — expectations unclear.
На собесе
«Как обеспечить consistency метрик?» Metric dictionary, single source (dbt / LookML), reviews.
«Data quality tests?» not_null, unique, ranges, row counts, freshness.
«Lineage зачем?» Debug, impact analysis, trust.
«Governance процесс?» Owner + SLA + tests + documentation + access control.
Роль аналитика в governance
Define metrics
Аналитик часто owner нескольких метрик.
Write tests
Data quality checks в dbt / airflow.
Document
Dashboard + metric descriptions.
Review changes
Source changes → impact на ваши dashboards.
Tools ecosystem
Metadata / governance
- Atlan, Collibra, Alation — enterprise
- DataHub, OpenMetadata — open-source
Testing
- dbt tests
- Great Expectations
- Soda
Lineage
- dbt
- OpenLineage
- Dataset-level через warehouse logs
Catalog
- Atlan, Alation
- AWS Glue Catalog (AWS stack)
Частые ошибки
No metric owner
«Кто решает, что revenue включает?». Без owner — споры.
No quality tests
Data ошибки обнаруживаются через broken dashboard.
No documentation
«Что эта метрика значит?». Tribal knowledge.
No access audit
Everyone видит everything → leak risk.
Связанные темы
- dbt шпаргалка
- Как документировать аналитические задачи
- Как писать data documentation
- Что такое data warehouse
FAQ
Governance только для big companies?
Нет. Small teams нужно хотя бы metric dictionary.
Аналитик или data engineer?
Both. Governance — shared responsibility.
dbt достаточно?
Для начала да. Enterprise — Collibra и т.п.
Тренируйте аналитику — откройте тренажёр с 1500+ вопросами для собесов.