Data governance для аналитика

Карьерник — квиз-тренажёр в Telegram с 1500+ вопросами для собесов аналитика. SQL, Python, A/B, метрики. Бесплатно.

Зачем это знать

В крупных компаниях 10 аналитиков считают «revenue» по-разному → 10 разных ответов CEO. Это governance problem. Data governance — процессы, которые обеспечивают consistency, quality и trust данным.

На собесах в enterprise (Сбер, Яндекс, Ozon, Tinkoff) governance questions часты. Junior не знает, senior обязан.

Что такое data governance

Системный подход к управлению данными:

  • Metric definitions (единая истина)
  • Data quality (корректность)
  • Ownership (кто отвечает)
  • Access control (кто видит)
  • Lineage (откуда пришло)

Metric definitions

Проблема

«Revenue» в Marketing ≠ Revenue в Finance. Gross vs net, include refunds or not, accrual vs cash basis.

Решение

Metric dictionary:

  • Каждая метрика — 1 определение
  • SQL source
  • Owner
  • Related metrics

Tools: Looker LookML, dbt metrics, Atlan, Collibra.

Data quality

Dimensions

  • Completeness: all expected data arrived
  • Accuracy: values correct
  • Consistency: across sources
  • Timeliness: fresh
  • Uniqueness: no duplicates
  • Validity: format ok

Tests

  • dbt tests (not_null, unique, relationships, accepted_values)
  • Great Expectations (Python library)
  • Soda Core
# dbt schema.yml
models:
  - name: orders
    columns:
      - name: id
        tests: [unique, not_null]
      - name: status
        tests:
          - accepted_values:
              values: ['pending', 'completed', 'cancelled']

Ownership

Каждый dataset / metric — owner:

  • Team + individual
  • Responsible for quality, fixes, updates

Без owner → data rots, nobody fixes issues.

Data lineage

«Откуда пришло это число?» — показывает dependency chain.

Source → ETL → raw table → transformed → dashboard.

Tools:

  • dbt docs (lineage graphs)
  • Atlan / Collibra (enterprise)
  • OpenLineage (open-source)

Access control

Не все data — public внутри компании.

Levels

  • Public: everyone
  • Restricted: specific teams
  • Confidential: specific users

PII (personal identifiable info)

  • Names, emails, phones — encrypted или masked
  • Legal requirement (GDPR, ФЗ-152)

Schema changes

Chaotic schema changes break downstream → broken dashboards.

Process

  • Additive changes (add column) — safe
  • Breaking changes (rename, remove) — require migration
  • Deprecation — notice period
  • Contracts — interface между producers / consumers

Data contracts

Formal agreement между data producers и consumers:

  • Schema
  • SLA (freshness, accuracy)
  • Change notifications

Popularized by Chad Sanderson, emerging standard.

SLA для метрик

Freshness

«Revenue updated within 2 hours of close».

Accuracy

«99.5% correct».

Availability

«Dashboard uptime 99.9%».

Without SLA — expectations unclear.

На собесе

«Как обеспечить consistency метрик?» Metric dictionary, single source (dbt / LookML), reviews.

«Data quality tests?» not_null, unique, ranges, row counts, freshness.

«Lineage зачем?» Debug, impact analysis, trust.

«Governance процесс?» Owner + SLA + tests + documentation + access control.

Роль аналитика в governance

Define metrics

Аналитик часто owner нескольких метрик.

Write tests

Data quality checks в dbt / airflow.

Document

Dashboard + metric descriptions.

Review changes

Source changes → impact на ваши dashboards.

Tools ecosystem

Metadata / governance

  • Atlan, Collibra, Alation — enterprise
  • DataHub, OpenMetadata — open-source

Testing

  • dbt tests
  • Great Expectations
  • Soda

Lineage

  • dbt
  • OpenLineage
  • Dataset-level через warehouse logs

Catalog

  • Atlan, Alation
  • AWS Glue Catalog (AWS stack)

Частые ошибки

No metric owner

«Кто решает, что revenue включает?». Без owner — споры.

No quality tests

Data ошибки обнаруживаются через broken dashboard.

No documentation

«Что эта метрика значит?». Tribal knowledge.

No access audit

Everyone видит everything → leak risk.

Связанные темы

FAQ

Governance только для big companies?

Нет. Small teams нужно хотя бы metric dictionary.

Аналитик или data engineer?

Both. Governance — shared responsibility.

dbt достаточно?

Для начала да. Enterprise — Collibra и т.п.


Тренируйте аналитику — откройте тренажёр с 1500+ вопросами для собесов.