PII masking на собеседовании системного аналитика

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Зачем masking

PII (PII) — protected data (152-ФЗ, GDPR).

Use cases mask:

  • Logs (avoid PII в logs).
  • Lower environments (dev / test).
  • Analytics (operate без actual PII).
  • Sharing с partners.

Static vs dynamic

Static. Mask data once. Saved masked.

Production DB: Иван Петров.
Test DB: Имя_X12345.

Dev / test — never see real PII.

Dynamic. Original kept, mask on read для unauthorized users.

Admin sees: "Иван Петров".
Regular user sees: "И*** П*****".

Methods

Redaction. Replace с ***.

Substitution. Real value → fake value.

Shuffling. Permute existing values между rows.

Encryption. Reversible с key.

Hashing. One-way (SHA-256). Не reversible. Same input → same hash.

Tokenization. Replace с token, lookup table в secure storage.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Tokenization

Original: 4111-1111-1111-1111
Token:    tok_a1b2c3d4

System uses token. Только tokenization service knows mapping.

Pros:

  • Card data outside main systems → reduced PCI scope.
  • Token usable как FK в DB.

Cons: central dependency.

Format-preserving

Encryption preserves format.

Original: 4111-1111-1111-1111 (16 digits)
Encrypted: 8273-4912-9483-7261 (still 16 digits)

Useful — schema validation passes, downstream code unchanged.

FPE algorithms: FF1, FF3-1.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на стандартных PII protection practices.


Тренируйте системный анализ — откройте тренажёр с 1500+ вопросами для собесов.