Incident response на собеседовании системного аналитика

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

Карьерник — Duolingo для аналитиков: 10 минут в день тренируй SQL, Python, A/B, статистику, метрики и ещё 3 темы собеса. 1500+ вопросов в Telegram-боте. Бесплатно.

Severity

SEV-1. Total outage / data loss / security breach. All-hands.

SEV-2. Major impact, partial outage. Senior on-call.

SEV-3. Minor functionality affected. Workaround exists.

SEV-4. Cosmetic, low impact.

Priority response соответствует.

Roles

Incident Commander. Coordinates, не technical lead. Decisions.

Tech lead. Diagnostic, remediation work.

Communications lead. Updates stakeholders / customers.

Scribe. Logs decisions, timeline.

В small teams — roles combined. Big incident — separate.

Mitigation

Priority — restore service.

Steps:

  1. Acknowledge — confirm incident, page team.
  2. Triage — assess impact, severity.
  3. Mitigate — restore service (rollback, failover).
  4. Verify — confirm fixed.
  5. RCA позже.

Don't. Try root cause first. Fix mode.

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

RCA

Root Cause Analysis. What deeper cause led к incident.

5 Whys.

Service down. Why? — Out of memory.
Why? — Memory leak в new release.
Why? — Bug в caching code.
Why? — Missing test case.
Why? — Code review didn't catch.

Fix root, не симптом.

Postmortem

Document incident, learnings.

Standard format:

  • Timeline.
  • Impact.
  • Root cause.
  • Resolution.
  • Action items (preventions).

Blameless culture. Не personal blame. Focus systemic improvements.

Public postmortems (some companies) — build trust, share learnings.

Связанные темы

FAQ

Это официальная информация?

Нет. Статья основана на Google SRE practices.


Тренируйте системный анализ — откройте тренажёр с 1500+ вопросами для собесов.