Во время постепенной раскатки целевая метрика улучшилась, но страховочная метрика (например, доля сбоев) ухудшилась выше допустимого порога. Какое решение наиболее корректно?

Question

Карьерник · Accepted Answer

Правильный ответ: Приостановить или откатить раскатку и разобраться в причине ухудшения страховочной метрики до решения по дальнейшему этапу. Страховочные метрики работают как стоп‑сигнал в раскатке, чтобы не допустить массового ущерба. Целевая метрика может расти даже при серьёзных проблемах со стабильностью или качеством, которые ударят по пользователям и бизнесу позже. Поэтому страховочные метрики задают заранее и трактуют как ограничения: пробили порог — остановились. Это позволяет безопасно откатить изменение и разобраться с причиной до расширения на всю аудиторию. Скрывать метрики или ждать «усреднения» — антипаттерны, которые приводят к накоплению ущерба.

Разбор

Ещё вопросы по теме «QA, SRM и раскатка»