MTTR показывает, сколько времени проходит от обнаружения инцидента до полного восстановления сервиса. Быстрое восстановление важнее, чем полное отсутствие сбоев, потому что в сложных системах инциденты неизбежны. Эта метрика отражает зрелость мониторинга, алертинга и общей культуры реагирования на инциденты.
Среднее время восстановления сервиса после сбоя. Элитный уровень: <1 часа.
УЛУЧШАЕТСЯ: В монорепозиториях откат упрощается, так как весь контекст изменения (включая связанные сервисы) находится в одном коммите. Использование фиче-флагов делает восстановление почти мгновенным, позволяя точечно выключать проблемный код.
УСИЛИВАЕТСЯ: Если автор изменения спит во время аварии в другом часовом поясе, дежурный лишается критического контекста. Разрыв в знаниях на границах регионов многократно увеличивает время диагностики, делая экспертов недоступными часами.
Время диагностики масштабируется со сложностью системы.
Медленный CI напрямую задерживает деплой hotfix'ов и откатов. Быстрые пайплайны позволяют восстановление за час; медленные могут растянуть инцидент на часы.
Отключить фичу vs полный перезапуск pipeline.
Быстрое обнаружение + диагностика.
Перекладывание инцидента между сменами в часовых поясах занимает часы. Принимающий часовой пояс не имеет контекста.
Хорошо написанные runbook'и позволяют перекладывать инциденты между часовыми поясами без ожидания.