Время восстановления (MTTR)

Delivery & Pipeline УЛУЧШЕНО В МОНОРЕПО УСИЛЕНО В РАСПРЕДЕЛЁННЫХ КОМАНДАХ

Время восстановления (MTTR)

MTTR показывает, сколько времени проходит от обнаружения инцидента до полного восстановления сервиса. Быстрое восстановление важнее, чем полное отсутствие сбоев, потому что в сложных системах инциденты неизбежны. Эта метрика отражает зрелость мониторинга, алертинга и общей культуры реагирования на инциденты.

Среднее время восстановления сервиса после сбоя. Элитный уровень: <1 часа.

КОНТЕКСТ МОНОРЕПО

УЛУЧШАЕТСЯ: В монорепозиториях откат упрощается, так как весь контекст изменения (включая связанные сервисы) находится в одном коммите. Использование фиче-флагов делает восстановление почти мгновенным, позволяя точечно выключать проблемный код.

КОНТЕКСТ РАСПРЕДЕЛЁННЫХ КОМАНД

УСИЛИВАЕТСЯ: Если автор изменения спит во время аварии в другом часовом поясе, дежурный лишается критического контекста. Разрыв в знаниях на границах регионов многократно увеличивает время диагностики, делая экспертов недоступными часами.

Влияние масштаба

👤 Один / Пара (1–3)

0.4

👥 Команда (4–15)

0.5

🏢 Отдел (15–100)

0.8

🏛️ Организация (100+)

Время диагностики масштабируется со сложностью системы.

1

Влияет на

5

Зависит от

→ Влияет на

▲ Нагрузка дежурств

Медленное восстановление = более долгие инциденты.

Больше человеко-часов

Harness MTTR Blog

← Зависит от

▲ Скорость пайплайна (CI/CD)

Медленный CI напрямую задерживает деплой hotfix'ов и откатов. Быстрые пайплайны позволяют восстановление за час; медленные могут растянуть инцидент на часы.

DORA: elite MTTR <1ч требует быстрого CI

DORA Metrics - Failed Deployment Recovery Time

▼ Фиче-флаги

Отключить фичу vs полный перезапуск pipeline.

Секунды vs часы

LaunchDarkly Feature Flags Blog

▼ Качество наблюдаемости

Быстрое обнаружение + диагностика.

На 80% меньше инцидентов

DORA State of DevOps 2021

▲ Задержка передачи (Handoff)

Перекладывание инцидента между сменами в часовых поясах занимает часы. Принимающий часовой пояс не имеет контекста.

MTTR измеряется в сменах, а не часах

Google SRE, PagerDuty incident management

▼ Качество асинхронной связи

Хорошо написанные runbook'и позволяют перекладывать инциденты между часовыми поясами без ожидания.

Google SRE: чёткая коммуникация критична

Google SRE, incident management research