Курс Технический менеджер продуктов · автор Stanislav Belyaev
EN RU

Время восстановления (MTTR)

1 исходящих · 5 входящих · 6 всего связей

Карта Детали
МАСШТАБ КОМАНДЫ
Delivery & Pipeline УЛУЧШЕНО В МОНОРЕПО УСИЛЕНО В РАСПРЕДЕЛЁННЫХ КОМАНДАХ

Время восстановления (MTTR)

MTTR показывает, сколько времени проходит от обнаружения инцидента до полного восстановления сервиса. Быстрое восстановление важнее, чем полное отсутствие сбоев, потому что в сложных системах инциденты неизбежны. Эта метрика отражает зрелость мониторинга, алертинга и общей культуры реагирования на инциденты.

Среднее время восстановления сервиса после сбоя. Элитный уровень: <1 часа.

КОНТЕКСТ МОНОРЕПО

УЛУЧШАЕТСЯ: В монорепозиториях откат упрощается, так как весь контекст изменения (включая связанные сервисы) находится в одном коммите. Использование фиче-флагов делает восстановление почти мгновенным, позволяя точечно выключать проблемный код.

КОНТЕКСТ РАСПРЕДЕЛЁННЫХ КОМАНД

УСИЛИВАЕТСЯ: Если автор изменения спит во время аварии в другом часовом поясе, дежурный лишается критического контекста. Разрыв в знаниях на границах регионов многократно увеличивает время диагностики, делая экспертов недоступными часами.

Влияние масштаба
👤 Один / Пара (1–3)
0.4
👥 Команда (4–15)
0.5
🏢 Отдел (15–100)
0.8
🏛️ Организация (100+)
1

Время диагностики масштабируется со сложностью системы.

1
Влияет на
5
Зависит от

→ Влияет на

Нагрузка дежурств

Медленное восстановление = более долгие инциденты.

Больше человеко-часов
Harness MTTR Blog

← Зависит от

Скорость пайплайна (CI/CD)

Медленный CI напрямую задерживает деплой hotfix'ов и откатов. Быстрые пайплайны позволяют восстановление за час; медленные могут растянуть инцидент на часы.

DORA: elite MTTR <1ч требует быстрого CI
DORA Metrics - Failed Deployment Recovery Time
Фиче-флаги

Отключить фичу vs полный перезапуск pipeline.

Секунды vs часы
LaunchDarkly Feature Flags Blog
Качество наблюдаемости

Быстрое обнаружение + диагностика.

На 80% меньше инцидентов
DORA State of DevOps 2021
Задержка передачи (Handoff)

Перекладывание инцидента между сменами в часовых поясах занимает часы. Принимающий часовой пояс не имеет контекста.

MTTR измеряется в сменах, а не часах
Google SRE, PagerDuty incident management
Качество асинхронной связи

Хорошо написанные runbook'и позволяют перекладывать инциденты между часовыми поясами без ожидания.

Google SRE: чёткая коммуникация критична
Google SRE, incident management research
Карта метрик — Stanislav Belyaev · Анализ — Anthropic Claude Opus 4.6 · Все данные проверены человеком