Частота инцидентов в продакшене показывает, как часто пользователи сталкиваются с деградацией или недоступностью сервиса. Метрика отражает совокупное качество кода, тестирования, инфраструктуры и операционных процессов. Важно анализировать не только количество инцидентов, но и их severity, время обнаружения и корневые причины.
Частота сбоев в проде. Каждый инцидент уничтожает 2–3 часа продуктивного времени.
Смешанный эффект. Монорепы могут увеличить частоту аварий при плохом тестировании общих библиотек, но атомарные откаты помогают быстрее снижать MTTR.
УСИЛИВАЕТСЯ: Инциденты в нерабочие часы означают, что дежурный лишен контекста от команды-автора. Разрывы в часовых поясах часто затягивают решение аварии на целую смену.
Больше деплоев + больше сервисов = больше инцидентов.
Больше инцидентов = больше вызовов.
Каждый инцидент = незапланированное переключение. По 2–3 часа каждый.
Культура тушения пожаров → деморализация.
Hotfix под давлением → срезание углов.
Подорванное доверие → игнорирование падений → баги доходят до прода.
Необнаруженные дефекты доходят до прода. Предупреждения о размере → на 35% меньше дефектов.
Баги, связанные с долгом: неполные исправления вводят новые дефекты. Соотношение дефектов растет с накоплением долга.
Неисправленные CVE в устаревших зависимостях.
Проактивный мониторинг предотвращает эскалацию.
Больше сбоев → больше инцидентов.
Код с владельцем поддерживается. Общие библиотеки без владельца накапливают баги. Четкое владение → быстрая маршрутизация инцидентов.
Баг в широко используемом коде может вызвать каскадные падения многих сервисов одновременно.
Уязвимости безопасности, сгенерированные AI, приводят к инцидентам в продакшене.