В конце 2022 года вышел отчет
The Incident Benchmark Report от компании
FireHydrant, которая разрабатывает и предоставляет SaaS платформу для управления инцидентами. Авторы отчета проанализировали 53 тысячи инцидентов, которые прошли через платформу за 4 года.
Что интересного мы отметили:
1. Количество инцидентов зависит от размера компании, в больших компаниях каждый день что-то ломается. В середине недели и в середине дня происходит больше всего инцидентов;
2. По уровню критичности на первом месте находятся инциденты уровня Low (42%), далее Medium (31%) и High (27%);
3. Среднее время восстановления (MTTR) по всем инцидентам составило 24 часа, при этом отсутствует разница по времени восстановления между High и Low инцидентами;
4. Средний размер команды реагирования на инцидент составил 6 инженеров, добавление еще одного участника увеличивало MTTR на 18%, а правильное распределение ролей во время инцидента снижало MTTR на 42%;
5. Использование Service Catalog с актуальным списком сервисов и их владельцев сокращает MTTR на 36%;
6. Общий колл во время инцидента не помогал решать инциденты быстрее и не снижал количество коммуникации;
7. Меньше половины инцидентов (42%) уровня High доходило до разбора, написания постмортема или проведения ретроспективы. При этом общее количество проведенных ретроспектив увеличивается;
8. Количество инцидентов, особенно Low уровня, увеличивается год к году, как и количество новых сервисов, рост составил 1640% за последний год;
9. Компании все чаще применяют Status Page для оповещения пользователей о проблемах.
Основные результаты из отчета
The Incident Benchmark Report приведены ниже: