В конце 2022 года вышел отчет по инцидентам
VOID Report 2022 от компании Verica на основе базы VOID. Авторы проанализировали 10 тысяч инцидентов из 600 компаний по базе VOID и опубликовали второй отчет, первый вышел в 2021 году. Компания Verica - это SaaS стартап, основанный выходцами из Netflix, в области Chaos Engineering. База
VOID (Verica Open Incident Database) развивается силами сообщества
VOID community, в базе можно найти разборы инцидентов или сообщить информацию про свой инцидент. В подготовке текущего отчета принимали участие известные эксперты из индустрии, такие как
John Allspaw и
Adrian Cockcroft.
Что интересного мы отметили в отчете:
- Mean Time to Resolve (MTTR) не подходит в качестве ключевой метрики и может создавать ложную уверенность высокой надежности из-за усреднения и вариативности;
- Как альтернативу авторы предлагают SLO, Cost of Coordination и выбирать метрики исходя из вашего контекста и проверять их на практике, а не следовать за тем, что популярно в индустрии;
- Ссылаются на исследование и отчет Incident Metrics in SRE;
- Уровень критичности инцидента (Severity level) субьективен, различается между компаниями и командами, может быть связан как с Customer impact, так и с Engineering effort, не связан с продолжительностью инцидента и может использоваться как инструмент для политики, чтобы привлекать или избегать внимания к инциденту;
- Root Cause анализ не работает для Complex систем, большие компании отказываются от раздела Root Cause в своих пост мортемах, об этой проблеме упоминал Dr. Richard Cook в своей работе How complex system fails;
- Авторы рекомендуют рассматривать инциденты как возможность для обучения, использовать такой подход как Near Miss, фокусироваться на глубоком и качественном анализе при разборе инцидентов, а не поверхностных метриках.
Основные результаты из исследования и отчета
VOID Report 2022 приведены ниже: