Обзор State of AI Incident Management Report 2025

В ноябре 2025 года компания Atlassian опубликовала отчет State of AI in Incident Management Report 2025, посвященный текущему состоянию процессов и практик управления инцидентами. Напомним, что ранее компания Atlassian приобрела сервис для управления инцидентами Opsgenie, который интегрировала в продукт Jira Service Management, поэтому им интересно данное направление. Сами исследования проводятся ежегодно с 2020 года и анализируют развитие практик и процессов управления инцидентами в индустрии.

В пятом выпуске отчета особое внимание уделено использованию AI. Результаты показывают, что команды все активнее применяют AI для анализа трендов инцидентов, оценки рисков изменений и в эксплуатации. Отчет также позволяет сравнить собственные практики управления инцидентами с отраслевыми данными, включая распространенные проблемы, уровень автоматизации, влияние AI на ускорение показателей MTTA и MTTR, а также направления будущих инвестиций. В опросе приняло участие более 500 разработчиков, инженеров и руководителей, работающих на полной занятости из организациях численностью более 100 сотрудников и применяющих DevOps практики.

Что интересного мы отметили в отчете:

Зрелость процессов управления инцидентами. Доля организаций, применяющих проактивный подход к обнаружению и обработке инцидентов, увеличилась с 35% в 2020 году до 75% в 2025 году. В рамках исследования проактивной считается организация, которая использует инструменты мониторинга, алертинга и коммуникации, проводит формальное обучение реагированию на инциденты, а также применяет AI для анализа трендов инцидентов и обеспечивает видимость изменений. Несмотря на устойчивый рост зрелости, темпы увеличения таких практик замедляются — в 2025 году доля проактивных организаций выросла лишь на 6.6% по сравнению с 2024 годом;
Фреймворки, используемые в управлении инцидентами. DevOps и Agile остаются наиболее популярными фреймворками. Наряду с ними также часто упоминают Lean, ITIL и Service Management. При этом большинство организаций не применяют эти фреймворки как жесткие методологии, а адаптируют отдельные практики под собственные процессы и рабочие потоки. В результате такие подходы воспринимаются скорее как набор полезных ориентиров и принципов, а не как строгий набор правил, который необходимо полностью соблюдать;
Инструменты совместной работы и коммуникации. Для внутреннего взаимодействия наиболее распространены почта (59%), видеоконференции (53%), чаты (57%), телефонные конференции (52%), а также системы Service Desk и системы управления задачами. Для внешней коммуникации чаще всего используются электронная почта (58%), сайты (57%), статус страницы (54%) и SMS (54%), что отражает стремление организаций использовать несколько каналов для информирования пользователей о состоянии сервисов. Для командного взаимодействия во время инцидентов наиболее популярны чаты, системы управления проектами и задачами, видеоконференции;
Команды участвующие в процессах управления инцидентами. Наиболее активно в этих процессах задействованы команды эксплуатации (96%), разработки (67%) и другие инженерные команды (53%). Также заметную роль играют команды Site Reliability Engineering (42%) и C-level руководители (40%), что отражает растущую значимость надежности сервисов и влияния инцидентов на бизнес. При этом участие других функций — юридических команд (24%) и маркетинга (16%) — встречается реже, однако их вовлечение указывает на растущее внимание к коммуникации с клиентами и управлению репутационными рисками во время инцидентов;
Дежурства по инцидентам (On-call). Дежурства по инцидентам чаще всего выполняют команды эксплутации (IT Operations) и поддержки (Service Desk). В 2025 году их доля достигла 93%, что выше показателей предыдущих лет. Также активно участвуют разработчики — 63% организаций привлекают их к дежурствам, что отражает распространение практик DevOps и совместной ответственности за надежность сервисов. В то же время участие продуктовых менеджеров в дежурствах остается заметным (43%), тогда как лишь небольшая доля организаций сообщает об отсутствии процессов дежурств;
Проактивные практики и инструменты. Наиболее распространенной практикой остается мониторинг мощностей и загрузки систем (Capacity Monitoring), который применяют 80% организаций. Также активно используются AI для анализа трендов инцидентов (79%) и мониторинг пользовательских транзакций (77%), что отражает растущее внимание к раннему выявлению проблем и пользовательскому опыту. Заметный рост также наблюдается в применении анализа и корреляции инцидентов (65%) и синтетического тестирования (62%), что указывает на постепенное усиление проактивного подхода к обнаружению и предотвращению инцидентов;
Источники обнаружения инцидентов. Большинство респондентов (78%) сообщили, что используют все перечисленные каналы обнаружения. Среди отдельных источников наиболее распространены инструменты мониторинга (76%), проактивное внутреннее обнаружение (72%) и реактивное внутреннее обнаружение (69%). Существенную роль также продолжают играть обращения пользователей (65%) и сообщения через Help Desk (60%), что показывает, что несмотря на развитие мониторинга и автоматизации, пользовательские сигналы остаются важным источником обнаружения инцидентов;
Единый источник информации во время инцидентов. Большинство респондентов (59%) предпочитают использовать системы управления задачами или ITSM инструменты в качестве основного источника информации при управлении инцидентами. При этом чаты остаются важным рабочим каналом благодаря своей оперативности и удобству для координации действий. Однако сами по себе чаты не обеспечивают возможности для ведения подробных журналов и документации, необходимых для последующего анализа инцидентов (PIR). Поэтому организации часто интегрируют чаты с системами управления сервисами, например Jira Service Management, BMC Helix или ServiceNow, чтобы сочетать оперативную коммуникацию с полноценным учетом и отчетностью;
Прозрачность инфраструктуры во время инцидента. Несмотря на использование инструментов с поддержкой AI, недостаточная прозрачность инфраструктуры остается одной из главных проблем для команд. Для анализа ситуации большинство респондентов обращаются к истории инцидентов, используют AI агентов для операционных задач и анализируют последние развертывания. При этом доступ к информации о недавних изменениях используется на 7% реже, чем годом ранее, несмотря на тесную связь между изменениями и инцидентами. Доля организаций, имеющих доступ к информации о текущем состоянии сервисов (Live Service Health Info), выросла с 55% до 63%, что может свидетельствовать о постепенном улучшении наблюдаемости и прозрачности;
Инструменты управления инцидентами. Наиболее распространенными инструментами остаются системы интеллектуального обнаружения инцидентов и алертинга, которые используют 70% организаций. Также широко применяются инструменты мониторинга и логирования (69%), чаты, такие как Slack и Microsoft Teams (68%), а также инструменты развертывания (68%). Важную роль продолжают играть инструменты управления инцидентами (69%), системы управления изменениями (59%) и CMDB или системы управления активами (54%), что отражает постепенное усиление интеграции процессов эксплуатации, управления изменениями и конфигурациями в рамках управления инцидентами;
Метрики для оценки эффективности управления инцидентами. Наиболее распространенной метрикой остается MTTR (Mean Time to Resolve), которую используют 79% организаций. Также широко применяются показатели MTTA (Mean Time to Acknowledge) — 73% и MTTR (Mean Time to Respond) — 71%, что отражает растущее внимание к скорости обнаружения и реагирования на инциденты. По сравнению с 2023 годом использование всех ключевых метрик заметно выросло, особенно метрика времени реагирования, который увеличился с 42% до 71%. Одновременно организации все чаще оценивают стоимость инцидентов, все больше руководителей сообщают, что каждый инцидент обходится их организации более чем в 500$, при этом лишь 7% компаний не измеряют стоимость инцидентов, что на 13% меньше по сравнению с 2024 годом;
Основные проблемы в управлении инцидентами. Наиболее значимой проблемой остается недостаточная прозрачность инфраструктуры — на нее указывают 35% респондентов, что заметно выше показателей предыдущих лет. Среди других распространенных проблем отмечаются недостаточная координация между подразделениями (17%) и недостаток контекста во время инцидента (9%). Также респонденты указывают на отсутствие автоматизированных реакций, недостаток планов реагирования на инциденты и недостаточную зрелость процессов. В меньшей степени проблемы связаны с управлением изменениями и интеграцией с чатами, что подчеркивает, что ключевые трудности сегодня связаны прежде всего с наблюдаемостью и координацией;
Области, требующие улучшений в управлении инцидентами. Наиболее часто респонденты отмечают необходимость понимания первопричин инцидентов (51%) и внутреннего взаимодействия между командами (50%). Также значительная доля указывает на необходимость повышения эффективности устранения инцидентов (47%), улучшения интеграции инструментов (47%) и процессов обнаружения инцидентов (46%). Среди других важных направлений называются коммуникация с клиентами, взаимодействие с внутренними стейкхолдерами и понимание изменений в инфраструктуре и окружениях;
Использование AI в управлении инцидентами. Наиболее распространенными сценариями применения AI являются создание каналов для инцидентов (64%), автоматизация коммуникаций во время инцидентов — например, через статус страницы или почту (63%), а также создание задач и инцидентов в системах (61%). Также AI используется для повышения видимости недавних развертываний (60%) и определения затронутых конфигурационных элементов или сервисов (59%). Кроме того, организации применяют AI для уведомлений дежурных инженеров на основе данных мониторинга, создания записей об изменениях и подготовки постмортемов, что показывает постепенную автоматизацию ключевых этапов жизненного цикла управления инцидентами;
Преимущества использования AI в управлении инцидентами. Наиболее часто отмечают ускорение подтверждения инцидентов (MTTA) — 69% и ускорение реагирования (MTTR) — 68%. Также 62% респондентов указывают, что AI помогает выявлять инциденты до того, как их замечают клиенты, а 60% отмечают сокращение времени их устранения. Среди других преимуществ называются ускорение анализа первопричин, более быстрый доступ к необходимым ресурсам и информации, а также помощь в определении профильных экспертов. Дополнительно AI используется для работы агентов эксплуатации и ускорения подготовки постмортемов, при этом лишь 1% пока не видят заметных преимуществ от его применения;
Барьеры внедрения AI в управлении инцидентами. Основным препятствием остаются требования информационной безопасности и соответствия нормативам — на них указывают 74% респондентов. Среди других значимых барьеров отмечаются нехватка квалифицированных специалистов (53%), длительные внутренние процедуры согласования (53%) и ограничения бюджета (52%). Также респонденты сталкиваются с недостаточной поддержкой со стороны руководства и незрелостью доступных инструментов. Меньшая доля указывает на экономическую эффективность (ROI) внедрения AI, что показывает, что основными ограничениями сегодня остаются организационные и регуляторные факторы.

Основные результаты из отчета State of AI Incident Management Report 2025 приведены ниже:

Если вам важно улучшить и переосмыслить практику управления инцидентами (Incident Management), обращайтесь к нам за помощью. Мы помогаем компаниям создавать и развивать процессы управления инцидентами: анализируем текущую модель обнаружения, реагирования и эскалации, оцениваем зрелость мониторинга и алертинга, наблюдаемости и дежурств, выявляем проблемы прозрачности инфраструктуры, координации между командами и качества операционного контекста во время инцидентов.

Мы помогаем CTO, руководителям и техническим лидерам выстраивать измеримую и устойчивую модель управления инцидентами, внедрять и развивать современные процессы и практики, инструменты автоматизации и межкомандного взаимодействия, а также аккуратно интегрировать AI в процессы обнаружения, коммуникации, анализа и устранения инцидентов, чтобы улучшать метрики, повышать надежность сервисов и делать управление инцидентами частью инженерной культуры и операционной модели компании.

Не забывайте подписываться на наш канал Enabling.team Insights, чтобы оставаться в курсе технологических трендов.