В начале 2025 года вышел отчет по состоянию Reliability Engineering в индустрии —
The SRE Report 2025 от компании Catchpoint, которая разрабатывают собственную платформу для Internet Performance Monitoring (IPM). Это 7-е издание отчета,
предыдущий отчет мы разбирали в прошлом году. Авторы отчета — рабочая группа, состоящая из сотрудников Catchpoint и приглашенных экспертов. В подготовке текущего отчета участвовали:
Martin Barry (Team Lead, Network Operations),
Laura de Vesine (Senior Staff Engineer),
Dave O'Connor (Google SRE 2004-2021, Reliability Consultant),
Heinrich Hartmann (Principal SRE),
Robert Barron (SRE & Architect),
Sergey Katsev (VP, Engineering),
Kurt Andersen (Software Architect) и
Leo Vasiliou.
Исследование проводилось в форме опроса, в котором принял участие
301 респондент, среди которых большинство из западных компаний большего размера (свыше 1000 сотрудников) из трех основных индустрий:
Technology,
Financial и
Retail/E-commerce.
Что интересного мы отметили в отчете:
- Инженерия надёжности (SRE) остаётся основным приоритетом для организаций (41%). Почти столь же важным направлением отмечают внедрение целевых уровней обслуживания и опыта пользователей (SLOs/XLOs) — 40%. Это подчёркивает важность отслеживания производительности по заданным метрикам и управления бюджетами ошибок для сохранения стабильности систем. Среди других приоритетов — инфраструктура как код (Infrastructure as code), платформенная инженерия (Platform Engineering), автоматизация устранения инцидентов (Auto-remediation), управление ресурсами (Capacity Management) и хаос-инжиниринг (Chaos Engineering);
- Впервые за 5 лет зафиксирован рост Toil — рутинной, повторяющейся, автоматизируемой работы, не приносящей ценности. В 2025 году медианное значение Toil увеличилось с 14% до 20%, а процент операционных задач вырос с 20% до 30%. Авторы отмечают, что причины роста не связаны с дежурствами, а также AI, вопреки ожиданиям, пока не снижает уровень Toil. Возможно, AI ускоряет полезную работу, но тем самым освобождает время, которое заполняется рутиной;
- Несмотря на то, что большинство участников считают, что цели и ключевые результаты (OKR) понятны команды, проблемы надёжности решаются и в целом сохраняется стабильность приоритетов в организациях, большинство респондентов всё же чувствуют давление, заставляющее ставить сроки релизов выше надёжности. Это классический конфликт скорости и стабильности: бизнес хочет новых фич и роста выручки, в то время как эксплуатация выступает за устойчивость и отказоустойчивость. Одна из тенденций, усиливающая этот конфликт — потеря носителей культуры. Эксперты, изначально создававшие или продвигавшие SRE, всё чаще покидают компании. Это приводит к тому, что приоритеты становятся размытыми, и сами SRE команды и инженеры могут не осознавать, что отношение организации к надёжности уже изменилось;
- Несмотря на стремление сократить расходы, большинство организаций продолжают использовать от 2 до 10 инструментов мониторинга и наблюдаемости (Observability), и это не воспринимается как проблема (Tool sprawl), если ценность превышает затраты. 51% респондентов считают, что уровень наблюдаемости ниже желаемого, особенно там, где используется меньше инструментов. Один инструмент не покрывает всё. Больше всего пользы респонденты получают от: логов (65%), метрик (56%), событий и трассировок;
- Техническое обучение критично для адаптации к новым технологиям, включая Generative AI. Однако каждая пятая организация не делает таких инвестиций. Наиболее популярные форматы обучения: онлайн-платформы (55%), очное обучение (45%), конференции (41%). Руководители чаще выбирают очные форматы, а инженеры — онлайн. Хотя все признают важность обучения, у большинства просто нет на это времени. Руководители тратят меньше времени на обучение, и возможно — считают, что им оно менее нужно;
- Как и в отчёте SRE Report 2024, наибольший оптимизм респонденты выразили в отношении генерации кода с помощью Generative AI (39%). Это подтверждается и в отчёте DORA 2024. Далее следуют — управление инцидентами (Incident Management), оптимизация производительности (Performance Optimization), инфраструктура как код (Infrastructure as code) и управление целями обслуживания (Service Level Management);
- Инциденты не являются редкостью. В 2025 году 40% инженеров участвовали в 1–5 инцидентах за последние 30 дней. Ожидалось, что инцидентами в основном занимаются инженеры, но на практике руководители вовлечены не меньше. Большинство респондентов испытывают стресс во время инцидентов, но 14% — повышенный стресс после, из-за отсутствия поддержки и низкой инженерной культуры. Инженеры чувствуют больше поддержки во время инцидента, чем после него. Более длительная и менее очевидная работа — разбор причин, улучшение процессов, предотвращение будущих инцидентов — часто остаётся без внимания и без поддержки;
- Анализ данных по уровням ответственности показывает, что восприятие надёжности и устойчивости значительно различается между инженерами и руководителями. Чем выше уровень управления, тем больше уверенности в зрелости процессов. Инженеры чаще указывают нейтральную или несогласную позицию — особенно по вопросам подготовки к инцидентам и взаимодействия с внешними поставщиками. Чтобы устранить разрыв, необходимо регулярно проводить аудиты и обновлять оценки состояния процессов и практик в командах, привлекать внешних экспертов.
Основные результаты из отчета
The SRE Report 2025 приведены ниже: