Обзор The SRE Report 2025

В начале 2025 года вышел отчет по состоянию Reliability Engineering в индустрии — The SRE Report 2025 от компании Catchpoint, которая разрабатывают собственную платформу для Internet Performance Monitoring (IPM). Это 7-е издание отчета, предыдущий отчет мы разбирали в прошлом году. Авторы отчета — рабочая группа, состоящая из сотрудников Catchpoint и приглашенных экспертов. В подготовке текущего отчета участвовали: Martin Barry (Team Lead, Network Operations), Laura de Vesine (Senior Staff Engineer), Dave O'Connor (Google SRE 2004-2021, Reliability Consultant), Heinrich Hartmann (Principal SRE), Robert Barron (SRE & Architect), Sergey Katsev (VP, Engineering), Kurt Andersen (Software Architect) и Leo Vasiliou.

Исследование проводилось в форме опроса, в котором принял участие 301 респондент, среди которых большинство из западных компаний большего размера (свыше 1000 сотрудников) из трех основных индустрий: Technology, Financial и Retail/E-commerce.

Что интересного мы отметили в отчете:

Инженерия надежности (SRE) остаётся основным приоритетом для организаций (41%). Почти столь же важным направлением отмечают внедрение целевых уровней обслуживания и опыта пользователей (SLOs/XLOs) — 40%. Это подчёркивает важность отслеживания производительности по заданным метрикам и управления бюджетами ошибок для сохранения стабильности систем. Среди других приоритетов — инфраструктура как код (Infrastructure as code), платформенная инженерия (Platform Engineering), автоматизация устранения инцидентов (Auto-remediation), управление ресурсами (Capacity Management) и хаос-инжиниринг (Chaos Engineering);
Впервые за 5 лет зафиксирован рост Toil — рутинной, повторяющейся, автоматизируемой работы, не приносящей ценности. В 2025 году медианное значение Toil увеличилось с 14% до 20%, а процент операционных задач вырос с 20% до 30%. Авторы отмечают, что причины роста не связаны с дежурствами, а также AI, вопреки ожиданиям, пока не снижает уровень Toil. Возможно, AI ускоряет полезную работу, но тем самым освобождает время, которое заполняется рутиной;
Несмотря на то, что большинство участников считают, что цели и ключевые результаты (OKR) понятны команды, проблемы надёжности решаются и в целом сохраняется стабильность приоритетов в организациях, большинство респондентов всё же чувствуют давление, заставляющее ставить сроки релизов выше надёжности. Это классический конфликт скорости и стабильности: бизнес хочет новых фич и роста выручки, в то время как эксплуатация выступает за устойчивость и отказоустойчивость. Одна из тенденций, усиливающая этот конфликт — потеря носителей культуры. Эксперты, изначально создававшие или продвигавшие SRE, всё чаще покидают компании. Это приводит к тому, что приоритеты становятся размытыми, и сами SRE команды и инженеры могут не осознавать, что отношение организации к надёжности уже изменилось;
Несмотря на стремление сократить расходы, большинство организаций продолжают использовать от 2 до 10 инструментов мониторинга и наблюдаемости (Observability), и это не воспринимается как проблема (Tool sprawl), если ценность превышает затраты. 51% респондентов считают, что уровень наблюдаемости ниже желаемого, особенно там, где используется меньше инструментов. Один инструмент не покрывает все. Больше всего пользы респонденты получают от: логов (65%), метрик (56%), событий и трассировок;
Техническое обучение критично для адаптации к новым технологиям, включая Generative AI. Однако каждая пятая организация не делает таких инвестиций. Наиболее популярные форматы обучения: онлайн-платформы (55%), очное обучение (45%), конференции (41%). Руководители чаще выбирают очные форматы, а инженеры — онлайн. Хотя все признают важность обучения, у большинства просто нет на это времени. Руководители тратят меньше времени на обучение, и возможно — считают, что им оно менее нужно;
Как и в отчете SRE Report 2024, наибольший оптимизм респонденты выразили в отношении генерации кода с помощью Generative AI (39%). Это подтверждается и в отчёте DORA 2024. Далее следуют — управление инцидентами (Incident Management), оптимизация производительности (Performance Optimization), инфраструктура как код (Infrastructure as code) и управление целями обслуживания (Service Level Management);
Инциденты не являются редкостью. В 2025 году 40% инженеров участвовали в 1–5 инцидентах за последние 30 дней. Ожидалось, что инцидентами в основном занимаются инженеры, но на практике руководители вовлечены не меньше. Большинство респондентов испытывают стресс во время инцидентов, но 14% — повышенный стресс после, из-за отсутствия поддержки и низкой инженерной культуры. Инженеры чувствуют больше поддержки во время инцидента, чем после него. Более длительная и менее очевидная работа — разбор причин, улучшение процессов, предотвращение будущих инцидентов — часто остаётся без внимания и без поддержки;
Анализ данных по уровням ответственности показывает, что восприятие надежности и устойчивости значительно различается между инженерами и руководителями. Чем выше уровень управления, тем больше уверенности в зрелости процессов. Инженеры чаще указывают нейтральную или несогласную позицию — особенно по вопросам подготовки к инцидентам и взаимодействия с внешними поставщиками. Чтобы устранить разрыв, необходимо регулярно проводить аудиты и обновлять оценки состояния процессов и практик в командах, привлекать внешних экспертов.

Основные результаты из отчета The SRE Report 2025 приведены ниже:

Если вам интересно развитие практик SRE в вашей компании или команде, обращайтесь к нам за помощью. Мы помогаем развивать процессы и практики надежности, проводим аудиты команд и анализ процессов эксплуатации и поставки, готовим рекомендации по развитию, проводим тренинги и воркшопы.

Не забывайте подписываться на наш канал Enabling.team Insights, чтобы оставаться в курсе технологических трендов. Отчеты SRE Report за 2024 год и за 2026 год также доступны на сайте.