Обзор State of On-call 2025

В начале 2025 года на конференции SREcon25 Americas было представлено исследование состояния практики дежурств (On-call) в организациях. Автор исследования Cory Watson работает в стартапе Hotpot.works, который разрабатывает сервис для управления дежурствами. В процессе исследования были изучены десятки академических статей и отраслевых публикаций, а также проведен опрос, состоящий из 65 вопросов, в котором приняло участие 53 респондента. Средний стаж в индустрии у респондентов 18 лет, средний срок работы в компании 4 года. В основном SRE инженеры из компаний больше 500 инженеров, в которых ротация дежурств включает в среднем 5-10 человек.

Что интересного мы отметили в исследовании:
  1. 87% инженеров недовольны текущим состоянием дежурств. Только единицы считают текущее положение дел (Status quo) приемлемым. Более половины оценивают ситуацию как нормальную или хуже, а 30% считают, что их организация деградирует в этой области. Удовлетворенность практикой дежурств находится на низком уровне даже в зрелых инженерных организациях;
  2. Самая проблемная зона — онбординг и обучение. Это худшая категория по результатам опроса (2,35 из 4). 34% считают обучение хуже среднего, только 13% — лучше. Дежурство редко подробно раскрывается в описании позиции, системное обучение отсутствует, а ожидания размыты;
  3. Дежурство в основном реактивное, без стратегии и измерений. Организации создают алерты и процессы, но не измеряют их эффективность. Нет стратегии проактивного улучшения, инвестиции минимальны. Положительная корреляция наблюдается там, где команды регулярно обсуждают практику дежурств;
  4. Ограниченные полномочия инженеров (Agency). 20% не могут или не имеют права обновлять алерты. Часто отсутствуют необходимые права доступа, изменения блокируются стейкхолдерами, либо проблемы можно только эскалировать дальше. Только 30% чувствуют поддержку при попытке самостоятельно снизить шум и перегрузку;
  5. Передачи смен (Handoffs) фактически не работают. Около 40% не могут рассчитывать на полноценную передачу смены. Передачи часто формальны и не обеспечивают реального понимания текущего состояния системы, что напрямую влияет на уверенность, тревожность и когнитивную нагрузку;
  6. Высокий уровень тревожности и перегрузки. 53% испытывают тревогу перед дежурством. 74% сообщили о перегрузке или выгорании частично из-за ответственности за дежурство. Дежурство воспринимается как "высокий риск — низкая награда": оно не помогает карьерному росту и не учитывается в Performance review. Формируется так называемый порочный цикл дежурств (On-call doom cycle): давление со стороны продакшена → перегрузка и выгорание → снижение продуктивности и ошибки → новые дедлайны и еще больше давления;
  7. Дежурство не изолировано от реальной работы. В среднем у инженеров четыре дополнительные активности помимо дежурства. 75% продолжают участвовать в регулярных встречах, 72% поддерживают и настраивают алерты, 68% обрабатывают внутренние запросы поддержки, 62% обновляют Runbooks и документацию. Почти половина (49%) работают с внешними запросами поддержки, 36% исправляют баги, а 34% продолжают заниматься разработкой новой функциональности. Дежурство накладывается на существующие обязанности и усиливает когнитивную нагрузку, повышая риск утомляемости и снижения продуктивности;
  8. Нагрузка распределяется по всей команде, несмотря на формальную ротацию. При перегрузке инженеры активно привлекают коллег и руководителей. Миф о том, что "один человек дежурит неделю", не соответствует реальности — фактически нагрузка размазывается по команде;
  9. Позитивный момент — сильная локальная поддержка. Поддержка со стороны коллег оценивается на 3,33 из 4, со стороны руководителей — на 3,15. 83% могут рассчитывать на помощь коллег, 87% — на руководителей. Команды компенсируют структурные проблемы организации за счет собственной вовлеченности.
Рекомендации в докладе сводятся к тому, что улучшение практики дежурств нужно строить не через абстрактные лучшие практики (Best practices), а через регулярные привычки и локальные изменения, которые подходят именно вашей организации:
  • выделять время на проактивную работу с алертами и наблюдаемостью, регулярно пересматривать их и устранять шум;
  • измерять не только эффективность алертов, но и влияние дежурств на людей (частота ночных пробуждений, объем interrupt-driven работы, нагрузка на одного инженера, частота эскалаций);
  • закладывать время на устранение временных решений и хаков (Band-aids), чтобы ночные обходные меры не становились постоянными;
  • поддерживать и регулярно обновлять инструкции и сценарии реагирования (Playbooks);
  • проводить регулярные встречи по практике дежурств и обсуждать не только инциденты, но и итоги недели дежурства;
  • упрощать и прояснять процессы эскалации и принятия решений, обеспечивая инженерам реальные полномочия (Agency) для изменения алертов и процессов;
  • улучшать практики релизов и видимость деплоев для дежурного, учитывать риски при планировании изменений;
  • применять принцип: если алерт будит людей, он должен быть действительно необходим;
  • инвестировать в обучение и онбординг не только техническим, но и координационным навыкам (как эскалировать, как работать в инциденте, как принимать решения под давлением);
  • вводить осмысленные передачи смен (Handoffs) с подготовкой входящего инженера и диалогом с вопросами, а не формального прочтения статуса;
  • проектировать графики дежурств с учетом реальной жизни и когнитивной нагрузки, отслеживать последствия ночных пробуждений;
  • поддерживать распределенное принятие решений и опору на наиболее релевантную экспертизу, а не централизованные директивы.

Дальнейшие шаги автор формулирует как продолжение и расширение исследования: проследить, как эволюционируют программы дежурств в разных организациях, измерять влияние дежурств во времени (включая позитивные и негативные эффекты), собирать и публиковать кейсы, а также создать площадки для регулярного отраслевого обсуждения и обмена подходами. Для этого запущен ресурс, где планируется публиковать результаты опросов и материалы исследований.

Основные результаты из исследования в записи выступления и на слайдах:
Если вам важно улучшить и переосмыслить практику дежурств (On-call), обращайтесь к нам за помощью. Мы помогаем компаниям проектировать и развивать программы дежурств: анализируем текущую модель, нагрузку и частоту прерываний, оцениваем зрелость практик, качество алертов и процессов эскалации, выявляем организационные барьеры. Мы помогаем CTO, руководителям и техническим лидерам выстраивать измеримую модель, внедрять регулярные практики улучшения (работа с алертами, плейбуки, передачи смен, постмортемы), синхронизировать релизы и поддержку, а также интегрировать работу по дежурствам в систему целей и оценки, чтобы надежность не держалась на героизме отдельных инженеров, а становилась частью инженерной культуры и операционной модели компании.

Не забывайте подписываться на наш канал Enabling.team Insights, чтобы оставаться в курсе технологических трендов.