Обзор Observability Survey 2025

В начале 2025 года вышел отчет по состоянию практик наблюдаемости — Observability Survey 2025 от компании Grafana Labs. Данный отчет уже третий по счету, предыдущее исследование проводилось в 2024 году. В опросе приняли участие 1255 специалистов из компаний различного масштаба, представляющие более чем десяток отраслей и широкий спектр ролей, что делает его крупнейшим опросом о состоянии Observability.

В 2025 году авторы изменили формат публикации результатов и предложили несколько способов работы с данными и получения инсайтов. Исследование доступно в виде основного текстового отчета с ключевыми диаграммами и в виде интерактивного дашборда в Grafana с десятком панелей для визуализации данных и углубленного анализа, включая возможность фильтрации по отрасли, региону, роли и размеру компании для сравнения с сопоставимыми организациями.

Что интересного мы отметили в отчете:
  1. Трассировки (Traces) все чаще входят в стек наблюдаемости: их используют 57% организаций. При сохранении ключевой роли логов и метрик, трассировки и профилирование постепенно дополняют существующие стеки, однако темпы их внедрения заметно различаются по отраслям. Финансовый сектор активнее других использует трассировки (65%), тогда как в телекоме этот показатель минимален (37%). Профилирование применяют 18% компаний в ритейле и e-commerce и лишь 9% компаний в автомобильной и производственной отраслях;
  2. Команды работают с большим количеством инструментов для Observability и вынуждены постоянно переключаться между контекстами. В среднем компании используют восемь инструментов наблюдаемости. Это меньше, чем в прошлом году (девять), что может указывать на попытки сократить количество инструментов, применяемых для наблюдения за системами;
  3. Пользователи Grafana в среднем настраивают 16 источников данных в платформе. При этом в более крупных организациях количество источников данных, как правило, выше. Компании с численностью более 5000 сотрудников в среднем используют 24 источника данных, тогда как компании с числом сотрудников 10 и менее — лишь 6. Помимо размера компании, значительное влияние оказывает и роль респондента: разработчики в среднем работают с 10 источниками данных, тогда как специалисты по Site Reliability Engineering (SRE) — с 18;
  4. Стоимость является наиболее значимым критерием для компаний при выборе новых инструментов наблюдаемости. Стоимость (Cost) занимает первое место среди критериев во всех группах, однако другие приоритеты при выборе различаются в зависимости от задач и контекста работы. Так, 61% разработчиков указывают удобство использования как важный фактор, по сравнению с 53% специалистов по Site Reliability Engineering (SRE). В то же время 27% директоров и инженерных руководителей отдают приоритет возможностям AI/ML, тогда как среди всех ролей этот показатель составляет лишь 19%;
  5. Большинство организаций используют централизованную модель наблюдаемости. В качестве подхода к Observability в подавляющем большинстве организации придерживаются модели, предполагающей либо централизованные команды (Centralized observability), либо встроенных в команды экспертов (Observability experts). В рамках этих подходов централизованная команда по Observability может отвечать за развитие и эксплуатацию платформы наблюдаемости, формирование лучших практик и поддержку продуктовых команд, не беря на себя непосредственное управление наблюдаемостью отдельных сервисов. В более расширенной модели такая команда также занимается внедрением и сопровождением решений: онбордингом команд, внедрением телеметрии в сервисы, созданием дашбордов, настройкой алертов и SLOs. Альтернативно, эксперты по наблюдаемости, например специалисты Site Reliability Engineering (SRE), могут быть встроены в каждую продуктовую команду и нести ответственность за реализацию и развитие практик Observability для сервисов своей команды;
  6. Переход к SaaS становится устойчивым трендом. 37% респондентов указали, что используют SaaS как основной формат. При этом доля организаций, сочетающих SaaS и Self-managed решения, снизилась с 22% в 2024 году до 6% в 2025 году, что может свидетельствовать о смещении выбора в пользу SaaS. В то же время большинство участников опроса продолжают самостоятельно управлять своей конфигурацией наблюдаемости: 57% организаций используют преимущественно Self-managed подход. Чаще всего такой формат встречается в европейских компаниях (69%), а также в государственном секторе (77%) и телекоммуникационной отрасли (77%);
  7. Организации значительно чаще используют Open Source инструменты наблюдаемости, чем коммерческие. 76% респондентов в той или иной степени используют Open Source для Observability, включая сценарии с преобладанием Open Source или сочетанием с коммерческими решениями. При этом растет доля организаций, отдающих приоритет коммерческим инструментам: число тех, кто использует преимущественно коммерческие решения, более чем удвоилось — с 10% в 2024 году до 24% в 2025 году. Также прослеживается сильная связь между выбором Open Source или коммерческих инструментов и моделью развертывания Observability (SaaS или Self-managed);
  8. Второй год подряд половина организаций увеличивает инвестиции в Prometheus и OpenTelemetry. Более двух третей организаций (67%) используют Prometheus в Production, еще 19% изучают его возможности или разрабатывают POC. Для сравнения, OpenTelemetry имеет меньшую долю использования в Production (41%), однако демонстрирует более высокий потенциал дальнейшего роста: более трети организаций (38%) находятся на стадии изучения или создания POC;
  9. Все больше компаний используют OpenTelemetry, однако их приоритеты при выборе платформ и хранилищ для телеметрии различаются. Организации, уже применяющие OpenTelemetry придают большее значение поддержке различных типов телеметрии (61% против 51%), совместимости с существующими системами (56% против 51%), стоимости (49% против 41%) и масштабируемости (44% против 36%) по сравнению с компаниями, находящимися на стадии изучения или пилотного внедрения;
  10. Сложность (Complexity), шум (Noise) и стоимость (Cost) названы ключевыми препятствиями на пути к успешной наблюдаемости. Эти факторы напрямую влияют на выбор инструментов. Так, 88% респондентов, считающих Observability слишком дорогой, также указывают стоимость как важный критерий при выборе новых инструментов. Кроме того, почти две трети участников опроса (62%), которые отмечают сложности с принятием Observability в организации, при выборе новых решений отдают приоритет удобству использования и совместимости с другими инструментами и системами;
  11. Затраты на Observability составляют лишь часть расходов на инфраструктуру, однако их доля сильно варьируется. В среднем расходы на Observability составляют 17% от общих затрат на вычислительную инфраструктуру, при этом наиболее часто встречающимся значением было 10%. Вместе с тем это соотношение существенно различается: некоторые организации практически ничего не тратят на Observability, тогда как другие полностью превосходят по этим расходам затраты на вычислительную инфраструктуру;
  12. Усталость от алертов (Alert fatigue) является препятствием номер один для более быстрого реагирования на инциденты практически на всех уровнях организации. Единственным исключением являются инженерные руководители: они немного чаще указывают координацию инцидентов между командами (25%), чем усталость от алертов (24%). Кроме того, именно они чаще других отмечают ограниченность данных по инцидентам (18%);
  13. SLOs и сквозная наблюдаемость (Full stack observability) становятся ключевыми приоритетами. Около половины компаний находятся на стадии изучения или пилотного внедрения объединенной наблюдаемости приложений и инфраструктуры (51%), целей уровня сервиса — SLOs (50%) и наблюдаемости LLM (47%). Более трети организаций (39%) также изучают или внедряют практики FinOps. Среди этих формирующихся направлений наблюдаемость LLM имеет наименьшую долю использования в Production (7%), тогда как объединенная наблюдаемость приложений и инфраструктуры применяется наиболее широко (34%);
  14. Наибольший интерес к функциям AI/ML связан с двумя направлениями: алертами на основе обучения (Training-based alerts) и инструментами анализа первопричин (Root cause analysis). Выбор между ними зависит от контекста использования. Небольшие компании чаще предпочитают алерты, которые обучаются на данных и автоматически адаптируются, тогда как организации с большим числом технологий и источников данных отдают приоритет более быстрому и точному анализу первопричин. Различия заметны и между моделями развертывания: при использовании SaaS чаще востребованы обучаемые алерты, а при Self-managed подходе — инструменты для ускоренного анализа первопричин;
  15. Организации отдают приоритет SLOs для проактивного улучшения MTTR. Организации с более зрелой культурой Observability, как правило, опираются на SLOs, поэтому сокращение MTTR (33%) и повышение ответственности (25%) являются ключевыми результатами, которых они стремятся достичь. Примечательно, что снижение затрат (14%) оказывается наименее приоритетным результатом, что указывает на то, что такие организации в большей степени фокусируются на извлечении ценности из Observability, а не на прямом сокращении расходов;
  16. Вовлеченность C-level тесно связана с приоритизацией и зрелостью Observability в организациях. В 33% случаев Observability рассматривается как критически важная для бизнеса на уровне C-level, при этом степень вовлеченности (Engagement) существенно различается по отраслям и размеру компаний. Наиболее высокий уровень участия C-level наблюдается в финансовом секторе (45%), тогда как в здравоохранении (20%) и государственном секторе (18%) он выражен слабее. Компании с численностью до 100 сотрудников чаще демонстрируют вовлеченность C-level (40%), тогда как в организациях с более чем 1 000 сотрудников этот показатель ниже (29%). Одновременно прослеживается корреляция между вовлеченностью C-level и зрелостью практик Observability: организации, где Observability считается бизнес-критичной на уровне руководства, как правило, обладают более развитыми и устойчивыми практиками наблюдаемости.

Основные инсайты из отчета Observability Survey 2025 доступны на диаграммах ниже:
Если вам важно понять текущее состояние практик наблюдаемости и надежности в вашей компании и выстроить устойчивую, управляемую и экономически обоснованную модель, обращайтесь к нам за помощью. Мы помогаем компаниям анализировать существующий стек наблюдаемости, архитектуру платформ, организационные модели и управленческие подходы с учетом масштаба, отрасли и уровня зрелости инженерных практик.

Мы помогаем CTO, руководителям и техническим лидерам оценивать и развивать практики надежности и наблюдаемости, выстраивать централизованные и гибридные модели команд, внедрять и масштабировать SLOs, снижать шум от алертов и время восстановления (MTTR), оптимизировать затраты, а также принимать обоснованные решения по использованию инструментов.

Не забывайте подписываться на наш Telegram канал Enabling.team Insights, чтобы оставаться в курсе технологических трендов.