В марте 2024 года вышел отчет по состоянию практики наблюдаемости —
Observability Survey 2024 от компании
Grafana Labs, которая разрабатывает Observability сервисы (Grafana, Loki, Tempo, Mimir). Это уже второй по счету отчет, первый опрос проводился в
2023 году с целью получения картины текущего состояния практики и будущих направлений. Авторы отмечают, что индустрия постепенно развивается, компании применяют десятки сервисов, инструментов и источников данных, роль открытых стандартов и Open Source решений становится сильней, что помогает снижать растущую сложность, а команды платформ продолжают стремиться к большей автоматизации и снижению затрат.
Что интересного мы отметили в отчете:
- В опросе приняло участие 306 представителей индустрии и сообществ, большинство из технологических европейских и американских компаний среднего (100-1000 сотрудников) и крупного размера (1000+ сотрудников);
- Сервисы Observability у большинства участников централизованы, при этом нет зависимости от отрасли в которой работают компании. Респонденты отмечают, что основные преимущества централизации — это сокращение среднего времени на устранение неисправностей (MTTR), снижение расходов на поставщиков и операционных затрат;
- Для оценки зрелости Observability авторы отчета использовали модель зрелости Observability Journey Maturity Model, в которой выделяются три уровня зрелости: Reactive (Реактивный подход), Proactive (Проактивный подход) и Systematic (Системный подход). Опрос показывает, что больше половины участников используют проактивный подход, когда о проблемах узнают раньше пользователей, четверть — реактивный, когда о проблемах сообщают пользователи, и только 19% используют системный подход, когда заранее выявляют проблемы и снижают негативное влияние на пользователей;
- Более зрелые компании и участники применяют SLO (Service Level Objectives) для обеспечения прозрачности и повышения надежности. Только треть респондентов активно применяют SLO, хотя половина считают, что актуальность SLO возросла по сравнению с прошлым годом. Крупные и малые компании здесь различаются: 55% крупных либо уже используют SLO, либо разрабатывают proof-of-concept (PoC), тогда как среди малых компаний этот показатель составляет всего 28%;
- Application observability ещё один признак зрелости, но только 41% компаний активно применяют эту практику. В тоже время 53% респондентов отмечают, что практика стала более важной по сравнению с прошлым годом. Здесь также наблюдается разрыв: крупные компании чаще внедряют Application observability;
- Самые популярные сервисы и инструменты для Observability: Grafana, Prometheus, Grafana Loki. По сравнению с прошлым годом добавился OpenTelemetry, но пропали сервисы и инструменты, которые не набрали больше 20% голосов (Datagod, Jaeger, New Relic, OpenSearch, Victoria Metrics, Dynatrace). Респонденты указали более 60 различных сервисов и инструментов, но в отчет они не попали;
- На уровне команды применяют, в основном, до 5 различных сервисов и инструментов Observability, а на уровне всей компании до 10. Чем больше размер компании, тем больше инструментов и источников данных команды используют, это особенно заметно на крайних значениях диапазона;
- Большинство участников применяют корреляцию к данным, собранным из различных источников, что дает преимущества по эффективному использованию и экономии ресурсов, а также улучшает опыт использования инструментов (User Experience);
- Open Source проекты и инструменты стали де-факто стандартом в Observability. 8 из 10 самых популярных инструментов, упомянутых в отчете, разрабатываются по модели Open Source. Треть участников используют только Open Source инструменты Observability, остальные комбинацию из открытых и коммерческих решений;
- Основные Open Source проекты: Prometheus и OpenTelemetry, которые развиваются при поддержке CNCF. Больше половины респондентов используют Prometheus в Production окружениях и рост использования продолжается, а OpenTelemetry пока на стадии исследования и пилотирования;
- Основные проблемы и вызовы в области наблюдаемости связаны со снижением стоимости и сложности решений, детализации метрик (Cardinality), качества данных (Signal-to-noise ratio) и времени хранения данных (Data retention time);
- Большинство респондентов ждут развития и применения AI инструментов для обнаружения аномалий, предиктивной аналитики, генерации дашбордов, помощи в анализе данных и формировании отчетов по инцидентам;
- Наибольший интерес в плане развития вызвали следующие подходы и инструменты: OpenTelemetry, AI, Standardization/interoperability, eBPF, Profiling, Tracing, Signal/data correlation, Forecasting, Improved alerting, Application observability.
Полная версия отчета доступна на
официальном сайте, основные инсайты на диаграммах ниже: