В ноябре 2025 года фонд
Cloud Native Computing Foundation (CNCF) совместно с компанией
SlashData выпустили отчет
Technology Radar: AI Inferencing, ML Orchestration, and Agentic AI Tools and Platforms, который охватывает следующие категории технологий:
- AI Inferencing Tools and Engines — инструменты и движки для выполнения, оптимизации и масштабирования инференса AI моделей;
- Machine Learning Orchestration Tools — инструменты для управления ML пайплайнами, обучением и развертыванием моделей;
- Agentic AI Platforms and Systems — платформы и фреймворки для построения многоагентных LLM систем.
Для подготовки радара было опрошено более
300 разработчиков, использующих Cloud Native технологии в AI/ML разработке. Респонденты оценивали знакомые им технологии по трем критериям:
- Зрелость (Maturity) — стабильность, надежность и готовность к эксплуатации;
- Полезность (Usefulness) — соответствие требованиям реальных проектов;
- Готовность рекомендовать (Recommendation) — вероятность, с которой разработчик порекомендует инструмент коллеге.
На основе средних оценок все технологии были распределены по четырем стадиям технологического радара CNCF:
- Adopt — зрелые и надежные технологии, подходящие для большинства сценариев использования.
- Trial — технологии, которые стоит изучить, чтобы определить, насколько они соответствуют конкретным потребностям и задачам;
- Assess — технологии, требующие внимательной оценки и проверки перед принятием решения о внедрении;
- Hold — технологии с низкими показателями зрелости или полезности, которые в текущем состоянии не рекомендуется использовать.
В технологическом радаре CNCF также используются обозначения уровней зрелости проектов:
Sandbox (S),
Incubating (I) и
Graduated (G). Эти уровни отражают стадию развития проекта внутри экосистемы CNCF:
- Sandbox — проекты на самой ранней стадии развития, предназначенные для экспериментов и формирования базовой функциональности, как правило, это новые технологии с большим потенциалом дальнейшего развития;
- Incubating — проекты со сформированным техническим направлением и растущим сообществом, которые продолжают развиваться с точки зрения стабильности, распространения и процессов управления.
- Graduated — проекты с широким внедрением и устойчивым сообществом, поддерживаемые зрелыми техническими и организационными практиками.
1. AI Inferencing Tools and EnginesAdopt- NVIDIA Triton — сервер для запуска и масштабирования инференса моделей на GPU и CPU;
- DeepSpeed — библиотека оптимизации распределенного обучения и инференса от Microsoft;
- TensorFlow Serving — система для развертывания и обслуживания моделей TensorFlow;
- BentoML — платформа для упаковки и запуска ML/LLM моделей с API интерфейсом.
Trial- Kubeflow — фреймворк для создания и управления ML пайплайнами в Kubernetes;
- Seldon MLServer — сервер, обеспечивающий поддержку разных ML фреймворков;
- Adlik (LF AI & Data) — движок инференса и инструмент оптимизации моделей;
- LMCache — система кеширования ответов LLM для ускорения работы приложений.
Assess- Ray — фреймворк для распределенных вычислений и обучения моделей;
- kserve — платформа для обслуживания ML моделей в Kubernetes;
- llama.cpp — библиотека для локального выполнения LLaMA моделей;
- vLLM — сервер инференса с поддержкой параллельной обработки запросов;
- KAITO — решение для организации инференса моделей в Kubernetes.
Hold- Envoy AI Gateway — шлюз маршрутизации AI запросов;
- kgateway — API шлюз для интеграции AI моделей с сервисами;
- Kubernetes Kueue — инструмент управления вычислительными очередями;
- ollama — локальный рантайм для запуска LLM моделей;
- llm-d — фреймворк для выполнения моделей искусственного интеллекта.
2. Machine Learning (ML) Orchestration ToolsAdopt- Airflow — платформа для оркестрации рабочих процессов и планирования задач;
- Metaflow — инструмент Netflix для построения и выполнения ML пайплайнов.
Trial- Feast (LF AI & Data) — хранилище признаков для подготовки и повторного использования данных моделей;
- Kubeflow — платформа для организации полного цикла ML разработки;
- Argo Workflows — система управления задачами и пайплайнами в Kubernetes;
- BentoML — инструмент для объединения процессов упаковки, тестирования и запуска моделей;
- Kubernetes Kueue — инструмент управления задачами в ML кластерах;
- MLFlow (LF Project) — платформа для отслеживания экспериментов и управления версиями моделей.
Assess- Fluid — система для ускоренного доступа к данным в ML пайплайнах;
- Volcano — планировщик вычислительных задач с поддержкой параллельных нагрузок;
- ModelPack — проект, направленный на унификацию упаковки и доставки моделей;
- Ray — библиотека для распределенного обучения и обработки данных.
Hold- Flyte (LF AI & Data) — система управления ML процессами и пайплайнами;
- Seldon Core — платформа для развертывания и эксплуатации моделей машинного обучения.
3. Agentic AI Platforms, Projects and SystemsAdopt- Model Context Protocol (MCP) — протокол для обмена контекстом между агентами и приложениями на основе LLM;
- Llama Stack — набор инструментов для работы с моделями LLaMA и их интеграции в приложения.
Trial- autogen — фреймворк для взаимодействия и координации нескольких LLM агентов;
- Agent2Agent (A2A) — система обмена сообщениями и задачами между агентами;
- agentgateway — компонент для интеграции агентных систем с внешними сервисами;
- Haystack — фреймворк для построения поисковых и RAG систем на базе LLM.
Assess- kgateway — шлюз для взаимодействия между AI сервисами и приложениями;
- kagent — рантайм для запуска и координации AI агентов в Kubernetes.
Hold- crewAI — система для распределения задач между несколькими агентами;
- LangChain — фреймворк для построения цепочек взаимодействий и приложений на основе LLM.
Основные технологии из
Technology Radar: AI Inferencing, ML Orchestration, and Agentic AI Tools and Platforms приведены ниже: