В 2024 году сообщество InfoQ выпустило ежегодный отчёт
AI, ML and Data Engineering Trends в котором представлены ключевые тенденции в области искусственного интеллекта, машинного обучения и инженерии данных.
InfoQ — это международное сообщество для инженеров, архитекторов и технических лидеров, которое проводит конференции QCon и Dev Summit, выпускает статьи, подкасты и аналитические отчёты о развитии технологий, инженерной культуры и практик в индустрии. Отчёт подготовлен редакцией InfoQ совместно с ведущими экспертами индустрии, среди которых
Mandy Gu, Namee Oberst, Roland Meertens, Anthony Alford, Srini Penchikala и др.
В отчётах используется модель Джеффри Мура —
Crossing the Chasm, которая показывает, какие практики находятся на стадии экспериментов у новаторов (
Innovators), какие начинают активно внедрять (
Early Adopters), какие становятся массовыми (
Early Majority), а какие уже закрепились как стандарт в индустрии (
Late Majority).
Практики на стадии экспериментов (
Innovators):
- Retrieval-Augmented Generation (RAG) — генерация ответов AI с использованием внешних источников данных;
- AI-powered hardware — разработка и применение специализированного оборудования для задач AI;
- Small Language Models (SLMs) — малые языковые модели для нишевых задач;
- AI in Robotics (Embodied AI) — использование AI в робототехнике;
- LangOps или LLMOps — управление и эксплуатация больших языковых моделей;
- Knowledge Graphs — графы знаний для структурирования и анализа информации;
- Explainable AI — построение интерпретируемых и объяснимых моделей AI;
- Brain-Computer Interfaces — создание интерфейсов прямого взаимодействия мозга и компьютера;
- Automated Machine Learning (AutoML) — автоматизация процесса построения ML-моделей;
- Robotics — развитие робототехники;
- Edge inference and model training — выполнение вывода и обучение моделей на периферийных устройствах;
- Large-scale distributed deep learning — распределённое обучение глубоких нейросетей в масштабах.
Практики, которые начинают активно внедрять (
Early Adopters):
- Generative AI / Large Language Models (LLMs) — генеративный AI и большие языковые модели;
- Synthetic data generation — генерация синтетических данных;
- Cloud-agnostic computing for AI — облачные вычисления без привязки к конкретному провайдеру;
- Vector Databases — базы данных, оптимизированные для работы с векторами;
- Data Contracts — контракты на данные для повышения качества и согласованности;
- Data Observability — наблюдаемость данных и контроль качества;
- Virtual Reality (VR/AR/MR/XR) — применение технологий виртуальной, дополненной и смешанной реальности;
- MLOps — практики эксплуатации и сопровождения ML-моделей;
- Cognitive Services — сервисы для обработки речи, текста, изображений;
- Graph Data Analytics — аналитика на основе графов данных;
- IoT Platforms — платформы для Internet of Things.
Практики, которые становятся массовыми (
Early Majority):
- AI coding assistants — помощники для написания кода на базе AI;
- Image Recognition (Computer Vision) — распознавание изображений и компьютерное зрение;
- Natural Language Processing (NLP) — обработка естественного языка;
- Deep Learning — построение и использование глубоких нейронных сетей;
- Open Table Formats (OTFs) — открытые форматы таблиц для работы с данными;
- Data Mesh — децентрализованная архитектура управления данными;
- Lakehouses — объединение Data Lakes и Data Warehouses;
- Digital Assistants — цифровые ассистенты;
- Stream processing (as a service) — потоковая обработка данных, включая модели «как сервис»;
- Apache Beam — фреймворк для обработки больших потоков данных;
- Distributed computation (e.g. Storm) — распределённые вычисления, включая фреймворки вроде Apache Storm.
Практики, ставшие стандартом в индустрии (
Late Majority):
- Apache Flink — система для обработки потоковых данных;
- Recommendation engines — разработка и внедрение рекомендательных систем;
- Streaming data analytics — аналитика потоковых данных;
- Resource negotiators (YARN, K8s) — планировщики ресурсов (YARN, Kubernetes);
- Data Lake as a Service — сервисная модель для управления Data Lake;
- NoSQL Databases — использование нереляционных баз данных;
- In-memory data grids — распределённые системы хранения данных в памяти;
- “Big Data” technologies (Hadoop, Spark) — технологии больших данных;
- MapReduce — модель и фреймворк распределённых вычислений.
Основные технологии из отчета
InfoQ AI, ML and Data Engineering Trends 2024 приведены ниже: