Обзор отчета InfoQ AI, ML and Data Engineering Trends 2024

В 2024 году сообщество InfoQ выпустило ежегодный отчёт AI, ML and Data Engineering Trends в котором представлены ключевые тенденции в области искусственного интеллекта, машинного обучения и инженерии данных.

InfoQ — это международное сообщество для инженеров, архитекторов и технических лидеров, которое проводит конференции QCon и Dev Summit, выпускает статьи, подкасты и аналитические отчёты о развитии технологий, инженерной культуры и практик в индустрии. Отчёт подготовлен редакцией InfoQ совместно с ведущими экспертами индустрии, среди которых Mandy Gu, Namee Oberst, Roland Meertens, Anthony Alford, Srini Penchikala и др.

В отчётах используется модель Джеффри Мура — Crossing the Chasm, которая показывает, какие практики находятся на стадии экспериментов у новаторов (Innovators), какие начинают активно внедрять (Early Adopters), какие становятся массовыми (Early Majority), а какие уже закрепились как стандарт в индустрии (Late Majority).

Практики на стадии экспериментов (Innovators):
  • Retrieval-Augmented Generation (RAG) — генерация ответов AI с использованием внешних источников данных;
  • AI-powered hardware — разработка и применение специализированного оборудования для задач AI;
  • Small Language Models (SLMs) — малые языковые модели для нишевых задач;
  • AI in Robotics (Embodied AI) — использование AI в робототехнике;
  • LangOps или LLMOps — управление и эксплуатация больших языковых моделей;
  • Knowledge Graphs — графы знаний для структурирования и анализа информации;
  • Explainable AI — построение интерпретируемых и объяснимых моделей AI;
  • Brain-Computer Interfaces — создание интерфейсов прямого взаимодействия мозга и компьютера;
  • Automated Machine Learning (AutoML) — автоматизация процесса построения ML-моделей;
  • Robotics — развитие робототехники;
  • Edge inference and model training — выполнение вывода и обучение моделей на периферийных устройствах;
  • Large-scale distributed deep learning — распределённое обучение глубоких нейросетей в масштабах.
Практики, которые начинают активно внедрять (Early Adopters):
  • Generative AI / Large Language Models (LLMs) — генеративный AI и большие языковые модели;
  • Synthetic data generation — генерация синтетических данных;
  • Cloud-agnostic computing for AI — облачные вычисления без привязки к конкретному провайдеру;
  • Vector Databases — базы данных, оптимизированные для работы с векторами;
  • Data Contracts — контракты на данные для повышения качества и согласованности;
  • Data Observability — наблюдаемость данных и контроль качества;
  • Virtual Reality (VR/AR/MR/XR) — применение технологий виртуальной, дополненной и смешанной реальности;
  • MLOps — практики эксплуатации и сопровождения ML-моделей;
  • Cognitive Services — сервисы для обработки речи, текста, изображений;
  • Graph Data Analytics — аналитика на основе графов данных;
  • IoT Platforms — платформы для Internet of Things.
Практики, которые становятся массовыми (Early Majority):
  • AI coding assistants — помощники для написания кода на базе AI;
  • Image Recognition (Computer Vision) — распознавание изображений и компьютерное зрение;
  • Natural Language Processing (NLP) — обработка естественного языка;
  • Deep Learning — построение и использование глубоких нейронных сетей;
  • Open Table Formats (OTFs) — открытые форматы таблиц для работы с данными;
  • Data Mesh — децентрализованная архитектура управления данными;
  • Lakehouses — объединение Data Lakes и Data Warehouses;
  • Digital Assistants — цифровые ассистенты;
  • Stream processing (as a service) — потоковая обработка данных, включая модели «как сервис»;
  • Apache Beam — фреймворк для обработки больших потоков данных;
  • Distributed computation (e.g. Storm) — распределённые вычисления, включая фреймворки вроде Apache Storm.
Практики, ставшие стандартом в индустрии (Late Majority):
  • Apache Flink — система для обработки потоковых данных;
  • Recommendation engines — разработка и внедрение рекомендательных систем;
  • Streaming data analytics — аналитика потоковых данных;
  • Resource negotiators (YARN, K8s) — планировщики ресурсов (YARN, Kubernetes);
  • Data Lake as a Service — сервисная модель для управления Data Lake;
  • NoSQL Databases — использование нереляционных баз данных;
  • In-memory data grids — распределённые системы хранения данных в памяти;
  • “Big Data” technologies (Hadoop, Spark) — технологии больших данных;
  • MapReduce — модель и фреймворк распределённых вычислений.
Основные технологии из отчета InfoQ AI, ML and Data Engineering Trends 2024 приведены ниже:
Если вам интересно развитие AI, ML и Data Engineering в вашей компании или команде, обращайтесь к нам за помощью. Мы помогаем развивать эффективные процессы и современные инженерные практики, проводим анализ процессов и практик разработки, тестирования, поставки и эксплуатации, готовим рекомендации по улучшению и помогаем их реализовать.

Не забывайте подписываться на наш канал Enabling.team Insights, чтобы оставаться в курсе технологических трендов.