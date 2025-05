À l’occasion du Red Hat Summit 2025, l’éditeur open source met en avant son Red Hat AI Inference Server, de nouveaux modèles validés par des tiers, et l’intégration des API Llama Stack (Meta) et MCP (Anthropic). Objectif : permettre aux entreprises de mieux industrialiser leurs projets IA sur cloud hybride, quel que soit le type de modèle ou d’accélérateur.

Red Hat étoffe son offre en matière d’intelligence artificielle en entreprise avec une série de mises à jour techniques et de nouvelles intégrations. Le composant Red Hat AI Inference Server est désormais intégré à Red Hat OpenShift AI et Red Hat Enterprise Linux AI (RHEL AI), et peut également être utilisé comme solution indépendante. Il vise à simplifier l’inférence à grande échelle sur des infrastructures hybrides, en apportant cohérence et performance aux déploiements.

Un serveur d’inférence pour uniformiser les déploiements IA

« Le nouveau critère de décision pour l’innovation en matière d’IA générative se situe dans l’émergence de solutions d’inférence de modèles plus rapides et plus efficaces. Grâce à ses capacités d’inférences renforcées avec Red Hat AI Inference Server et le nouvel ensemble de modèles validés par des tiers, Red Hat AI donne aux entreprises les moyens de déployer des applications intelligentes à l’endroit où elles en ont besoin, de la manière dont elles le souhaitent et à l’aide des composants qui répondent le mieux à leurs besoins spécifiques », déclare Joe Fernandes, vice president and general manager, AI Business Unit, Red Hat.

Les modèles disponibles via Red Hat AI sont hébergés sur Hugging Face et validés par des tiers. Ils sont testés pour fonctionner efficacement sur les plateformes Red Hat, et certains bénéficient d’optimisations par compression afin de réduire leur taille, d’accélérer l’inférence et de limiter la consommation de ressources. Ce processus de validation continue vise à renforcer la reproductibilité et la fiabilité des résultats obtenus.

Llama Stack et MCP au cœur de l’IA générative chez Red Hat

Pour répondre aux enjeux d’interopérabilité, Red Hat intègre désormais les API Llama Stack et Model Context Protocol. Llama Stack propose une interface unifiée autour des capacités de génération augmentée par récupération (RAG), d’évaluation de modèles, de garde-fous et d’agents. Quant à MCP, il offre un moyen standardisé de connecter les modèles à des APIs, des plug-ins ou des sources de données dans des workflows agentiques.

Selon Michele Rosen, research manager chez IDC, « les entreprises sont en train de terminer la phase d’exploration initiale de l’IA et se concentrent sur les déploiements concrets. […] Pour les entreprises qui cherchent à mettre à l’échelle leurs projets d’IA et à créer de la valeur métier, cette flexibilité constitue un critère indispensable. »

OpenShift AI 2.20 et RHEL AI 1.5 : de nouvelles capacités d’entraînement et de monitoring

La version 2.20 de Red Hat OpenShift AI introduit plusieurs évolutions en avant-première, comme :

Un catalogue de modèles validés, accessible depuis la console en ligne, facilitant leur déploiement sur les clusters OpenShift AI.

L’intégration du KubeFlow Training Operator, qui permet un entraînement distribué sur GPU avec accélération réseau RDMA.

Un magasin de fonctionnalités basé sur Kubeflow Feast, pour centraliser la gestion des données utilisées lors de l’entraînement et de l’inférence.

Côté RHEL AI, la version 1.5 apporte des fonctions multilingues étendues pour l’espagnol, le français, l’allemand et l’italien, ainsi qu’un support prévu pour le japonais, le coréen et le hindi. Les utilisateurs peuvent personnaliser leurs modèles en combinant leurs propres jeux de données avec la technologie InstructLab.

La disponibilité de RHEL AI sur Google Cloud Marketplace vient s’ajouter aux options AWS et Azure, pour faciliter la gestion de workloads IA sur cloud public. Par ailleurs, Red Hat AI InstructLab est désormais proposé sur IBM Cloud pour un accès simplifié à la personnalisation des modèles à grande échelle.

