Vendredi, Baidu Inc a dévoilé ses derniers modèles de langage de grande taille : Ernie 4.5 Turbo et le modèle de réflexion profonde Ernie X1 Turbo. Ces modèles, dotés de capacités multimodales améliorées, d'un raisonnement plus robuste et de coûts réduits, soulignent l'engagement de l'entreprise technologique chinoise dans le secteur de l'intelligence artificielle en pleine évolution.
Le modèle LLM multimodal, capable de traiter et de générer divers types de contenu, notamment du texte, des images, de l'audio et de la vidéo, deviendra une caractéristique courante des futurs modèles fondamentaux, a déclaré Robin Li, co-fondateur, président et PDG de Baidu, lors de la conférence annuelle des développeurs IA de l'entreprise.
Li a souligné que le marché des modèles d'IA ne pouvant traiter que des demandes textuelles pures allait diminuer, tandis que celui des modèles d'IA multimodaux continuerait de s'élargir, mettant l'accent sur l'importance de renforcer l'application de l'IA. « Sans applications, les puces et les modèles n'ont aucune valeur », a-t-il affirmé. « Il existe de nombreux modèles, mais ce sont les applications qui dominent le monde. L'application est le roi », a-t-il ajouté.
Il a également précisé que « l'application des LLM ne sera pas obsolète si des scénarios appropriés et des modèles fondamentaux adéquats sont sélectionnés et que ces modèles sont ajustés ». Avec l'amélioration des capacités des modèles d'IA, il y aura de plus en plus de modèles intégrés dans des scénarios d'application, lesquels représentent de réelles opportunités pour les développeurs d'IA.
Li a mis en avant que l'un des principaux obstacles auxquels sont confrontés les développeurs d'IA est le coût élevé des LLM. « Les développeurs et les entrepreneurs peuvent s'engager pleinement dans le développement de modèles seulement si les coûts sont réduits. Une diminution substantielle des coûts stimulera finalement l'utilisation explosive de l'IA dans divers secteurs », a-t-il ajouté.
En tant que modèle de raisonnement approfondi, l'Ernie X1 Turbo propose des performances complètes, surpassant les modèles DeepSeek R1 et V3, mais à seulement 25 % du prix de l'DeepSeek R1, selon Baidu. Ce nouveau modèle présente des améliorations relatives aux questions-réponses, à la création littéraire, au raisonnement logique et possède des capacités multimodales élargies. Le modèle mis à jour Ernie 4.5 Turbo se distingue par une plus grande rapidité de réponse, le coût ayant chuté de 80 % par rapport à la version précédente.
Lors de la conférence, Baidu a également lancé sa nouvelle application collaborative multi-agents, Xinxiang, capable de résoudre des problèmes complexes tels que la consultation juridique, la planification de voyages et l'analyse de connaissances.
Charlie Dai, vice-président et analyste principal chez Forrester, a déclaré que les avancées de Baidu dans des produits et services clés de l'IA, tels que les LLM multimodaux et l'application de collaboration multi-agents, vont accélérer l'adoption de l'IA dans divers secteurs en Chine et réduire les obstacles pour les développeurs souhaitant stimuler l'application et l'innovation en IA.
Selon Dai, les plateformes de développement mises à jour de l'entreprise permettront également de simplifier la création et le déploiement d'applications d'IA grâce à une sélection d'optimisations couvrant les frameworks d'apprentissage profond. L’évolution de l'infrastructure matérielle de Baidu, notamment le super cluster basé sur la puce Kunlun P800, est cruciale pour atteindre une autonomie technologique.
Baidu a officiellement présenté un cluster de puissance de calcul composé de 30 000 de ses puces Kunlun auto-développées. Ce cluster peut soutenir l'entraînement de modèles d'IA comme Deep-Seek avec des centaines de milliards de paramètres ou permettre à 1 000 clients d'affiner des modèles comptant des dizaines de milliards de paramètres simultanément.
« Le LLM multimodal représente indéniablement une direction d'évolution pour la technologie générative de l'IA », a déclaré Lu Yanxia, directrice de recherche chez IDC China. Elle a ajouté que les LLM nécessitent une demande croissante de données et de connaissances dans des domaines professionnels, ainsi que de talents capables d’ajuster des modèles spécialisés en fonction des exigences variées des secteurs.
Les progrès continus des modèles d'IA vont ouvrir de nouvelles opportunités commerciales pour les serveurs d'IA nationaux, l'informatique en nuage et les entreprises de puces. Elle a également souligné que les entreprises technologiques chinoises devraient consolider leurs ressources pour améliorer la puissance de calcul, les algorithmes et la qualité des données afin de maintenir un avantage concurrentiel dans la course internationale aux chatbots IA.
Pan Helin, membre du Comité d'experts pour l'économie de l'information et des communications, qui opère sous le Ministère de l'Industrie et des Technologies de l'information, a promis que les modèles Ernie avaient réalisé des avancées en matière de multimodalité et de capacités de raisonnement, tout en soulignant qu'il est essentiel de renforcer la circulation efficace des éléments de données et d'élargir l'application des LLM à un plus grand nombre de secteurs.