Tencent, le géant de la technologie chinoise, a récemment rendu public son modèle linguistique de grande envergure, Hunyuan-A13B. Doté d’une architecture Mixture-of-Experts (MoE) raffinée, le modèle se distingue par sa robustesse et ses performances exceptionnelles dans les environnements à ressources limitées.
La particularité de Hunyuan-A13B repose sur ses 13 milliards de paramètres actifs sur un total de 80 milliards. Grâce à l’architecture MoE, le modèle ne met en action qu’une partie de ses paramètres en fonction de la tâche à accomplir, augmentant ainsi son efficacité et sa capacité de montée en charge par rapport aux modèles denses traditionnels.
De plus, Hunyuan-A13B est muni d’un mode de raisonnement hybride qui adapte dynamiquement la profondeur de traitement selon la complexité de la tâche. Il se distingue également par sa fenêtre de contexte ultra-longue de 256 000 tokens, le rendant particulièrement adapté pour des applications nécessitant une grande quantité d’informations de contexte.
Les tests de référence ont démontré la polyvalence de Hunyuan-A13B, qui excelle dans différents domaines tels que les mathématiques, la science, le codage, le raisonnement et les tâches basées sur des agents.
Pour garantir une inférence efficace, le modèle deploie la technologie Grouped Query Attention (GQA), qui optimise le mécanisme d’attention en regroupant les requêtes similaires. Tencent offre aux développeurs plusieurs formats de quantification, comme les versions pré-entraînées, instruction-tuned, FP8 et INT4.
Le modèle et toutes ses ressources, incluant des guides d’interaction et d’entraînement avec Hugging Face Transformers, sont disponibles sur Hugging Face et GitHub.
1️⃣ L’essor de l’IA en open-source et sa contribution à l’évolution économique
La mise à disposition de Hunyuan-A13B marque une évolution majeure dans l’industrie vers les modèles d’IA en open-source qui transforment notre paysage économique.
89% des entreprises ont adopté l’IA en open-source, et deux tiers d’entre elles estiment qu’il est moins coûteux de déployer ces modèles que leurs alternatives propriétaires. Cette opportunité permet aux acteurs plus petits de rivaliser avec les géants technologiques en rendant l’IA avancée accessible sans gros investissement en capital. Des secteurs cruciaux comme la fabrication et la santé pourraient voir leur valeur augmenter de plusieurs milliards grâce à l’IA.
Les entreprises qui utilisent des modèles en open-source font état d’économies significatives, réduisant parfois leurs dépenses par moitié, tout en bénéficiant d’une meilleure sécurité en exécutant les modèles sur leur propre infrastructure avec une parfaite transparence du code sous-jacent.
2️⃣ Le modèle stratégique d’IA en Chine : un écosystème public-privé coordonné
La diffusion de Hunyuan-A13B par Tencent constitue une étape significative dans la stratégie nationale d’IA de la Chine qui a propulsé le pays à la deuxième place des économies mondiales d’IA.
Le gouvernement chinois a systématiquement renforcé sa capacité d’IA grâce à des initiatives telles que le « Plan de développement de l’intelligence artificielle de nouvelle génération », qui vise à créer une industrie nationale d’IA de 150 milliards de dollars d’ici 2030.
Ce développement suit un modèle d’écosystème coopératif où le gouvernement désigne activement des entreprises technologiques de premier plan comme Tencent pour diriger les plateformes nationales d’innovation en IA.
Malgré des défis tels que la pénurie de talents, avec seulement 39 000 chercheurs en IA contre plus de 78 000 aux États-Unis, les contributions open source sont particulièrement précieuses pour le partage des connaissances et l’accélération de l’innovation.