Alibaba dévoile Qwen3, l’IA open source révolutionnaire

Alibaba lance Qwen3, une série de modèles LLM open source, innovante et flexible, pour des applications avancées en IA.

Alibaba a récemment présenté Qwen3, la dernière génération de sa famille de modèles de langage à grande échelle (LLM) open source, établissant ainsi un nouveau standard en matière d'innovation dans le domaine de l'intelligence artificielle.

La série Qwen3 se compose de six modèles denses ainsi que de deux modèles à mélange d'experts (MoE), offrant ainsi aux développeurs la flexibilité nécessaire pour créer des applications de nouvelle génération sur divers dispositifs, y compris les appareils mobiles, les lunettes intelligentes, les véhicules autonomes, la robotique, et bien plus encore.

Tous les modèles Qwen3, y compris les modèles denses (0.6B, 1.7B, 4B, 8B, 14B et 32B paramètres) et les modèles MoE (30B avec 3B actifs, et 235B avec 22B actifs), sont désormais disponibles en open source à l'échelle mondiale.

Raisonnement Hybride Alliant Modes de Pensée et de Non-Pensée

Avec Qwen3, Alibaba inaugure l'approche des modèles de raisonnement hybride, qui associe les capacités traditionnelles des LLM à un raisonnement dynamique avancé. Les modèles Qwen3 peuvent passer de manière fluide entre un mode de pensée destiné aux tâches complexes et multi-étapes telles que les mathématiques, la programmation et le raisonnement logique, et un mode de non-pensée pour des réponses rapides et générales.

Pour les développeurs accédant à Qwen3 via API, le modèle offre un contrôle précis sur la durée de pensée (jusqu’à 38K tokens), permettant ainsi un équilibre optimisé entre performance intelligente et efficacité de calcul. Il est à noter que le modèle Qwen3-235B-A22B MoE réduit considérablement les coûts de déploiement par rapport à d'autres modèles de pointe, affirmant l'engagement d'Alibaba en faveur d’une IA accessible et performante.

Avancées en Compétences Multilingues, Capacités d’Agents, Raisonnement et Alignement Humain

Entraîné sur un vaste ensemble de données de 36 trillions de tokens, soit le double de son prédécesseur Qwen2.5, Qwen3 représente une avancée significative en matière de raisonnement, de suivi des instructions, d'utilisation d'outils et de tâches multilingues.

Les principales capacités comprennent :

  • Maîtrise Multilingue : Prise en charge de 119 langues et dialectes, avec des performances de pointe en matière de traduction et de suivi d'instructions multilingues.
  • Intégration Avancée d'Agents : Prise en charge native du Protocole de Contexte de Modèle (MCP) et des appels de fonction robustes, positionnant les modèles open source en tête des tâches complexes basées sur des agents.
  • Raisonnement Supérieur : Surpasse les modèles précédents (QwQ en mode de pensée et Qwen2.5 en mode de non-pensée) dans les benchmarks de mathématiques, de programmation et de raisonnement logique.
  • Alignement Humain Amélioré : Permet une écriture créative plus naturelle, des jeux de rôle et des dialogues multi-tours pour des conversations plus engageantes et naturelles.

Performances Exceptionnelles des Modèles Qwen3 sur les Critères de l'Industrie

Grâce à des avancées dans l'architecture des modèles, à l'augmentation des données d'entraînement et à des méthodes d'entraînement plus efficaces, les modèles Qwen3 obtiennent des résultats de premier ordre sur des benchmarks tels que AIME25 (raisonnement mathématique), LiveCodeBench (compétence en programmation), BFCL (capabilités d'outils et d'appels de fonction), et Arena-Hard (benchmark pour les LLM adaptés aux instructions). De plus, pour développer le modèle de raisonnement hybride, un processus de formation en quatre étapes a été mis en œuvre, comprenant un démarrage à froid long en chaîne de pensée (CoT), un apprentissage par renforcement basé sur le raisonnement (RL), une fusion de mode de pensée, et un apprentissage par renforcement général.

Accès Ouvert pour Stimuler l'Innovation

Les modèles Qwen3 sont désormais librement accessibles en téléchargement sur Hugging Face, GitHub et ModelScope, et peuvent être explorés sur chat.qwen.ai. L'accès API sera bientôt disponible via la plateforme de développement de modèles d'IA d'Alibaba, Model Studio. De plus, Qwen3 alimente l'application phare d'assistance AI d'Alibaba, Quark.

Depuis son lancement, la famille de modèles Qwen a attiré plus de 300 millions de téléchargements à travers le monde. Les développeurs ont créé plus de 100 000 modèles dérivés basés sur Qwen sur Hugging Face, faisant de Qwen l'une des séries de modèles d'IA open source les plus largement adoptées au monde.

Partager :

Articles sur le même thème

En Chine, les mariages chutent de 20% en 2024. Les jeunes adoptent des animaux et des peluches, favorisant une vie émotionnelle riche.

Xiaomi lance MiMo, un modèle de langage open-source, renforçant son écosystème et sa position dans l’IA et les véhicules électriques.

JD.com inaugure son premier JD Mall hors ligne à Pékin, 70 000 m² dédiés à l’électronique, culture café, jeux et shopping. Inauguration le 17 mai.

La Banque populaire de Chine annonce des mesures de relance, dont une baisse des taux, injectant 1 trillion RMB et boostant le marché boursier.