DeepSeek dévoile le Prover-V2 pour l’IA mathématique

DeepSeek lance le Prover-V2 sur Hugging Face, un modèle mathématique efficace basé sur 671 milliards de paramètres, renforçant ses capacités IA.

L'startup chinoise DeepSeek a récemment dévoilé son dernier modèle, le Prover-V2, sur la plateforme open-source Hugging Face, le 30 avril 2025. Cependant, l’entreprise n’a pas partagé de détails sur ses réseaux sociaux.

Le Prover-V2 fait partie de la série Prover, axée sur la résolution de problèmes mathématiques. Ce lancement fait suite à celui de son prédécesseur, le Prover-V1.5, introduit en août 2024.

Le Prover-V2 repose sur le modèle V3 de DeepSeek, qui se compose de 671 milliards de paramètres et utilise une architecture de mélange d'experts (MoE) pour une efficacité améliorée. Les informations concernant le Prover-V2 sont limitées, la société n'ayant pas fourni d'éclaircissements supplémentaires sur sa page Hugging Face. Néanmoins, des fichiers téléchargés laissent entendre que le modèle est conçu pour améliorer les capacités de raisonnement mathématique et de preuve théorique.

1️⃣ L'essor des modèles d'IA spécialisés au sein d'écosystèmes plus larges

La série Prover de DeepSeek souligne une tendance croissante au sein de l'industrie, où les entreprises développent des modèles spécialisés et spécifiques à un domaine pour enrichir leurs systèmes d'IA plus larges. Le modèle Prover-V2, centré sur les mathématiques, est construit sur le modèle V3 de DeepSeek, qui dispose de 671 milliards de paramètres, ce qui illustre comment les capacités spécialisées peuvent être intégrées dans des systèmes à usage général.

Cette approche fait écho à la stratégie d'Alibaba avec le Qwen3, qui présente des capacités spécialisées dans les domaines des mathématiques, de la programmation et des tâches de raisonnement tout en conservant une intelligence générale. Les deux entreprises reconnaissent qu'une excellence spécifique dans des domaines tels que le raisonnement mathématique peut considérablement différencier leurs offres d'IA sur un marché concurrentiel. Ces modèles spécialisés servent à la fois d'outils autonomes et de composants permettant de renforcer les capacités de modèles généralistes phares, créant ainsi des écosystèmes d'IA plus complets.

2️⃣ L'architecture de mélange d'experts comme moteur clé de l'efficacité

Les modèles V3 de DeepSeek et le Qwen3-235B d'Alibaba adoptent tous deux une architecture de mélange d'experts (MoE), indiquant une convergence de l'industrie vers cette approche pour le développement de modèles larges et efficaces. La MoE permet au modèle V3 de DeepSeek d'atteindre 671 milliards de paramètres tout en utilisant réellement seulement 37 milliards de ces paramètres en fonctionnement, améliorant ainsi considérablement l'efficacité computationnelle.

De manière analogue, le Qwen3-235B d'Alibaba exploite la MoE pour activer uniquement une partie de ses paramètres pour chaque tâche, favorisant une meilleure performance tout en maîtrisant les coûts computationnels. Ce changement d'architecture représente une évolution significative dans la façon dont les entreprises abordent les exigences computationnelles exponentielles des systèmes d'IA avancés. L'adoption de la MoE par de nombreuses entreprises d'IA chinoises souligne un accent stratégique sur l'efficacité qui pourrait les aider à rivaliser avec des homologues occidentaux, malgré un accès limité à des ressources informatiques haut de gamme.

3️⃣ Les revendications d'efficacité économique au cœur de la concurrence dans l'IA

L'affirmation de DeepSeek selon laquelle son modèle V3 a été développé "à une fraction du coût et de l'énergie utilisés par les pairs occidentaux" met en lumière le fait que l'efficacité économique est devenue un facteur de différenciation clé dans le développement de l'IA. Toutefois, cette assertion a été mise en question par des analystes industriels. SemiAnalysis a rapporté que si les coûts directs de pré-entraînement GPU de DeepSeek étaient faibles, se chiffrant à 6 millions de dollars, le coût total de possession s'élevait à environ 1,6 milliard de dollars en tenant compte de la recherche et développement ainsi que des infrastructures. Cette discordance met en avant la complexité consistant à déterminer les coûts véritables du développement de l'IA et la manière dont les entreprises peuvent souligner certains indicateurs qui présentent leur approche de manière favorable.

L'accent mis sur l'efficacité de l'entraînement démontre qu'à mesure que la concurrence s'intensifie, les entreprises sont de plus en plus jugées non seulement sur la performance de leurs modèles, mais aussi sur leur capacité à obtenir des résultats de manière économique. Des entreprises chinoises comme DeepSeek et Alibaba semblent mettre en avant l'efficacité économique et des approches open-source comme des avantages concurrentiels face aux sociétés d'IA occidentales, ce qui pourrait transformer l'économie de l'industrie mondiale de l'IA.

Partager :

Articles sur le même thème

Xiaomi lance MiMo, un modèle de langage open-source, renforçant son écosystème et sa position dans l’IA et les véhicules électriques.

JD.com inaugure son premier JD Mall hors ligne à Pékin, 70 000 m² dédiés à l’électronique, culture café, jeux et shopping. Inauguration le 17 mai.

La Banque populaire de Chine annonce des mesures de relance, dont une baisse des taux, injectant 1 trillion RMB et boostant le marché boursier.

Aesop ferme son premier magasin en Chine, à Shanghai, après l’expiration de son bail, face à une concurrence accrue sur le marché du luxe.