Alibaba, à travers le laboratoire Tongyi de traitement du langage naturel, a récemment présenté sa nouvelle initiative ZEROSEARCH, qui marque une avancée majeure dans la démocratisation des technologies d'apprentissage par renforcement (RL) à grande échelle. Huang Fei, le responsable du laboratoire, a déclaré que cette approche vise à réduire les coûts associés à l'adoption de ces technologies, tout en maintenant un niveau de performance élevé.
Abaisser les Barrières pour les Développeurs et les Entreprises
L'accès à des informations pertinentes est essentiel pour améliorer la capacité de raisonnement et la précision des réponses des modèles de langage. Les méthodes traditionnelles d'apprentissage par renforcement nécessitaient des centaines de milliers d'interactions avec des moteurs de recherche en direct, entraînant des coûts prohibitifs et limitant ainsi la scalabilité des solutions. De plus, la qualité inconstante des résultats obtenus via ces moteurs de recherche pouvait affecter l'efficacité globale du processus d'entraînement.
Simuler la Recherche de Manière Efficace et Abordable
Pour surmonter ces défis, ZEROSEARCH d'Alibaba utilise une stratégie de simulation en deux étapes, permettant d'éliminer le besoin d'appels d'API coûteux :
Dans un premier temps, l'équipe a mis en œuvre un affinement supervisé léger pour transformer le modèle de langage en un module de récupération. Ce dernier est capable de générer des documents pertinents en réponse aux requêtes des utilisateurs, imitant ainsi le fonctionnement des véritables moteurs de recherche.
Ensuite, durant la phase de renforcement, les chercheurs ont appliqué une stratégie de déploiement basée sur un curriculum. Cette méthode consiste à réduire progressivement la qualité des documents simulés générés, ce qui pousse le modèle à s’adapter continuellement et à améliorer ses performances.
Résultats des Tests
Les tests effectués ont montré que les modèles entraînés avec ZEROSEARCH égalent voire surpassent ceux formés en utilisant les API de moteurs de recherche classiques. Par exemple, un module de récupération Qwen2.5-7B a démontré des performances comparables à celles de Google Search, tandis qu'un plus grand module de 14 milliards de paramètres a même dépassé les capacités de Google, tout en réduisant les coûts de formation de 88 %.
L'engagement d'Alibaba envers une IA Ouverte et Abordable
En plus de cette approche de formation économique, Alibaba a également rendu accessibles plusieurs modèles d'IA open-source, couvrant différentes tailles, langues et modalités. Ceci permet aux développeurs du monde entier de créer des solutions IA personnalisées de manière économique.
Évaluation Indépendante
Par ailleurs, une évaluation réalisée par Artificial Analysis, une organisation reconnue pour son analyse des modèles d'IA et des fournisseurs d'API, a placé le dernier modèle de langage d'Alibaba, le Qwen3-235B-A22B, au cinquième rang global en termes d'intelligence (mathématiques, programmation, raisonnement et sciences) et au premier rang en termes d'accessibilité financière, se situant bien en dessous des offres concurrentes.
Cette initiative souligne l'engagement d'Alibaba à rendre l'apprentissage machine et l'intelligence artificielle plus accessibles, tant pour les développeurs que pour les entreprises, tout en maintenant un haut niveau de performance. En intégrant la simulation et l'apprentissage par renforcement d'une manière innovante, Alibaba montre la voie à suivre dans le développement de technologies d’IA robustes et économiquement viables.