Nouveau modèle vidéo open-source d’Alibaba : Wan2.1-FLF2V

Alibaba lance Wan2.1-FLF2V-14B, un modèle vidéo open-source facilitant la création de vidéos créatives et réalistes pour tous.

Alibaba a récemment présenté son dernier modèle de génération vidéo open-source, Wan2.1-FLF2V-14B. Ce modèle a été conçu pour faciliter l'entrée de cadres de début et de fin, ce qui simplifie la création de vidéos. Cela permet aux créateurs de courtes vidéos d'avoir un plus grand contrôle créatif en les aidant à développer leurs propres modèles et applications d'IA, de manière efficace et économique.

Ce modèle fait partie de la série Wan2.1 d'Alibaba, spécialement élaborée pour générer des images et des vidéos de haute qualité à partir de textes et d'images. Il est désormais accessible en open source sur Hugging Face et GitHub, ainsi que sur la communauté open-source d'Alibaba Cloud, ModelScope.

Le modèle démontre des capacités remarquables pour exécuter les instructions des utilisateurs, maintenant la cohérence entre le premier cadre et la vidéo générée, tout en offrant des transitions fluides entre le début et la fin pour produire des visuels réalistes et naturels de mouvements complexes. Il permet aux utilisateurs de créer une vidéo de cinq secondes en résolution 720p gratuitement lorsqu’ils utilisent le modèle sur le site officiel de Wan.

La technologie clé de ce modèle repose sur une approche innovante de la génération vidéo, intégrant un mécanisme d'ajustement de contrôle additionnel. Ce mécanisme utilise les premiers et derniers cadres fournis par l'utilisateur comme conditions de contrôle, permettant des transitions précises et harmonieuses entre ces images.

Pour garantir la stabilité visuelle, ce mécanisme injecte des caractéristiques sémantiques issues des premiers et derniers cadres dans le processus de génération, permettant au modèle de maintenir la cohérence en termes de style, de contenu et de structure tout en transformant dynamiquement les images.

En tant qu'une des premières grandes entreprises technologiques mondiales à ouvrir la source de ses modèles d'IA à grande échelle, Alibaba Cloud a confirmé son engagement en rendant open source quatre modèles de la série Wan2.1 en février 2025. À ce jour, ces modèles ont attiré plus de 2,2 millions de téléchargements sur Hugging Face et ModelScope.

Dévoilée plus tôt cette année, la série Wan2.1 est le premier modèle de génération vidéo à prendre en charge les effets de texte en chinois et en anglais. Il occupe la première place du classement VBench, une suite de référence complète pour les modèles de génération vidéo.

Alibaba Cloud a également publié son premier modèle de langage à grand échelle (LLM) open source, le Qwen-7B, en août 2023. Les modèles ouverts de Qwen se positionnent régulièrement en tête des classements des modèles LLM ouverts sur Hugging Face, avec des performances comparables à celles des meilleurs modèles d'IA mondiaux sur divers benchmarks.

Au cours des dernières années, Alibaba Cloud a mis en open source plus de 200 modèles d'IA générative. À ce jour, plus de 100 000 modèles dérivés basés sur la famille de modèles Qwen ont été développés sur Hugging Face, faisant de cette famille l'une des plus importantes au niveau mondial.

Exemples d’Utilisation du Modèle :

Prompt 1 : Alors que le style réaliste est privilégié, une femme vêtue d'une tenue de sport rose court à travers une rue de la ville. La caméra se rapproche d'abord de son visage, avant de montrer son mouvement alors qu'elle tourne un coin et continue sa course à distance, présentant son dos alors qu'elle s'engage sur la route.

Prompt 2 : Un pavillon chinois traditionnel se transforme progressivement en une teinte rose caricaturale, tandis que des ballons commencent à apparaître autour de lui, capté dans un plan statique où la caméra reste immobile.

Partager :

Articles sur le même thème

En Chine, les mariages chutent de 20% en 2024. Les jeunes adoptent des animaux et des peluches, favorisant une vie émotionnelle riche.

Xiaomi lance MiMo, un modèle de langage open-source, renforçant son écosystème et sa position dans l’IA et les véhicules électriques.

JD.com inaugure son premier JD Mall hors ligne à Pékin, 70 000 m² dédiés à l’électronique, culture café, jeux et shopping. Inauguration le 17 mai.

La Banque populaire de Chine annonce des mesures de relance, dont une baisse des taux, injectant 1 trillion RMB et boostant le marché boursier.