该模型基于主流的视频Diffusion(扩散模型)和Transformer架构。扩散模型通过逐步去除噪声来生成数据,而Transformer架构则基于自注意力机制(Attention)捕捉长时程依赖关系,从而生成时空一致的高质量视频。在权威评测集VBench中,Wan2.1的14B参数专业版本以总分86.22%的成绩大幅超越了国内外其他模型(如Sora、Luma、Pika等),稳居榜首位置
[1]。该模型能够生成复杂运动、还原真实物理规律、提升影视质感,并优化指令遵循。
Wan2.1 t2v模型Lora Fine-Tune
未经允许不得转载:小健博客 » Wan2.1 t2v模型Lora Fine-Tune