复旦等提出突破视频生成长度极限新模型
论文名称:LongVie 2: Multimodal Controllable Ultra-Long Video World Model 该论文提出了 LongVie 2,一款多模态可控超长视频世界模型,旨在解决现有视频生成模型在长时生成中存在的可控性不足、视觉质量退化与时间一致性差的核心问题。模型采用三阶段渐进式训练策略:通过融合稠密(深度图)与稀疏(关键点)控制信号提升语义级可控性;引入退化感知训练弥合训练与长时推理的领域差距;借助历史上下文引导及多频率损失函数保障跨片段时间连贯性。同时,构建了包含 100 个一分钟以上高分辨率视频的 LongVGenBench 基准数据集,为超长可控视频生成提供标准化评估工具。实验结果表明,LongVie 2 在视觉保真度、可控性与时间一致性上均达到当前最优水平,可稳定生成 3-5 分钟的超长视频,准确模拟真实物理现象,为视频世界建模领域的发展奠定了重要基础。 视频生成技术在扩散模型推动下取得显著进展,但视频世界模型的发展仍面临关键挑战。现有模型的可控性局限于低层次调整,缺乏全局语义级控制;且在生成超长时间视频(如超过一分钟)时,易出现视觉质量下降和时间漂移问题,难以兼顾细粒度可控性、长期视觉保真度与时间一致性。同时,当前缺乏专门用于评估超长可控视频生成的基准数据集,制约了相关研究的推进。 针对现有视频世界模型的可控性不足与长时生成稳定性差的问题,提出一种端到端自回归框架LongVie 2,实现兼具可控性、长期视觉质量与时间一致性的超长视频生成。构建专用基准数据集LongVGenBench,为超长可控视频生成的评估提供统一标准,推动视频世界建模向通用时空智能迈进。 LongVie 2通过三阶段渐进式训练策略与多模态控制机制,有效解决了超长视频生成中的可控性、视觉质量与时间一致性难题,构建的LongVGenBench为该领域提供了标准化评估工具。实验表明,模型在超长可控视频生成任务上达到SOTA水平,为视频世界建模奠定了重要基础。 局限性在于实验均在352×640分辨率下进行,难以展现细粒度细节与高频结构。未来将拓展至更高分辨率,提升视觉保真度;进一步丰富多模态控制信号类型,增强场景适应性;开发面向特定领域的变体模型,推动技术在实际场景中的落地应用。
论文作者:Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
Github地址:https://vchitect.github.io/LongVie2-project/
论文链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sour...论文简介
AI导读:
LongVie 2论文核心内容总结
1. 研究背景
2. 研究目的
3. 本文核心贡献
4. 研究方法
5. 研究结果
6. 总结与展望
总结
展望