清华+快手联合提出 FilmWeaver 框架,攻克多镜头视频生成一致性难题
每一部电影都是一个由镜头编织的梦境,但今天的AI却困在“单帧梦境”里。 尽管视频生成模型已能合成逼真的短片段,它们却难以讲述一个连贯的故事:当镜头切换,角色样貌会变幻不定,背景会突兀跳跃,叙事也会随之断裂。 这背后是两个根本的脱节:镜头之间缺乏记忆,导致角色与场景身份丢失;镜头内部缺乏流畅,使得运动生硬不连贯。现有方法或将多镜头压缩为单一序列,但这种方式牺牲了时长灵活性;或依赖复杂多模型管线的方法,这种方法会引入视觉断层。 为解决这一问题,清华大学深圳国际研究生院与快手Kling团队提出了FilmWeaver框架,其核心创新在于将一致性问题解耦为镜头间一致性与镜头内连贯性两个层面,并设计了一个双层缓存机制: 模型结合文本提示和这两种记忆来生成视频,核心就是让多镜头内容既连贯又统一。 👇扫码阅读论文,领H800算力 FilmWeaver的核心创新是 “自回归扩散 + 双级缓存” 的协同设计,通过 “解耦镜头间一致性与镜头内连贯性”,同时解决 “一致性” 与 “可控性” 问题,以确保能够生成任意长度和镜头数量的多镜头视频。 双级缓存分别负责 “镜头间长期一致性” 和 “镜头内短期连贯性”,且均通过上下文注入实现(无需修改模型架构,兼容性强)。 基于缓存的不同状态,我们的框架灵活支持四种生成模式,覆盖了从零开始创作到中途编辑的全流程: FilmWeaver的训练策略可概括为:采用两阶段渐进式课程学习,并结合针对性的数据增强,以稳定、高效地训练模型掌握双重缓存机制。其核心设计如下: 论文构建的一个高质量多镜头视频数据集,开发了一套完整的数据构建流水线。该流水线主要包含以下步骤: 论文在自建的多镜头测试集上,从 “视觉质量”、“一致性”和“文本对齐” 三个核心维度,将FilmWeaver与三类主流方法进行了全面量化对比。 场景一:多人对话(交替使用全景与特写) 本文提出了 FilmWeave,一种基于缓存引导的自回归扩散框架,用于解决多镜头视频生成中的跨镜头一致性与镜头内连贯性问题。 支持从首镜头生成、镜头延伸、新镜头过渡到全缓存生成的全流程,允许用户交互式构建任意长度与镜头数的视频叙事。 针对多镜头数据缺失问题,设计了一套从镜头切分、场景聚类到分组标注的数据构建流水线,并构建了用于评测的多镜头测试集。 关注“大模型实验室Lab4AI”,第一时间获取前沿AI技术解析! 点击阅读原文,跳转至Lab4AI官网,领取算力福利~清华+快手联合提出 FilmWeaver 框架,攻克多镜头视频生成一致性难题
01 论文概述

支持多镜头序列的交互式创作示意图
论文名称:FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion
论文链接:https://arxiv.org/pdf/2512.11274
Github地址:https://filmweaver.github.io/
02 方法
1. 双层次缓存机制(解决问题的核心引擎)

FilmWeaver框架示意图2. 四阶段推理流程(架构的动态工作模式)

FilmWeaver多镜头生成流程示意图3.训练策略
4.多镜头数据集构建

多镜头数据整理流程图
对于评测,论文同样指出缺乏公开基准,因此作者使用 Gemini 2.5 Pro 根据一个精心设计的提示(要求生成包含5个镜头、角色描述严格一致的电影场景),构造了20个全新的多镜头叙事场景作为测试集。03 实验效果
1. 定量结果

现有方法效果对比表格2. 定性结果

各工具多人对话视频生成比较图
场景二:动态动作序列
各工具多镜头视频生成比较图04 总结与展望
1. 新颖的双层缓存机制
2. 灵活的四模式推理框架
3. 高质量数据构建流程
未来工作可从数据、控制与效率三方面推进:进一步提升多镜头训练数据的规模与标注精度;探索结合语义剧本的更强叙事控制;优化缓存检索与压缩机制以支持更复杂、更长的电影级生成任务。
GitLink开源创新服务平台与Lab4AI大模型实验室联合发起「论文头号玩家」论文复现计划。寻找百万「论文头号玩家」计划 | 首批复现体验官开放申请,最高可获500元算力金!本计划开放高性能H800 GPU算力,旨在降低复现门槛,推动学术成果的实践转化。
参与活动您将获得:
论文复现体验官招募火热进行中