ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果
作者:vivo BlueImage Lab 本文入选 ICLR 2026 ICLR (International Conference on Learning Representations)是聚焦机器学习与深度学习等领域的国际顶级学术会议,致力于推动人工智能理论与方法的前沿研究与创新发展。ICLR 2026 约19000篇投稿,接收率约28.18%。 项目主页: https://github.com/vivoCameraResearch/any-to-bokeh 摘要: 针对视频散景制作常面临操作复杂、效果不自然等问题,难以满足创作者高效出片需求等问题,我们提出 Any-to-Bokeh 一键式视频虚化工具,对应的论文已被 ICLR2026 接收!该工具无需复杂操作无需专业操作即可生成电影感虚化效果。为短视频创作者、影视从业者提供了高效易用的创作工具,也为相关领域科研提供可参考的实践成果,助力 AI 视频编辑技术更贴近实用需求。项目代码与试用指南已公开至 GitHub,诚邀大家体验试用,欢迎 Star 支持并引用。 该工作由vivo BlueImage Lab,浙江大学共同完成。 在 AI 图像编辑领域,虚化效果(Bokeh)的实现早已不是难题——通过扩散模型,我们能轻松模拟专业相机的虚化质感,让普通图片瞬间提升氛围感。但当需求延伸到视频领域,挑战却陡然升级:现有工具要么无法精准控制对焦平面与虚化强度,要么直接套用图片虚化算法,导致视频出现明显的帧间闪烁、边缘过渡生硬等问题,难以满足高质量创作需求。 近日,我们团队发布了题为《Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model》,为视频虚化难题提供了创新性解决方案,已正式被国际机器学习顶会 ICLR2026 接收。我们研发的这一框架,凭借独特的技术设计,实现了 “任意视频输入→高质量虚化输出” 的一步式转换,同时兼顾可控性与时间连贯性。 精准可控,效果自定义: 我们突破传统视频编辑工具的局限,支持显式控制对焦平面与虚化强度。无论是想突出画面主体、弱化背景干扰,还是调整虚化强度适配不同场景(如人像特写、风景延时),都能精准实现,满足多样化创作需求。 时间连贯,无闪烁无断层: 针对 “图片虚化扩展至视频” 的核心痛点,我们在框架中引入多平面图像(MPI)表示 —— 通过逐步拓宽的深度采样函数构建 3D 几何结构,为每帧的虚化合成提供统一的几何引导。再结合 Stable Video Diffusion 等预训练模型的强 3D 先验,从根源上解决了帧间闪烁、边缘模糊过渡不自然的问题,让长视频的虚化效果始终连贯统一。 鲁棒性强,细节不丢失: 我们采用渐进式训练策略,不仅提升了模型对不同场景、不同深度分布视频的适配能力(深度鲁棒性),还能在生成虚化效果的同时,精准保留主体细节。无论是动态人物、快速移动的物体,还是纹理复杂的场景,都能实现 “虚化自然、细节清晰” 的平衡。 Any-to-Bokeh 的核心创新在于提出了一种 “MPI 引导的单步视频扩散模型”: 无论是短视频创作者、Vlogger、自媒体人,还是专业视频剪辑师,都能从 Any-to-Bokeh 中受益: 目前,我们的论文已在arXiv公开,项目代码与试用指南也已同步更新至 GitHub。 诚邀大家前往 GitHub 体验试用,若觉得工具实用、技术有参考价值,欢迎给我们点亮Star,也期待相关领域的科研同行引用我们的工作(论文引用格式可在 GitHub 查看)~ 你们的支持是我们持续优化技术的最大动力! 未来,我们也会不断迭代版本,解锁更多实用功能,让 AI 视频创作的 “氛围感自由” 惠及更多人。 持续关注我们的 GitHub 与论文进展,一起探索视频编辑的更多可能。 关于vivo BlueImage Lab vivo BlueImage Lab(蓝图影像创新实验室)主要负责移动影像算法创新,持续突破移动影像的技术天花板。 该实验室的工作重点包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。团队成员大多是来自国内外顶尖高校的博士,博士后,具有计算机视觉、图像处理、人工智能等相关领域的专业背景,拥有丰富的前沿技术创新经验。 他们致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。除了移动影像,他们也积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。一、核心优势:解决视频虚化三大痛点
二、技术逻辑:一步式生成的背后

三、应用场景:覆盖多领域创作需求
