标签 扩散模型 下的文章

整理 | 华卫

 

1 月 28 日,智源多模态大模型成果"Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)"上线国际顶级学术期刊 Nature,预计 2 月 12 日纸质版正式刊发。

 

Nature 编辑点评这项研究:Emu3 仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

 

https://www.nature.com/articles/s41586-025-10041-x

 

2018 年以来,GPT 采用 “预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。

 

智源这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。在后续迭代的 Emu3.5 版本,确实证明了这一范式的可拓展性,并达成预测下一个状态(Next-state prediction)的能力跃迁,获得可泛化的世界建模能力。

从语言到多模态:“预测下一个词元”的潜力与未解之问

“预测下一个词元”彻底改变了语言模型,促成了如 ChatGPT 等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。

 

在多模态模型领域,视觉生成长期以来由结构复杂的扩散模型主导,而视觉语言感知则主要由组合式方法引领 ,这些方法通常将 CLIP 编码器与大语言模型(LLMs)结合。尽管已有一些尝试试图统一生成与感知(如 Emu 和 Chameleon),但这些工作要么简单将 LLM 与扩散模型拼接在一起,要么在性能效果上不及那些针对生成或感知任务精心设计的专用方法。这就留下了一个根本性的科学问题:单一的预测下一个词元框架是否能够作为通用的多模态学习范式?

 

就此,智源提出了 Emu3,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的 Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。此外,研究团队还做了大量消融实验和分析,验证了多模态学习的规模定律(Scaling law)、统一离散化的高效性、以及解码器架构的有效性。

 

Emu3 架构图

 

实验显示,Emu3 在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合 CLIP 和大语言模型的主流方案比肩。此外,Emu3 还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3 通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。

从模型到范式:Emu3 对多模态学习的启示

不同于 Sora 的扩散式视频生成,Emu3 采用纯自回归方式逐词元(token) 生成视频,能够在给定上下文下进行视频延展与未来预测,并在文本引导下生成高保真视频。此外,Emu3 还可拓展至视觉语言交错生成,例如图文并茂的菜谱生成;也可拓展至视觉语言动作建模,如机器人操作 VLA 等,进一步体现了“预测下一个词元”的通用性。

 

智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。其中包括一个稳定且通用的视觉分词器(tokenizer),可将图像与视频高效转换为离散词元来表示。同时,研究通过大规模消融实验系统分析了多项关键技术的设计选择,例如:分词器(tokenizer)码本尺寸、初始化策略、多模态 dropout 机制以及损失权重配置等,揭示了多模态自回归模型在训练过程中的动态特性。研究还验证了自回归路线高度通用性:直接偏好优化(DPO)方法可无缝应用于自回归视觉生成任务,使模型能够更好地对齐人类偏好。

 

研究有力表明了预测下一个词元可作为多模态模型的核心范式,突破语言模型的边界,在多种多模态任务中展现了强劲性能。通过简化复杂的模型设计、聚焦统一词元,该方法在训练与推理阶段均展现出显著的可扩展性,为统一多模态学习奠定了坚实基础,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。

 

在此研究基础上,悟界·Emu3.5 进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范式升级。

今天,我们正式开源了 LingBot-Depth 空间感知模型。

点击查看视频

不同于数字世界,具身智能的落地高度依赖物理空间信息,空间智能是其在现实场景落地应用的核心关键,而视觉维度下支撑空间智能的重要桥梁正是距离与尺度(Metric Depth)。基于这一核心需求,空间感知模型 LingBot-Depth 应运而生。

LingBot-Depth 是一种面向真实场景的深度补全模型,依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化,旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果,提升环境深度感知与三维空间理解能力,为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。

实验结果表明,本模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在 NYUv2、ETH3D 等多个基准测试中,LingBot-Depth 在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平,并在无需显式时序建模的情况下保持视频级时间一致性。LingBot-Depth 模型也已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均达到行业领先水平。
640.webp
注解:在最具挑战的稀疏深度补全任务中,LingBot-Depth 性能整体优于现有多种主流模型。(图中数值越低代表性能越好。)

下游任务验证进一步表明,模型能够在 RGB 与深度两种模态之间学习到对齐的潜在空间表征,从而实现对透明及反光物体的稳定机器人抓取。

01技术架构:创新的掩码深度建模范式

640 (1).webp
在家庭和工业环境中,玻璃器皿、镜面、不锈钢设备等透明和反光物体物体十分常见,但却是机器空间感知的难点。传统深度相机受制于光学物理特性,在面对透明或高反光材质时,往往无法接收有效回波。针对这一行业共性难题,我们研发了“掩码深度建模”(Masked Depth Modeling,MDM)技术。训练过程中,我们使用海量 RGB–深度图像对,但刻意遮挡其中一部分深度区域,让模型仅根据 RGB 图像去预测缺失的深度值。随着训练进行,模型逐渐学会建立“外观—几何”之间的对应关系,也就是从“物体看起来像什么”推断“它大概有多远”。

在涵盖家庭、办公环境、健身房及户外场景的上千万张图像数据上完成训练后,当深度相机传回的数据出现缺失或异常时,LingBot-Depth 模型已能够融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进行推断与补全,输出更完整、致密、边缘更清晰的三维深度图。

02 核心亮点

精准且稳定的相机深度感知

LingBot-Depth 在传统深度传感器易失效的复杂场景中,仍可输出具备真实尺度的高精度深度结果,包括透明物体、玻璃表面以及高反光材质等极具挑战性的环境。不同于依赖硬件改进的方案,本模型从视觉理解层面弥补传感器缺陷,实现对真实三维结构的可靠恢复。

除单帧精度优势外,LingBot-Depth 还表现出优异的时间一致性。在无需显式时序建模的情况下,模型即可为视频输入生成稳定、连贯的深度序列,有效避免闪烁与结构跳变问题,为机器人操作、AR/VR 以及动态场景感知等应用提供可靠的连续空间理解能力。
image.png

卓越的 3D 和 4D 环境感知能力
LingBot-Depth 为下游空间感知任务提供了坚实而通用的基础能力。通过将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果,模型显著提升了多种高层视觉任务的稳定性与精度。具体而言,LingBot-Depth 支持:

更加准确的结构化室内场景建图,并有效提升相机位姿与运动轨迹估计的精度;

面向机器人学习的可靠 4D 点跟踪能力,在统一的真实尺度空间中同时刻画静态场景几何结构与动态物体运动。这使得系统能够在复杂真实环境中建立一致、连续且可用于决策与交互的空间理解表征。
11.jpg

灵巧抓取操作适用于透明与反光物体
通过在统一潜在空间中联合对齐 RGB 外观信息与深度几何结构,LingBot-Depth 使机器人在以往难以处理的复杂场景中实现稳定可靠的操作能力。基于模型优化后的高质量深度结果及跨模态对齐特征,我们进一步训练了一种基于扩散模型的抓取位姿生成策略,在透明杯、反光金属容器等具有挑战性的物体上取得了较高的抓取成功率。在真实机器人测试中,在透明储物盒等传统传感器难以处理的场景中,LingBot-Depth 通过生成合理的深度估计,成功实现了 50% 的抓握率,突破了技术瓶颈。
640 (2).webp
点击查看视频

03 从实验室到落地应用:显著提升消费级深度相机对高难物体的处理效果

LingBot-Depth 展现出与现有硬件设备的良好适配性。在不更换更高成本传感器的情况下,模型可提升可靠性并降低系统部署门槛。LingBot-Depth 模型依托奥比中光 Gemini330 系列双目 3D 相机进行效果测试,结果显示:面对透明玻璃、高反射镜面、强逆光以及复杂曲面等极具挑战性的光学场景,搭载 LingBot-Depth 后输出的深度图变得平滑、完整,且物体的轮廓边缘非常锐利,效果优于业内领先 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。
!上传中...640 (3).webp
注解:搭载 LingBot-Depth 后,奥比中光 Gemini 330 系列在透明及反光场景下深度图的完整性和边缘清晰度明显提升
640 (4).webp
注解:奥比中光 Gemini 330 系列相机搭载 LingBot-Depth 后输出的深度图效果优于业界领先的 ZED 深度相机

这意味着在不更换传感器硬件的前提下,LingBot-Depth 可显著提升消费级深度相机对高难物体的处理效果,降低机器人因深度缺失与噪声引发的抓取失败与碰撞风险。在具身智能、自动驾驶等领域都有一定应用价值,能够极大程度提升具身操作的精准度。

目前,我们已与奥比中光达成战略合作伙伴关系,将基于 LingBot-Depth 模型推出新一代深度相机,依托 Gemini 330 系列相机提供的芯片级 3D 数据,进一步通过技术协同、生态共建,为机器人处理各行各业极端场景、走向真正落地提供强大的技术支撑。

LingBot-Depth 已成功实现模型轻量化与端侧部署,具备在边缘计算设备上高效运行的能力。未来,我们期待通过开源开放与生态合作,和广大合作伙伴一起加速具身智能在家庭、工业、物流等复杂场景的大规模应用落地。

目前我们的模型、代码、技术报告已全部开源,欢迎大家访问我们的开源仓库。

Website:
https://technology.robbyant.com/lingbot-depth

Model:
https://huggingface.co/robbyant/lingbot-depth

Code:
https://github.com/Robbyant/lingbot-depth

Tech Report:
https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

后续我们还将开源 300 万对精心标注的 RGB-深度数据,包括 200 万对实拍 RGB-D 样本,和 100 万对渲染样本,推动空间感知技术的开源生态建设和技术创新。

LingBot-Depth 的开源标志着我们在空间智能领域迈出的第一步。本周,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果,我们期待与全球开发者、研究者、产业伙伴一起,共同探索具身智能的上限。
image.png

作者:高继航

1 前言

2025年,虚拟试衣已成为电商行业不可或缺的核心环节,从技术落地到商业变现,全行业都在加速布局这一赛道。什么是虚拟试衣?其背后的核心技术方案有哪些?国内外电商大厂又有哪些典型实践案例?如何突破技术瓶颈,打造更贴合用户需求的试穿体验?电商平台又该如何构建完整的AIGC能力矩阵?

本文分享将基于京东零售视觉与AIGC部负责人李岩(Jason Li)博士在AICon2025的演讲内容整理呈现,深度拆解虚拟试衣的技术逻辑、行业实践与未来趋势,解锁电商AIGC的全域布局思路。

在这里插入图片描述





内容围绕以下板块展开:首先解析虚拟试穿的定义与分类;其次回顾虚拟试穿的技术发展历程;随后深度拆解行业内主流虚拟试衣产品的核心能力;再介绍京东在虚拟试穿领域的探索及实践沉淀的实践经验;在此基础上,分享京东零售AIGC布局的全景图;最后探讨虚拟试衣及电商AIGC行业的未来发展趋势。

在这里插入图片描述

2 虚拟试穿的定义与分类

在这里插入图片描述

在这里插入图片描述

虚拟试穿的底层逻辑可概括为A+B=AB,其中A指模特的图片或视频,B则是服饰图。通过视觉生成技术将服饰“穿”到模特身上,最终以静态或动态效果呈现给用户,核心要求是保证模特与服饰的关键信息不被破坏、不被篡改。

从不同维度划分,虚拟试穿可分为以下类别:

在这里插入图片描述

首先,从服饰呈现形式来看分类。服饰的素材形态主要有三种:一是平铺的白底服饰图,二是真人模特上身的服饰图,三是假人台模特上身的服饰图。

其次,以服饰数量为划分标准,这一类可以分为单件服饰和多件服饰两类。单件服饰涵盖上装、下装、长款连衣裙以及单件内衣等;多件服饰则是多种单件服饰的组合搭配,这里鞋子、包包、配饰等,也都在虚拟试衣的服务范畴之内。以上就是从服饰的不同维度对虚拟试衣进行的分类。

在这里插入图片描述

接下来,换个角度,从模特的视角来拆解虚拟试衣的分类。

从模特类型来看,可分为全身模特、半身模特、多人模特以及视频模特;

从输出形态来看,则可以分为静态图像模特和动态视频模特两类。

讲到这里大家不难发现,虚拟试衣任务的输入条件其实是相当丰富且复杂的。因此,一个优质的虚拟试穿算法,需要对上述所有的组合矩阵都具备良好的适配能力。而截至目前,要实现这一点,依然存在不小的技术挑战。

2 虚拟试穿的核心价值:三大视角的必要性分析

在这里插入图片描述



虚拟试穿技术的推进源于行业发展、消费者需求与商家痛点三大核心诉求,具体可从三个视角展开:

从行业大环境来看 三年疫情直接推动服饰行业从线下向线上转移。2019年中国服饰线上销售额占整体零售额的25%~30%,2023~2024年这一比例提升至40%,2025年更是突破50%,线上购衣已成为主流消费习惯。

从消费者视角来看 购物的便捷性和私密性需求日益凸显。调研数据显示,65%的女性和54%的男性对传统实体试衣间感到不自在、不方便——狭小空间内的脱衣穿衣操作、冬季厚重衣物的繁琐试穿流程,以及公共区域的疾病交叉感染风险等,均降低了线下试衣体验。而用户天然存在查看服装上身效果的需求,因此AI试穿被视为服饰线上零售在体验上的“最后一公里”。

从商家视角来看 高退货率是服饰电商的核心痛点。这里有一张图,可能经常网购的女生会了解这个梗,现在有不少买家会做“穿完即退”的操作,尤其是礼服类服饰,穿着新衣服拍照打卡、出席活动后,就无理由退货,导致衣服沾染污渍异味,商家根本无法二次销售。为此,商家想出了用“大尺寸+硬质材料”的“巨型吊牌”,来对这种恶意退货进行物理防御。抛开这个梗不谈,普通电商平台的服饰退货率普遍在25%~60%,内容电商直播场景的退货率更高,部分可达80%~90%。商家每处理一件退货,平均需付出15~30元成本,涵盖物流、包装、折旧、仓储及人工处理等环节,跨境电商业务的成本则更高。此外,“穿完即退”等恶意退货行为也加剧了商家损失,因此行业亟需稳定、可靠的线上试穿技术与产品能力解决上述问题。

3 虚拟试穿的行业核心难点:用户预期的三层进阶需求

在这里插入图片描述

虚拟试穿到底好不好做,行业的核心难点又在哪里?聚焦C端场景,虚拟试穿的核心难点集中在用户对技术的三层进阶预期,各层次需求对应的挑战各不相同:

第一层是基础型需求,核心是服装上身效果的精准还原,包括颜色、款式、版型和面料质感。这一层面的难点主要有四:一是用户相册中往往缺乏直接可用的素材,尤其男性用户,难以提供合格的全身或头肩部位肖像;二是试衣算法需保证模特脸部等关键信息不被篡改,尤其是脸部特征,试穿前是什么样子,试穿后核心的面部ID信息必须保持一致,试穿前后核心面部ID信息保持一致;三是真实还原与美学增强的平衡“矛盾体”——算法初期优先追求信息还原,但女性用户对美观度诉求强烈,部分用户可接受轻微肖像修改以提升效果;四是试衣模型多基于扩散模型搭建,试穿效果依赖模型储备的世界知识。

第二层是尺码合身需求,这是大众认知里,虚拟试穿最核心的刚需,也是目前实现难度最高的需求,行业内尚无成熟技术方案。从算法层面看,核心瓶颈是尺码错配训练数据的极度匮乏——电商平台买家秀多为合身尺码展示,缺乏“小体型穿大码”“大体型穿小码”等这类尺码mismatch的完整数据;此外,大量长尾服饰本身存在尺码信息缺失问题,不同品牌、品类的尺码标准不统一,这也是为什么有些店家会建议用户拍大一码或拍小一码。并且,用户对尺码存在个性化偏好,有人偏爱宽松的大码版型,有人则更倾向于合身的小码版型。所以说,尺码合身这个需求,是目前虚拟试穿技术实现中最大的难题,这进一步提升了实现难度。

第三层是突破型需求,即基于用户身材与具体场景的智能穿搭推荐及个性化风格探索。这一层,用户的典型诉求是基于自身身材与具体场景,获得智能穿搭建议,甚至进行个性化的风格探索。比如:用户可以输入自身情况,提出“要参加朋友婚礼该怎么穿搭”“出席孩子家长会适合穿什么”这类场景化需求;也可以针对已有单品提问,比如“我有一件这个颜色的上衣,搭什么下装最合适”“这条裙子配哪种外套更好看”。这些都是用户在穿搭推荐上的典型诉求。这一需求的实现难点在于:一是模型必需精准理解用户的身材特征,避免推荐不符合体型的服饰,比如不能给体型偏胖的用户推荐短款显壮的衣服;二是做好用户历史偏好建模,准确捕捉用户过往的服饰品味,让推荐更贴合其个人喜好,不能给穿衣风格偏保守的用户推荐过多潮流品牌;三是需要获取并理解“时空人”信息,就像现在12月的北京已经入冬,天气寒冷,推荐时就应该优先考虑羽绒服这类御寒衣物。最后,既然要做风格探索,就必须持续投入穿搭知识库的构建,同时积极追踪最新的时尚潮流,这样才能给用户提供前沿且合适的穿搭建议。

4 虚拟试穿的技术发展历程:从学术起源到行业主流

在这里插入图片描述

4.1 学术起源与框架演进

在这里插入图片描述

虚拟试穿的技术发展历程是什么?从虚拟试穿技术的发展看京东零售技术实践和未来发展方向。

通过文献梳理可以发现虚拟试穿(Virtual Try On)的学术概念最早于2001年由日内瓦大学研究人员正式提出,这样早期研究给出了网络环境下基于人体克隆的服装试穿解决方案。采用高度定制化技术,需从特定角度对人体拍照取样,依赖流程化、模块化操作及关键节点定位技术,这就是虚拟试穿技术的学术开端。

在这里插入图片描述

2001年至2025年的二十余年间,虚拟试穿技术在学术界的框架演进可分为三个核心阶段:

第一阶段2001年至2013年,主流方案以3D建模、物理仿真及AR(增强现实)技术为核心;

第二阶段2017年至2022年,技术路径转向基于CNN与生成对抗网络(GAN)的框架;

第三阶段2023年起,扩散模型(Diffusion Model)异军突起,此后绝大多数研究都聚焦于这一技术方向,直到现在扩散模型依然是虚拟试穿领域的最主流技术方案。

在这里插入图片描述

与此同时,虚拟试穿技术在学术界“绕不开”的四类核心研究文献可归纳为四类:第一类是生成对抗网络(GAN)方向,相关研究主要集中在2017到2022年,核心都是基于GAN技术来实现虚拟试穿。第二类是扩散模型方向,正如之前提到的,2023年之后这类研究开始爆发,不同的网络结构和试穿任务场景,都能在这个方向找到具有行业影响力的论文。

在这里插入图片描述

另外两类分别是视频试穿方向和套装试穿方向。随着单件服饰图像试穿技术逐渐成熟,学术界开始朝着不同维度拓展研究边界,一个是从静态图像延伸到动态视频,一个则是从单件服饰试穿升级到多件搭配的套装试穿。



4.2 京东零售虚拟试穿技术的四代演进

在这里插入图片描述



而京东零售自2023年启动虚拟试穿项目研发,至今已有两年多的积累,期间历经了四代大的技术框架迭代,积累了丰富实践经验:

第一代是非常早期的架构,以U-Net作为扩散模型主体,搭配Reference Net来实现参考服饰的信息注入。这个框架大家应该比较熟悉,属于Stable Diffusion时代的产物,它的扩散模型参数规模不算大,对应的图像生成效果也相对有限。

在这里插入图片描述



第二代技术框架将扩散模型主体结构从U-Net升级为DiT,服饰信息特征表示借助ViT与VAE完成,与2024年行业技术趋势同步(Sora的出现推动行业普遍完成U-Net到DiT的切换)。这次升级其实和行业趋势同步,2024年年初Sora横空出世,让大家看到了DiT作为扩散模型框架的先进性,因此大部分行业机构都在2024年上半年完成了从U-Net到DiT的技术切换。基于第二代技术框架的实践,我们也沉淀了三个比较重要的认知分享给大家。第一,基座模型的架构和容量对试穿效果起到决定性作用。这一点也印证了扩散模型的Scaling Law,从最初的1B模型,到3B、10B、20B,再到融入VL框架后升级至30B乃至更大参数规模,模型的生成效果有着肉眼可见的提升。第二,利用VAE对参考图像进行编码,能极大提升生成结果的一致性。ViT的表征更偏语义层面,而VAE的训练以重构残差最小为优化目标,更擅长捕捉图像细节。在实际试穿中,若遇到衣服logo等细节还原不佳的问题,往往就是因为没有正确使用VAE编码器来做服饰特征表征。第三,在这套框架的试穿任务中,无需对参考图进行prompt描述,如强行加入文本描述,反而很可能引发图文冲突与对抗。不过这个结论并非绝对,要结合具体技术框架来看,在当前的DiT+ViT+VAE框架下,我们是可以剥离文本模块的,但后续融入VL模型表征后,文本侧的信息也能发挥相应的价值。


在这里插入图片描述

京东零售的第三代虚拟试穿技术,核心完成了从图像试穿到视频试穿的模态升级。目前行业内的视频生成框架尚未形成统一标准,我们可以分享一套可供参考的技术方案:首先将原始视频解析为带mask的视频帧序列,以及类似OpenPose的“火柴棍”姿态帧序列;再分别对这两类序列进行编码、建模、,最终通过MM-DiT完成去噪,生成服饰上身的视频试穿效果。

在这里插入图片描述

而京东零售最新的第四代虚拟试穿技术,这一代框架最显著的变化,就是完全摒弃了Mask模块,全面拥抱Mask Free的通用技术架构。与此同时,参考图的表征方式也从原来的纯视觉维度,进化为融合文本模态的多模态统一表征,这里我们引入了Vision Language Model 视觉语言模型来专门完成参考图的特征提取。基于第四代框架的实践,我们也沉淀了几个关键认知:第一,Mask Free框架对人物的身份特征、肢体姿态、服饰细节以及配饰元素,都能实现更好的保留效果;第二,该框架彻底摆脱了Mask模块可能带来的误差累积,同时大幅降低了工程研发的复杂度。毕竟从研发角度来说,系统模块越简洁,引入连带问题的概率就越低,而Mask模块本身会因不同应用场景产生各种badcase,容易引发新问题;第三,Mask Free框架可以更好地兼容套装试穿,以及服装与配饰的同步试穿需求。举个简单的例子:在传统Mask方案中,需要先mask掉用户原有的衣物,再叠加新服饰,可如果用户原本还斜挎着小包,这个包包大概率会随旧衣被mask掉,相当于破坏了用户的原始信息,而通过Mask Free的技术框架,就能实现“新衣上身,配饰保留”的效果。

4.3 技术小结与核心观点

在这里插入图片描述



结合虚拟试穿技术发展历程和京东零售的技术实践,给正在做或将要做虚拟试穿的企业或相关产研人员建议,可总结以下核心观点:

一是启动项目前一定要拿到最好的图像生成基座模型,因为模型的世界知识和基础能力,直接决定了整个项目的起跑线。请大家始终相信Scaling Law,至少在30B参数规模以内,这种效应的验证效果是非常清晰的。

二是Mask Free技术框架会成为未来的主流方向,大道至简,越简洁的技术路线越正确,如果现在还有同学在Mask based方案里摸索,建议果断舍弃那些冗余的模块,尽快拥抱Mask Free的通用技术框架。

三是从单件试穿到多件试穿是必然的技术趋势,而且必须要兼顾配饰。在我们看来,“试穿+穿搭”才是更具想象力的产品形态。我们现在聊的更多是“穿”的环节,但从产品层面来说,更关键的其实是“搭”的能力。

四是试穿结果的视频化,是用户的核心诉求,这一点毋庸置疑。毕竟线下试衣时,大家都会对着镜子转身、摆动,动态效果才更贴近真实体验。但这需要我们长期攻克推理效率的难题,目前生成一段10秒的试穿视频,耗时基本还是分钟级,这样的速度对线上用户体验的影响是比较大的。

五是数据的价值,用于试穿的训练数据,会成为各大电商平台的核心资产。极致的试穿效果,主要依赖于企业的in-house数据。我们都知道,数据是大模型的核心,虽然有些从业者为了凸显技术深度,会刻意回避甚至弱化数据的重要性,但事实就是如此。尤其是虚拟试穿这类赛道,每个企业都会建立自己的数据壁垒。同时,随着AIGC能力的提升,模型训练早期可以借助AIGC数据快速收敛到任务需求,后续再用真实数据校正,就能有效规避AIGC生成内容带来的失真。



5 虚拟试穿的行业实践方案:国内外典型案例解析

在这里插入图片描述



而在虚拟试穿的行业实践方案,目前国内外电商大厂已推出多款虚拟试穿产品,覆盖C端购物场景与B端商家服务场景,各产品特点与局限性各有不同:

在这里插入图片描述



首先来看整个行业的发展概况,这里有三组关键数据分享。

第一组数据是200亿美元,2025年全球虚拟试穿平台的市场规模预计将突破200亿美元,这其中涵盖图像生成、增强现实(AR)以及3D虚拟试衣等多个细分技术方向,而中国市场的规模,预计将占到其中的50亿美元左右。

第二组数据是60余个品牌,截至今年12月,国内已有超过60家服装品牌对外宣称具备虚拟试穿能力,覆盖快时尚、运动等多个品类,这些品牌的核心分布区域,也集中在欧美中日韩等时尚消费的核心地带,像Zara、Nike、Gap、H\&M,以及中国的李宁、安踏等,都在其列。

第三组数据是60%,有机构预测,到2026年,全球将有超60%的服装品牌采用不同形式的虚拟试穿解决方案,届时,这项技术将从当前的“可选配置”,正式升级为整个行业的“标配能力”。

上方是目前国内外在虚拟试穿领域具备技术储备的部分机构和企业,供大家参考。

5.1 国内C端购物场景案例分析

逐个拆解虚拟试穿行业里几家互联网大厂的典型实践方案。


在这里插入图片描述

阿里Lookie: 它是一款主打虚拟形象搭配试穿的AI娱乐工具。

这款产品的核心特点有两个:一是玩法丰富、搭配自由度高,而且自带很强的分享属性;二是“电子衣橱”的概念很有新意,精准命中了用户多件服饰试穿搭配的潜在需求。

当然,我们也客观地分析一下它当前存在的局限性。第一,Lookie目前仅支持套装试穿,不支持单件试穿。套装试穿在娱乐场景下确实很有吸引力,但电商平台的用户购买行为更多集中在单件服饰,这就形成了一个明显的场景缺口。第二,它作为淘宝的一款中心化小程序,入口相对较深,导致产品的购物属性偏弱。如何从“好玩”迭代到“好用”,最终实现商业变现,是Lookie团队需要重点回答的问题。第三,从试穿效果来看,生成的形象和用户真实身材仍存在一定差异,大家可以去淘宝小程序里亲自体验感受。第四,Lookie的人物形象建模,在一定程度上依赖于LoRA数字分身技术。熟悉这个技术的人应该知道,早期的妙鸭也是这样,需要用户上传十几张个人照片,付费后等待模型训练,才能生成专属数字分身,后续试穿也都基于这个数字分身来完成。但这种技术方案对训练资源的要求较高,算不上是行业内ROI最优的选择。不过值得一提的是,Lookie目前已经开始尝试支持单张图像建模,在降低用户使用门槛上往前又迈出了一步。

在这里插入图片描述



淘宝AI试穿: 它是一款入口布局激进、功能设计清爽的购物助手。

这款产品的核心特点有两个:第一,它的入口直接设置在搜索双列的商卡上,这个位置的选择相当大胆激进,能最大程度触达购物链路中的用户;第二,它的推理速度较快,试穿效果稳定,产品功能也足够聚焦,整体使用体验十分清爽。

当然,它也存在两处明显的局限性:其一,目前淘宝AI试穿仅支持上传用户相册里的全身正面站立照,这个要求对不少用户来说存在使用门槛,而且产品缺乏虚拟形象定制能力,毕竟从相册里找出完全符合要求的照片,并不是一件容易的事。而虚拟形象定制恰恰是降低使用门槛的有效方式。其二,它现阶段只具备单品试穿能力,没有搭载穿搭推荐功能。我们之前提到过,穿搭是试穿场景中非常重要的延展环节。不难发现,阿里的这两款试穿产品在一定程度上形成了互补:淘宝AI试穿专注于单件试穿场景,深度嵌入核心购物链路;而它所欠缺的穿搭能力,正好可以由Lookie小程序来补齐。



5.2 海外C端购物场景案例分析

介绍完国内电商平台的试穿产品,我们再把目光转向海外,看看海外的虚拟试穿技术能力。


在这里插入图片描述



Google Shopping Try On: 这是一款主打高真实性的购物决策工具。

它的核心特点有三个:第一,具备跨端覆盖的试穿能力,同时支持移动端与桌面端,能满足不同用户的使用习惯;第二,服饰覆盖率极高,几乎涵盖了Google Shopping平台上的全量服饰品类;第三,支持用户上传个人照片或使用AI模特,而且对用户上传素材的包容度很高,要知道,通常模特姿态越简单,试穿效果越容易把控,但Google Shopping Try On即便是面对坐姿、非标准站立等有难度的姿态,也能处理得比较好。

当然,它也存在明显的局限性,这点和淘宝AI试穿有些类似,即仅支持单品试穿,暂未开放穿搭组合的试穿功能。

5.3 C端内容电商服务场景案例分析

介绍完货架电商场景下的典型AI试穿能力,我们再把目光转向内容电商,这里以抖音的AI试穿为例来分析。

在这里插入图片描述



抖音AI试穿: 是一款主打“直播+试穿”的新体验产品。

它的核心特点有三个:第一,与直播场景紧密结合,用户从看到商品到完成试穿的链路快捷又易用;第二,同时支持上传用户真实照片和使用AI模特,在一定程度上降低了用户的使用门槛;第三,除了当前入口的商品,还能支持同店铺内的穿搭推荐,正好契合了我们之前提到的试穿延展需求。

这款产品也存在两处局限性:其一,虽然配备了AI模特,但这些模特的肖像和用户本人没有关联,更像是一张“平均脸”,用户会觉得是陌生人在试穿,而非自己,体验上会有割裂感;其二,它的其中一个试穿入口设置在商品详情页的尺码助手附近,而目前行业内并没有成熟的技术能支持尺码合身效果的试穿,这就容易给用户造成误导,用户本以为点进来能看尺码是否合适,实际却只能看到服饰上身的基础效果,从产品入口设计的角度来看,还有进一步优化的空间。

5.4 B端商家服务场景案例分析

介绍完面向C端的虚拟试穿产品方案,接下来看一个B端的典型案例。

在这里插入图片描述

阿里绘蛙: 这是一个专门服务服饰电商商家的AI内容生成平台。

核心特点有三个:第一,自带海量素材库,涵盖参考图与模特素材,为商家提供了充足的选择空间;第二,同时支持单件与多件服饰上身生成,而且输出素材的分辨率较高,清晰度能满足电商展示、内容种草等多类场景的需求;第三,试穿功能可与平台内其他AI工具无缝联动,比如用试穿能力生成效果图后,能直接在平台内调用图像编辑功能进行二次优化,操作流程十分顺畅。

当然,绘蛙也存在一些局限性:一方面,作为B端生成式服务平台,它目前的生产效率相对偏低,推理耗时基本是分钟级,暂不支持大量素材的批量生成,这对于有规模化生产需求的商家来说是个不小的遗憾;另一方面,受B端的产品定位所限,平台缺少C端用户的使用场景,毕竟普通消费者更习惯在手机购物链路中使用试穿功能,而绘蛙的核心用户群体始终是电商商家,主要用于制作商品相关素材。

5.5 行业分析小结

在这里插入图片描述

结合上述案例,可总结行业实践核心要点,从四方面展开:

第一,B端与C端的定位分化清晰,PC端或Web端聚焦服务B端商家,提供模特生成、AI试穿、素材二次编辑等能力,批量化、低成本生产是商家的核心诉求。如果平台能打通“素材生产—投放—效果验证”的闭环,并将验证结果反馈给模型辅助进化,会成为中小商家的一大福音。而APP端或小程序端则瞄准C端用户,主打简化操作流程,联动购物闭环以适配移动端的碎片化体验;再次强调,对于C端而言,“穿”是刚需,但“搭”才蕴藏着更多产品机会。

第二,入口形态决定产品定位。电商平台的AI试穿入口无非两种:第一种是非中心化入口,将试穿能力嵌入购物全流程,比如直接放在每个商品的商卡上,实现“见品即试穿”,核心目标是强化用户的及时决策;第二种是中心化入口,类似阿里Lookie的小程序单入口,不依附于具体sku,能打造独立场景,延伸穿搭推荐、社交分享等功能,让产品从购物工具升级为内容娱乐的社交载体。

第三,通过多元方案降低用户使用门槛。针对用户相册难以找到合格全身照的痛点,行业内普遍采用多种路径打破传图依赖:一是虚拟捏人;二是非标图像兼容,提升算法能力,支持半身照等非标准素材试穿,比如用半身照试穿上衣;三是“大头照+身材参数”实现数字形象,以此降低C端用户的试穿启动门槛,这些都是值得肯定的产品尝试。

第四,尺码破局需要技术与策略双重保障。单纯依靠算法模型,很难解决尺码合身的试穿问题。行业的可行思路是联动尺码助手、用户试穿报告等策略工具,用“技术生成效果+策略辅助决策”的双重模式降低用户购物决策风险,最终实现退货率的下降。



6 京东的虚拟试穿实践:产品特点与核心经验

在这里插入图片描述

6.1 京东虚拟试穿产品现状

在这里插入图片描述

京东零售虚拟试穿产品目前处于小流量测试阶段,产品主要有四大特点:精准的身材识别、逼真的材质渲染、高效快速的生成、智能的搭配推荐,这也是京东零售虚拟试穿一直持续打磨的产品目标。现阶段产品已覆盖超百万服饰SKU,实验阶段用户量突破100万,覆盖70多个服饰类目,合作头部服饰品牌超500家。

在这里插入图片描述

从具体功能来看,产品设计包括三大核心模块:

一是最左侧图示,商详主图的试穿入口,目前这个入口的设置比较保守,没有像淘宝AI试穿那样直接嵌入搜推双列商卡,我们认为在实验阶段,还是尽量避免影响用户原有的购物体验,后续会根据测试效果考虑提升入口优先级。

二是中间三张图示,我们重点探索的同款不同色服装试穿,用户从某一款颜色的服饰(比如图中的粉色羽绒服)进入试穿页面后,可以一键切换同SPU下的白色、黑色等其他配色,便捷完成多色试穿对比。

三是最右侧图示,我们正在积极推进的上下装搭配试穿,系统会为入口服饰,比如这件羽绒服,匹配同店铺内的裤子、裙子等下装,让用户直观感受不同搭配的视觉效果。当前我们把搭配候选池限定在同店铺内,从消费者视角来看,打破店铺限制可能会更有吸引力。从技术层面来讲,跨店铺搭配的实现难度也并不大,核心在于业务逻辑的梳理,这需要我们与商家做更深入的调研沟通,明确背后的商业价值后,再考虑进一步的功能升级。

6.2 京东虚拟试穿产品实践经验

在这里插入图片描述



京东在虚拟试穿项目实践中沉淀下来的三点核心经验:

一是需全力降低用户使用门槛——我们有一组数据可以佐证这个观点,目前线上使用虚拟试穿的用户中,超过半数无法上传符合要求的试穿照片。即便我们在上传页面做了详细的规则引导,用户从相册里找到合规照片的难度依然很高。为此,我们果断加入了数字人模式,采用“真实照片上传+虚拟数字人形象”的双轨方案,用户如果找不到合适的照片,或者不愿上传个人照片,就可以输入身高、体重等参数打造专属数字人;若能提供肖像照,数字人会更贴近用户本人,没有肖像照也可以使用默认形象,这是降低用户使用门槛非常行之有效的方法。

二是穿搭场景中,“搭”大于“穿”。正如之前提到的,“穿”是用户的基础性刚需,而“搭”属于突破性需求。但在电商场景下,用户对穿搭的期待其实很高,所以我们一直在积极探索为用户提供多样化的搭配可能性,以此挖掘更多产品价值。

三是试穿效果要兼顾“像”与“美”,二者缺一不可。这一点往往被很多项目组忽略。用户对试穿效果的核心要求是“真、像、美”:“真”是衣服和人物的真实感,不能有明显的AI痕迹;“像”是人物ID、服饰细节、环境背景的精准保留;而“美”常常被忽视,但其实至关重要。我们在算法侧也把评测标准,从最开始的“衣服还原不出错”,升级为“可用率+美观度”的多维度评估体系。这里可以举个例子:大家做虚拟试穿,都是希望提升转化率、降低退货率,但如果忽略了“美”的需求,很可能连转化率都会受影响。没有试穿时,用户看商详主图觉得衣服不错就会下单,但AI试穿后发现效果不好看,反而会直接放弃购买。这其实是大模型在落地原生AI场景时会遇到的阵痛,所以我也呼吁行业同仁,面对这类问题要保持长期心态,用户心智的培养和行业的迭代,都需要一个过程

6.3 京东虚拟试穿未来探索方向

在这里插入图片描述



结合行业趋势、实践经验与用户需求我们认为未来值得探索的虚拟试穿产品形态,以下三类产品形态具有较高探索价值:

第一个是万物成套的试穿试戴系统,服饰试穿已经从单件升级到多件,但对于注重OOTD的用户来说,鞋子、配饰、包包甚至手机壳,都是穿搭的重要组成部分。我们希望未来能实现全品类的组合式穿搭,打造真正的“万物穿搭”试穿效果。

第二个是数字人虚拟试穿+AI导购,想象一下,每个用户都有专属的数字人形象,它既可以是你的分身,也可以是你的AI导购助手。你在逛商品流的时候,轻触商卡就能把衣服“穿”到数字人身上,同时还能和这个数字人对话,让它帮你推荐搭配,实现7×24小时的购物陪伴。这其实也是电商2.0时代追求的极致沉浸式个性化体验,我们甚至畅想过一个更极端的场景:用户浏览服饰商卡时,卡面展示的就是自己穿着这件衣服的形象,滑一屏都是专属的上身效果,选款会更直观。不过这种形态需要充分尊重用户意愿,避免造成冒犯,同时也面临着推理资源、生成效率等工程侧的巨大挑战。

第三个是电子衣橱。这个概念虽然已有部分产品提及,但我们认为还有很大的深挖空间。用户可以把已购、收藏的服饰都放进这个虚拟衣橱,系统根据天气、出席场合等场景,为用户提供交互式、陪伴式的试穿搭配建议,真正实现“衣随场景搭”。

7 从虚拟试穿到全域布局:京东电商AIGC能力矩阵

在这里插入图片描述

7.1 京东电商AIGC能力矩阵

从虚拟试衣切入,到更大范畴的电商AIGC。京东零售在电商AIGC领域的能力布局,整体可以分为八大能力板块,全面覆盖商品素材制作、营销推广、用户体验等关键环节。

在这里插入图片描述

第一,商品智能抠图。这是所有电商平台最关键、最基础的技术能力,抠图效果的优劣,直接影响后续整条素材制作链路的最终呈现质量。第二,商品素材生成。我们依托AIGC技术,实现主图、商详图、广告素材的自动化生成。在技术加持下,内容制作周期大幅缩短,素材迭代效率提升了数十倍。第三,视频生成。从2024年开始,视频生成技术的效果已经被大家广泛认可,国内相关技术也实现了大幅跃升。我们主要聚焦主图视频和营销视频两大场景:主图视频时长较短、镜头单一,主打快速展示商品核心卖点;营销视频则篇幅更长、内容更丰富,通常会搭配剧本与口播,用于深度种草和品牌宣传。第四,AI模特。这项能力不仅服务于服饰场景,也覆盖了众多非服饰品类的素材生成需求。传统模式下,头部商家会邀请明星代言,中型商家则需要对接外部服务商拍摄,不仅成本高昂,还会拖慢商品上新节奏。而AI模特能力通过AIGC技术,为商家快速生成适配不同场景、不同风格的模特素材,有效降本增效。

在这里插入图片描述

第五,虚拟试穿。这项能力不过多赘述了,今天的分享主题基本都围绕它展开,核心是通过AIGC技术实现服饰的虚拟上身与搭配,降低用户决策成本。第六,AI设计家。也可以称之为“放我家”功能,主要服务于家具等大件商品场景。用户上传自家房屋照片后,AI就能将目标家具植入到真实家居环境中,直观呈现摆放效果;同时还能针对毛坯房、清水房,按照用户需求设计出对应的装修风格,解决家居选购与装修设计的可视化难题。第七,3D立影。这是京东零售自研的AIGC裸眼3D技术,能让商品从商卡中“跳脱”出来,以3D形态呈现。这项技术能显著提升品牌商品的点击率,以及直播场景下的用户互动率。第八,数字人。相信大家对京东数字人并不陌生,目前已有超2万个品牌在使用这项能力,相关场景的转化率提升了30%。它最直接的价值是实现7×24小时数字人直播卖货,打破传统直播的时间限制,持续为商家创造收益。

7.2 京东电商AIGC实践案例

接下来,选取其中几项能力,展开分享京东零售在业务侧取得的实际成果。

在这里插入图片描述

第一个是商品素材AIGC生成。这里展示的是一款起泡酒的案例,覆盖商品主图、商详图、卖点图和广告图等全类型素材。目前这项能力已经改变了京东超100万商家的内容设计模式,既大幅提升了素材制作效率,又显著降低了制作成本。


在这里插入图片描述



第二个是AI模特。模特图生成技术正逐步在头部品牌中批量落地,我们过去已与Nike、阿迪达斯、海澜之家三大时尚品牌达成深度合作。在批量应用阶段,合作品牌的商品转化率提升29%,商品上架速度提升90%,同时商品素材制作成本大幅下降。大家现在在这些品牌店铺里看到的部分模特图,正是由我们的AIGC技术生成,再结合虚拟试穿能力完成服饰上身的。


在这里插入图片描述



第三个是AIGC裸眼3D技术,立影。这里有SK-II和华为耳机两组合作案例,这项技术能明显带动品牌点击率与销售转化率的提升。目前它主要应用于广告投放、家具搭配、直播互动、互动游戏以及试装试戴等场景。

7.3 京东电商AIGC设计智能体:焕新版京点点Oxygen Vision

在这里插入图片描述



京东零售电商AIGC内容生成平台“京点点”整合了上述大部分能力,目前已支持超过30种业务场景(覆盖商品发品、运营、营销等环节),日能力调用量超1000万次,服务超100万京东商家,助力商家内容生产成本降低90%,生产效率提升95%。

在这里插入图片描述



近期,京点点平台完成系统性升级,焕新版命名为Oxygen Vision平台。新版平台和老版最大的差别,一方面是集成了更多的AIGC能力项,另一方面则是把交互形式从原来的纯GUI交互,升级为Linguistic UI + GUI的混合模式。

具体来说,新版平台具备四大核心特点:第一,对话式人机交互,支持纯自然语言的交互方式,操作更便捷;第二,大模型驱动的任务规划与执行,能够拟人式地分步骤、有序完成各项操作;第三,强一致性且不失多样性的商品素材生成能力,确保生成内容既贴合商品属性,又能满足多样化需求;第四,无缝接入京东AB实验平台的能力。正如我们之前所说,一个合格的B端AIGC内容生成平台,必须打通“素材生产—投放—实验回收—模型迭代”的完整闭环,而这一点,新版京点点平台已经完全具备。

在这里插入图片描述



8 电商AIGC的未来展望:技术纵深与商业价值

在这里插入图片描述



8.1 AIGC应用的三层分类与技术复杂度

在这里插入图片描述

最后未来展望,来看电商AIGC的技术纵深与商业价值,分享个人观点和思考。

首先,从上图来看,AIGC的应用分成了三个层次。最底层的是创意类应用,这类应用的自由度高、约束少,核心是满足用户的个性化表达需求,比如短视频平台的魔法表情特效,运营活动需要的banner海报、插画设计,都属于这个范畴。往上一层是影视类应用。如果大家了解即梦、可灵、海螺这些视频生成工具,应该会有体感,这类应用的核心是通过AIGC实现角色和场景的一致性保持,技术难点也集中在这里。不过说实话,普通消费者对于这类内容的细节一致性,敏感度其实没那么高。而最上层的,就是我们今天一直在聊的电商类AIGC,这个方向,需要解决海量SKU的适配问题,要确保商品信息的准确传递,还要满足实时转化的业务诉求,同时还要应对严格的合规风险。

如果从技术复杂度排序,创意类最简单,影视类次之,电商类堪称地狱级难度。为什么这么说?因为电商AIGC对商品一致性的要求是极致严苛的,哪怕是一个细节的偏差,比如裙子本该没有花边,生成的素材里却加了花边,用户收到货发现“货不对版”,就可能引发客诉,甚至是官司。这和影视类的一致性要求完全不是一个量级,更别说创意类的开放创作模式了。但有意思的是,这三类应用里,电商类AIGC恰恰是距离商业化、距离“钱”最近的。做了这么久的AIGC应用,有一个很直观的体感:有两类应用场景是可以直接实现变现的。第一类,就是影视类AIGC。这个很好理解,举个例子,拍摄《速度与激情》时,要呈现兰博基尼和法拉利相撞的画面,在没有AIGC技术之前,这样一个镜头的成本可能高达上百万;而现在,依托可灵、即梦这类视频生成工具,成本有可能直接降到几百美金。无论是文本生成视频、图像生成视频,还是首尾帧驱动的视频生成技术,都能支撑这类特效镜头的制作。更值得一提的是,现在很多视频生成能力还叠加了音画直出功能,这让电影级别的多媒体内容高效输出,变得越来越有可能。第二类,就是电商与商业化AIGC。这里我们暂时不做细致区分,核心逻辑很简单:我们用AIGC生成的电商素材,是直接供商家用于商品运营和投放的,最终指向的就是GMV的增长,这是最直接的收益。商业化场景也是同理,通过AIGC制作广告素材,直接面向广告主和用户,素材投放后带来的广告消耗,直接对应着平台的营收。所以在我看来,电商与商业化AIGC,是现阶段离“钱”最近的应用方向。这就是个人对整个AIGC行业应用落地的一些理解。

8.2 未来展望

在这里插入图片描述

最后,再分享三个总结性的观点。

第一,从技术角度来看,像虚拟试穿这类垂直业务,未来不会再依赖专属定制模型。一个明确的技术趋势是,越来越多的电商AIGC任务,会统一到通用大模型框架之下,就像nano banana pro这类架构一样,用户只需要在prompt层面定义好业务需求,就能完成相应任务。只不过现在还有不少虚拟试穿方案,还停留在定制化思路上,这个转变需要一个过程。

第二,想和所有AIGC创业者、以及大厂里做AI提效的同学聊一句:不是所有业务都需要升级到LUI(对话式交互)的形式。有些功能用GUI(图形界面)来承载,体验反而会更好。不要觉得套上LUI的壳,就是做了AI native的升级,很多时候这种做法反而属于“故弄玄虚”。这两年大家应该也见过不少“AI小助手”“智能XX工具”,本质上就是把原来的GUI功能强行改成对话式,看似用上了大模型和Agent,实际体验反而不如从前。尤其是编辑类需求,图形化的交互方式往往更直接高效。而新京点点平台之所以选择LUI+GUI的混合模式,核心是看服务对象,我们主要服务的是京东的采销同学。他们每个人负责的SKU数量极多,不可能针对每个商品去定制化制作素材,更需要“一句话指令”就能自动生成内容的傻瓜式操作。这样才能让采销把精力聚焦在拿货、议价、仓储运营这些核心工作上,而不是耗费在素材制作上。

第三,关于电商2.0核心方向,极致的沉浸式与个性化购物体验是核心目标。虚拟试穿是沉浸式体验的重要探索,而个性化购物的底层支撑是“千人千面”的商品素材生成能力。这也是京东在探索大模型时代电商2.0形态的一条核心技术路线。大家对“千人千面”并不陌生,过去京东零售的搜索推荐就是如此,同样搜索一个关键词,不同用户看到的结果页截然不同。但到了商品素材层面,目前商品素材仍处于“千人一面”状态,商家只维护了一套主图、商详图和卖点介绍。而“千人千面”的商品素材生成,就是要打破这种单一性。比如:一款中性款冲锋衣,面对三类不同需求的买家,可以用算法提炼出他们各自关注的核心卖点,定制差异化的素材,既精准吸引用户,又提升购物体验。第一类是户外功能型买家,他们最关心面料科技、防风防水、透气耐磨这些专业指标,AI就在商品图上重点呈现这些性能参数;第二类是外观穿搭型买家,他们不纠结材质,只在意设计风格、版型潮流和穿搭适配,AI就主打OOTD相关的素材生成,突出颜值和搭配感;第三类是价格敏感型买家,他们不关注功能和颜值,只看价格、优惠和赠品,AI就直接在图片贴片上展示最低价标识、优惠券、赠品信息等内容,实现精准引流与体验提升。通过这个案例,大家应该能更直观地理解什么是“千人千面”的商品素材能力。当然这个话题还有很多细节可以展开,可点击查看《从 “千人千面” 的搜索推荐到 “千人千面” 的商品素材技术探索》文章,里面有更详尽的介绍。

在图像生成领域,扩散模型因其训练稳定和泛化能力强已逐渐走入主流行列。然而,面对海报、PPT、科普图等需要准确传达复杂信息的「知识密集型」场景时, 传统模型存在指令理解与细节刻画难以兼顾的短板。 另一个长期存在的问题是生成图像中的文字经常出现笔画错误或难以辨识,严重影响实用价值。

基于此,智谱于 2026 年 1 月联合华为开源了新一代图像生成模型 GLM-Image。 该模型基于昇腾 Atlas 800T A2 和昇思 MindSpore AI 框架完成全流程训练。其核心特点是采用了创新的 「自回归+扩散解码器」混合架构(9B 自回归模型 + 7B DiT 解码器), 将语言模型的深度理解能力与扩散模型的高质量生成能力相结合。

此外,模型通过改进 Tokenizer 策略,原生支持从1024×1024 到 2048×2048 的任意比例图像生成,无需重新训练。 GLM-Image 的创新性还体现在以下两个方面:

*解决文字渲染难题: 在 CVTG-2K 和 LongText-Bench 权威评测中,其文字准确率等关键指标均位列开源模型第一,显著提升了图像中文字的生成准确性。

*定义高性价比应用: 在 API 调用模式下,生成单张图片的成本仅需 0.1 元,成本仅为主流闭源模型的 1/10 至 1/3,为商业化应用提供了高性价比选择。

目前,「GLM-Image 精准语义高保真图像生成模型」已上线 HyperAI 官网(hyper.ai)的教程版块, 快来输出无限创意吧!

在线体验: https://go.hyper.ai/2jcCU

效果示例:

Demo 运行

1.进入 hyper.ai 首页后,选择「GLM-Image 精准语义高保真图像生成模型」,或进入「教程」页面选择。页面跳转后,点击「在线运行此教程」。


2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA RTX Pro 6000」以及「PyTorch」镜像,按照需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月」,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,仅需 $1,即可获得 20 小时 RTX 5090 算力(原价 $7),资源永久有效。


4.等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。

效果演示

页面跳转后,点击左侧 README 页面,进入后点击上方 Run(运行)。


待运行完成,即可点击右侧 API 地址跳转至 demo 页面


以上就是 HyperAI超神经本期推荐的教程,欢迎大家前来体验!

教程链接:

https://go.hyper.ai/2jcCU

通用级PixVerse P1的技术突破,揣着进入平行世界的密码

0%
icon展开列表
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
今天
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
今天
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
今天
img
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img

通用级PixVerse P1的技术突破,揣着进入平行世界的密码

原来,视频生成卷到极致,就是突破大脑和视觉的边界,让想象力进入 AI 构建的虚拟空间。

昨天,PixVerse R1 突然上线。一开始我们以为这只是一次普通的版本更新,但那种「即时响应、即看即创」的全新交互体验,却是前所未有的。读完技术报告我们发现,这不仅仅是一次卷到极致的性能提升,更是量变带来的质变。

回顾过去,23 年推出第一版模型,随后 Web 端、移动端全面铺开,爱诗科技在 DiT 路线上一路狂奔:从 24 年底的 10 秒生成,到 25 年 2 月实现 5 秒生成社交级视频,再到 11 月将 1080P 视频生成压缩至 30 秒。在自研模型技术和工程化落地的思想下,PixVerse 确实将「传统视频生成」的速度推向了极限。

与此同时,行业加速从未停歇。就在上个月,生数科技宣布其与清华大学团队研发的 TurboDiffusion 框架,也让视频生成正式迈入「秒级」门槛。

但时间上的「卷」就是视频生成的全部吗?

显然,再快的速度,如果不能生产出符合制作需求的画质和一致性,依然无法成为通用的标准。

PixVerse 曾是业界第一个把 5 秒视频生成做到 5 秒之内的团队,而当一切看似达到极限时,在 2026 年开年,PixVerse R1 模型与产品同步横空出世。

通过将计算效率提升数百倍,它不再局限于「秒级」,而是做到了人类肉眼感知范围内的「实时」生成。发布即实装,这是一款真正的「通用」实时世界模型。这已不仅是单点的技术突破,而是一步到位、直接实现应用层级质变的代际跨越。

以下,我们将通过技术报告,为您详细解析 R1 的这次突破。

看了这个视频,大家或许理解了什么是「无限内容」的视频生成。

在这个模型创造的世界里,「汉语竟是上古禁咒」,你只要说出「春」即刻绿草如茵,说出「鸟」即刻飞鸟成群。一切都是如此连续,直白,世界实时响应你的呼唤,时间和空间都在你的掌控之中。或许,PixVerse R1 已经彻底掌握了「无限流」的真谛。

简单来说,PixVerse R1 是全球首个支持最高 1080P 分辨率通用实时世界模型。

这也是第一次,AI 可以基于用户的意图实时生成一个持续演化、物理上合理的世界,标志着视频生成正式从「静态输出」迈入「实时交互」的全新阶段。

回顾视频生成技术的发展路径,行业始终受困于速度、质量与成本的不可能三角:高画质往往意味着高延迟(如传统扩散模型),而追求速度又不得不牺牲物理一致性。PixVerse R1 没有盲目追求参数军备竞赛,而是找到了一条通往「通用」的平衡之路:

当一个模型首先做到了打破物理极限的实时响应(IRE),并以此为基础结合了通用全模态(Omni)与长时序世界模拟(自回归),它就已经超越了传统意义上的视频生成工具。

图片
  • 技术博客链接:https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model

交互的物理极限:瞬时响应引擎(IRE)

在通往通用世界模型的路径上,「实时性」始终是阻碍技术从实验室走向大规模应用的核心工程障碍。

传统扩散模型的生成逻辑本质上是一种精细的迭代去噪过程,通常需要 50 步甚至更多的采样步骤,才能将高斯噪声转化为清晰的视觉内容。这种机制虽然在一定程度上保证了生成质量,但其带来的秒级甚至分钟级的高延迟,使得 AI 视频生成长期停留在「离线制作、预录制回放」的阶段,无法满足即时交互的严苛需求。

不过,生成速度始终是 PixVerse 的强项,其在响应时间上一骑绝尘。早在 PixVerse V4.5 的时候我们就实测过,即使我们将各项生成指标拉满,平台输出结果的时间也没有超过 1 分钟

但是,为了更进一步,实现彻底的「实时响应」,PixVerse 在 R1 上决心彻底重构底层推理架构,提出了瞬时响应引擎(Instantaneous Response Engine,IRE)

这是一套针对采样过程的系统级加速方案,通过三大关键技术,在保持 1080P 高分辨率生成的前提下,将推理时间压缩到极致。

时间轨迹折叠

不同于传统方法在加噪去噪过程上进行漫长的逐步逼近,该技术引入「直接传输映射」作为结构先验,建立噪声到数据的直线通路,能够直接预测干净数据的分布路径。

这种方法在数学上有效地「折叠」了原本冗长的时间维度,将传统扩散模型所需的 50+ 采样步数暴力压缩至仅需 1-4 步。这一数量级的步数缩减,直接从源头上解决了计算量过大的问题,实现了推理速度的质变。

引导校正

针对为了保证生成质量通常采用的无分类器引导策略(Classifier-Free Guidance,CFG)所带来的双倍计算开销问题,PixVerse R1 团队通过将条件梯度直接融合进模型内部,使得系统在推理阶段无需再进行正负样本的双重计算。

这一优化成功绕过了传统 CFG 的计算瓶颈,在不牺牲指令遵循能力的情况下,进一步降低了计算复杂度。

自适应稀疏注意力

为了应对高分辨率视频生成带来的巨大显存与计算压力,IRE 采用了自适应稀疏注意力机制。

该机制能够动态分析视频生成过程中的上下文依赖,智能识别并剪除长程依赖中的冗余计算,从而显著压缩了计算图,大幅提升了整体推理效率。

图片

       即时响应引擎由三个模块组成:时间轨迹折叠、引导修正和自适应稀疏注意力学习。

通用的认知底座:Omni 原生多模态基础模型

如果说「瞬时响应引擎」解决了传输的速度问题,那么一个强大的底座模型,则决定了传输内容的质量与上限。

底座模型是一切新功能新特性的基础。构建通用实时世界模型的第一步,在于打破单一模态的感知壁垒,只有设计一个完全端到端的原生多模态基础模型,才能彻底超越传统生成流程的局限

在当前的视频生成技术栈中,多为非端到端的生成方式。往往需要生成一种模态之后通过级联的方式生成另一种模态,这种方式下需要反复的铺路搭桥,尤其是在处理复杂的跨模态交互上,自然显著影响了生成的效率,也限制了模型的通用性。

为了实现无限的通用性,模型必须强调:原生,原生,还是原生

PixVerse R1 提出的 Omni 原生端到端多模态基础模型,正是通过底层架构的重构,实现了「因原生而通用」。

原生统一表示

Transformer 架构给了生成模型无穷的想象和可能性。

Omni 模型引入了统一 Token 流架构。该架构基于 Transformer,摒弃了异构模型拼接的传统路径,将文本、图像、音频与视频等不同模态的数据,统一编码为单一的生成序列。

在这一框架下,模型不再是将文本「翻译」为视觉信号,而是在原生层面上实现了对多模态数据的联合处理与理解。这种全模态的「通感」能力,使得模型能够精准捕捉文本指令与视听内容之间的深层关联,从而支撑起游戏、影视等多领域的通用化应用。

原生分辨率

除了多模态数据的原生处理,第二个原生,是实现高分辨率视频生成的核心特性:原生分辨率

Omni 模型引入这一机制,旨在解决传统视频生成模型中因数据预处理而导致的画面构图破坏与几何失真问题。

为了适配固定的模型输入结构,传统方案往往采取「强制裁剪」或「缩放拉伸」的策略。这种「削足适履」的方式,会导致画面关键信息被裁切丢失,或使物体形态发生非物理的扭曲变形(如被压扁或拉长)。

相比之下,Omni 模型坚持在原生分辨率和原始比例下进行端到端的学习。这一架构使其能够自适应处理任意长宽比的素材,从根源上消除了因裁切或缩放带来的视觉偏差,确保了生成内容在构图完整性与物理几何上的真实感

图片

Omni 原生多模态基础模型的端到端架构,统一设计使 Omni 模型能够接受任意多模态输入并同时生成音频和视频。

值得一提的是,模型通过原生学习大量真实世界视频数据,来确保真实世界的内在物理定律和动态的真实性。因此,Omni 模型的功能,似乎不仅限于生成引擎,更具备构建世界模型的潜力

世界的连续演化:自回归流式生成机制

构建「世界模型」的挑战之一,在于如何从生成分段的「切片」,跨越到模拟连续的「过程」。在这一维度上,PixVerse R1 重点解决的是长视频生成中普遍存在的「长时序一致性」难题,以及伴随而来的显存成本瓶颈。

在传统的视频生成流程中,模型通常受限于固定时长的生成窗口。当试图延长视频长度时,往往面临「时间误差累积」的问题:随着生成帧数的增加,微小的预测偏差会不断叠加,导致画面内容逐渐偏离初始设定,例如角色的外貌特征发生漂移,或物理环境逻辑出现崩坏。

此外,为了维持上下文的一致性,传统架构需要保存海量的历史状态,导致显存消耗呈指数级上升,使得长视频生成在计算成本上变得不可控。尤其是在 PixVerse R1 追求的「无限内容」的生成模式下,以上问题如果没有妥善处理,会出现严重的问题。

针对上述痛点,PixVerse R1 摒弃了传统的全局预测模式,构建了自回归流式生成机制

无限流式生成

在生成范式上,R1 采用了自回归建模。系统将视频合成任务重构为逐帧预测的流式过程,而非一次性生成固定片段。

这种架构从根本上解除了时长的硬性约束,实现了理论上的「无限流式生成」。视频不再是受限的帧组合,而成为可以根据即时输入,无限向前延展的时间流。

时间一致性

为了在无限延展中保持逻辑自洽,传统方法下基于帧上下文的特征记忆,大多有着数十秒的时间限制,显然是不够用的。

为此,R1 引入了记忆增强注意力模块。该模块能够显式地提取并锁定视频中的关键特征(如角色的身份特征、场景的空间布局等),将其转化为紧凑的记忆单元。

在生成后续内容时,模型无需回头重算所有历史数据的全量注意力,而是直接调用「记忆」。这一设计在维持长程依赖的同时,极大地优化了计算效率,避免了显存资源的爆炸式增长。

图片

      集成自回归建模与全能基础模型。

从技术逻辑上看,这一机制赋予了 AI 模型「长期记忆」的能力,打破了传统帧间上下文的限制,确保了 PixVerse R1 生成的内容不再是孤立、破碎的视觉片段,而是一个具备持续演化能力的「平行时空」。

无论生成时长如何延伸,核心主体的统一性与环境逻辑的连贯性始终保持稳定,这种物理与逻辑的持久性,正是「通用实时世界模型」成立的关键基石

结语:正在发生的现在

正如爱诗科技 CEO 王长虎所言:传统视频是被记录的历史,而 PixVerse R1 开创了「正在发生的现在」。

PixVerse R1 开启的是 AI 原生游戏、互动电影、实时仿真等全新媒介形态的大门,是未来「可交互的数字世界」的计算基础设施。

视频内容的消费边界正在消融。

媒体形态将不再局限于预先渲染的固定画面,而是转向由用户意图驱动的即时生成流。

PixVerse R1 以「通用实时世界模型」的形态,为这一未来提供了可落地的技术样本,也让视听媒介真正从「回放过去」迈向了「未来创作」。

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

0%
icon展开列表
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

图片

尽管扩散模型(Diffusion Model)与流匹配(Flow Matching)已经把文本到图像生成(Text-to-Image, T2I)推向了更高的视觉质量与可控性,但他们通常在推理时需要数十步网络迭代,限制了其对于一些需要低延迟,Real-Time 的应用。

为了把推理步数降下来,现有路线通常依赖知识蒸馏(Distillation):先训练一个多步教师模型,再把能力迁移到少步学生模型。但这条路的代价同样明显 —— 既依赖预训练教师,又引入了额外的训练开销,并在「从零训练(from scratch)」与「极少步高质量」之间留下了长期空白。

近日,香港大学(The University of Hong Kong)与 Adobe Research 联合发布 Self-E(Self-Evaluating Model):一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接:让同一个模型在极少步数也能生成语义清晰、结构稳定的图像,同时在 50 步等常规设置下保持顶级质量,并且随着步数增加呈现单调提升。

图片
  • 论文标题:Self-Evaluation Unlocks Any-Step Text-to-Image Generation

  • 项目主页:https://xinyu-andy.github.io/SelfE-project/ 

  • 论文 PDF:https://www.arxiv.org/pdf/2512.22374 

图片

引言:从「轨迹匹配」到「落点评估」

扩散 / 流匹配范式本质上是在学习一张「局部向量场」:给定噪声状态,预测下一步该往哪里走。这个监督信号在「小步、密集积分」时非常有效,但一旦尝试「大步跳跃」,误差会被轨迹曲率放大,生成往往滑向平均解、语义漂移或结构坍塌。

Self-E 的切入点是一个根本上的范式改变:我们能否不再执着于「每一步走得对不对」,而是把训练重心转向「落点好不好」?也就是把目标从「轨迹匹配(trajectory matching)」转变为「落点评估(destination/landing evaluation)」。

换句话说,传统 Diffusion Model 训练强调「在起点对齐局部方向」;Self-E 强调「在落点评估结果并给出纠偏方向」。监督位置的改变,带来了训练信号性质的改变:从静态监督变成动态反馈。

作者在项目主页用动图展示了这两者的区别:

图片
图片

这也是为什么模型在测试阶段有少步推理能力:扩散模型在测试时只能逐步跟随当前点预测的最好局部路径,最终走到全局最优;而 Self-E 在训练阶段就逐步学会了走向全局最优的落点。

这也不同于目前多数少步生成模型所采用的学习轨迹的积分,如 Consistency Model, Mean Flow; Self-E不局限于沿着预定义的轨迹走,而是直接关心每步结果好不好,对不对。

Self-E 的核心:两条互补训练信号(Two Complementary Signals)

Self-E 用同一个网络在两种「模式」下工作:一方面像 Flow Matching 一样从真实数据学习分布的局部结构;另一方面用「模型自身正在学到的局部估计」去评估自生成样本,形成自反馈闭环。

1)从数据学习:Learning from Data

  • 学什么:分布的局部结构(local score /velocity 的期望形式),即「在邻域内密度如何变化」。

  • 怎么学:采样真实图像与文本条件,加噪得到噪声输入,用条件流匹配式目标训练模型去预测干净样本(或等价参数化),提供稳定的局部监督。

2)自我评估学习:Learning by Self-Evaluation

  • 学什么:分布层面的正确性(distribution-level correctness)—— 生成样本是否与真实分布一致、是否与描述的文本对齐。

  • 关键机制:模型先做一次「长距离跳跃」(从起始时间步跳到落点时间步),然后在落点处用自己当前学到的局部估计产生一个「方向信号」,告诉生成样本应如何移动才能进入更高质量、更符合文本的概率分布区域。

  • 最大差异:评估信号不来自外部教师(pretrained diffusion teacher),而是来自模型自身的在训估计(dynamic self-teacher)。

图片

训练细节:把「自我评估」做成可反传的学习信号

Self-E 在理论上把评估写成分布级目标(例如以反向 KL 为代表的分布匹配视角),但真正落地的难点在于:真实分布与生成分布的 score 都不可得。

Self-E 的关键观察是:模型在「从数据学习」阶段会逐步学到某种条件期望形式,而该量与 score 通过 Tweedie’s formula 存在联系,因此可以用「正在训练的模型」去近似提供评估方向。

在实现上,作者发现理论目标中包含「classifier score term」等项,并实证发现仅使用 classifier score 项就足够有效,甚至更利于收敛,从而避免早期还要额外训练一个用于 fake score 的模型分支。

图片

为了把这种「评估方向」变成可训练的损失,Self-E 采用 stop-gradient 的双前向构造 pseudo-target,通过最小化 MSE 诱导出与所需方向一致的梯度;并在最终目标中将数据驱动损失与自评估损失进行混合加权。

图片

最终,我们可以用一个统一的形式来训练:

图片

其中,等式右边第一项正是 Learning-from-data 的目标,而第二项对应 Self-Evaluation。

推理:任意步数(Any-Step Inference),并随步数单调变好

在推理阶段,Self-E 与扩散 / 流匹配一样进行迭代去噪,但不同之处在于:由于训练中已经显式学习「长距离落点」的质量与纠偏方向,它可以在非常少的步数下保持可用的语义与结构,同时在增加步数时继续提升细节与真实感。

性能:GenEval 全步数段 SOTA,少步优势尤其显著

在 GenEval 基准上,Self-E 对比其他方法取得全面领先,并且随着步数增加呈现单调提升。更关键的是少步区间的「断层式」优势:在 2-step 设置下,Self-E 相比当时最佳对比方法的提升约为+0.12(0.7531 相比 0.6338),而多种传统扩散 / 流匹配模型在 2-step 下几乎无法生成可用结果。

图片
图片

另一角度解读:把「预训练」与「反馈学习」拉到同一条线上

从更宏观的视角看,Self-E 把训练过程组织成一个类似强化学习中的「环境 — 智能体(environment–agent)闭环」:

  • Data Phase:模型从真实数据学习分布的局部结构,得到越来越可靠的局部估计(可视作学习环境,并给出评估)。

  • Self-Evaluation Phase:模型提出长距离跳跃方案(可视作智能体执行动作),在落点处用内部估计产生反馈方向并更新参数(可视作获得环境的反馈)。

  • Closed Loop:评估器随训练变强,反馈信号质量随之提升,反过来又进一步强化少步生成能力。

作者在项目主页指出:这种内部评估器在角色上接近「可查询的学习型奖励模型」,为后续把强化学习(RL)更系统地引入视觉生成训练提供了新的接口与想象空间。

结语

Self-E 的价值不只是在「少步生成」这一条指标上跑得更快,而在于它把文生图训练范式从「沿着既定轨迹走」推进到「学会评估落点并自我纠偏」:在不依赖预训练教师蒸馏的前提下,让单一模型同时覆盖极低时延与高质量长轨迹两种需求,并在不同推理预算下保持可扩展的性能曲线。

对内容创作与生成式系统落地而言,「one model, any compute」的工程意义非常直接:同一个 checkpoint 可以按场景动态选择步数 —— 交互式场景用 1~4 步追求即时反馈,高质量离线渲染用 50 步追求细节上限;而训练侧则绕开了教师蒸馏链路,把「从零训练 + 少步推理」真正拉回到可讨论、可复现、可扩展的主流路径上。

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

0%
icon展开列表
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
今天
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
今天
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
今天
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
今天
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
今天
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
今天
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
今天
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

站在 2026 年的开端回望,LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer 架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。

知名 AI 研究员 Sebastian Raschka 的最新洞察中,他不仅回应了关于「Transformer 是否会被取代」的年度终极之问,更敏锐地捕捉到了近期业界的一个重要转向:从单纯追求模型参数的「大力出奇迹」,转向了混合架构与效率微调的精细化战争。

同时,文章还探讨了一个极具潜力的变量:扩散语言模型。这类模型在 Google 等巨头的布局下会有怎样的表现?它们在「工具调用」上的天然缺陷是否会成为阿喀琉斯之踵?而在高质量数据日益枯竭的今天,扩散模型又是否能凭借「超级数据学习者」的特性,成为打破数据墙的关键?

以下内容编译自 Sebastian Raschka 的最新博文,并结合文中提及的前沿论文及往期深度分析进行了系统性拓展,以便读者获取更完整的上下文视角。

图片
  • 博客地址:https://x.com/rasbt/status/2010376305720594810

最近几周,我经常被问到的一个问题是:在 2026 年,我们是否会看到自回归 Transformer 架构(即标准的 LLM)的替代方案。

就目前而言,我坚信 Transformer 在未来(至少一到几年内)仍将保持其在 SOTA 性能方面的地位。它是当前 AI 生态系统的基石,拥有最成熟的工具链和优化方案。

但是,情况确实会发生一些微调。这并不是说架构会一成不变,而是这种变化更多体现在「效率」和「混合」上,而非彻底的推倒重来。

效率战争:混合架构与线性注意力的崛起

临近去年年底,我们看到业界更加关注混合架构以及如何提高其效率。当然,这并不是什么新想法,但近期来自顶尖实验室的发布表明,目前的侧重点已明显向此倾斜。

我们回顾一下 DeepSeek V3 以及随后的 R1,它们展示了混合专家模型(MoE)和多头潜在注意力(MLA)的强大之处。DeepSeek V3 通过 MLA 显著减少了推理时的 KV Cache 占用,而 MoE 架构则允许模型在拥有 6710 亿参数的同时,每次推理仅激活 370 亿参数。这种在保持模型巨大容量的同时极致压缩推理成本的设计思路,正是 2025 年末到 2026 年的主旋律。

但这还不是全部。除了 MoE,我们看到了更激进的效率尝试,例如 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力机制的 DeepSeek V3.2。(如果您对更多细节感兴趣,我在之前的《Big LLM Architecture Comparison》一文中对此进行了报道。)图片

      带有这类效率调整的 Transformer 架构示意图。

  • 相关链接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

为什么大家都在卷「线性注意力」或「稀疏注意力」?

标准的 Transformer 注意力机制(Scaled Dot-Product Attention)具有 O(N^2) 的复杂度,这意味着随着上下文长度的增加,计算成本呈二次方爆炸式增长。

  • Qwen3-NextKimi Linear 采用了一种混合策略:它们并非完全抛弃标准注意力,而是将高效的线性层(如 Gated DeltaNet)与全注意力层以一定比例(如 3:1)混合。这种设计试图在捕捉长距离依赖(全注意力的强项)和推理速度(线性层的强项)之间找到最佳平衡点。

  • DeepSeek V3.2 则引入了稀疏注意力,通过只计算最重要的 Token 之间的相互作用,进一步降低了计算开销。

这些「微调」表明,2026 年的竞争不再仅仅是看谁的模型更聪明,而是看谁能在更长的上下文、更低的延迟下提供同等的智能。

扩散语言模型:速度与代价的博弈

话说回来,除了 Transformer 的变体,扩散语言模型怎么样?

扩散语言模型之所以具有吸引力,是因为它们能够以相对快速且低廉的成本生成 Token。与自回归模型(AR)那种「一个字接一个字」的串行生成不同,扩散模型采用的是并行生成

想象一下,自回归模型像是一个人在打字,必须打完上一个字才能打下一个;而扩散模型更像是在冲洗一张照片,整段文字从模糊的噪声中同时显现,经过数次「去噪」迭代后变得清晰。

我前阵子在《Beyond Standard LLMs》一文中对此多写了一些。简而言之,我认为 2026 年我们会看到更多相关内容,Google 可能会推出 Gemini Diffusion 作为其更便宜的 Flash 模型的替代品。Google 已经在其技术博客中暗示了这一点,强调其生成速度「明显快于我们目前最快的模型」。

  • 相关链接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

然而,虽然扩散语言模型的优势在于它们可以并行生成 Token,但这同时也是一个巨大的缺点。因为由于并行生成的特性,它们无法在响应链中原生地整合工具调用

在自回归模型中,模型可以生成「调用计算器」的指令,暂停,等待结果,然后再继续生成。而在扩散模型中,整个响应是同时生成的,很难在中间插入一个外部工具的交互步骤。这使得它们在作为智能体使用时面临巨大挑战。

图片

      文本扩散过程示例。

此外,虽然众所周知文本扩散推理效率更高,但最近的研究也表明,如果你为了提升质量而增加去噪步数以匹配自回归模型的性能,那么最终的计算预算其实是相差无几的。

数据枯竭时代的「超级学习者」

那么,我想表达什么呢?既然扩散模型有这些缺陷,为什么我还认为它值得关注?

我原本计划讨论一月份发布的近期一系列有趣的研究,但我还是想简要重点介绍一篇我在「待读论文」清单上的、2025 年 11 月的有趣论文,它强调了扩散语言模型的一个有趣优势:《Diffusion Language Models are Super Data Learners》。

  • 论文地址:https://arxiv.org/abs/2511.03276

图片

来自论文《Diffusion Language Models are Super Data Learners》的带注释图表。

这篇论文提出了一个在 2026 年至关重要的观点:当高质量数据变得稀缺时,扩散模型可能是更好的学习者。

众所周知,互联网上的高质量文本数据正在接近枯竭。对于自回归(AR)模型来说,通常我们只让模型把数据「看」一遍(1 Epoch)。如果让 AR 模型反复在同一份数据上训练,它们很容易过拟合,即死记硬背训练数据,导致在未见过的新任务上表现下降。

然而,上述论文表明,当进行多 Epoch 训练时,文本扩散模型的表现可能优于标准的自回归(AR)大语言模型。

根据论文的研究结果,在严格控制的预训练设置下,当唯一数据量有限时,通过增加训练轮数,扩散语言模型的表现持续超越了自回归模型。

这一现象被称为「Crossover(交叉点)」:

  • 当数据量充足时,AR 模型学得更快。

  • 但当数据受限时,DLM 是最终的赢家。例如,一个 10 亿参数的 DLM 模型,仅仅通过反复训练 10 亿个 Token(这在今天看是非常小的数据量),在 HellaSwag 和 MMLU 基准测试上分别达到了 >56% 和 >33% 的准确率,且没有使用任何特殊技巧。

为什么会这样? 论文归结为三个因素:

  • 任意顺序建模:AR 模型被迫只能从左到右学习,而扩散模型可以学习文本中任意位置之间的依赖关系。

  • 超高密度计算:通过迭代的双向去噪,DLM 在训练时实际上对每个样本进行了更深度的压榨。

  • 内置的蒙特卡洛增强:扩散过程本身就是一种数据增强。同一个句子,每次加噪的方式都不一样,相当于把一条数据变成了无数条变体。

更有趣的是,论文发现,对于 DLM 来说,验证集损失的上升并不意味着下游能力的下降。即便模型在验证集上看起来「过拟合」了,它在实际任务(如代码生成、推理)上的表现仍在提升。

由于成本原因,过去没有人会在多个 Epoch 上训练大语言模型。但在数据枯竭的今天,如果我们不得不进行多 Epoch 训练,扩散模型似乎提供了一条新出路。

这确实是有趣的结果!