解锁任意步数文生图，港大&Adobe全新Self

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

展开列表

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

今天

5分钟定制一个AI采购专家：讯飞发布“招采智能体工厂”，重新定义行业开发范式

今天

Agent时代，为什么多模态数据湖是必选项？

今天

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化

今天

性能提升60%，英特尔Ultra3这次带来了巨大提升

01月14日

继宇树后，唯一获得三家大厂押注的自变量：具身模型不是把DeepSeek塞进机器人

01月14日

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

01月14日

端到端智驾新SOTA | KnowVal：懂法律道德、有价值观的智能驾驶系统

01月14日

仅用10天？Anthropic最新智能体Cowork的代码竟然都是Claude写的

01月14日

AAAI 2026｜AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

01月14日

用AI从常规病理切片重建空间蛋白图谱：基于H&E图像的高维蛋白质表达预测

01月14日

京东首届AI影视创作大赛启动最高奖金10万元邀全民共创AI视频

01月14日

合合信息多模态文本智能产品“上新”，覆盖AI教育、AI健康、AI Infra多元场景

01月14日

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

01月14日

跳出「黑盒」，人大刘勇团队最新大语言模型理论与机理综述

01月14日

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

01月14日

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

01月13日

无需重新训练，即可学习新任务，Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱

01月13日

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

01月13日

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

尽管扩散模型（Diffusion Model）与流匹配（Flow Matching）已经把文本到图像生成（Text-to-Image, T2I）推向了更高的视觉质量与可控性，但他们通常在推理时需要数十步网络迭代，限制了其对于一些需要低延迟，Real-Time 的应用。

为了把推理步数降下来，现有路线通常依赖知识蒸馏（Distillation）：先训练一个多步教师模型，再把能力迁移到少步学生模型。但这条路的代价同样明显 —— 既依赖预训练教师，又引入了额外的训练开销，并在「从零训练（from scratch）」与「极少步高质量」之间留下了长期空白。

近日，香港大学（The University of Hong Kong）与 Adobe Research 联合发布 Self-E（Self-Evaluating Model）：一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级质量，并且随着步数增加呈现单调提升。

论文标题：Self-Evaluation Unlocks Any-Step Text-to-Image Generation
项目主页：https://xinyu-andy.github.io/SelfE-project/
论文 PDF：https://www.arxiv.org/pdf/2512.22374

引言：从「轨迹匹配」到「落点评估」

扩散 / 流匹配范式本质上是在学习一张「局部向量场」：给定噪声状态，预测下一步该往哪里走。这个监督信号在「小步、密集积分」时非常有效，但一旦尝试「大步跳跃」，误差会被轨迹曲率放大，生成往往滑向平均解、语义漂移或结构坍塌。

Self-E 的切入点是一个根本上的范式改变：我们能否不再执着于「每一步走得对不对」，而是把训练重心转向「落点好不好」？也就是把目标从「轨迹匹配（trajectory matching）」转变为「落点评估（destination/landing evaluation）」。

换句话说，传统 Diffusion Model 训练强调「在起点对齐局部方向」；Self-E 强调「在落点评估结果并给出纠偏方向」。监督位置的改变，带来了训练信号性质的改变：从静态监督变成动态反馈。

作者在项目主页用动图展示了这两者的区别：

这也是为什么模型在测试阶段有少步推理能力：扩散模型在测试时只能逐步跟随当前点预测的最好局部路径，最终走到全局最优；而 Self-E 在训练阶段就逐步学会了走向全局最优的落点。

这也不同于目前多数少步生成模型所采用的学习轨迹的积分，如 Consistency Model, Mean Flow; Self-E不局限于沿着预定义的轨迹走，而是直接关心每步结果好不好，对不对。

Self-E 的核心：两条互补训练信号（Two Complementary Signals）

Self-E 用同一个网络在两种「模式」下工作：一方面像 Flow Matching 一样从真实数据学习分布的局部结构；另一方面用「模型自身正在学到的局部估计」去评估自生成样本，形成自反馈闭环。

1）从数据学习：Learning from Data

学什么：分布的局部结构（local score /velocity 的期望形式），即「在邻域内密度如何变化」。
怎么学：采样真实图像与文本条件，加噪得到噪声输入，用条件流匹配式目标训练模型去预测干净样本（或等价参数化），提供稳定的局部监督。

2）自我评估学习：Learning by Self-Evaluation

学什么：分布层面的正确性（distribution-level correctness）—— 生成样本是否与真实分布一致、是否与描述的文本对齐。
关键机制：模型先做一次「长距离跳跃」（从起始时间步跳到落点时间步），然后在落点处用自己当前学到的局部估计产生一个「方向信号」，告诉生成样本应如何移动才能进入更高质量、更符合文本的概率分布区域。
最大差异：评估信号不来自外部教师（pretrained diffusion teacher），而是来自模型自身的在训估计（dynamic self-teacher）。

训练细节：把「自我评估」做成可反传的学习信号

Self-E 在理论上把评估写成分布级目标（例如以反向 KL 为代表的分布匹配视角），但真正落地的难点在于：真实分布与生成分布的 score 都不可得。

Self-E 的关键观察是：模型在「从数据学习」阶段会逐步学到某种条件期望形式，而该量与 score 通过 Tweedie’s formula 存在联系，因此可以用「正在训练的模型」去近似提供评估方向。

在实现上，作者发现理论目标中包含「classifier score term」等项，并实证发现仅使用 classifier score 项就足够有效，甚至更利于收敛，从而避免早期还要额外训练一个用于 fake score 的模型分支。

为了把这种「评估方向」变成可训练的损失，Self-E 采用 stop-gradient 的双前向构造 pseudo-target，通过最小化 MSE 诱导出与所需方向一致的梯度；并在最终目标中将数据驱动损失与自评估损失进行混合加权。

最终，我们可以用一个统一的形式来训练：

其中，等式右边第一项正是 Learning-from-data 的目标，而第二项对应 Self-Evaluation。

推理：任意步数（Any-Step Inference），并随步数单调变好

在推理阶段，Self-E 与扩散 / 流匹配一样进行迭代去噪，但不同之处在于：由于训练中已经显式学习「长距离落点」的质量与纠偏方向，它可以在非常少的步数下保持可用的语义与结构，同时在增加步数时继续提升细节与真实感。

性能：GenEval 全步数段 SOTA，少步优势尤其显著

在 GenEval 基准上，Self-E 对比其他方法取得全面领先，并且随着步数增加呈现单调提升。更关键的是少步区间的「断层式」优势：在 2-step 设置下，Self-E 相比当时最佳对比方法的提升约为+0.12（0.7531 相比 0.6338），而多种传统扩散 / 流匹配模型在 2-step 下几乎无法生成可用结果。

另一角度解读：把「预训练」与「反馈学习」拉到同一条线上

从更宏观的视角看，Self-E 把训练过程组织成一个类似强化学习中的「环境 — 智能体（environment–agent）闭环」：

Data Phase：模型从真实数据学习分布的局部结构，得到越来越可靠的局部估计（可视作学习环境，并给出评估）。
Self-Evaluation Phase：模型提出长距离跳跃方案（可视作智能体执行动作），在落点处用内部估计产生反馈方向并更新参数（可视作获得环境的反馈）。
Closed Loop：评估器随训练变强，反馈信号质量随之提升，反过来又进一步强化少步生成能力。

作者在项目主页指出：这种内部评估器在角色上接近「可查询的学习型奖励模型」，为后续把强化学习（RL）更系统地引入视觉生成训练提供了新的接口与想象空间。

结语

Self-E 的价值不只是在「少步生成」这一条指标上跑得更快，而在于它把文生图训练范式从「沿着既定轨迹走」推进到「学会评估落点并自我纠偏」：在不依赖预训练教师蒸馏的前提下，让单一模型同时覆盖极低时延与高质量长轨迹两种需求，并在不同推理预算下保持可扩展的性能曲线。

对内容创作与生成式系统落地而言，「one model, any compute」的工程意义非常直接：同一个 checkpoint 可以按场景动态选择步数 —— 交互式场景用 1～4 步追求即时反馈，高质量离线渲染用 50 步追求细节上限；而训练侧则绕开了教师蒸馏链路，把「从零训练 + 少步推理」真正拉回到可讨论、可复现、可扩展的主流路径上。

解锁任意步数文生图，港大&Adobe全新Self

添加新评论

最新文章

最近回复

分类

归档

其它