最近,我们的全新文生图开源模型——ERNIE-Image正式与大家见面了。它基于 8B 参数的 DiT 架构,在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格,因此尤其适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。

  • ERNIE-Image - SFT 模型:更强的通用能力和指令忠实度,推理步数 50 步
  • ERNIE-Image-Turbo - 极速模型:通过DMD和 RL 优化,仅需 8 步即可实现更快的速度和更高的美学质量

今天,我们带来一篇​超友好的ComfyUI实战教程​,手把手带你完成 ERNIE-Image 的部署与使用。即使是新手,也能轻松上手!

致谢​:感谢 ComfyUI 官方对 ERNIE-Image 适配的大力支持。

ComfyUI 相关仓库:

安装 ComfyUI 与权重下载

1.1 网页版安装

  • 网页版安装需要拉取最新版本的 ComfyUI 仓库并配置相关的 Python 环境。
### 拉取最新的ComfyUI仓库:
git clone https://github.com/Comfy-Org/ComfyUI.git
### 配置ComfyUI运行的环境并安装最新的包含有ERNIE-Image的template:
cd ComfyUI && pip install -r requirements.txt && pip install comfyui-workflow-templates==0.9.56

1.2 客户端安装

下载 ComfyUI 最新版本 v0.19.1

https://www.comfy.org/zh-cn/download
640.png

1.3 模型权重下载

让 ERNIE-Image-Turbo 在服务器端/本地顺利运行,你需要在 ComfyUI 中正确配置四个核心组件:扩散模型、文本编码器、PromptEnhancer和变分自编码器(VAE)。从 HuggingFace 下载 ERNIE-Image 核心模型权重文件,模型地址:

https://huggingface.co/Comfy-Org/ERNIE-Image

模型权重放置在 ComfyUI 的相应目录下:

  • 扩散模型(Diffusion Model)
  • 文件:ernie-image.safetensors/ernie-image-turbo.safetensors
  • 路径:ComfyUI/models/diffusion\_models/
  • 文本编码器(Text Encoder)
  • 文件:ministral-3-3b.safetensors
  • 路径:ComfyUI/models/text\_encoders/
  • Prompt 优化器(Prompt Enhancer)
  • 文件:ernie-image-prompt-enhancer.safetensors
  • 路径:ComfyUI/models/text\_encoders/
  • 变分自编码器(VAE)
  • 文件:flux2-vae.safetensors
  • 路径:ComfyUI/models/vae/

将上述四个文件分别放入 ComfyUI 的对应目录后,即可开启 ComfyUI 工作流实践。

标准流工作

当前 ComfyUI 新版本已经支持了 ERNIE-Image 的标准工作流,用户可以直接使用官方推荐工作流来获得最佳画质和速度。

2.1 加载模型节点

在 ComfyUI 中,从左侧模板库选择“Ernie Image Turbo:文生图”或者“Ernie Image:文生图”,系统会自动加载已放入对应目录的核心组件。

640 (2).png

如果前述文件已经放入正确位置后,相关模型会自动加载,无需手动配置,直接输入 Prompt,即可启动生图。
640 (2).png

需要特别关注的是:当前 PE 节点作为 ERNIE-Image 的默认选项,其使用的加载器和 Text Encoder 加载器都是使用的 CLIPLoader 来加载模型权重。

  • Text Encoder 节点加载的权重文件:ministral-3-3b.safetensors 或者 ernie-image-prompt-enhancer.safetensors
  • Prompt Enhancer 节点加载的权重文件:ernie-image-prompt-enhancer.safetensors

2.2 PE 设置

ERNIE Image 最适合长、详细、结构良好的提示——更丰富的描述往往会产生更好的生成质量、更精确的教学保真度,以及更忠实地呈现复杂的布局或叙事内容。在实践中,非常建议用户开启 PE,官方节点默认是开启 PE。
640 (3).png

PE 节点的参数设置可以通过点击节点图右上角打开子图进一步设置,关键参数配置如下:

  • 最大长度(max\_length):设置为 1536~2048,如果设置过小,可能会导致长文本输入信息存在遗漏的风险,但也不建议设置太大。
  • 采样模式:开启。
  • 温度系数(temperature):设置为 0.6。
  • top\_p:设置为 0.8。
  • thinking mode: 关闭。
    640 (4).png

2.3 采样器设置

打开子图后,同样可以看到采样器的相关配置项,具体配置推荐如下:

  • 步数(steps): ERNIE-Image-Turbo 版本建议设置为8,ERNIE-Image 版本建议设置为50。
  • 引导系数(CFG):ERNIE-Image-Turbo 版本建议设置为1.0,ERNIE-Image 版本建议设置为4.0。
  • 采样器(Sampler):推荐使用euler。
  • 调度器(Scheduler):推荐 sgm\_uniform 或者默认的simple。

640 (5).png

2.4 分辨率设置

ERNIE-Image/ERNIE-Image-Turbo 模型在下列分辨率优化效果比较好,当前避免直接生成 2k+ 分辨率。

  • 1024x1024
  • 848x1264
  • 1264x848
  • 768x1376
  • 896x1200
  • 1376x768
  • 1200x896

GGUF量化版工作流

如果你使用是低显存设备,则需要采样Unsloth给出的 GGUF 量化方案,Unsloth 的 GGUF 量化权重可以从 Huggingface 中下载。

GGUF(Unsloth)相关仓库:

  • ERNIE-Image GGUF(扩散模型):

https://huggingface.co/unsloth/ERNIE-Image-GGUF

  • ERNIE-Image-Turbo GGUF(扩散模型):

https://huggingface.co/unsloth/ERNIE-Image-Turbo-GGUF

  • Text Encoder GGUF:

https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF

首先,你需要在 ComfyUI 中通过 ComfyUI Manager​安装 ComfyUI-GGUF 插件​。
640 (6).png

安装后需要重启服务并刷新页面,从前面的网页中下载需要的的量化模型,放入到 ComfyUI/models/unet/文件夹下。然后双击空白处-> 搜索 GGUF-> 点击 Unet Loader(GGUF),即可使用本地的量化模型;使用 CLIP Loader(GGUF)节点加载文本编码器。

说明:Prompt Enhancer 的 GGUF 版本当前暂未提供。

标签: none

添加新评论