160亿的参数,GLM-Image让AI绘图听懂人话
如果说 DeepSeek 让 AI 学会了说人话,那 GLM-Image 就是专治 AI 画图「听不懂人话」的老毛病——毕竟,谁还没被那些鬼画符文字气笑过呢? 原先的扩散模型手艺好,但耳朵背。现在的 AI 画图工具,像极了手艺精湛却耳背的 Tony 老师——你说招牌写开业大吉,他画出一串连考古学家都破译不了的符号。扩散模型训练稳定、泛化强,但面对复杂指令和知识密集型场景,总在信息表达和语义对齐上掉链子。 GLM-Image 的解法很务实:让专业的模块干专业的事。90 亿参数的自回归模块(基于 GLM-4-9B-0414)当阅读理解冠军,生成携带语义信号的视觉词元;70 亿参数的扩散解码器(沿袭 CogView4 架构)当像素级工匠,还原高频细节。文科生写剧本、理科生做特效,分工明确才能出大片。 除文本生成图像外,GLM-Image 还支持图像编辑、风格迁移、身份保持、多主体一致性。更关键的是,它终于能正确渲染中文了!通过集成 Glyph-byT5 进行字符级编码,开业大吉不会再变成开壶大古,海报设计师总算可以松口气了。 开源,为了好用而不只是能用,由智谱华章以开源形式发布的 GLM-Image 打破「高性能=闭源收费」的潜规则。160 亿总参数对开发者友好,自回归懂语义 + 扩散雕细节的混合架构,或将成为下一代模型的标配。 毕竟,我们要的不是抽卡式的运气游戏,而是能听懂复杂需求的靠谱搭档。当 AI 海报终于出现正确的汉字,记得感谢这个双脑协作的聪明架构——从耳背 Tony 到贴心设计师,GLM-Image 真的下了功夫。 教程链接: https://go.openbayes.com/cZzpu 使用云平台: OpenBayes http://openbayes.com/console/signup?r=sony_0m6v 首先点击「公共教程」,找到「GLM-Image:首个全流程国产芯片训练模型」,单击打开。 若显示「Bad Gateway」,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。


使用步骤如下:




