AI 如何根据文字生成图片？

在当今的数字时代，只需输入一句描述，如“一只穿着宇航服的猫在月球上喝咖啡，电影感光影”，几秒钟后，屏幕上便会呈现出一张惊艳的图像。Midjourney、Stable Diffusion 等 AI 绘画工具的出现，仿佛让“神笔马良”的故事成为了现实。

但这背后究竟是魔法，还是科技？

在那个神秘的进度条背后，AI 究竟在进行怎样的操作？它的“大脑”里是否真的住着一位不知疲倦的画手，拿着画笔在白纸上从零开始创作？

本文将抛开复杂的专业术语，以通俗易懂的方式拆解这一神奇过程。真相或许比想象中更有趣——AI 绘画，本质上是一场大型的“脑补”游戏。

第一部分：画布的真相——它居然不是空白的！

谈及绘画，人们的第一反应通常是：在一张干净的白纸上构图、打草稿、上色。

然而，AI 的创作方式截然不同。它的起点并非空白，而是一片混沌。

如果能深入 AI 的后台一探究竟，会发现当它准备开始工作时，面前的“画布”呈现出如下形态：

这是一张密密麻麻、杂乱无章的噪点图，在技术上被称为“纯噪声”。

在人类眼中，这或许只是毫无意义的混乱。但在 AI 眼中，这里隐藏着无限可能。AI 作画的本质，并非“无中生有”，而是“从混乱中建立秩序”。它不是在做加法（往白纸上添加内容），而是在做减法（去除不需要的噪点）。

第二部分：AI 的特殊技能——“脑补大师”是怎样炼成的？

面对这样一屏毫无头绪的雪花，AI 如何知道该从何处下手？这得益于它在投入使用前经历的魔鬼训练。

在尚未掌握绘画技能之前，AI 分析了数十亿张人类世界的图片。其学习方式颇为独特，堪称一位“破坏与重建狂魔”。

训练过程中，研究人员会向 AI 展示一张清晰的照片（例如一只小狗），随后逐步向照片中添加“沙子”（噪点），使照片逐渐变得模糊，直至完全变为一张无法辨认的雪花屏。

AI 的任务便是学习如何“倒放”这一过程——即凭经验将这张雪花屏还原成最初的那只小狗。

经过亿万次此类练习，AI 练就了一双“火眼金睛”，成为了世界上顶尖的“去噪专家”。面对任何混乱的图像，它的第一反应便是：“这太乱了，需要将其清理干净。”

第三部分：关键时刻——面对一片雪花，AI 怎么下第一笔？

这是整个生成过程中最为神奇的环节。

当用户输入指令：“画一只猫”，AI 面对着手中那张杂乱无章的雪花屏，内心或许是崩溃的：“这里哪里有猫？这全是噪点。”

此时，奇迹发生了。这个过程类似于人们童年时常玩的游戏——“在云朵里找形状”。

想象一下，躺在草地上注视着天上杂乱无章的云团发呆。此时，若有人提示：“嘿，你看那片云，像不像一只猫？”

一旦接受了这一设定，大脑便会开始强行“脑补”。越看越觉得：“左边那团突出的云确实有点像猫耳朵，中间那块暗影有点像猫身子……”

AI 画画的第一步，正是这种强制的“幻视”。

当用户输入“猫”作为提示词，便相当于给了 AI 一个强烈的暗示。它被迫在那堆毫无意义的噪点中寻找“猫”的蛛丝马迹。

它会审视那些随机排列的像素点，强行联想：“虽然目前很乱，但如果非要说的话，中间这几个黑点凑在一起，相较于角落里的白点，更有潜力发展成一个猫鼻子。”

于是，AI 迈出了极其微小的第一步：它并未直接画出猫鼻子，而只是将那些像素的颜色，朝着“猫”的方向轻轻推了一把。

第四部分：见证奇迹——从模糊到清晰的循环

这一步迈出后，画布看起来依然是一团糟。但 AI 绘画并非一步到位，它更像是一位手持橡皮擦和雕刻刀的雕塑家，一点一点将作品“磨”出来。

这个过程在软件中通常被称为“步数”（Steps）。

第 1 步： 对着雪花屏强行脑补，画面依然混沌，但已显现出极其微弱的趋势。
第 10 步： AI 认为“猫”的形象越来越确定，下手逐渐加重，画面中出现了一个模糊的影子，能隐约辨识出动物的轮廓。
第 20 步： 轮廓日益清晰，AI 开始雕琢细节：“此处应有毛发，彼处应是眼睛的反光。”
第 30 步： 大功告成！噪点被清理干净，光影、质感完美呈现，一只栩栩如生的猫诞生了。

这就是为什么 AI 生成图片需要几秒钟的时间，因为它在后台快速地进行了数十次“观察-脑补-修正”的循环。

第五部分：灵魂拷问——为什么每次生成的图片都不一样？

人们可能会发现，使用相同的提示词和模型设置，点击两次生成，AI 给出的图片却是完全不同的。既然是机器，为何结果不稳定？

这正是 AI 绘画的迷人之处，其原因主要有二：

1. 起跑线不同（蝴蝶效应）

还记得最初那张“雪花屏”吗？每次点击生成按钮，AI 面对的那张雪花屏都是电脑随机新生成的。

世界上没有两片相同的树叶，也没有两张相同的噪点图。

也许这一次，初始噪点的左上角偶然多出了几个黑点，AI 便觉得：“此处适合画一只黑猫”；下一次，中间的噪点偏黄一点，AI 便觉得：“这次画只橘猫更合理”。

初始状态的极其微小差别，经过数十步的放大，最终导致了结果的巨大不同。这就是 AI 世界的“蝴蝶效应”。

2. “猫”是一个范围，不是一个点

在 AI 的庞大数据库里，“猫”并非一张固定的标准证件照，而是一个巨大的概念库。

提示词只是将 AI 推向了“猫”的领地，但具体落在领地里的哪个位置——是波斯猫还是狸花猫，是躺姿还是坐姿——充满了随机性。除非使用非常精确的语言进行限制，否则 AI 很乐意在“猫”的领地里随机探索。

结语

综上所述，AI 绘画并没有自主意识，它其实并不懂什么是艺术，也不懂什么是猫。

它只是一个阅图无数、拥有超强计算能力的“去噪机器”，一个有着严重强迫症的“脑补大师”。

但正是这种纯粹的数学计算，加上一点点随机的运气，为人类带来了近乎无限的创造力。下次当再次按下生成按钮时，不妨想象一下 AI 在后台对着一堆雪花屏努力“脑补”的样子，这或许正是科技的可爱之处。

本文由mdnice多平台发布