标签影视制作下的文章

这份手册整理自实际影视制作项目中的提示词设计经验。不谈理论，直接上能用的方法论。

一、对话提示词：让 AI 成为你的专业搭档

1.1 角色设定是起点

给 AI 一个具体的身份，不是敷衍地说 "你是助手"，而是要明确到岗位级别：

你是一位顶级影视概念设计师与剧本分析师。你的核心能力是"全员捕捉"，负责将剧本中的所有登场角色转化为标准化的人物概念生成提示词。

Plain Text

角色定位直接决定了 AI 的输出视角和专业度。"剧本分析师" 会自动带入行业术语，比 "助手" 精准太多。

设定技巧：

角色具体到行业 + 岗位
加上 "顶级"、“资深”、"精通" 等修饰词
用一句话说清核心能力

1.2 核心逻辑成体系

光有角色还不够，得告诉 AI 具体怎么干活。这部分叫 "核心逻辑"，本质是一套执行框架：

# Core Logic (核心逻辑 - 请严格执行) 1. 全域扫描机制 (Full Capture)：   - 对话扫描：提取所有有台词的角色   - 动作扫描 (关键)：重点检查以 ▲、△、【、( 开头的舞台指示   - 忽略背景板：忽略无具体描述的泛指人群
2. 群体细分原则：   - 严禁将不同特征的角色合并   - 若剧本区分了"女弟子A"与"男弟子B"，必须拆分为两个独立条目
3. 视觉与台词规范：   - 有台词者：提取最具代表性的一句原话   - 无台词者：替换为 (Silent, expression: [神态描述])

Plain Text

关键点：

用编号建立层级，逻辑清晰
正面说 "要做什么"，反面说 "禁止什么"
重要规则用加粗标注
给出具体例子，避免歧义

1.3 输出格式必须锁死

AI 最容易跑偏的就是输出格式。不锁死，它就会自由发挥，加一堆解释性文字。

# Output Format (Strict JSON)
- 绝对禁止使用 Markdown 代码块（json）- **绝对禁止**在 JSON 前后添加任何解释性文字- 输出必须是 **Raw JSON String**- JSON 结构如下：{  "data": [    {      "name": "角色中文名",      "content": "中文提示词"    }  ]}

Plain Text

为什么这么严格？因为 AI 输出会被程序解析。多一个 markdown 符号，下游就炸了。

格式约束技巧：

明确禁止项，用 "绝对禁止" 强调
给出完整格式示例
字段含义标注清楚

1.4 通用公式降低成本

当任务有固定模式时，直接给 AI 一个公式模板：

通用生成公式 (Prompt Formula)：

[风格设定] 全身视角 [角色名], [年龄 / 身份], 站在白色背景前，[外貌 / 服饰 / 神态细节], 正在用中文普通话面向镜头，[台词处理]

公式让 AI 不用思考结构，只需往槽位里填内容。输出一致性直接拉满。

1.5 对话提示词模板

#Role: [职业身份] ## Profile[一句话介绍核心能力] ## Goal[本次任务目标] ## Core Logic- [执行规则一]- [执行规则二]- [执行规则三] ## Output Format[输出格式要求 + 示例] ## Constraints- [禁止事项一]- [禁止事项二] ## Example[输入输出示例]

Plain Text

二、生图提示词：用文字控制画面

图像生成和对话完全是两套逻辑。对话是让 AI 理解意图，生图是让扩散模型 "看见" 你描述的画面。

2.1 五维描述框架

好的生图提示词至少覆盖五个维度：

维度	说明	示例
主体	核心人物 / 物体，动作、外貌、服饰	一位身着精美汉服的少女，红色斗篷边缘镶嵌白色绒毛
环境与构图	背景、拍摄视角、景深	飘雪的冬日庭院，红梅在枝头绽放，中景构图，浅景深虚化
风格与媒介	艺术风格、渲染方式	中国古典工笔画风格结合写实厚涂
光影与色彩	光源类型、色调	柔和的漫射光，唯美氛围
画质修饰	分辨率、细节程度	高精度，8k 壁纸级画质，极其细腻的皮肤纹理

完整示例：

一位身着精美汉服的少女，红色的斗篷边缘镶嵌着白色绒毛，面容清冷绝美，眼神凝视远方，

飘雪的冬日庭院，红梅在枝头绽放，中景构图，浅景深虚化背景，

中国古典工笔画风格结合写实厚涂，

柔和的漫射光，唯美氛围，

高精度，8k 壁纸级画质，极其细腻的皮肤纹理。

2.2 角色设计公式（三视图）

做角色设定图时，需要标准化的多视角展示：

[角色名]的人设概念设计稿，[身份/年龄]，[风格背景描述]。这是一张包含多个视角的展示图：包含正面、背面、左侧面、右侧面四位一体的全身展示，展现角色完整的身体比例。背景为纯白色。画面侧方包含：[发型及发饰细节描述]、[服装材质与剪裁工艺细节]的放大拆解图。整体呈现为专业三视图排版，光影均匀，超高清画质。图片底部正中央显著标注角色名称："[角色名]"。

Plain Text

要点：

明确要求 "多视角展示" 控制构图
"纯白色背景" 方便后期抠图
细节特写单独拎出来
标注角色名方便识别

2.3 场景设计公式（九宫格）

Plain Text

九宫格位置映射：

[1前视] [2顶视] [3后视][4左立面] [5主视图] [6右立面][7材质] [8底视] [9道具]

Plain Text

2.4 道具设计公式

[道具名]的道具概念设计稿，[类别/功能]，[风格描述]。这是一张专业工业设计分解图。画面中央为物品的45度标准透视图。周围包含：正视图、侧视图，以及局部的[核心部件/内部构造/符文细节]的精密特写。重点刻画[材质描述，如锈蚀、光泽、魔力流光]。背景为纯白色，演播室布光。图片底部正中央显著标注道具名称："[道具名]"。

Plain Text

2.5 特效 / 技能公式

画光效、粒子、技能释放时，背景要用深色：

[技能名]的VFX特效概念设计稿，[属性/能量类型]，[视觉冲击力描述]。画面展示了技能释放瞬间的动态冻结。核心包含：[光效颜色与形态]的能量爆发，周围伴随[粒子效果/碎片/气流/残影]的轨迹。高对比度光影，强调半透明材质与发光效果。背景为深色以突显特效。图片底部正中央显著标注技能名称："[技能名]"。

Plain Text

为什么用深色？发光效果在白背景上看不出来，对比度不够。

2.6 术语要专业

生图提示词的用词讲究，不能太口语化：

口语	专业术语
好看的光	体积光 / 电影级布光 / 伦勃朗光
模糊的背景	浅景深虚化 / Bokeh 效果
很细致	8K 分辨率 / 超高清 / 细节丰富
动漫风格	2D Anime / 吉卜力风格 / 赛璐珞着色
真实感	照片级写实 / Unreal Engine 5 渲染
有质感	丁达尔效应 / 材质纹理 / 光追效果

三、视频提示词：时间轴上的叙事

视频和图像最大的区别是：视频有时间。描述的不是一个瞬间，而是一段连续的变化过程。

3.1 描述 "变化" 而非 "状态"

图像提示词可以写 "她穿着红裙子"，但视频提示词得写 "她的红裙摆随风扬起，又缓缓落下"。

反面教材：

一个女孩站在海边。

正确写法：

镜头从女孩背影缓慢推近，海风吹起她的长发，她转过头来，眼神中带着一丝惆怅，远处的海浪轻轻拍打礁石。

3.2 运镜术语必备

视频提示词的灵魂是运镜，以下术语需要熟记：

术语	说明
推镜头 (Dolly In)	镜头向前移动，画面放大
拉镜头 (Dolly Out)	镜头向后移动，画面缩小
摇镜头 (Pan)	镜头左右旋转
升降镜头 (Crane)	镜头垂直上下移动
跟镜头 (Tracking)	镜头跟随主体移动
希区柯克变焦 (Dolly Zoom)	推拉与变焦反向配合，产生眩晕感
无人机航拍	高空俯视，大场景
Rack Focus	焦点快速切换，从 A 聚焦到 B

3.3 15 秒是硬红线

当前主流 AI 视频模型（Sora、Runway、可灵）的生成极限约 15 秒。分镜设计时：

单个镜头不超过 15 秒
动作 / 打斗镜头 2-4 秒
情感 / 对白镜头 5-8 秒
复杂运镜需分阶段描述

3.4 长台词的动态化处理

角色有长台词时，不能让画面呆住。解决方案是复合运镜：

随着台词前半段，镜头从全景缓慢推至中景；当说到高潮句时，镜头快速聚焦（Rack Focus）到角色眼神特写；台词结束时，镜头微微后拉，展示角色的整体姿态。

Plain Text

3.5 物理连续性：Match on Action

视频是连续的，上一个镜头的结束状态必须和下一个镜头的起始状态一致：

镜头1 结尾：手举到最高点镜头2 开头：必须从最高点开始落下
镜头3 结尾：角色转身，背对镜头镜头4 开头：从背影开始

Plain Text

这叫 "动作衔接"（Match on Action），违反这条就会出现跳帧。

3.6 微动作拆解

将简单动作拆解为多个阶段：

"转身离开"拆解为：(1) 脚尖旋转 -> (2) 摆动衣角 -> (3) 背影远去
"愤怒地拍案而起"拆解为：(1) 手掌颤抖 -> (2) 猛击桌面 -> (3) 产生裂纹/纸张震起(4) 顺势站起 -> (5) 椅子撞墙 -> (6) 胸口起伏

Plain Text

3.7 环境要有反馈

动作必须影响环境：

拍桌子 → 灰尘震起、纸张飞扬
走过水面 → 涟漪扩散
愤怒爆发 → 窗帘随气流摆动
高速移动 → 残影、地面开裂

3.8 完整视频提示词示例

这是一个震撼的无人机跟拍镜头，近距离捕捉一只金雕在险峻的红色大峡谷中极速俯冲。金雕的羽毛在强劲的气流中微微颤动，眼神锐利地锁定地面。镜头随着金雕的动作快速下坠并穿越狭窄的岩石缝隙。阳光从峡谷上方呈光束状洒落，照亮了飞扬的尘土颗粒。画面具有IMAX电影级的质感，色彩饱满，超高清晰度，完美展现了速度感与野性之美。

Plain Text

这段包含了：

运镜方式（无人机跟拍）
主体动态（俯冲、羽毛颤动）
环境变化（穿越岩石缝隙、尘土飞扬）
光影（阳光光束、照亮尘土）
画质要求（IMAX、超高清）

四、分镜脚本编写规范

当需要 AI 帮你把剧本转成分镜脚本时，有一套专门的约束规则。

4.1 节奏控制

- 1个 15s 单元仅允许处理剧本中约 2-3 句台词/动作描写- 每个 15s 单元必须包含 6-10 个镜头- 严禁在一个单元内压缩整页剧情

Plain Text

4.2 剧本忠实锁

- 逐句映射：必须在分镜详情中标注该镜头对应剧本的哪一句话- 台词全保留：剧本中的每一句对白必须出现在 dialogue 字段中- 动作补完："他很生气" -> [推镜头到眼部特写] -> [额头青筋跳动] -> [重击桌面]

Plain Text

4.3 ID 替换策略

当有角色 / 场景资源列表时：

- 匹配成功：替换为对应的 ID 标签（如 [@C01], [@S02]）- 匹配失败/列表为空：保留原始名称或使用具体的视觉外观描述- 绝不允许凭空编造列表中不存在的 ID

Plain Text

4.4 分镜输出格式

{"storyboard": [{  "id": 1,  "duration": "15s",  "script_reference": "对应剧本第 X 行至第 Y 行内容",  "summary": "详细描述本段涵盖的微小情节起伏",  "prompt": "【1-1 | 0-2s | 特写】动作：[手掌颤抖->猛击桌面] | 台词：'够了！'\n【1-2 | 2-4s | 中景】动作：[顺势站起->椅子撞墙]\n【bgm】沉闷压抑到重音突发\n【sfx】重击声、木材碎裂声"}]}

JSON

五、六宫格故事板规范

5.1 布局结构

**【缓冲对抗层】**Grid 1 (0-1s): 全黑画面，用于视频剪辑留白Grid 2 (1-3s): 视觉桥接，环境定场/转场逻辑 **【正片关键帧序列】**Grid 3 (Keyframe 1): 全景/中景，交代情境Grid 4 (Keyframe 2): 特写/面部特写，聚焦冲突点Grid 5 (Keyframe 3): 推动情节的动态镜头Grid 6 (Keyframe 4): 为下一场戏预留接口

Plain Text

5.2 每格必含要素

- 景别: 全景/中景/近景/特写- 运镜: 推镜头/平移/固定/希区柯克变焦- 画面内容: 必须包含[前景]、[中景]、[后景]的具体物件和光影- 设计意图: 说明此镜头在叙事上的目的- 台词: 剧情中人物台词、对话、内心OS、旁白等

Plain Text

六、日常使用备忘

6.1 快速模板

生图快速模板：

[主体：人物/物体 + 动作 + 外貌]，[环境：场景 + 天气 + 时间]，[构图：景别 + 角度 + 景深]，[风格：画风 + 渲染方式]，[光影：光源 + 色调]，[画质：分辨率 + 细节词]

Plain Text

视频快速模板：

[运镜方式]，[相机移动轨迹]。[主体动作] + [物理反馈]。[环境描写] + [随时间的变化]。[光影与氛围]。[技术参数]。

Plain Text

6.2 常见错误

错误	正确做法
口语描述	用专业术语
只描述状态	描述变化过程
格式要求模糊	给出完整示例
没有禁止项	明确列出禁止行为
单纯堆砌关键词	写成通顺的段落
把多个角色合并描述	每个角色单独条目
镜头超过 15 秒	拆分为多个短镜头

6.3 迭代优化流程

提示词很难一次写好，建议的迭代流程：

基础版：跑通流程，能输出结果
约束版：加入格式约束，稳定输出结构
增强版：补充边界处理、错误兜底
优化版：根据实际生成效果调整描述权重

结语

提示词工程说到底就是两件事：

让 AI 明白你要什么（角色设定 + 任务描述 + 格式要求）
让生成模型 "看见" 你想要的画面（结构化描述 + 专业术语）

没有什么神秘技巧，就是多写、多调、多总结。遇到效果不好的输出，别急着换工具，先想想是不是自己的提示词没写清楚。

毕竟，AI 只是执行者，真正的导演是你。

本文整理自实际项目中的提示词设计经验，如有问题欢迎交流。

📌 转载信息

来源：
https://linux.do/t/topic/1423396

原作者：
Matuto

转载时间：
2026/1/9 17:57:29