这份手册整理自实际影视制作项目中的提示词设计经验。不谈理论,直接上能用的方法论。
给 AI 一个具体的身份,不是敷衍地说"你是助手",而是要明确到岗位级别:
你是一位顶级影视概念设计师与剧本分析师。 你的核心能力是"全员捕捉",负责将剧本中的所有登场角色转化为标准化的人物概念生成提示词。
角色定位直接决定了 AI 的输出视角和专业度。"剧本分析师"会自动带入行业术语,比"助手"精准太多。
设定技巧:
光有角色还不够,得告诉 AI 具体怎么干活。这部分叫"核心逻辑",本质是一套执行框架:
# Core Logic (核心逻辑 - 请严格执行) 1. 全域扫描机制 (Full Capture): - 对话扫描:提取所有有台词的角色 - 动作扫描 (关键):重点检查以 ▲、△、【、( 开头的舞台指示 - 忽略背景板:忽略无具体描述的泛指人群 2. 群体细分原则: - 严禁将不同特征的角色合并 - 若剧本区分了"女弟子A"与"男弟子B",必须拆分为两个独立条目 3. 视觉与台词规范: - 有台词者:提取最具代表性的一句原话 - 无台词者:替换为 (Silent, expression: [神态描述])
关键点:
AI 最容易跑偏的就是输出格式。不锁死,它就会自由发挥,加一堆解释性文字。
# Output Format (Strict JSON) - 绝对禁止使用 Markdown 代码块(json) - **绝对禁止**在 JSON 前后添加任何解释性文字 - 输出必须是 **Raw JSON String** - JSON 结构如下: { "data": [ { "name": "角色中文名", "content": "中文提示词" } ] }
为什么这么严格?因为 AI 输出会被程序解析。多一个 markdown 符号,下游就炸了。
格式约束技巧:
当任务有固定模式时,直接给 AI 一个公式模板:
通用生成公式 (Prompt Formula): [风格设定] 全身视角 [角色名], [年龄/身份], 站在白色背景前, [外貌/服饰/神态细节], 正在用中文普通话面向镜头, [台词处理]
公式让 AI 不用思考结构,只需往槽位里填内容。输出一致性直接拉满。
# Role: [职业身份] ## Profile [一句话介绍核心能力] ## Goal [本次任务目标] ## Core Logic - [执行规则一] - [执行规则二] - [执行规则三] ## Output Format [输出格式要求 + 示例] ## Constraints - [禁止事项一] - [禁止事项二] ## Example [输入输出示例]
图像生成和对话完全是两套逻辑。对话是让 AI 理解意图,生图是让扩散模型"看见"你描述的画面。
好的生图提示词至少覆盖五个维度:
| 维度 | 说明 | 示例 |
|---|---|---|
| 主体 | 核心人物/物体,动作、外貌、服饰 | 一位身着精美汉服的少女,红色斗篷边缘镶嵌白色绒毛 |
| 环境与构图 | 背景、拍摄视角、景深 | 飘雪的冬日庭院,红梅在枝头绽放,中景构图,浅景深虚化 |
| 风格与媒介 | 艺术风格、渲染方式 | 中国古典工笔画风格结合写实厚涂 |
| 光影与色彩 | 光源类型、色调 | 柔和的漫射光,唯美氛围 |
| 画质修饰 | 分辨率、细节程度 | 高精度,8k壁纸级画质,极其细腻的皮肤纹理 |
完整示例:
一位身着精美汉服的少女,红色的斗篷边缘镶嵌着白色绒毛,面容清冷绝美,眼神凝视远方, 飘雪的冬日庭院,红梅在枝头绽放,中景构图,浅景深虚化背景, 中国古典工笔画风格结合写实厚涂, 柔和的漫射光,唯美氛围, 高精度,8k壁纸级画质,极其细腻的皮肤纹理。
做角色设定图时,需要标准化的多视角展示:
[角色名]的人设概念设计稿,[身份/年龄],[风格背景描述]。 这是一张包含多个视角的展示图:包含正面、背面、左侧面、右侧面四位一体的全身展示,展现角色完整的身体比例。 背景为纯白色。 画面侧方包含:[发型及发饰细节描述]、[服装材质与剪裁工艺细节]的放大拆解图。 整体呈现为专业三视图排版,光影均匀,超高清画质。 图片底部正中央显著标注角色名称:"[角色名]"。
要点:
场景图需要更全面的空间展示,推荐 3x3 九宫格布局:
[场景名]的场景概念设计稿,[时间/天气],[整体风格与氛围描述]。 这是一张严格的3x3九宫格布局的技术拆解图(3x3 grid sheet)。 正中央为场景标准透视效果图。 周围环绕六视图及细节:上方为顶视图,下方为地面平面图,左侧为左墙立面,右侧为右墙立面,四角分别为前视、后视及[材质与道具]特写。 全方位展示空间的六个面。 光影逻辑统一,[建筑材质描述],8k分辨率,虚幻引擎5渲染质感。 图片底部正中央显著标注场景名称:"[场景名]"。
九宫格位置映射:
[1前视] [2顶视] [3后视] [4左立面] [5主视图] [6右立面] [7材质] [8底视] [9道具]
[道具名]的道具概念设计稿,[类别/功能],[风格描述]。 这是一张专业工业设计分解图。 画面中央为物品的45度标准透视图。 周围包含:正视图、侧视图,以及局部的[核心部件/内部构造/符文细节]的精密特写。 重点刻画[材质描述,如锈蚀、光泽、魔力流光]。 背景为纯白色,演播室布光。 图片底部正中央显著标注道具名称:"[道具名]"。
画光效、粒子、技能释放时,背景要用深色:
[技能名]的VFX特效概念设计稿,[属性/能量类型],[视觉冲击力描述]。 画面展示了技能释放瞬间的动态冻结。 核心包含:[光效颜色与形态]的能量爆发,周围伴随[粒子效果/碎片/气流/残影]的轨迹。 高对比度光影,强调半透明材质与发光效果。 背景为深色以突显特效。 图片底部正中央显著标注技能名称:"[技能名]"。
为什么用深色?发光效果在白背景上看不出来,对比度不够。
生图提示词的用词讲究,不能太口语化:
| 口语 | 专业术语 |
|---|---|
| 好看的光 | 体积光 / 电影级布光 / 伦勃朗光 |
| 模糊的背景 | 浅景深虚化 / Bokeh 效果 |
| 很细致 | 8K分辨率 / 超高清 / 细节丰富 |
| 动漫风格 | 2D Anime / 吉卜力风格 / 赛璐珞着色 |
| 真实感 | 照片级写实 / Unreal Engine 5 渲染 |
| 有质感 | 丁达尔效应 / 材质纹理 / 光追效果 |
视频和图像最大的区别是:视频有时间。描述的不是一个瞬间,而是一段连续的变化过程。
图像提示词可以写"她穿着红裙子",但视频提示词得写"她的红裙摆随风扬起,又缓缓落下"。
反面教材:
一个女孩站在海边。
正确写法:
镜头从女孩背影缓慢推近,海风吹起她的长发,她转过头来,眼神中带着一丝惆怅,远处的海浪轻轻拍打礁石。
视频提示词的灵魂是运镜,以下术语需要熟记:
| 术语 | 说明 |
|---|---|
| 推镜头 (Dolly In) | 镜头向前移动,画面放大 |
| 拉镜头 (Dolly Out) | 镜头向后移动,画面缩小 |
| 摇镜头 (Pan) | 镜头左右旋转 |
| 升降镜头 (Crane) | 镜头垂直上下移动 |
| 跟镜头 (Tracking) | 镜头跟随主体移动 |
| 希区柯克变焦 (Dolly Zoom) | 推拉与变焦反向配合,产生眩晕感 |
| 无人机航拍 | 高空俯视,大场景 |
| Rack Focus | 焦点快速切换,从 A 聚焦到 B |
当前主流 AI 视频模型(Sora、Runway、可灵)的生成极限约 15 秒。分镜设计时:
角色有长台词时,不能让画面呆住。解决方案是复合运镜:
随着台词前半段,镜头从全景缓慢推至中景; 当说到高潮句时,镜头快速聚焦(Rack Focus)到角色眼神特写; 台词结束时,镜头微微后拉,展示角色的整体姿态。
视频是连续的,上一个镜头的结束状态必须和下一个镜头的起始状态一致:
镜头1 结尾:手举到最高点 镜头2 开头:必须从最高点开始落下 镜头3 结尾:角色转身,背对镜头 镜头4 开头:从背影开始
这叫"动作衔接"(Match on Action),违反这条就会出现跳帧。
将简单动作拆解为多个阶段:
"转身离开"拆解为: (1) 脚尖旋转 -> (2) 摆动衣角 -> (3) 背影远去 "愤怒地拍案而起"拆解为: (1) 手掌颤抖 -> (2) 猛击桌面 -> (3) 产生裂纹/纸张震起 (4) 顺势站起 -> (5) 椅子撞墙 -> (6) 胸口起伏
动作必须影响环境:
这是一个震撼的无人机跟拍镜头,近距离捕捉一只金雕在险峻的红色大峡谷中极速俯冲。 金雕的羽毛在强劲的气流中微微颤动,眼神锐利地锁定地面。 镜头随着金雕的动作快速下坠并穿越狭窄的岩石缝隙。 阳光从峡谷上方呈光束状洒落,照亮了飞扬的尘土颗粒。 画面具有IMAX电影级的质感,色彩饱满,超高清晰度,完美展现了速度感与野性之美。
这段包含了:
当需要 AI 帮你把剧本转成分镜脚本时,有一套专门的约束规则。
- 1个 15s 单元仅允许处理剧本中约 2-3 句台词/动作描写 - 每个 15s 单元必须包含 6-10 个镜头 - 严禁在一个单元内压缩整页剧情
- 逐句映射:必须在分镜详情中标注该镜头对应剧本的哪一句话 - 台词全保留:剧本中的每一句对白必须出现在 dialogue 字段中 - 动作补完:"他很生气" -> [推镜头到眼部特写] -> [额头青筋跳动] -> [重击桌面]
当有角色/场景资源列表时:
- 匹配成功:替换为对应的 ID 标签(如 [@C01], [@S02]) - 匹配失败/列表为空:保留原始名称或使用具体的视觉外观描述 - 绝不允许凭空编造列表中不存在的 ID
{ "storyboard": [ { "id": 1, "duration": "15s", "script_reference": "对应剧本第 X 行至第 Y 行内容", "summary": "详细描述本段涵盖的微小情节起伏", "prompt": "【1-1 | 0-2s | 特写】动作:[手掌颤抖->猛击桌面] | 台词:'够了!'\n【1-2 | 2-4s | 中景】动作:[顺势站起->椅子撞墙]\n【bgm】沉闷压抑到重音突发\n【sfx】重击声、木材碎裂声" } ] }
当需要输出可视化的故事板时,推荐 2x3 六宫格格式。
**【缓冲对抗层】** Grid 1 (0-1s): 全黑画面,用于视频剪辑留白 Grid 2 (1-3s): 视觉桥接,环境定场/转场逻辑 **【正片关键帧序列】** Grid 3 (Keyframe 1): 全景/中景,交代情境 Grid 4 (Keyframe 2): 特写/面部特写,聚焦冲突点 Grid 5 (Keyframe 3): 推动情节的动态镜头 Grid 6 (Keyframe 4): 为下一场戏预留接口
- 景别: 全景/中景/近景/特写 - 运镜: 推镜头/平移/固定/希区柯克变焦 - 画面内容: 必须包含[前景]、[中景]、[后景]的具体物件和光影 - 设计意图: 说明此镜头在叙事上的目的 - 台词: 剧情中人物台词、对话、内心OS、旁白等
生图快速模板:
[主体:人物/物体 + 动作 + 外貌], [环境:场景 + 天气 + 时间], [构图:景别 + 角度 + 景深], [风格:画风 + 渲染方式], [光影:光源 + 色调], [画质:分辨率 + 细节词]
视频快速模板:
[运镜方式],[相机移动轨迹]。 [主体动作] + [物理反馈]。 [环境描写] + [随时间的变化]。 [光影与氛围]。 [技术参数]。
| 错误 | 正确做法 |
|---|---|
| 口语描述 | 用专业术语 |
| 只描述状态 | 描述变化过程 |
| 格式要求模糊 | 给出完整示例 |
| 没有禁止项 | 明确列出禁止行为 |
| 单纯堆砌关键词 | 写成通顺的段落 |
| 把多个角色合并描述 | 每个角色单独条目 |
| 镜头超过 15 秒 | 拆分为多个短镜头 |
提示词很难一次写好,建议的迭代流程:
提示词工程说到底就是两件事:
没有什么神秘技巧,就是多写、多调、多总结。遇到效果不好的输出,别急着换工具,先想想是不是自己的提示词没写清楚。
毕竟,AI 只是执行者,真正的导演是你。
本文整理自实际项目中的提示词设计经验,如有问题欢迎交流。