上线我的 2.0

上线我的 2.0

马图图

岁月变迁何必不悔,尘世喧嚣怎能无愧。

16 文章数
1 评论数
AI

提示词工程实战手册:对话、生图、视频三域指南

Matuto
2025-12-30 / 0 评论 / 35 阅读 / 0 点赞

提示词工程实战手册:对话、生图、视频三域指南

这份手册整理自实际影视制作项目中的提示词设计经验。不谈理论,直接上能用的方法论。


一、对话提示词:让 AI 成为你的专业搭档

1.1 角色设定是起点

给 AI 一个具体的身份,不是敷衍地说"你是助手",而是要明确到岗位级别:

你是一位顶级影视概念设计师与剧本分析师。
你的核心能力是"全员捕捉",负责将剧本中的所有登场角色转化为标准化的人物概念生成提示词。

角色定位直接决定了 AI 的输出视角和专业度。"剧本分析师"会自动带入行业术语,比"助手"精准太多。

设定技巧:

  • 角色具体到行业+岗位
  • 加上"顶级"、"资深"、"精通"等修饰词
  • 用一句话说清核心能力

1.2 核心逻辑成体系

光有角色还不够,得告诉 AI 具体怎么干活。这部分叫"核心逻辑",本质是一套执行框架:

# Core Logic (核心逻辑 - 请严格执行)

1. 全域扫描机制 (Full Capture):
   - 对话扫描:提取所有有台词的角色
   - 动作扫描 (关键):重点检查以 ▲、△、【、( 开头的舞台指示
   - 忽略背景板:忽略无具体描述的泛指人群

2. 群体细分原则:
   - 严禁将不同特征的角色合并
   - 若剧本区分了"女弟子A"与"男弟子B",必须拆分为两个独立条目

3. 视觉与台词规范:
   - 有台词者:提取最具代表性的一句原话
   - 无台词者:替换为 (Silent, expression: [神态描述])

关键点:

  • 用编号建立层级,逻辑清晰
  • 正面说"要做什么",反面说"禁止什么"
  • 重要规则用加粗标注
  • 给出具体例子,避免歧义

1.3 输出格式必须锁死

AI 最容易跑偏的就是输出格式。不锁死,它就会自由发挥,加一堆解释性文字。

# Output Format (Strict JSON)

- 绝对禁止使用 Markdown 代码块(json)
- **绝对禁止**在 JSON 前后添加任何解释性文字
- 输出必须是 **Raw JSON String**
- JSON 结构如下:
{
  "data": [
    {
      "name": "角色中文名",
      "content": "中文提示词"
    }
  ]
}

为什么这么严格?因为 AI 输出会被程序解析。多一个 markdown 符号,下游就炸了。

格式约束技巧:

  • 明确禁止项,用"绝对禁止"强调
  • 给出完整格式示例
  • 字段含义标注清楚

1.4 通用公式降低成本

当任务有固定模式时,直接给 AI 一个公式模板:

通用生成公式 (Prompt Formula)[风格设定] 全身视角 [角色名], [年龄/身份], 站在白色背景前, [外貌/服饰/神态细节], 正在用中文普通话面向镜头, [台词处理]

公式让 AI 不用思考结构,只需往槽位里填内容。输出一致性直接拉满。

1.5 对话提示词模板

# Role: [职业身份]

## Profile
[一句话介绍核心能力]

## Goal
[本次任务目标]

## Core Logic
- [执行规则一]
- [执行规则二]
- [执行规则三]

## Output Format
[输出格式要求 + 示例]

## Constraints
- [禁止事项一]
- [禁止事项二]

## Example
[输入输出示例]

二、生图提示词:用文字控制画面

图像生成和对话完全是两套逻辑。对话是让 AI 理解意图,生图是让扩散模型"看见"你描述的画面。

2.1 五维描述框架

好的生图提示词至少覆盖五个维度:

维度 说明 示例
主体 核心人物/物体,动作、外貌、服饰 一位身着精美汉服的少女,红色斗篷边缘镶嵌白色绒毛
环境与构图 背景、拍摄视角、景深 飘雪的冬日庭院,红梅在枝头绽放,中景构图,浅景深虚化
风格与媒介 艺术风格、渲染方式 中国古典工笔画风格结合写实厚涂
光影与色彩 光源类型、色调 柔和的漫射光,唯美氛围
画质修饰 分辨率、细节程度 高精度,8k壁纸级画质,极其细腻的皮肤纹理

完整示例:

一位身着精美汉服的少女,红色的斗篷边缘镶嵌着白色绒毛,面容清冷绝美,眼神凝视远方, 飘雪的冬日庭院,红梅在枝头绽放,中景构图,浅景深虚化背景, 中国古典工笔画风格结合写实厚涂, 柔和的漫射光,唯美氛围, 高精度,8k壁纸级画质,极其细腻的皮肤纹理。

2.2 角色设计公式(三视图)

做角色设定图时,需要标准化的多视角展示:

[角色名]的人设概念设计稿,[身份/年龄],[风格背景描述]。
这是一张包含多个视角的展示图:包含正面、背面、左侧面、右侧面四位一体的全身展示,展现角色完整的身体比例。
背景为纯白色。
画面侧方包含:[发型及发饰细节描述]、[服装材质与剪裁工艺细节]的放大拆解图。
整体呈现为专业三视图排版,光影均匀,超高清画质。
图片底部正中央显著标注角色名称:"[角色名]"。

要点:

  • 明确要求"多视角展示"控制构图
  • "纯白色背景"方便后期抠图
  • 细节特写单独拎出来
  • 标注角色名方便识别

2.3 场景设计公式(九宫格)

场景图需要更全面的空间展示,推荐 3x3 九宫格布局:

[场景名]的场景概念设计稿,[时间/天气],[整体风格与氛围描述]。
这是一张严格的3x3九宫格布局的技术拆解图(3x3 grid sheet)。
正中央为场景标准透视效果图。
周围环绕六视图及细节:上方为顶视图,下方为地面平面图,左侧为左墙立面,右侧为右墙立面,四角分别为前视、后视及[材质与道具]特写。
全方位展示空间的六个面。
光影逻辑统一,[建筑材质描述],8k分辨率,虚幻引擎5渲染质感。
图片底部正中央显著标注场景名称:"[场景名]"。

九宫格位置映射:

[1前视]   [2顶视]   [3后视]
[4左立面] [5主视图] [6右立面]
[7材质]   [8底视]   [9道具]

2.4 道具设计公式

[道具名]的道具概念设计稿,[类别/功能],[风格描述]。
这是一张专业工业设计分解图。
画面中央为物品的45度标准透视图。
周围包含:正视图、侧视图,以及局部的[核心部件/内部构造/符文细节]的精密特写。
重点刻画[材质描述,如锈蚀、光泽、魔力流光]。
背景为纯白色,演播室布光。
图片底部正中央显著标注道具名称:"[道具名]"。

2.5 特效/技能公式

画光效、粒子、技能释放时,背景要用深色:

[技能名]的VFX特效概念设计稿,[属性/能量类型],[视觉冲击力描述]。
画面展示了技能释放瞬间的动态冻结。
核心包含:[光效颜色与形态]的能量爆发,周围伴随[粒子效果/碎片/气流/残影]的轨迹。
高对比度光影,强调半透明材质与发光效果。
背景为深色以突显特效。
图片底部正中央显著标注技能名称:"[技能名]"。

为什么用深色?发光效果在白背景上看不出来,对比度不够。

2.6 术语要专业

生图提示词的用词讲究,不能太口语化:

口语 专业术语
好看的光 体积光 / 电影级布光 / 伦勃朗光
模糊的背景 浅景深虚化 / Bokeh 效果
很细致 8K分辨率 / 超高清 / 细节丰富
动漫风格 2D Anime / 吉卜力风格 / 赛璐珞着色
真实感 照片级写实 / Unreal Engine 5 渲染
有质感 丁达尔效应 / 材质纹理 / 光追效果

三、视频提示词:时间轴上的叙事

视频和图像最大的区别是:视频有时间。描述的不是一个瞬间,而是一段连续的变化过程。

3.1 描述"变化"而非"状态"

图像提示词可以写"她穿着红裙子",但视频提示词得写"她的红裙摆随风扬起,又缓缓落下"。

反面教材:

一个女孩站在海边。

正确写法:

镜头从女孩背影缓慢推近,海风吹起她的长发,她转过头来,眼神中带着一丝惆怅,远处的海浪轻轻拍打礁石。

3.2 运镜术语必备

视频提示词的灵魂是运镜,以下术语需要熟记:

术语 说明
推镜头 (Dolly In) 镜头向前移动,画面放大
拉镜头 (Dolly Out) 镜头向后移动,画面缩小
摇镜头 (Pan) 镜头左右旋转
升降镜头 (Crane) 镜头垂直上下移动
跟镜头 (Tracking) 镜头跟随主体移动
希区柯克变焦 (Dolly Zoom) 推拉与变焦反向配合,产生眩晕感
无人机航拍 高空俯视,大场景
Rack Focus 焦点快速切换,从 A 聚焦到 B

3.3 15 秒是硬红线

当前主流 AI 视频模型(Sora、Runway、可灵)的生成极限约 15 秒。分镜设计时:

  • 单个镜头不超过 15 秒
  • 动作/打斗镜头 2-4 秒
  • 情感/对白镜头 5-8 秒
  • 复杂运镜需分阶段描述

3.4 长台词的动态化处理

角色有长台词时,不能让画面呆住。解决方案是复合运镜:

随着台词前半段,镜头从全景缓慢推至中景;
当说到高潮句时,镜头快速聚焦(Rack Focus)到角色眼神特写;
台词结束时,镜头微微后拉,展示角色的整体姿态。

3.5 物理连续性:Match on Action

视频是连续的,上一个镜头的结束状态必须和下一个镜头的起始状态一致:

镜头1 结尾:手举到最高点
镜头2 开头:必须从最高点开始落下

镜头3 结尾:角色转身,背对镜头
镜头4 开头:从背影开始

这叫"动作衔接"(Match on Action),违反这条就会出现跳帧。

3.6 微动作拆解

将简单动作拆解为多个阶段:

"转身离开"拆解为:
(1) 脚尖旋转 -> (2) 摆动衣角 -> (3) 背影远去

"愤怒地拍案而起"拆解为:
(1) 手掌颤抖 -> (2) 猛击桌面 -> (3) 产生裂纹/纸张震起
(4) 顺势站起 -> (5) 椅子撞墙 -> (6) 胸口起伏

3.7 环境要有反馈

动作必须影响环境:

  • 拍桌子 -> 灰尘震起、纸张飞扬
  • 走过水面 -> 涟漪扩散
  • 愤怒爆发 -> 窗帘随气流摆动
  • 高速移动 -> 残影、地面开裂

3.8 完整视频提示词示例

这是一个震撼的无人机跟拍镜头,近距离捕捉一只金雕在险峻的红色大峡谷中极速俯冲。
金雕的羽毛在强劲的气流中微微颤动,眼神锐利地锁定地面。
镜头随着金雕的动作快速下坠并穿越狭窄的岩石缝隙。
阳光从峡谷上方呈光束状洒落,照亮了飞扬的尘土颗粒。
画面具有IMAX电影级的质感,色彩饱满,超高清晰度,完美展现了速度感与野性之美。

这段包含了:

  • 运镜方式(无人机跟拍)
  • 主体动态(俯冲、羽毛颤动)
  • 环境变化(穿越岩石缝隙、尘土飞扬)
  • 光影(阳光光束、照亮尘土)
  • 画质要求(IMAX、超高清)

四、分镜脚本编写规范

当需要 AI 帮你把剧本转成分镜脚本时,有一套专门的约束规则。

4.1 节奏控制

- 1个 15s 单元仅允许处理剧本中约 2-3 句台词/动作描写
- 每个 15s 单元必须包含 6-10 个镜头
- 严禁在一个单元内压缩整页剧情

4.2 剧本忠实锁

- 逐句映射:必须在分镜详情中标注该镜头对应剧本的哪一句话
- 台词全保留:剧本中的每一句对白必须出现在 dialogue 字段中
- 动作补完:"他很生气" -> [推镜头到眼部特写] -> [额头青筋跳动] -> [重击桌面]

4.3 ID 替换策略

当有角色/场景资源列表时:

- 匹配成功:替换为对应的 ID 标签(如 [@C01], [@S02])
- 匹配失败/列表为空:保留原始名称或使用具体的视觉外观描述
- 绝不允许凭空编造列表中不存在的 ID

4.4 分镜输出格式

{
"storyboard": [
{
  "id": 1,
  "duration": "15s",
  "script_reference": "对应剧本第 X 行至第 Y 行内容",
  "summary": "详细描述本段涵盖的微小情节起伏",
  "prompt": "【1-1 | 0-2s | 特写】动作:[手掌颤抖->猛击桌面] | 台词:'够了!'\n【1-2 | 2-4s | 中景】动作:[顺势站起->椅子撞墙]\n【bgm】沉闷压抑到重音突发\n【sfx】重击声、木材碎裂声"
}
]
}

五、六宫格故事板规范

当需要输出可视化的故事板时,推荐 2x3 六宫格格式。

5.1 布局结构

**【缓冲对抗层】**
Grid 1 (0-1s): 全黑画面,用于视频剪辑留白
Grid 2 (1-3s): 视觉桥接,环境定场/转场逻辑

**【正片关键帧序列】**
Grid 3 (Keyframe 1): 全景/中景,交代情境
Grid 4 (Keyframe 2): 特写/面部特写,聚焦冲突点
Grid 5 (Keyframe 3): 推动情节的动态镜头
Grid 6 (Keyframe 4): 为下一场戏预留接口

5.2 每格必含要素

- 景别: 全景/中景/近景/特写
- 运镜: 推镜头/平移/固定/希区柯克变焦
- 画面内容: 必须包含[前景]、[中景]、[后景]的具体物件和光影
- 设计意图: 说明此镜头在叙事上的目的
- 台词: 剧情中人物台词、对话、内心OS、旁白等

六、日常使用备忘

6.1 快速模板

生图快速模板:

[主体:人物/物体 + 动作 + 外貌],
[环境:场景 + 天气 + 时间],
[构图:景别 + 角度 + 景深],
[风格:画风 + 渲染方式],
[光影:光源 + 色调],
[画质:分辨率 + 细节词]

视频快速模板:

[运镜方式],[相机移动轨迹]。
[主体动作] + [物理反馈]。
[环境描写] + [随时间的变化]。
[光影与氛围]。
[技术参数]。

6.2 常见错误

错误 正确做法
口语描述 用专业术语
只描述状态 描述变化过程
格式要求模糊 给出完整示例
没有禁止项 明确列出禁止行为
单纯堆砌关键词 写成通顺的段落
把多个角色合并描述 每个角色单独条目
镜头超过 15 秒 拆分为多个短镜头

6.3 迭代优化流程

提示词很难一次写好,建议的迭代流程:

  • 基础版:跑通流程,能输出结果
  • 约束版:加入格式约束,稳定输出结构
  • 增强版:补充边界处理、错误兜底
  • 优化版:根据实际生成效果调整描述权重

结语

提示词工程说到底就是两件事:

  • 让 AI 明白你要什么(角色设定 + 任务描述 + 格式要求)
  • 让生成模型"看见"你想要的画面(结构化描述 + 专业术语)

没有什么神秘技巧,就是多写、多调、多总结。遇到效果不好的输出,别急着换工具,先想想是不是自己的提示词没写清楚。

毕竟,AI 只是执行者,真正的导演是你。


本文整理自实际项目中的提示词设计经验,如有问题欢迎交流。

上一篇 下一篇
评论
来首音乐
光阴似箭
今日已经过去小时
这周已经过去
本月已经过去
今年已经过去个月
文章目录
每日一句