大家好,这里是名堂文化技术组。今天我们不聊虚的,直接上干货,深度拆解我们原创IP “粤记橙仔” 从无到有的AI视频制作全流程。这是一次将大语言模型、文生图、图生视频、专业剪辑与AI配音技术串联起来的完整实践,希望能给各位内容创作者一些硬核参考。
一、整体技术栈与工作流简单来说,我们的流程可以概括为 “文本驱动设计,分帧渲染合成”。核心是让AI工具各司其职,并在关键节点由人工介入进行质量控制与艺术调校。
[此处为工作流示意图:DeepSeek → Sora → Lovart → Veo 3.1 → Premiere Pro → 马克配音]
1
角色灵魂注入:DeepSeek生成3D原型一切始于精准的“提示词工程”。我们在DeepSeek中,基于“多柚趣”的人物基底,进行多轮对话式调试,生成高度结构化的3D人物描述。
DeepSeek
// 示例提示词结构主体:年轻男性,10-18岁外观特征:标志性大大的扁圆橙子头,发梢带绿叶装饰,耳朵是八分音符服装:现代外套+休闲长裤,主色调为橙色与绿色,胸前有一个“1”字风格:3D卡通,Pixar风格,多边形面数适中表情基调:开朗、好奇、带有一丝可爱特殊要求:需兼容三视图生成,角色比例符合3头身
这一步的产出并非图像,而是一份“机器可读”的精准文本蓝图,为后续所有视觉化步骤定下不可动摇的基调。
2
视觉基准建立:Sora生成专业三视图将上一步的详细描述输入Sora,核心指令是生成标准的角色三视图(正面、侧面、背面)。这是确保角色在后续任何角度、任何动作下都能保持一致性的关键。

Sora生成的粤记橙仔形象
fully rigged 3D character, Dodge waving and smiling, dynamic pose, expressive face, well-defined topology for animation, natural cloth folds, vibrant color palette, sitting on a park bench in Guangzhou, warm natural sunlight, action pose, character turntable, loop animation, V-Ray render
技术要点: 在提示词中必须明确强调“角色设计表”、“三视图”、“white background”、“orthographic views”等专业术语,以确保输出符合工业标准,方便后续建模或直接使用。
我们得到了橙仔的第一张“身份证”,也是后续所有绘图的黄金参考。
3
质感精细化:Lovart的深度加工Sora生成的三视图是“素模”。我们将其导入Lovart,利用其强大的图像理解与生成能力,进行质感增强、细节补充与风格强化。
Lovart
具体操作包括:
为服装添加合理的布料纹理与褶皱。
细化头发的高光与层次感。
统一并强化“岭南潮玩”的整体色彩风格。
这一步后,橙仔从一个概念,变成了一个可直接用于宣发的精美角色立绘。


4
分镜生成:DeepSeek编剧 + Lovart绘图我们回到DeepSeek,输入指令:“根据‘粤记橙仔在凉茶铺智趣探店’的主题,生成一个15秒短视频的详细分镜脚本,包含场景、镜头、人物动作和表情描述。”
DeepSeek Lovart
AI返回了一个包含8个镜头的表格。我们再将每一个镜头的描述单独提交给Lovart,生成对应的静态画面。这相当于绘制了8张关键帧。
为何分镜生成: 直接让AI生成连续视频容易导致角色漂移和逻辑混乱。分帧生成,再合成动画,是当前保证画面质量与叙事连贯性的最稳妥方案。

5
动起来!Veo 3.1的图生视频魔法这是最激动人心的一步。我们将Lovart生成的8张关键帧,按顺序导入其集成的Veo 3.1视频模型中。

Lovart (Veo 3.1)
输入设置
上传序列图片
设置每段时长(1.5-2秒)
选择运动幅度:中等(保证稳定)
启用“角色一致性”增强
输出结果
8段独立的动态视频片段
角色动作自然(如眨眼、转身)
场景有合理的微运动(如蒸汽飘动)
角色形象基本保持稳定
至此,我们获得了视频的全部原始动态素材。
6
灵魂剪辑:PR中的节奏与叙事重塑AI生成的视频片段是“原料”。我们在Adobe Premiere Pro中将它们拼接起来,进行二次创作。

Premiere Pro
核心工作包括:
节奏修剪: 掐掉不自然的起始帧,调整片段时长,控制整体节奏。
转场特效: 添加平滑的转场,使镜头衔接更符合视觉逻辑。
调色统一: 对所有片段进行LUT调色,确保画面色调统一且富有“潮玩”质感。
基础音效添加: 先配上环境音、基础音效,为配音铺底。
PR环节是将AI素材“驯化”为专业作品的关键。7
乡音点睛:AI粤语配音的本地化灵魂“粤记橙仔”怎能不说粤语?我们使用马克配音工具的AI配音功能。

马克配音 操作流程:
将PR中确定的最终台词文本导出。
在马克配音中选择“粤语”,并筛选年轻、有活力的男声音色。
输入文本,调整语速、停顿和重音,生成配音文件。
将配音文件导入PR,进行精准的口型对齐(尽管是动画,但声音与画面情绪需匹配)。
一句地道的“唔该嗮!”,瞬间让角色“活”了过来,文化归属感拉满。
二、技术复盘与核心心得1. 优势:效率与创意的爆炸传统流程中,角色设计、分镜、动画、配音环环相扣,周期以月计。本次流程将核心创意周期压缩到了数天。DeepSeek解决了“从0到1”的创意结构化问题,Sora/Lovart/Veo解决了“从1到100”的视觉化问题。
2. 挑战:可控性与一致性的博弈最大的挑战依然是角色一致性。即便有三视图,AI在生成不同角度和动作时仍可能出现偏差。我们的解决方案是:“关键帧控制+后期补救”。在PR中,对于细微的形变,有时会使用关键帧缩放、位置微调进行“视觉矫正”。
3. 未来:AI是超级助手,而非取代者全程下来,我们的体会是:AI是强大的“创意加速器”和“执行伙伴”,但“审美判断”、“叙事节奏把控”和“文化内核注入”依然牢牢掌握在人的手中。人机协作的最优模式是:人类定义规则与审美,AI负责海量执行与方案生成,人类最终选择与调优。
给尝试者的建议: 不要指望一个提示词就能生成完美成片。将大任务拆解为(文本设计→视觉基准→分镜→动态化→后期)多个可控子任务,并在每个环节设置明确的验收标准,是成功的关键。
本案例由「名堂文化」技术团队实践并分享
关注我们,获取更多AIGC与IP开发的一线实战干货
© 2025 名堂文化 | 原创内容,转载请注明出处