怎么做连续AI动画视频？6 步搞定剧情连贯 + 人物一致！

2025-12-07 17:47

129

要做出一部完整的动画短片，必须保证画面风格美观统一。

今天手把手带你走完整个制作流程，帮你快速上手。

动画的风格其实是有很多种的，比如吉卜力风格、中国古风、水墨风，我们这里就以3D动画为例。

AI制作动画有两种生成方式：

一种是文生视频，

一种是图生视频，

文生视频其实是比图生视频更简单一点的，但图生视频有两个比较突出的优势，一个是生成更具一致性的视频，第二点就是能生成更具质感的视频。

那为什么说图生视频能生成更具质感的视频呢？

因为AI视频说白了就是一个模型，而模型是要靠训练的素材，那么此时，让它生成没有训练过的内容——生成效果很差。

就比如我让它生成一个猪八戒的视频，AI对猪八戒是没有什么概念的，所以生成的视频如上图这个野猪样子，和我们理想中的相差十万八千里。

但我们可以用一张图片去引导他的生成，比如我给AI一张猪八戒的图片作参考，他知道了猪八戒长什么样子，就生成如上图这样的，而你的图片质量越高，生成的视频质量也会越高。

接下来拆解一下图生AI动画的制作流程：

我们首先让AI给我们生成剧本，我们再利用剧本当中的画面内容描述，去生成每个镜头的关键帧。在学习如何使用AI生成分镜图片前，我们要了解如何通过AI绘画来保持视频的一致性。

AI绘画提示词的基本结构一般包括以下6个部分：

主体、场景、光线、构图、色调、风格。

我们几乎可以生成所有形式的图片，比如这张图的提示词：侧面视角，黄昏时分，一个身穿红色长裙的女孩，站在海边的岩石上望着夕阳，暖色调，写实风格。

这段提示词就包含了所有的6个要素，侧面视角是构图，黄昏是光线，海边岩石是场景，红色长裙女孩是主体，最后是暖色调和写实的风格。这6个要素不一定要同时具备，也是可以生成图像的，但是要生成精准可控的图像，我们还是要尽量包含所有的要素。

如果是生成视频画面的图片，一般我们可以直接使用AI脚本里的提示词，将提示词复制粘贴到AI绘画工具当中，就可以直接生成相应的画面了。

了解了AI绘画的生图逻辑后，我们再来看它的一致性设计，主要分为风格的一致性、场景的一致性和主体的一致性。风格的一致性还包含了色调的一致性，最简单的方法是将想要的风格置于提示词的最前面，纹身视频也同样适用。

场景一致性目前主要有两种方法：

参考重绘法（提供360度场景参考图）和细节描述法。

参考重绘法就是提供一张参考图，然后用参考图生成相似的场景，然后再在该场景中生成主体。这种方法提供的场景参考图需要有360度的可参考角度，从而实现不同角度下的镜头可360度取景。

参考图的获取方法有三种：

1.实拍，这种比较麻烦；

2.各地地图卫星地图功能，相当于用他的已有拍摄数据，世界各地的景点都是可以取景的；

3.天空盒子，直接生成360度的3D场景，按照自己想要的来生成。

细节描述法就是直接通过详细的提示词描述生成相似的场景，选取场景中最一致的图来用，在对场景一致性要求不是很高的情况下，我们采用最多的就是细节描述法。

最后是主体的一致性，主体不只是人物，动物、植物以及各种物体都属于主体，涉及最多的是人物的一致性，不同的AI工具，实现方法也不同，最简单的方法还是通过提示词描述，从相似结果中选取最接近的结果来用。

既然风格、场景、主体都可以通过提示词来控制一致性，那我们也可以把这套逻辑告诉AI，然后让它帮我们生成合适的提示词。

我们来看下面这个例子：

风格设计：冷色调赛博朋克风格，给整个视频的画面定了基础色调。影片中出现两次以上的场景设计都需要进行美术设计，这个短片有两个重复出现的场景，所以这里对城市和控制中心进行了细节的描述。

角色设计有两个，一个是叛乱者，一个是执法者，我们看这里，叛乱者：穿着深色皮质外套，短发，五官精致的亚洲女性。我们做出来的结果会发现，虽然都是按照这个提示词来生成的，但是前后角色依然存在一定的差异，所以我们可以进一步描述人物的发型、脸型、人种等等，描述得越详细，生成的结果就会越接近。

那么我们拿到这些提示词后，就可以进行视频的生成了。这部分适用于整部影片的所有画面，然后是场景和主体设计部分，首先需要对人物进行定妆，也就是按照AI设计好的提示词生成人物的原始参考图，然后以这个人物的参考图，生成该人物在各种角度下的图片，我们称之为参考图或者关键帧。

关键帧主要有四种：

1.首帧，整个视频以这个画面为基础进行生成；

2.尾帧，比如视频从某个场景切换到另一个场景，一般主体都是需要保持一致性的，所以需要将有主体的尾帧作为关键帧；

3.中间帧，是视频中间的某个画面作为关键帧；

4.前后关键帧，这种情况一般出现在由一种状态变化到另一种状态的情况，通过这四种情况的关键帧，实现视频的生成。

用AI生成视频并不难，用AI生成一条长视频也不难，难的是生成一条剧情连贯的视频，就是视频生成的可控性和效率问题。

可控性方面，如果你用AI生成过视频，你应该有过这样一种感触，别人生成的视频惊艳绝伦，自己生成的视频却土的掉渣，甚至用的是同样的工具，生成出来的视频效果却大相径庭。

如果你没有用AI生成过视频，那你应该也刷到过两种AI视频，一种让人惊为天人，甚至赞不绝口，一种让人尴尬到抠脚，刷到就划走。同样是AI生成，为什么会有这么大的差距？

这里面有两大核心原因：模型和提示词。

每一个AI视频工具都会有自己的模型，而不同的AI视频工具，生成的视频效果差距是非常大的。提示词直接决定了生成视频的结果，可以生成极具电影感的镜头，也可以生成极具拉跨的镜头，这就和提示词有很大的关系。模型决定了所生成视频的下限，而提示词决定了所生成视频的上限。

精准生成自己想要的视频和效果：

一是选择合适的模型，不同的模型拥有不同的擅长点，比如RW擅长运镜和写实风景类的视频，皮卡擅长动漫类的视频，可伶擅长中国元素的视频，海螺擅长电影感的视频，我们可以根据自己要做的影片类型去挑选适配的工具。

二是选择恰当的提示词，而视频是动态的，比图片多了动态提示的部分，我们可以把它拆分为：运镜+场景+主体+额外细节。

其中运镜包括了相机距离、拍摄角度和移动方式，而额外细节包括了风格、色调、光线等等。合理的运用好这些要素，就可以生成自己想要的视频。

精准生成的核心是精准的提示，我们只需要把这段结构和逻辑告诉AI，就能精准的生成脚本中的分镜头。

我们生成一段影片其实是很快的，通常生成1分钟左右的视频，一条视频从生成剧本开始，总共也就花了6到12小时的时间，这是文生视频的时间，如果是图生视频的话，因为多了个生图的过程，图生视频的操作和文生视频稍微有些区别。

至于我们用AI制作动画文生图的方法，这里我不是很建议大家用文生图的方式，因为这种方式最大的问题就在于如何保持角色的一致性。

在AI绘画当中，我们使用专门为这个角色训练的模型就可以了，但在AI视频生成当中，并没有这样的模型，而且这些模型之间的关系，不过是效果更好和效果差一些的关系，并没有对人物造型生成类型进行特化。

即便我们的提示词对角色进行了详细的描述，但最终生成的效果依然会存在这一段视频和上一段视频人物大相径庭的情况，我们只能碰运气多次生成，但目前的AI视频生成，不管是时间成本还是资金成本都是比较高的。

除非是一些知名度较高的角色，就可以让AI生成固定的角色造型，而对于原创的角色，还是建议通过后期修改的方式保持角色造型的一致性，这样做的成本是最低的。

好文章，需要你的鼓励