有能生成方言的AI视频工具吗?字节Seedance 1.5 Pro实测,很有意思!
2026-01-08 17:41
102
在近日举办的FORCE原动力大会上,火山引擎正式发布豆包视频生成模型Seedance 1.5 Pro,以其突破性的音画同步技术和多方言支持能力。
这次的更新,真的做到了影视级别的音画同步,而且中文能力和方言能力是目前所有模型里的独一档。语音生成能力这点在他们的技术报告里也有体现。
左边是视频生成能力,右边是语音生成能力。绿色的就是Seedance新模型,在语音生成这一块可以说是遥遥领先。。。

模型已经上线了,可以直接在豆包,即梦或者火山方舟上玩起来。
豆包是在视频生成或者照片动起来这一栏里选1.5 Pro模型。

即梦是在生成视频里选3.5 Pro,也是基于Seedance 1.5 Pro的能力。
目前3.5 Pro支持文生图,单参考和首尾帧,智能多帧和主体参考还要再等等,不过现在这些其实已经很够用了。
Seedance 1.5 Pro的能力维度,我觉得可以分成这么几大块,复杂场景的音画同步能力、中文和方言内容输出能力、情感表现力。
一.音画同步
最基本也最重要的,就是主体说话时的唇形一致性,我们的第一个case也从这个测起。
提示词:让这个猴子在摄影棚里唱一段rap,猴子对着镜头说唱,镜头跟随猴子的动作运镜,雷鬼+tropical风格,浑厚黑人嗓音,从口哨声引入,第二秒开始加入强节奏的鼓点,第三秒后加入有节奏感的rap词,语速100BPM,同步配合鼓点:As Moko the monkey,skankin’in the sun,Swingin’through the palm trees,life’s just for fun,Big smile,no fear—One love from the jungle,yeah I’m right here!

如上,对口型对的很完美,呲着一口大白牙,非常引人瞩目。
非要挑点什么问题的话就是,rap的节奏感还有进步的空间。。。
然后再看一个多人对话场景,提示词如下:

一来一回总共四句对话,只要写清楚对话内容和顺序,就能准确地把台词分给每一个人。

除了对口型同步之外,Seedance 1.5 Pro还能做到多分镜音画同步。
而且因为它最高支持秒12秒的视频生成,所以你甚至可以直接用参考图+文生分镜,roll一个小小的广告短片。
二.中文和方言能力
第二个,就是中文和方言的输出能力。
其实我测下来发现,1.5 Pro的多语言能力很拿得出手,英语日语韩语西语都能无障碍输出。
但我要重点说的还不是多语言能力,因为我觉得,中文和方言能力才是它最强的技能点。
在所有模型中,seedance 1.5pro的方言能力是断档的强。
它是我见过的第一个,说粤语说得有点韵味的模型。
除了粤语之外,四川话,上海话,东北话,台湾腔,也都能自如切换。
所以,你就可以让上海人和北京人用自己的方言吵架,也可以在东北话和台湾腔之间无缝切换。
说不同语言跟方言这里也有一个小技巧,就是,要给它原版语言或者方言的提示词,比如英文版的真相只有一个就得跟它说,There’s only one truth,说粤语的话,就要这样写:呢个世界上有一种雀係冇脚嘅。
不会粤语也没关系,直接和ChatGPT帮你翻译就行,就像这样。

三.情感表现力
Seedance 1.5 Pro这次还有一个大幅度提升的能力,就是情感表现力。
哪怕是同一句台词,规定不同的情境之后,也能说出完全不一样的感觉。
提示词非常简单,就一句话。

这个表演合集,大家也可以品鉴一下。

我自己看这些表演的时候,有好几个瞬间都感觉,我是不是正在看什么豪门真假千金的短剧片段。
因为它真的能演出来嘴角颤抖,一声冷哼,皮笑肉不笑,眼睛叽里咕噜转,倒吸一口凉气,这些短剧中熟悉而微妙的细节。
而且声线也会跟着不同的情绪变化,很有代入感。
就感觉,Seedance 1.5 Pro已经可以进军短剧界了。。。
而且这个情感表现力不只是体现在台词上,而是包括配乐,音效,运镜,各种能力和细节综合起来,最终实现你想要的效果。
来总结一下这次的Seedance 1.5 Pro更新。
虽然最近视频模型集体从默片时代跨入有声时代,可以说是前狼后虎,但在这种局面之下,我觉得,1.5 Pro依然很能打。
它的优势,除了能够满足方言这种更加细粒度和个性化的需求之外,更重要的是,真正让声画的结合做到了1+1大于2的效果。
我们都说,电影是声画的艺术。
这次的更新,就让画面,台词,音效,节奏,情绪,都能很好地融合在一个视频里,输出一个广告级,甚至是影视级别的成品。
这意味着,生成出来的不再是只有画面加上简单音效的半成品,而是可以直接上剪辑台的素材。
这对于AI视频的工业化,是一个巨大的提升。
再往上一层,甚至对于AI视频的创作方式和理念来说,也是一个巨大的提升。
以后的创作,就不再只是考虑画面如何了,声音也会一起纳入考虑的范畴。
就会出现新的提示词方式、新的视频形态、新的制作流程,进而引发,新的生产力变革。
0
好文章,需要你的鼓励
