谷歌Gemini推出多参考图像视频生成功能

2025-11-17 14:29

最近谷歌对Gemini应用做了个挺有意思的更新,核心就是让你能更灵活地控制AI生成视频的效果。新版本最大的变化是,你可以一次性上传好几张参考图来辅助单个视频的生成。系统会把这些图片和你写的文字描述结合起来,自动生成带音频的视频内容,这样你就能更精准地把控最终视频的画面感和听觉效果了。

工具地址:

https://deepmind.google/models/veo/

Veo 3.1这次最抓眼球的功能叫"Ingredients to Video"。用大白话讲,你能同时丢三张图进去,系统会分别抓取人物形象、场景环境还有整体风格,然后把它们糅合到一块儿,给你输出一段8秒的1080p高清短片。

举个例子吧,假设你传了张自己不同角度的照片当人物素材,再配上一张赛博朋克城市夜景做背景,最后加一张莫奈风格的画作定调整体风格。系统就能给你整出一段"印象派笔触下的未来街头漫步"视频。

更厉害的是,生成出来的画面里你的脸型、衣服细节都保持得很稳,完全不会出现那种诡异的变形,效果堪比专业剪辑师手工调出来的。

Veo 3.1不只是会拼素材这么简单,它在细节把控上也下了功夫。你在网页端或者手机上敲完文字描述就能直接生成,关键是系统会确保整段视频里角色形象前后统一,光线明暗变化也很自然流畅。

这就避免了那种看着看着突然人物走样、或者光影莫名其妙跳变的尴尬情况,整体观感相当舒服。

另外值得一提的是,它还会自动匹配环境音效,让视频听起来更真实。要是你对生成结果不太满意,系统还提供首尾帧控制和视频延长功能,方便你做二次调整优化。

谷歌这波操作还挺实在的,多图参考功能现在已经面向所有Gemini Pro和Ultra付费用户开放了,生成次数就按你现有的订阅套餐额度来算,目前没看到要额外加钱的迹象。

对经常需要做视频内容的创作者来说,这算是个不错的福利,不用再为功能权限多掏腰包。

安全方面谷歌也考虑到了。系统生成的每个视频都会自带SynthID隐形水印技术,这个标记肉眼看不出来,不会影响你正常观看,但能有效追溯视频来源,对版权保护和内容溯源都有帮助。这样你用Veo 3.1做出来的东西,在传播使用时也能多份保障。

谷歌Gemini Veo 3.1的推出,确实给视频创作这块注入了新鲜血液。通过多图参考和智能融合技术,你现在能更直观地把脑子里的画面转化成实际视频,而且整个过程的门槛和成本控制得都还不错。

对于需要快速产出高质量视频内容的创作者来说,这工具值得试试看,说不定能给你的创作流程带来些新思路。

好文章，需要你的鼓励