Gemini视频生成测试曝Omni标识，Google或在5月19日I/O统一多模态模型

2026-05-03 10:20

555

5月3日消息，Google正在Gemini App视频生成标签页内测新前端工具，UI界面出现"Start with an idea or try a template. Powered by Omni."字样，距离5月19-20日Google I/O 2026开幕仅剩半个多月，外界普遍判断这是I/O前的提前预热。

Gemini视频生成测试曝Omni标识，Google或在5月19日I/O统一多模态模型

UI泄露：Omni标识紧邻Toucan代号

公开信息显示，泄露截图来自Gemini App的视频生成入口，目前仍处于内部测试阶段，尚未对全量用户开放。值得注意的是，Omni出现在视频生成界面的显著位置，紧邻内部代号Toucan——后者是Google视频生成工具的长期内部标识，从Veo 2阶段开始沿用至今。

按照Gemini官方页面（gemini.google）信息，Gemini当前的视频生成功能由Veo 3.1模型驱动，可生成带原生音频的8秒视频，支持多张参考图输入、垂直视频输出等高级能力。Omni的出现意味着Google可能正在用新的前端结构（或新的底层模型）替换或补充现有的Toucan/Veo 3.1架构。

三种推测路径：包装升级、原生模型还是统一Omni

围绕Omni的真实身份，目前业内存在三种主流推测。第一种是前端包装升级，即Omni只是Veo系列的新UI命名，类似OpenAI将DALL-E能力整合进ChatGPT图像生成的做法，底层仍为Veo 3.1或其后续版本。第二种是Gemini原生视频模型，Google可能像Gemini 2.5 Image（Nano Banana）那样，将视频生成能力直接收敛到Gemini主模型中，绕开独立的Veo技术栈。第三种推测最具想象空间——Omni是Google向统一多模态模型迈出的第一步，即同时处理图像、视频、音频生成的端到端架构。

如果最终以"Gemini Omni"形式正式发布，Google将成为首个把视频输出能力集成进顶级旗舰多模态模型的大厂。此前OpenAI的GPT-4o虽然在发布会上展示了原生图像和音频能力，但视频生成至今仍由独立的Sora模型承担；Anthropic的Claude系列尚未涉足视频生成；国内的字节豆包、阿里通义、Kling等也均采用独立视频模型架构。

竞品格局：Sora、Kling、Runway各自卡位

视频生成赛道在2026年Q1已进入白热化阶段。OpenAI Sora 2在3月开放API后迅速成为长视频生成首选，单次生成时长突破60秒；Kuaishou Kling 2.0凭借中文场景优势在国内市场份额持续扩大，垂直短剧、电商广告场景渗透率较高；Runway Gen-4主攻专业视频创作市场，在影视后期工作流中占据一定位置。

Google的Veo系列此前在生成质量和音频原生性上口碑不错，但用户触达和工作流整合一直是短板——Veo长期作为独立产品存在，未与Gemini App形成完整闭环。Omni的出现可能正是要解决这一问题：把视频生成能力前置到Gemini主入口，让用户在对话流中直接调用，而非跳转到独立工具。

按照公开资料，Google I/O 2026已官宣聚焦Gemini与AI创新主题（io.google）。多家媒体预测，本届大会将重点发布Gemini新一代模型、Veo系列更新（mashable.com）。Omni测试节点正好卡在I/O窗口前两周，按照Google过往的产品节奏，这种提前曝光通常意味着对应功能将在主会场Demo中亮相。

局限：信息高度推测，三大不确定性待解

需要明确的是，其一，Omni的技术身份尚未获得Google官方确认，目前所有解读均基于UI截图推测，底层模型架构、参数规模、生成时长上限等关键指标均无可靠数据支撑。其二，Toucan代号是否会被Omni完全替代仍是未知数——两者在UI中并存，可能意味着Omni是Toucan的子模块、补充功能或迭代版本，而非替代关系。其三，即便I/O上正式发布，从公告到全量上线通常存在数周到数月的滞后期，加上区域性发布策略（Google AI产品过去常优先在美国市场开放。

此外，从泄露截图看，"Start with an idea or try a template"的引导语暗示Omni可能内置模板系统，这与Sora 2、Kling 2.0近期主推的"提示词模板库"思路一致，但是否具备真正的模型层创新，目前无法判断。

前瞻：I/O 2026或重塑多模态竞争格局

距离Google I/O 2026仅剩两周多，Omni的命名选择本身就传递了信号——"Omni"在AI行业语境中已与"全模态统一模型"强绑定，Google用这个词命名视频前端，要么是营销层面对标GPT-4o，要么是真正在底层架构上向统一多模态收敛。

无论哪种情况，2026年Q2的视频生成竞争都将进入新阶段。如果Google选择前者，竞争仍停留在产品体验层面；如果选择后者，OpenAI、Anthropic、字节、阿里都可能被迫加速自己的统一多模态布局。5月19日的主会场Demo，将给出第一个明确答案。

好文章，需要你的鼓励