5月3日消息,Google正在Gemini App视频生成标签页内测新前端工具,UI界面出现"Start with an idea or try a template. Powered by Omni."字样,距离5月19-20日Google I/O 2026开幕仅剩半个多月,外界普遍判断这是I/O前的提前预热。 UI泄露:Omni标识紧邻Toucan代号
公开信息显示,泄露截图来自Gemini App的视频生成入口,目前仍处于内部测试阶段,尚未对全量用户开放。值得注意的是,Omni出现在视频生成界面的显著位置,紧邻内部代号Toucan——后者是Google视频生成工具的长期内部标识,从Veo 2阶段开始沿用至今。
按照Gemini官方页面(gemini.google)信息,Gemini当前的视频生成功能由Veo 3.1模型驱动,可生成带原生音频的8秒视频,支持多张参考图输入、垂直视频输出等高级能力。Omni的出现意味着Google可能正在用新的前端结构(或新的底层模型)替换或补充现有的Toucan/Veo 3.1架构。
三种推测路径:包装升级、原生模型还是统一Omni
围绕Omni的真实身份,目前业内存在三种主流推测。第一种是前端包装升级,即Omni只是Veo系列的新UI命名,类似OpenAI将DALL-E能力整合进ChatGPT图像生成的做法,底层仍为Veo 3.1或其后续版本。第二种是Gemini原生视频模型,Google可能像Gemini 2.5 Image(Nano Banana)那样,将视频生成能力直接收敛到Gemini主模型中,绕开独立的Veo技术栈。第三种推测最具想象空间——Omni是Google向统一多模态模型迈出的第一步,即同时处理图像、视频、音频生成的端到端架构。
如果最终以"Gemini Omni"形式正式发布,Google将成为首个把视频输出能力集成进顶级旗舰多模态模型的大厂。此前OpenAI的GPT-4o虽然在发布会上展示了原生图像和音频能力,但视频生成至今仍由独立的Sora模型承担;Anthropic的Claude系列尚未涉足视频生成;国内的字节豆包、阿里通义、Kling等也均采用独立视频模型架构。 竞品格局:Sora、Kling、Runway各自卡位
视频生成赛道在2026年Q1已进入白热化阶段。OpenAI Sora 2在3月开放API后迅速成为长视频生成首选,单次生成时长突破60秒;Kuaishou Kling 2.0凭借中文场景优势在国内市场份额持续扩大,垂直短剧、电商广告场景渗透率较高;Runway Gen-4主攻专业视频创作市场,在影视后期工作流中占据一定位置。
Google的Veo系列此前在生成质量和音频原生性上口碑不错,但用户触达和工作流整合一直是短板——Veo长期作为独立产品存在,未与Gemini App形成完整闭环。Omni的出现可能正是要解决这一问题:把视频生成能力前置到Gemini主入口,让用户在对话流中直接调用,而非跳转到独立工具。
按照公开资料,Google I/O 2026已官宣聚焦Gemini与AI创新主题(io.google)。多家媒体预测,本届大会将重点发布Gemini新一代模型、Veo系列更新(mashable.com)。Omni测试节点正好卡在I/O窗口前两周,按照Google过往的产品节奏,这种提前曝光通常意味着对应功能将在主会场Demo中亮相。
局限:信息高度推测,三大不确定性待解
需要明确的是,其一,Omni的技术身份尚未获得Google官方确认,目前所有解读均基于UI截图推测,底层模型架构、参数规模、生成时长上限等关键指标均无可靠数据支撑。其二,Toucan代号是否会被Omni完全替代仍是未知数——两者在UI中并存,可能意味着Omni是Toucan的子模块、补充功能或迭代版本,而非替代关系。其三,即便I/O上正式发布,从公告到全量上线通常存在数周到数月的滞后期,加上区域性发布策略(Google AI产品过去常优先在美国市场开放。
此外,从泄露截图看,"Start with an idea or try a template"的引导语暗示Omni可能内置模板系统,这与Sora 2、Kling 2.0近期主推的"提示词模板库"思路一致,但是否具备真正的模型层创新,目前无法判断。
前瞻:I/O 2026或重塑多模态竞争格局
距离Google I/O 2026仅剩两周多,Omni的命名选择本身就传递了信号——"Omni"在AI行业语境中已与"全模态统一模型"强绑定,Google用这个词命名视频前端,要么是营销层面对标GPT-4o,要么是真正在底层架构上向统一多模态收敛。
无论哪种情况,2026年Q2的视频生成竞争都将进入新阶段。如果Google选择前者,竞争仍停留在产品体验层面;如果选择后者,OpenAI、Anthropic、字节、阿里都可能被迫加速自己的统一多模态布局。5月19日的主会场Demo,将给出第一个明确答案。