近日 Google DeepMind 同步推出两款生成式 AI 重磅产品:主打极致性价比的文生图模型 Nano Banana 2 Lite,以及首次向开发者开放的视频生成模型 Gemini Omni Flash。 两款产品并非孤立工具,官方通过 Interactions API 实现能力串联,搭建起 “文字生成图像→静态图转动态视频→多轮对话编辑” 的完整创作链路,同时配套分层产品矩阵与合规安全机制,大幅降低 AI 视觉内容的生产门槛。
一、Nano Banana 2 Lite:4 秒出图的性价比之选
作为 Nano Banana 家族的轻量化旗舰,Nano Banana 2 Lite 核心定位是极速低成本生图,专为大批次、快迭代的创作场景设计。
速度层面,模型可在 4 秒内生成一张 1024×1024 分辨率的高清图像,接近实时反馈的体验让创意迭代节奏大幅加快,无需长时间等待渲染。成本层面,单张 1K 分辨率图像生成成本约 0.034 美元,折合人民币约 0.24 元,极低的单价支持大规模批量生成,无需担心预算过载。
性能层面,主打性价比的同时核心能力并未缩水:提示词遵循度高、多图生成时角色形象一致性稳定,还解决了 AI 生图的行业痛点 —— 图中文字清晰可读,满足海报、电商物料等实用场景需求。
目前谷歌已完成 Nano Banana 家族的清晰分层:Lite 款主打极致速度、标准版兼顾质量与效率、Pro 款面向专业高精度场景,官方建议初代用户直接升级至新版本。该模型已全面接入 Gemini API 与谷歌 C 端产品矩阵,包括 AI 搜索、相册、广告等场景,普通用户也能直观感受到效率提升。
二、Gemini Omni Flash:对话式视频生成开放商用
Gemini Omni Flash 是谷歌首款面向开发者开放的视频生成模型,定价为 0.10 美元 / 秒,核心突破是将视频生成从 “单次输出” 升级为 “对话式迭代编辑”。
模型支持多模态混合输入,纯文本、文本 + 图像、文本 + 图像 + 视频三种组合均可作为创作参考,输入信息越丰富,生成内容越贴合创作意图。最具差异化的是对话式编辑能力:用户可通过自然语言直接调整视频内容,比如更换背景、调整人物动作、加快画面节奏,无需专业剪辑软件操作,大幅降低视频修改的技术门槛。依托 Gemini 的通用知识库,模型生成内容更符合物理常识与现实逻辑,减少反常识画面、异常结构等常见 AI 视频问题,还支持文字元素与画面动作同步联动。
当前版本暂支持最长 10 秒视频生成,音频参考、场景扩展等功能尚未开放,角色一致性在镜头切换时仍有优化空间,但已足以支撑多数短平快的商业内容需求。
三、API 串联全链路 覆盖多行业落地场景
两款模型真正的价值在于能力串联:通过 Interactions API,谷歌打通了 “文生图→图转视频→连续编辑” 的端到端创作流水线,系统会保留会话上下文,支持最多三轮连续迭代优化。
官方同步开源三个典型场景 Demo,验证链路的落地价值:
一是旅游社交场景的 “一键环游”,上传自拍即可生成各地标打卡图并转为动态旅行短片;
二是家居地产场景的 “空间焕新”,上传房间照片即可生成多种装修风格图,再转为沉浸式漫游视频;
三是电商营销场景的 “产品工作室”,静态产品图可直接生成电影级展示视频,大幅降低商家视频制作成本。这套完整链路可快速复用至广告、自媒体、设计等多个行业,重构内容生产工作流。
四、全生态配套安全机制 推动 AI 创作普惠
安全合规层面,两款模型均集成 SynthID 隐形数字水印技术,人眼不可见但可通过专用工具检测,既保障 AI 生成内容的可追溯性,也有助于维护创作者权益、提升网络内容透明度。
从行业影响来看,极致的效率与成本,加上完整的图文视频创作链路,正在进一步拉低 AI 内容生产的门槛。过去需要专业团队、高额预算才能完成的视觉内容,现在普通创作者、中小商家都可通过 API 低成本实现。
随着技术快速下沉到谷歌全产品生态,AI 视觉创作将从专业工具走向普惠能力,推动全行业内容生产效率的整体升级。