Vidu发布O2图像模型:4控制权进一步交给创作者
12月1日,Vidu推出升级后的Q2参考生图功能,并且同步上线文生图与图像编辑功能,试图解决AI多模态创作中“创意”与“可控性”难以兼顾的长期难题。

官方表示,此次更新把创作的控制权进一步交还给创作者。
这次升级中,Vidu Q2参考生图作为商用生产主力,进一步发挥其在保持超高一致性方面的独特价值,把广告、商品展示从「精准还原」到「情感表达」,从「内容呈现」升级为「有情感的表现,有效率的创作」。强调Q2参考生不仅能精准还原产品细节,更能为AI视频注入情感表现力,从而提升品牌好感与用户转化。
新版Q2生图功能在一致性表现、生成速度、工作流整合等方面均有所提升,可应用于短剧动漫、广告电商、泛娱乐、影视制作、文旅教育等多个场景。平台同时开放限时免费体验,会员可在一个月内使用文生图、参考生图及图像编辑功能,旗舰版会员享受不限量生成。
官方介绍,Vidu在国际AI基准测试机构Artificial Analysis最新公布的图像编辑榜单中首次上榜即进入前四名,并且在该指标上超过了GPT-5。这意味着其在图像编辑一致性与模型成熟度上已达到较高水平。
在广告电商场景中,传统AI视频虽能实现基础商品展示,但人物表情僵硬、互动缺乏感染力的问题长期制约品牌表达。Vidu Q2通过多模态理解与面部动作单元精细解构,使AI角色能够展现嘴角微扬、眼神闪烁等细腻表情。例如在上述商品广告中,模特身穿衣服时不仅能精准还原产品细节,更可通过「惊喜微笑」「专注凝视」等微表情增强叙事代入感,让产品展示更具说服力,用户转化率提升显著。
在动漫领域,Vidu正将它的AI视频生成能力深入至产业应用。通过创新的MaaS(模型即服务)模式,直接整合到动漫创作的核心环节,能够根据文本或图像提示,快速生成高质量的动画分镜、角色动态或场景草图,极大地重塑了传统动画制作流程,在创意验证、前期制作等阶段实现显著的降本增效,赋能动漫产业进入智能化创作的新纪元。
在一致性能力方面,Q2参考生图在语义理解、风格支持、美学水准和参考要素灵活度方面均较上一版本提升。官方称,模型能够在保持主体一致的前提下给予创作者更多创作自由,生成速度最快可达5秒。
在参考能力方面,Q2主要包括:
任意比例生成:可从同一参考图生成不同比例画面,适配广告、电商、短剧动漫等多种素材需求,支持4K输出。
位置、动作、构图复刻:通过升级的空间理解能力,可精准复刻角色站位、动作、布局,即便输入为草图或线稿,也能保持构图一致。
分镜切换:可基于同一画面生成不同景别,通过文字指令完成多镜头画面组合,再配合图生视频功能生成完整片段。
图片编辑能力增强方面,全新的Q2图像编辑功能支持局部添加、替换、删减或调整内容,并且可进行风格转换及季节、时间变化处理。在编辑过程中,主体一致性与背景结构可保持稳定,不易出现变形或细节缺失。
相比传统修图软件依赖多工具调整的方式,Q2通过文本改图的方式降低了使用门槛,为创作者带来更高效率。
文生图与多风格输出方面,升级后的文生图能力可根据简单提示词直接生成连续分镜,覆盖超过百种主流与非主流美术风格,包括国画、日漫、美漫与复古画风等。无论远景、特写还是近景,均可保持人物外观的一致性。
参考生图功能则可基于固定角色,快速生成不同故事情节下的多张画面,使角色IP构建与多场景延展更加高效,适合漫画、绘本以及短剧类创作的批量生产。
这次新增的“主体保存”功能打通了文生图、参考生图与参考生视频的模型链路。创作者可保存任一生图的主体,再在视频生成中调用,实现跨模态一致性
