在 2026 全球数字经济大会上,生数科技正式发布新一代 Vidu S1 实时交互视频模型,打破了 AI 视频 “离线生成、固定内容” 的传统形态,推动行业从单段内容生产迈向持续实时交互。
该模型支持语音控制角色行为、无限时长稳定生成、单图快速创建个性化角色,在分辨率与帧率上达到视频通话级体验,为数字人、互动直播、情感陪伴等场景带来了全新的技术可能性。
一、交互模式升级:语音从驱动口型升级为控制全维行为
传统 AI 视频与数字人遵循 “输入提示词 - 等待生成 - 观看结果” 的离线逻辑,数字人大多依赖音频对口型 + 预设动作库,只能被动执行固定内容,无法响应用户的实时指令调整行为,人与内容始终是单向的观看关系。Vidu S1 彻底重构了交互逻辑:用户可在视频通话过程中持续输入语音,模型结合语义、对话上下文与当前画面状态,实时生成角色的后续动作与内容。
语音不再只是驱动口型的信号,而是控制角色的完整指令 —— 模型能理解用户的意图、情绪,同步生成匹配的表情、眼神、手势与全身姿态,让数字人从 “会说话的虚拟形象” 进化为可理解、能回应、会互动的生成式角色,实现真正的双向实时交流。
二、底层技术突破:自回归扩散架构支撑无限时长稳定生成
时长与稳定性一直是视频生成模型的核心瓶颈,传统模型单次仅能生成几秒到几十秒的固定视频,中途无法插入新指令,长时间生成还容易出现画面漂移、角色崩坏问题,难以支撑连续互动场景。
Vidu S1 采用自回归扩散(AR + Diffusion)技术路线,不再一次性生成完整视频,而是基于已生成的历史画面,结合实时语音指令与对话上下文,持续预测生成后续内容。当用户发出新指令时,模型可即时调整视频走向,让内容从固定脚本变为动态演化的交互过程。
得益于架构优化,模型可实现无限时长连续生成,即便连续运行数小时,也能保持角色形象一致、动作自然连贯,不会出现画质衰减与身份漂移,为长时间的互动场景提供了基础支撑。
三、角色创建降本:单图零训练快速生成个性化交互角色
传统定制数字人需要多素材采集、三维建模、动作绑定与专项训练,制作周期长、成本高,难以满足规模化、个性化的落地需求,也限制了普通用户的使用门槛。
Vidu S1 采用纯生成式技术路线,完全无需离线建模与训练:用户只需上传一张初始图片,模型就能自动理解角色的外观、身份与视觉风格,实时生成匹配的口型、表情与动作。无论是真人、动漫形象还是萌宠,都可以快速转化为可实时互动的角色,同时支持自定义音色,实现视觉与听觉的身份统一。
这种 “上传图片即可互动” 的模式,大幅降低了数字角色的创建门槛,让普通用户也能快速拥有专属交互角色。
四、商用体验落地:通话级画质支撑全场景应用
实时交互对生成速度与画质提出了双重要求,Vidu S1 通过模型侧与系统侧的协同优化,达到了可落地的商用级体验。
模型支持 540P 高清分辨率,标准帧率 25FPS,最高可达 42FPS,依托 TurboDiffusion 推理加速框架与 TurboServe 部署引擎,通过少步生成、低比特注意力、智能调度等技术,在消费级显卡上即可实现实时生成,兼顾了画质、流畅度与部署成本。目前该模型已开启多渠道内测,可广泛应用于 AI 情感陪伴、虚拟偶像直播、智能客服、在线教育、互动游戏 NPC、XR 内容等场景。
随着 Vidu S1 的落地,AI 视频行业的竞争重心正从画质、时长等单点指标,转向实时性、可控性与交互体验的综合比拼,视频内容也从一次性生产的数字资产,升级为可长期在线、持续互动的智能服务入口。