生数科技联合清华发布 TurboDiffusion，推动视频生成迈入实时生成时代！

2025-12-23 15:24

169

随着生成式AI在内容创作领域的快速发展，视频生成正站在一个关键转折点上：不再只是“能不能生成”，而是进入到在保持高质量的前提下，能否更快、更低成本、更大规模应用的新阶段。

近日，生数科技与清华大学TSAIL实验室联合发布并开源视频生成加速框架TurboDiffusion。

在几乎不影响生成质量的前提下，该框架可实现最高达200倍的视频生成推理加速，被业内视为AI视频创作迈向“实时生成时代”的重要一步，视频大模型的“DeepSeek Moment”到来。

相关技术发布后，已在海外AI技术社区引发广泛讨论，多位开发者与研究人员关注并转发了相关内容，其中也包括来自Meta、OpenAI等机构的研究人员，以及vLLM等大模型推理加速方向的代表性开源项目团队。

Vidu的多模态大模型积累与突破

事实上，在TurboDiffusion发布之前，生数科技旗下ViduQ1和Q2多模态大模型已在全球范围内处于行业领先位置。2024年9月，Vidu在全球率先推出主体参考功能，引领行业迈入“参考生视频”时代，并获得了全球创作者的广泛认可。

此前发布的Vidu Q2，在此基础上进一步实现了多项业内领先的生成能力：

参考生图能力全面升级，支持文生图、图像编辑等多种模式，生成结果在人物、风格与细节层面的一致性显著提升。同时，Vidu Q2构建了一站式多参考工作流，从参考生图、主体保存到参考生视频无缝衔接，减少平台切换成本，显著提升创作者与企业的生产效率；

视频生成能力持续增强，Vidu Q2的参考生视频功能表现出超高一致性，语义理解更精准、镜头语言更丰富、时长选择更自由，生成速度更快，价格更优惠。

视频生成速度全球领先「唯快不破」，2025年1月Vidu2.0发布，实现全球最快视频生成速度，4秒生成512P的5S时长视频，今年10月Vidu Q2发布，生成速度再次达到全球最快，10秒生成1080P高清的5S时长视频；12月16日Vidu Agent发布，实现1分钟生成30秒时长的成片广告视频。今天，全球开源TurboDiffusion，将视频生成速度提升200倍，继续推动了「视频生成」迈入「实时生成」的时代。

图像生成效率领先，可在约5秒内生成1080P高清图像，在保证清晰度的同时兼顾生成速度。

上周生数科技正式推出“专业视频创作伙伴”Vidu Agent，同时开启全球内测，让AI视频不再是简单的视频素材生成工具，而是一键成片的专业伙伴，轻松实现一键产品广告、一键TVC、一键短片、一键MV、一键复刻爆款，同时支持多语言、多场景的商业级应用。

随着分辨率持续提升、视频时长不断延长，以及应用场景日益复杂，生成时间长、成本高仍然是整个AI视频行业共同面临的挑战。如何在高分辨率、高质量的前提下进一步提升生成速度，成为下一阶段的核心问题。

TuroDiffusion：为高质量视频“系统性提速”

为解决这一行业瓶颈，生数科技与清华大学TSAIL实验室在底层推理效率上展开了系统性研究，成功推出并开源TurboDiffusion。

业内认为，TurboDiffusion的核心技术优势精准击中了视频生成领域的一个关键转折点。此前，视频扩散模型虽然具备强大的创造能力，但始终受限于计算复杂度高、效率受限的状态。TurboDiffusion的发布，在保持高质量输出的前提下大幅压缩生成速度，首次让高质量视频生成逼近实时交互的可行区间，被视为视频大模型发展的“DeepSeek Moment”，推动行业从“技术探索期”加速迈向“规模化与商业化落地阶段”，也标志着AI视频创作正式迈入“实时生成”时代。

不同于单点优化方案，TurboDiffusion通过多项关键技术的协同配合，从模型计算方式、注意力机制以及推理流程等多个层面，对视频生成进行整体提速。

四大技术协同，让视频生成“快”起来

TurboDiffusion并非单一优化，而是通过多项前沿加速技术的系统化组合：

低比特注意力加速采用SageAttention将注意力的计算执行在低比特的Tensor Core上，以无损且数倍地加速注意力计算。

稀疏-线性注意力加速采用可训练的稀疏注意力Sparse-Linear Attention(SLA)进行注意力的稀疏加速，最高可在SageAttention的基础上进一步实现17-20倍的注意力稀疏加速。

采样步数蒸馏加速通过目前最先进的蒸馏方法rCM，让模型仅用3-4步即可完成高质量的视频生成。

线性层加速将模型的线性层中的参数以及激活都进行8比特的128x128的块粒度量化，即通过W8A8不仅加速模型的线性层计算，也大幅减少了模型的显存占用。

这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发，对AI多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中，SageAttention更是全球首个实现注意力计算量化加速的技术方案，已被工业界大规模部署应用。

例如，SageAttention已成功集成至NVIDIA推理引擎Tensor RT，同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。此外，腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等国内外头部科技企业及团队，均已在核心产品中应用该技术，凭借其卓越性能创造了可观的经济效益。

多项技术相互配合，使TurboDiffusion在保持画面质量与稳定性的同时，实现了“几乎无损”的极限加速。

单卡最高200倍加速，分钟级生成变为秒级

在开源视频生成模型上，以1.3B/14B的图生视频以及文生视频模型为例，TurboDiffusion在单张RTX 5090显卡条件下，实现了100倍至最高200倍的端到端生成加速。代码与模型全部开源，可一键生成。

在生数科技联合清华大学推出的TurboDiffusion所包含的多项加速技术同样取得了显著效果。在高质量视频生成场景下，生成1080P分辨率、8秒时长视频的生成时间从约900秒压缩至约8秒，真正实现了从“分钟级”到“秒级”的跨越。这意味着，视频生成不再只是离线等待的创作流程，而开始具备接近实时反馈的交互可能性，为视频大模型从“研究工具”走向“基础生产力”奠定了关键基础。

视频1（未加速）

用时：450秒

视频2（加速后）

用时：4秒

视频3（未加速）

用时：900秒

视频4（加速后）

用时：8秒

迈向AI创作的“实时生成时代”

业内普遍认为，AI视频的下一个时代，将是在保持甚至提升生成质量的同时，实现更快的生成速度、更低的计算成本和更好的用户体验，从而让企业用得起、用得上，让创作者用得顺、用得快。

TurboDiffusion的发布，正是朝着这一方向迈出的关键一步。未来，生数科技将持续推动生成式AI在效率、成本与体验上的整体进化，致力于降低技术使用门槛，推动AI视频在更广泛场景中的落地应用，加速行业发展与技术普及。

好文章，需要你的鼓励