美团发布SOTA级虚拟人视频模型LongCat-Video-Avatar

2025-12-21 20:35
139
12月18日,美团LongCat团队宣布正式发布并开源SOTA级虚拟人视频生成模型——LongCat-Video-Avatar。

该模型基于LongCat-Video基座打造,延续“一个模型支持多任务”的核心设计,原生支持Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能。
该模型基于LongCat-Video基座打造,延续“一个模型支持多任务”的核心设计,原生支持Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。
据官方介绍,该模型具备如下技术亮点。
“告别僵硬,迎接鲜活”:不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。
连“不说话”的时候,都很像人:美团通过Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”。在说话的间歇,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。
据介绍,LongCat-Video-Avatar因此成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,虚拟人从此有了“真正的生命力”。
在HDTF、CelebV-HQ、EMTD和EvalTalker等权威公开数据集上的定量评测表明,LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。
0
好文章,需要你的鼓励