4月8日消息,一个此前无人听说的AI视频生成模型HappyHorse-1.0同时占据了Artificial Analysis视频竞技场两个核心榜单的第一名。在图生视频(无音频)类别中拿下Elo 1392,文生视频(无音频)类别拿下Elo 1333,将字节跳动旗下Dreamina Seedance 2.0、快手Kling 3.0、昆仑万维SkyReels V4等一线产品甩在身后。更反常的是,没有人知道它是谁做的。
Artificial Analysis竞技场的排名意味着什么
Artificial Analysis的视频竞技场采用盲测投票制:用户提交提示词后,系统用两个模型分别生成视频,用户在不知道模型身份的情况下选择更好的那个,投票结果汇总为Elo评分——和国际象棋的等级分算法一样。这套机制排除了品牌效应和自我报告的干扰,反映的是真实用户对生成质量的直觉判断。
截至4月8日,HappyHorse-1.0的具体排名如下:图生视频(无音频)Elo 1392排名第一,第二名Seedance 2.0为1355;文生视频(无音频)Elo 1333排名第一,第二名Seedance 2.0为1273;文生视频(有音频)Elo 1205排名第二,仅次于Seedance 2.0的1219。在无音频的两个主力赛道上,它对第二名保持了37到60分的Elo优势——在盲测体系中,这个差距相当显著。
150亿参数单流Transformer:简单到反直觉的架构
根据HappyHorse相关网站披露的技术信息(目前尚无第三方独立验证),该模型采用150亿参数、40层的单流自注意力Transformer。文本、视频和音频的token被拼接成一个统一序列,由同一个网络联合去噪,没有交叉注意力,没有多流管线。
架构上采用"三明治"布局:首尾各4层为模态专用投影层,中间32层完全跨模态共享参数。模型没有显式的时间步嵌入,去噪状态直接从输入潜变量中推断。通过DMD-2蒸馏技术将去噪步骤压缩到仅8步,不需要无分类器引导(CFG)。配合算子融合编译器MagiCompiler,在单张H100 GPU上生成5秒1080p视频约需38秒,256p仅需2秒。
这个设计思路和当前主流的多编码器、交叉注意力架构完全相反。多数竞品通过堆叠模块来处理不同模态的对齐问题,HappyHorse的路线是把一切塞进同一个注意力序列里,靠共享中间层自动学习对齐。
身份揭秘:从daVinci-MagiHuman到阿里淘天张迪团队
HappyHorse-1.0以匿名方式提交至竞技场,没有团队信息、没有公司背景、没有技术博客。社区最先注意到它与一个已公开的开源项目高度吻合:daVinci-MagiHuman——由上海创新研究院GAIR实验室(刘鹏飞团队)与北京Sand.ai(三代科技,创始人曹越)于2026年3月联合开源,采用Apache 2.0许可证。
36kr的分析文章指出,两者在视觉质量(4.80)、文本对齐(4.18)、物理一致性(4.52)、语音字符错误率(14.60%)等指标上逐项吻合。架构描述、性能对比表格式、演示视频呈现方式几乎出自同一模板。两者都使用150亿参数单流Transformer,都支持中文(普通话和粤语)、英文、日文、韩文、德文、法文七种语言的唇形同步生成。
4月8日下午,Top华人科创社率先报道称,经多方求证,HappyHorse幕后团队来自张迪领衔的淘天集团"未来生活实验室"(由ATH-AI创新事业部打造,目前已独立运营)。张迪的履历在业内并不陌生:他曾任快手副总裁、可灵AI技术负责人,2025年9月短暂加入B站后,于同年11月正式入职阿里巴巴,担任淘天集团未来生活实验室负责人,职级P11,向淘天首席科学家郑波汇报。华盛通等多家港股资讯平台也援引相似信源,将HappyHorse与阿里淘天团队关联。受此消息刺激,阿里港股盘中一度拉升近8%至127.9港元。
不过需要强调的是,截至发稿,阿里巴巴和张迪本人均未公开确认这一关联。daVinci-MagiHuman于3月底才开源,如果HappyHorse确实是基于该模型的迭代版本,那么仅用两周时间就在盲测中超越Seedance 2.0,速度相当惊人——36kr分析认为,较合理的解释是在默认生成策略上针对评测场景做了专项调优。
当前可用性:权重未公开,封装站已上线
HappyHorse官方站点声称模型"完全开源",但GitHub和Hugging Face页面仍标注"coming soon",核心权重和推理代码尚未实际释放。与此同时,happyhorse.app、happyhorse.video、happy-horse.art等多个第三方封装网站已经提供在线试用服务,支持文生视频和图生视频,提供免费额度和订阅制付费方案。
另据社区爆料,这个模型是开源的。
对行业意味着什么
HappyHorse-1.0的出现至少说明两件事。第一,开源路线(或至少是基于开源模型的迭代路线)在视频生成质量上已经能够正面对抗闭源头部产品。daVinci-MagiHuman发布仅两周就有衍生模型登顶盲测榜单,这对Seedance、Kling、PixVerse等商业产品的护城河构成实质性压力。第二,如果张迪团队的身份最终确认,意味着阿里巴巴通过淘天集团这条路线正式切入AI视频生成赛道——而且选择了匿名打榜这种"先证明质量再亮身份"的策略,与2026年2月智谱GLM-5以"Pony Alpha"匿名上OpenRouter做压力测试的操作如出一辙。
不过,匿名也意味着缺乏问责。在权重未公开、训练数据来源未披露、技术论文未独立审阅的情况下,所有架构参数和性能数据都只来自提交方的自我声明。盲测Elo分数能反映输出质量,但无法验证训练过程中的合规性——比如是否使用了受版权保护的视频数据。对于考虑在生产环境中集成该模型的团队来说,等待权重公开和社区复现验证是基本前提。