一句话生成视频!腾讯元宝新功能震撼上线

2025-11-23 15:51
阅读39

想过没有,你随口说的一句话就能变成一段视频?这事儿现在真的实现了。腾讯元宝最新上线的"一句话生视频"功能,让普通人也能玩转视频创作,背后靠的就是腾讯混元刚开源的HunyuanVideo 1.5模型。这波操作,看起来是腾讯在AI赛道上又抢了个身位。

image.png

现在你打开腾讯元宝,就能把脑子里想的那句话,或者手机相册里的一张照片,快速生成一段动态视频。不需要你会啥剪辑技术,也不用懂复杂的操作,动动手指就搞定。

常垒创投管理合伙人冯博跟上海证券报说得挺直白:"腾讯这次动作挺狠的,就是想通过多模态技术提前把用户圈住,顺便把生态也做起来。"他还提到,视频生成技术的门槛降下来之后,那些没有高端设备的创作者也能玩得转了,中低端视频内容估计要迎来一波爆发。

腾讯混元发布并开源 HunyuanVideo1.5

11月21日这天,腾讯混元大模型团队把HunyuanVideo 1.5正式发出来了,而且还开源。这个模型用的是Diffusion Transformer架构,参数规模8.3B,算是轻量级的,能生成5到10秒的高清视频。你现在用的腾讯元宝最新版,已经集成了这个能力。

体验方式挺简单的,两条路随你选:要么直接输入文字描述,实现"文生视频";要么上传一张图片再加点文字说明,把静态图变成会动的视频。

得说一句,之前那些开源的顶级视频生成模型,参数少说也得20B起步,部署的话得用50GB以上的显卡。腾讯混元这次把硬件要求砍了一大截,用很低的配置就能跑出旗舰模型的效果。模型已经传到Hugging Face和Github上了,想试试的话随时能下。

这个模型的能力还挺全面的。你用中文英文都行,文生视频、图生视频都支持。图生视频这块做得尤其好,生成的视频跟原图保持度很高。模型对指令的理解也到位,你说要啥运镜、要啥动作、要什么样的人物表情,它都能给你整出来。写实风格、动画风格、积木风格统统没问题,甚至还能在视频里生成中英文字幕。

画质方面,原生就能出480p和720p的高清视频,时长5到10秒。如果你想要更高的画质,通过超分模型还能提升到1080p电影级别。

腾讯元宝这次更新,标志着它在多模态上又进了一步,文本、图片、音频、视频,"图文音视"全都覆盖了。这不只是产品功能的升级,更像是让AI真正变成了你手边趁手的工具。

image.png

布局AI战略

元宝上线HunyuanVideo 1.5,其实是腾讯整个AI布局的一个缩影。

看看腾讯三季度财报你就知道了,"AI、出海、长青"这三大战略方向都在稳步推进。

马化腾在公开场合也说了:"我们不断在升级混元基础模型的团队和技术架构,混元的图像跟3D生成模型已经做到行业领先了。混元能力越来越强,我们在推广元宝、在微信里开发AI智能体这些投入,后面会带来更明显的成果。"

作为腾讯AI战略的核心产品,三季度元宝的生态整合速度明显加快了。7月份,元宝就打通了QQ音乐、腾讯视频、腾讯会议这些重磅产品。到了9月,你在公众号和视频号评论区都能看到元宝了,直接 它就能互动。

数据也挺说明问题的。截至9月30日,腾讯元宝的日活用户数已经挤进国内AI应用前三了,单日提问量达到了年初一个月的总量。

在推生态的同时,腾讯也没忘记加固AI底层建设。到现在,混元的图像、视频衍生模型已经有3500个了,3D系列模型在社区的下载量超过300万次。

各方抢滩视频生成赛道

现在全球范围内,视频生成这条赛道是真的挤。

自从2024年2月OpenAI的Sora一出来,谷歌这些科技巨头,还有Stability AI、Runway、Midjourney这些创业公司全都扎堆进来了,视频生成模型更新换代的速度快得吓人。

国内市场就更热闹了,基本上是"百花齐放"的状态。腾讯、阿里、快手、MiniMax这些公司都推出了自己的视频模型。10月27日,美团LongCat团队发布了LongCat-Video视频生成模型,能生成720p、30fps的高清视频,对文本里的物体、人物、场景、风格这些细节指令把握得挺准。10月28日,上海的AI独角兽MiniMax也发布了海螺2.3版本。

冯博的观点挺有意思:"对创作者来说,HunyuanVideo 1.5这类模型把专业视频制作的门槛拉低了不少。以前得一个团队配合才能搞定的剪辑、特效,现在你用自然语言描述一下可能就能做个大概出来。这对电商、教育、营销这些垂直行业的内容创新来说,应该会是个爆发点。"

他还预测,以后会不会用AI工具创作,可能会像当年应聘文职岗位时会不会用电脑一样,成为一道硬杠杠。这话听着还挺有道理的,毕竟技术发展到这个份上,不跟上可能真就落伍了。

0
好文章,需要你的鼓励