PixVerse V5.5发布:一句话生成多镜头口型同步视频
12月1日,国内的拍我AI(PixVerse)推出了全新的V5.5版本,爱完成全量升级并正式开放体验。公司称,这是国内首款支持“多镜头+音画同步一键直出”的AI视频大模型,标志着AI生成视频从“单镜头素材”迈入“完整叙事短片”阶段。
这一版本的核心功能是,用户只需输入一句话,便能快速生成带声音和口型同步的高清视频,同时支持智能多镜头自动切换,显著提升了视频制作的便捷性。

与前代只能输出零散画面不同,V5.5依托自研MVL(多模态视觉语言)架构,可在5-10秒内自动完成脚本拆解、分镜调度、对白/音效/背景音乐生成,并保证角色口型与音色同频。用户仅需输入一句话提示,即可选择5秒、8秒或10秒成片规格,系统会按远景-中景-近景顺序自动运镜,输出具备起承转合的“初版成片”,无需二次剪辑。
“多视角主体构建技术让角色在镜头切换时保持面部、服饰一致性,解决了行业内‘特征漂移’痛点。”爱诗科技联合创始人谢旭璋表示,新版本面向社交短视频、广告创意及个人Vlog场景,可令零门槛用户“十分钟完成故事短片”。
PixVerse V5.5已同步登陆拍我AI App与Web端,普通用户可免费领取时长体验;企业客户可通过API接入,按秒计费。公司透露,下一阶段将开放3D生成与更长片幅,并计划与视频平台合作推出“AI叙事专区”,推动AI视频规模化商用。
PixVerse V5.5的突出特点在于音画一体,用户不再需要二次剪辑,视频直接就能发布。系统自动处理配音、背景音乐和音效,与画面进行精准对口型,极大降低了视频创作的技术门槛。对于不熟悉专业提示词的新手,PixVerse V5.5也提供了友好的使用体验,只需简短的描述,即可生成相应的视频内容。
此外,PixVerse V5.5采用了自研的Diffusion与Transformer混合架构,提升了视频生成速度与质量。整合文生视频、图生视频、台词口型同步及音效等功能,用户可在创意到发布的整个过程中享受到一站式服务。
PixVerse V5.5的推出,显著降低了视频制作的心理门槛,让更多人能够参与到视频创作中。尽管当前的技术还在不断完善,但对于创作者而言,AI工具的助力无疑是一次全新的机遇。
