PixVerse V5.5发布:一句话生成多镜头口型同步视频

2025-12-03 11:20

174

12月1日，国内的拍我AI（PixVerse）推出了全新的V5.5版本，爱完成全量升级并正式开放体验。公司称，这是国内首款支持“多镜头+音画同步一键直出”的AI视频大模型，标志着AI生成视频从“单镜头素材”迈入“完整叙事短片”阶段。

这一版本的核心功能是，用户只需输入一句话，便能快速生成带声音和口型同步的高清视频，同时支持智能多镜头自动切换，显著提升了视频制作的便捷性。

与前代只能输出零散画面不同，V5.5依托自研MVL（多模态视觉语言）架构，可在5-10秒内自动完成脚本拆解、分镜调度、对白/音效/背景音乐生成，并保证角色口型与音色同频。用户仅需输入一句话提示，即可选择5秒、8秒或10秒成片规格，系统会按远景-中景-近景顺序自动运镜，输出具备起承转合的“初版成片”，无需二次剪辑。

“多视角主体构建技术让角色在镜头切换时保持面部、服饰一致性，解决了行业内‘特征漂移’痛点。”爱诗科技联合创始人谢旭璋表示，新版本面向社交短视频、广告创意及个人Vlog场景，可令零门槛用户“十分钟完成故事短片”。

PixVerse V5.5已同步登陆拍我AI App与Web端，普通用户可免费领取时长体验;企业客户可通过API接入，按秒计费。公司透露，下一阶段将开放3D生成与更长片幅，并计划与视频平台合作推出“AI叙事专区”，推动AI视频规模化商用。

PixVerse V5.5的突出特点在于音画一体，用户不再需要二次剪辑，视频直接就能发布。系统自动处理配音、背景音乐和音效，与画面进行精准对口型，极大降低了视频创作的技术门槛。对于不熟悉专业提示词的新手，PixVerse V5.5也提供了友好的使用体验，只需简短的描述，即可生成相应的视频内容。

此外，PixVerse V5.5采用了自研的Diffusion与Transformer混合架构，提升了视频生成速度与质量。整合文生视频、图生视频、台词口型同步及音效等功能，用户可在创意到发布的整个过程中享受到一站式服务。

PixVerse V5.5的推出，显著降低了视频制作的心理门槛，让更多人能够参与到视频创作中。尽管当前的技术还在不断完善，但对于创作者而言，AI工具的助力无疑是一次全新的机遇。

好文章，需要你的鼓励