6月17日消息,据 xAI 官方公告,Grok Imagine Video 1.5 从 Preview 转为 GA(General Availability),在 API(模型 ID:grok-imagine-video-1.5)、网页端 grok.com/imagine 及 iOS/Android 客户端全量上线。这是 xAI 在 AI 视频生成领域的第二次重大迭代——上一版 1.0 在今年 2 月上线后曾短暂登顶 Artificial Analysis 排行榜,而 1.5 版在 5 月 31 日预览发布时再次拿下 Image-to-Video Arena 第一名,Elo 评分 1404,比 1.0 版高出 52 分,领先 ByteDance Seedance 2.0 和 Google Veo。 值得关注的背景是,OpenAI Sora 已于今年 4 月 26 日正式关停消费端产品,API 也将在 9 月 24 日彻底下线。AI 视频生成赛道目前形成 Google Veo 3.1、快手 Kling 3.0、ByteDance Seedance 2.0、xAI Grok Imagine 多方混战的格局,xAI 选择在这一窗口期将模型从预览推向正式版,时机耐人寻味。
核心升级:音频同步、物理引擎、生成速度
1.5 版的改进集中在三个维度。
音视频一体化生成是最大的功能卖点。音效、环境声和角色对话在同一推理阶段同步产生,不需要后期叠加。据 xAI 描述,语音清晰度和唇形同步相比前代均有改善。这一特性并非 xAI 独有——Seedance 2.0 在今年 2 月已实现统一音视频联合生成,Google Veo 3.1 的原生 48kHz 音频在音质层面被多家评测机构评为目前最佳,Kling 3.0 则支持多语言对话唇同步。但 xAI 的差异在于将这一能力直接打包进消费端免费/低门槛产品线,降低了使用门槛。
物理模拟和运动一致性据称显著改善,长镜头内物体的重量感、动量和运动连贯性更可信,画面扭曲和变形伪影减少。不过需要指出,社区早期测试的反馈并不完全一致——据 Aihola 报道,部分测试者认为 1.5 版在情绪表达和对话场景表现突出,但在复杂物理动态方面仍落后于 Seedance 2.0。排行榜排名基于社区盲测投票,更多反映综合偏好而非单一维度的绝对优势。
生成速度提升幅度最为直观。轻量版 Video 1.5 Fast 生成 6 秒 720p 视频耗时约 25 秒,此前模型需要 40 秒以上,降幅约 37%。横向对比,Seedance 2.0 Fast 是当前市场上单位成本最低的量产选项之一(据 Atlas Cloud 数据,1 分钟 8 秒片段约 1.32 美元),但 xAI 在速度绝对值上具有竞争力。
API 定价与开发者接入
GA 版模型 ID 为 grok-imagine-video-1.5,此前预览版使用的 grok-imagine-video-1.5-preview 别名(底层版本 grok-imagine-video-1.5-2026-05-30)仍可使用。API 速率限制为 60 请求/分钟。
定价方面:图像输入 0.01 美元/张,视频按秒计费——480p 分辨率 0.08 美元/秒,720p 为 0.14 美元/秒。以生成一段 10 秒 720p 视频为例,总成本约 1.41 美元(含图像输入费)。
这一价格在市场中处于中等偏上区间。据多家 API 聚合平台数据,Google Veo 3.1 Standard 约 0.20 美元/秒但输出可达 4K,Kling 3.0 约 0.095 美元/秒且原生支持 4K,Seedance 2.0 从免费到每月 167 美元的订阅层级覆盖更广。xAI 的优势在于音频零额外成本——竞品中视频和音频分开计费的方案意味着一段 15 秒成片的真实成本要叠加配音/音效工具的费用。
支持的输入格式包括 JPG、JPEG、PNG、WEBP、GIF、AVIF,输出为 H.264 MP4,24fps,支持 7 种宽高比,480p 和 720p 两档分辨率,单片段时长 6-15 秒。
xAI 官方提供了 Python SDK 接入示例:
配套工作流更新
GA 发布同步上线了三项网页端生产力功能。Projects(项目管理)允许用户按项目分类整理生成素材,出现在左侧边栏;Multiple Agents(多智能体并行)支持同时运行多条提示词,不必等一个生成任务完成再启动下一个;Search(媒体库语义搜索)可以通过关键词检索已生成的图片和视频。
这些功能更多是补齐产品完整度,而非技术突破。Runway、Pika 等平台早已具备类似的项目管理和批量生成能力,但对于 Grok Imagine 这个今年 1 月才开放 API 的产品而言,从"能生成"到"能管理生产流程"是走向可用性的必要一步。
Odyssey 预告片:能力演示还是真实产能?
xAI 在发布中展示了数字艺术家 David Thompson(@heavypulp)使用 Grok Imagine 1.5 制作的电影预告片《Odyssey》,全片由 AI 生成。此前 6 月 4 日,Elon Musk 也在 X 平台分享过一段 AI 生成的《伊利亚特》40 秒预告,获得 1840 万次播放。
这类演示说明模型在受控条件下的电影级表现力,但需要注意两点:一是公开展示的素材均经过精选,不代表平均生成质量;二是视频延伸(Video Extension)功能在 2-3 次链式续写后画质会明显下降,目前 xAI 未公布修复时间表。从"单个精品片段"到"可批量生产的稳定流水线"之间仍有差距。
当前局限
尽管排行榜成绩亮眼,Grok Imagine Video 1.5 存在几个明确的短板:
分辨率上限 720p。 竞品中 Kling 3.0 原生支持 4K,Google Veo 3.1 Standard 同样支持 4K 输出。对于需要高分辨率交付的广告、影视制作场景,720p 可能不够用。
单片段 6-15 秒。 这与大多数竞品处于同一区间,但无法满足长片段需求。链式续写存在质量衰减问题,目前不具备可靠的长视频生产能力。
Text-to-Video 能力有限。 1.5 版的核心优势集中在 Image-to-Video,纯文本生成视频的质量和控制精度与 Veo 3.1、Kling 3.0 相比仍有差距。
生态成熟度不足。 xAI 的视频生成产品线从 2025 年 10 月(v0.9)起步,API 今年 1 月才开放,开发者文档、社区资源和第三方集成远不及 Runway、Kling 等深耕多年的平台。
排行榜排名的参考价值有限。 Artificial Analysis Arena 基于社区盲测投票,反映的是用户主观偏好,而非标准化基准。一些评测者已指出,排行榜高分不等于在每种风格、每种工作流中都是最优选。
选型建议
AI 视频生成在 2026 年已进入多模型混用阶段,没有单一最优解。Grok Imagine Video 1.5 的最佳适用场景是:需要快速将静态图像转化为带同步音频的短视频片段,且对分辨率要求不超过 720p。它在速度和音频打包成本方面有竞争力,对个人创作者和中小团队的入门门槛较低。
如果优先级是 4K 画质和最佳音频品质,Google Veo 3.1 是当前标杆;如果需要电影级运动控制和多语言对话,Kling 3.0 更合适;如果是高频批量生产且预算敏感,Seedance 2.0 Fast 的单位成本更低。实际生产中多数团队会针对不同镜头类型选择不同模型——这已经是 2026 年 AI 视频制作的常态工作流。