xAI视频模型1.5正式上线：25秒生成720p，登顶图生视频榜单

2026-06-17 17:20

6月17日消息，据 xAI 官方公告，Grok Imagine Video 1.5 从 Preview 转为 GA（General Availability），在 API（模型 ID：grok-imagine-video-1.5）、网页端 grok.com/imagine 及 iOS/Android 客户端全量上线。这是 xAI 在 AI 视频生成领域的第二次重大迭代——上一版 1.0 在今年 2 月上线后曾短暂登顶 Artificial Analysis 排行榜，而 1.5 版在 5 月 31 日预览发布时再次拿下 Image-to-Video Arena 第一名，Elo 评分 1404，比 1.0 版高出 52 分，领先 ByteDance Seedance 2.0 和 Google Veo。

值得关注的背景是，OpenAI Sora 已于今年 4 月 26 日正式关停消费端产品，API 也将在 9 月 24 日彻底下线。AI 视频生成赛道目前形成 Google Veo 3.1、快手 Kling 3.0、ByteDance Seedance 2.0、xAI Grok Imagine 多方混战的格局，xAI 选择在这一窗口期将模型从预览推向正式版，时机耐人寻味。

核心升级：音频同步、物理引擎、生成速度

1.5 版的改进集中在三个维度。

音视频一体化生成是最大的功能卖点。音效、环境声和角色对话在同一推理阶段同步产生，不需要后期叠加。据 xAI 描述，语音清晰度和唇形同步相比前代均有改善。这一特性并非 xAI 独有——Seedance 2.0 在今年 2 月已实现统一音视频联合生成，Google Veo 3.1 的原生 48kHz 音频在音质层面被多家评测机构评为目前最佳，Kling 3.0 则支持多语言对话唇同步。但 xAI 的差异在于将这一能力直接打包进消费端免费/低门槛产品线，降低了使用门槛。

物理模拟和运动一致性据称显著改善，长镜头内物体的重量感、动量和运动连贯性更可信，画面扭曲和变形伪影减少。不过需要指出，社区早期测试的反馈并不完全一致——据 Aihola 报道，部分测试者认为 1.5 版在情绪表达和对话场景表现突出，但在复杂物理动态方面仍落后于 Seedance 2.0。排行榜排名基于社区盲测投票，更多反映综合偏好而非单一维度的绝对优势。

生成速度提升幅度最为直观。轻量版 Video 1.5 Fast 生成 6 秒 720p 视频耗时约 25 秒，此前模型需要 40 秒以上，降幅约 37%。横向对比，Seedance 2.0 Fast 是当前市场上单位成本最低的量产选项之一（据 Atlas Cloud 数据，1 分钟 8 秒片段约 1.32 美元），但 xAI 在速度绝对值上具有竞争力。

API 定价与开发者接入

GA 版模型 ID 为 grok-imagine-video-1.5，此前预览版使用的 grok-imagine-video-1.5-preview 别名（底层版本 grok-imagine-video-1.5-2026-05-30）仍可使用。API 速率限制为 60 请求/分钟。

定价方面：图像输入 0.01 美元/张，视频按秒计费——480p 分辨率 0.08 美元/秒，720p 为 0.14 美元/秒。以生成一段 10 秒 720p 视频为例，总成本约 1.41 美元（含图像输入费）。

这一价格在市场中处于中等偏上区间。据多家 API 聚合平台数据，Google Veo 3.1 Standard 约 0.20 美元/秒但输出可达 4K，Kling 3.0 约 0.095 美元/秒且原生支持 4K，Seedance 2.0 从免费到每月 167 美元的订阅层级覆盖更广。xAI 的优势在于音频零额外成本——竞品中视频和音频分开计费的方案意味着一段 15 秒成片的真实成本要叠加配音/音效工具的费用。

支持的输入格式包括 JPG、JPEG、PNG、WEBP、GIF、AVIF，输出为 H.264 MP4，24fps，支持 7 种宽高比，480p 和 720p 两档分辨率，单片段时长 6-15 秒。

xAI 官方提供了 Python SDK 接入示例：

import os
import xai_sdk
client = xai_sdk.Client(api_key=os.getenv("XAI_API_KEY"))
response = client.video.generate(
    prompt="Slow cinematic push-in as embers drift across the battlefield",
    model="grok-imagine-video-1.5",
    image_url="https://your-host.com/image.jpg",
    duration=10,
    resolution="720p",
)
print(response.url)

配套工作流更新

GA 发布同步上线了三项网页端生产力功能。Projects（项目管理）允许用户按项目分类整理生成素材，出现在左侧边栏；Multiple Agents（多智能体并行）支持同时运行多条提示词，不必等一个生成任务完成再启动下一个；Search（媒体库语义搜索）可以通过关键词检索已生成的图片和视频。

这些功能更多是补齐产品完整度，而非技术突破。Runway、Pika 等平台早已具备类似的项目管理和批量生成能力，但对于 Grok Imagine 这个今年 1 月才开放 API 的产品而言，从"能生成"到"能管理生产流程"是走向可用性的必要一步。

Odyssey 预告片：能力演示还是真实产能？

xAI 在发布中展示了数字艺术家 David Thompson（@heavypulp）使用 Grok Imagine 1.5 制作的电影预告片《Odyssey》，全片由 AI 生成。此前 6 月 4 日，Elon Musk 也在 X 平台分享过一段 AI 生成的《伊利亚特》40 秒预告，获得 1840 万次播放。

这类演示说明模型在受控条件下的电影级表现力，但需要注意两点：一是公开展示的素材均经过精选，不代表平均生成质量；二是视频延伸（Video Extension）功能在 2-3 次链式续写后画质会明显下降，目前 xAI 未公布修复时间表。从"单个精品片段"到"可批量生产的稳定流水线"之间仍有差距。

当前局限

尽管排行榜成绩亮眼，Grok Imagine Video 1.5 存在几个明确的短板：

分辨率上限 720p。 竞品中 Kling 3.0 原生支持 4K，Google Veo 3.1 Standard 同样支持 4K 输出。对于需要高分辨率交付的广告、影视制作场景，720p 可能不够用。

单片段 6-15 秒。 这与大多数竞品处于同一区间，但无法满足长片段需求。链式续写存在质量衰减问题，目前不具备可靠的长视频生产能力。

Text-to-Video 能力有限。 1.5 版的核心优势集中在 Image-to-Video，纯文本生成视频的质量和控制精度与 Veo 3.1、Kling 3.0 相比仍有差距。

生态成熟度不足。 xAI 的视频生成产品线从 2025 年 10 月（v0.9）起步，API 今年 1 月才开放，开发者文档、社区资源和第三方集成远不及 Runway、Kling 等深耕多年的平台。

排行榜排名的参考价值有限。 Artificial Analysis Arena 基于社区盲测投票，反映的是用户主观偏好，而非标准化基准。一些评测者已指出，排行榜高分不等于在每种风格、每种工作流中都是最优选。

选型建议

AI 视频生成在 2026 年已进入多模型混用阶段，没有单一最优解。Grok Imagine Video 1.5 的最佳适用场景是：需要快速将静态图像转化为带同步音频的短视频片段，且对分辨率要求不超过 720p。它在速度和音频打包成本方面有竞争力，对个人创作者和中小团队的入门门槛较低。

如果优先级是 4K 画质和最佳音频品质，Google Veo 3.1 是当前标杆；如果需要电影级运动控制和多语言对话，Kling 3.0 更合适；如果是高频批量生产且预算敏感，Seedance 2.0 Fast 的单位成本更低。实际生产中多数团队会针对不同镜头类型选择不同模型——这已经是 2026 年 AI 视频制作的常态工作流。

好文章，需要你的鼓励