Grok 4.20 官宣下周发布:马斯克称"重大改进",实时交易回报率 34.59%

2026-02-15 20:49
59
2月15日消息, xAI 创始人埃隆·马斯克(Elon Musk)今晨在 X 平台正式确认,Grok 4.20 将于下周发布。这款历经严寒天气与电力危机延迟训练的大模型,被马斯克本人评价为相比 Grok 4.1 的"重大改进"。预览版基准测试数据显示,Grok 4.20 在实时交易模拟中以 +34.59% 回报率登顶全球排行榜,展现出在"非虚构"场景中的强劲实力。


发布倒计时:从"3-4 周内"到"终于下周"

Grok 4.20 的发布之路一波三折。自 2025 年 12 月初马斯克首次预告"3-4 周内推出"以来,训练进程因极端寒冷天气引发的电力供应问题被迫推迟至 2 月中旬。今晨 7:45 EST,马斯克在 X 平台回复用户时最终确认:"Grok 4.20 终于下周发布了。"
该帖文在 1 小时内获得超过 1800 个点赞15 万浏览,反映出市场对这款新品的极高关注度。据预测市场 MLQ.ai 数据,Grok 4.20 在 2 月 16-22 日发布的概率约为 70%。

技术规格:1.7T 参数 + 256k 上下文窗口

Grok 4.20 基于 xAI 的 Colossus 2 超级集群 训练完成,核心规格包括:
  • 参数规模:1.7T(万亿)参数
  • 架构:MoE(专家混合)架构
  • 上下文窗口:256k tokens
  • 订阅层级:仅限 SuperGrok 和 Premium+ 用户(Grok 4 系列不开放免费版)
用户可通过 grok.com、X 平台及移动 App 访问完整功能。

实战霸榜:交易回报率 34.59% 击败 GPT-5

与追求通用基准 SOTA 的竞品不同,Grok 4.20 的差异化优势体现在"真实世界任务"中:
基准测试
表现
排名
对比
Alpha Arena(实时交易模拟)
+34.59% 回报率
#1 全球
击败 GPT-5、Gemini 3 Pro
ForecastBench(预测能力)
接近人类超级预测者
#2 全球
超越 GPT-5、Claude Opus 4.5
Text Arena(文本生成)
预言级表现
预计 #1
领先 Grok 4.1 的 #2 排名
在 Alpha Arena 这一"真金白银"的实时交易模拟中,Grok 4.20 以 34.59% 的回报率 稳居榜首。社区评价其"不是只在基准上好,而是实际赚钱",被视为"真实世界 SOTA"。

编码能力存疑,多模态提速

不过在编码等传统 AI 能力领域,Grok 4.20 的预览版表现相对温和。部分用户预测其在 HumanEval 等代码基准上可能落后 Claude Opus 4.5,真正的编码竞争力或需等待后续发布的 Grok 5。
另一方面,Grok 4.20 在多模态和推理速度上实现显著提升:
  • 支持图像/视频输入
  • API 延迟优化,流量同比增长 14.74%(高于 ChatGPT)
  • 更富创意的文本生成能力

路线图:Grok 5 瞄准 AGI

Grok 4.20 被定位为 Grok 4 系列的迭代升级,而真正的"大招" Grok 5 预计将在数月内跟进。马斯克此前暗示,Grok 5 可能接近 AGI(人工通用智能)水平,将与 OpenAI、Google 等对手展开终极竞争。

社区声音:实用领先 vs 全面霸榜

对于 Grok 4.20 的 SOTA 期望,社区呈现分化态势:
乐观派认为,Grok 4.20 在交易、预测等"非虚构"任务中的领先证明了 xAI 的差异化路线,马斯克强调的"based"(真实、不"觉醒")特质将在特定用户群体中形成强粘性。
谨慎派则指出,从 4.1 到 4.20 仅数月间隔,可能只是"增量精炼"而非颠覆性跃升。延迟发布也被部分解读为"蛮力缩放"策略难以快速赶超竞争对手的信号。
无论如何,随着 Grok 4.20 完整基准预计在发布后 24 小时内流出,AI 大模型竞赛的新一轮较量即将拉开帷幕。

0
好文章,需要你的鼓励