OpenAl测试推出4款王炸新模型！

2025-12-05 13:18

177

12月4日凌晨4点，GitHub和DesignArena同时泄露了OpenAI的新模型矩阵，其内部代号为“Penguin”，首次揭示了四个级别的推理预算：旗舰级Emperor512、中端Rockhopper64、轻量级Macaroni16和零推理Mumble0，涵盖了从云端到边缘的所有场景。

内部文件显示，Emperor拥有512个单元的“juice”推理预算，是当前模型的8到10倍，端到端延迟控制在80毫秒以内，实现了“零等待”对话体验；代码路径嵌入了实时剪枝和动态计算分配，很可能成为明年GPT-5.2的底层架构。

四个预算级别=四个延迟级别：Macaroni注重速度，而Mumble完全跳过了推理过程。

Rockhopper(64)（中端）定位为“推理+速度”平衡，旨在取代GPT-4.5。

Macaroni(16)的目标平台是移动设备，并且首次在搭载8Gen3芯片的70B型号上成功运行。

Mumble(0)完全跳过推理步骤，响应时间小于50毫秒，适用于高频自动化和语音中断场景。

同时展现记忆搜索：一键回忆对话内容

泄露的代码显示，ChatGPT将添加一个“记忆搜索”按钮，允许用户通过输入自然语言立即检索历史记忆，而无需手动搜索聊天记录；该功能已在内部进行测试，预计将与Penguin系列模型一起发布。

消息还指出，OpenAI可能下周发布一款内部代号为Shallotpeat的新型推理模型，其性能已经超过了Gemini3；另一款模型Garlic已完成预训练，将于2026年初作为GPT-5.2/5.5发布，专注于“小参数+高密度知识”方法，直接与谷歌的“预训练飞跃”展开竞争。

行业格局重塑：开源和闭源双双加速发展

对于开发者而言，四个预算级别意味着同一个代码名称可以调用不同的“延迟-成本-准确性”组合，预计API定价将下降30%。

对于竞争对手而言，OpenAI首次明确地对“推理预算”进行了定价，迫使谷歌和Anthropic也采用类似的分类方式。

对于监管机构而言，零推断的Mumble超快响应速度可能会放大错误率，安全评估可能成为产品发布前的最后一道防线。

OpenAI尚未公布Penguin模型的具体发布日期，但已在DesignArena平台上启动了盲测，获胜模型将直接集成到ChatGPT Plus和企业版渠道中。AIbase将持续关注并在第一时间为您带来基准测试结果和API定价详情。

好文章，需要你的鼓励