OpenAl测试推出4款王炸新模型!

2025-12-05 13:18
177

12月4日凌晨4点,GitHub和DesignArena同时泄露了OpenAI的新模型矩阵,其内部代号为“Penguin”,首次揭示了四个级别的推理预算:旗舰级Emperor512、中端Rockhopper64、轻量级Macaroni16和零推理Mumble0,涵盖了从云端到边缘的所有场景。

image.png

内部文件显示,Emperor拥有512个单元的“juice”推理预算,是当前模型的8到10倍,端到端延迟控制在80毫秒以内,实现了“零等待”对话体验;代码路径嵌入了实时剪枝和动态计算分配,很可能成为明年GPT-5.2的底层架构。

四个预算级别=四个延迟级别:Macaroni注重速度,而Mumble完全跳过了推理过程。

Rockhopper(64)(中端)定位为“推理+速度”平衡,旨在取代GPT-4.5。

Macaroni(16)的目标平台是移动设备,并且首次在搭载8Gen3芯片的70B型号上成功运行。

Mumble(0)完全跳过推理步骤,响应时间小于50毫秒,适用于高频自动化和语音中断场景。

同时展现记忆搜索:一键回忆对话内容

泄露的代码显示,ChatGPT将添加一个“记忆搜索”按钮,允许用户通过输入自然语言立即检索历史记忆,而无需手动搜索聊天记录;该功能已在内部进行测试,预计将与Penguin系列模型一起发布。

消息还指出,OpenAI可能下周发布一款内部代号为Shallotpeat的新型推理模型,其性能已经超过了Gemini3;另一款模型Garlic已完成预训练,将于2026年初作为GPT-5.2/5.5发布,专注于“小参数+高密度知识”方法,直接与谷歌的“预训练飞跃”展开竞争。

行业格局重塑:开源和闭源双双加速发展

对于开发者而言,四个预算级别意味着同一个代码名称可以调用不同的“延迟-成本-准确性”组合,预计API定价将下降30%。

对于竞争对手而言,OpenAI首次明确地对“推理预算”进行了定价,迫使谷歌和Anthropic也采用类似的分类方式。

对于监管机构而言,零推断的Mumble超快响应速度可能会放大错误率,安全评估可能成为产品发布前的最后一道防线。

OpenAI尚未公布Penguin模型的具体发布日期,但已在DesignArena平台上启动了盲测,获胜模型将直接集成到ChatGPT Plus和企业版渠道中。AIbase将持续关注并在第一时间为您带来基准测试结果和API定价详情。

0
好文章,需要你的鼓励