Anthropic承认隐藏保障措施"决策失误"，Fable 5安全回退本周起全面可见

2026-06-11 15:13

6月11日消息，Anthropic宣布将Claude Fable 5中此前不可见的前沿LLM开发保障措施改为可见——被分类器标记的请求将直观回退至Opus 4.8，API端同步返回拒绝原因。Anthropic在声明中承认，最初选择隐藏保障措施"是一个错误的权衡"，并向用户致歉。

这一调整是对Fable 5发布48小时内爆发的大规模开发者反弹的直接回应。此前系统卡中埋藏的一段关于"不可见"保障措施的描述被社区发现后，从开源研究者到AI安全专家、再到前Anthropic员工，批评几乎覆盖了整个AI行业光谱。

争议始末：319页系统卡里的一段话

6月9日Fable 5发布时，网络安全、生物化学和模型蒸馏三类分类器触发后回退Opus 4.8的机制是公开透明的——用户能看到回退发生，API返回具体的拒绝类别（cyber、bio或reasoning_extraction）。据Anthropic数据，超过95%的会话不会触发任何回退。

真正引发风暴的是第四类保障措施：针对"前沿LLM开发"的隐性干预。Anthropic在319页系统卡中披露，对于涉及AI模型训练、推理链提取等前沿开发任务的请求，Fable 5不会回退到其他模型，也不会通知用户，而是通过提示词修改、引导向量（steering vectors）或参数高效微调（PEFT）等方式悄然降低输出质量。Anthropic估计这一机制影响约0.03%的流量，集中在不到0.1%的组织中。

问题在于：用户无法区分模型"本来就不行"和"被故意降级"。

社区反弹与Anthropic的回应

发布数小时后，批评从多个方向同时涌来。白宫科技政策办公室前高级顾问、美国创新基金会高级研究员Dean Ball将这一做法称为"秘密破坏"（secret sabotage），认为此举"极大地强化了一种论述——AI安全不过是实验室为垄断行为找的借口"。AI2前开源模型研究负责人Nathan Lambert称这"明确表明Anthropic反科学，因此也反进步、反安全"。Fast AI负责人Jeremy Howard则指出不对称性：Anthropic为自己的研究者保留完整能力，却限制外部研究者，"意味着AI前沿在推进，权力失衡在加剧"。

甚至前Anthropic员工也加入批评。曾共同领导Anthropic AI科学家项目的Behnam Neyshabur发帖说："在研究AI治疗癌症？抱歉，我帮不了你。"

据Moneycontrol报道，Anthropic随后发布声明承认错误。声明的核心逻辑是：隐藏的保障措施更难被探测和绕过，因此可以更窄、更精准地针对目标，误报率极低（0.05%的任务、不到0.05%的组织受影响）；但可见的保障措施需要覆盖更宽的范围才能抵御越狱攻击，代价是更高的误报率。Anthropic最初选择了前者——现在承认这是错误的。

从本周开始，被标记的请求将可见地回退到Opus 4.8，API端返回拒绝原因，服务端回退功能将在未来几天内上线。Anthropic同时表示正在调整生物安全和网络安全分类器以减少误报，但警告在分类器改进期间误报可能暂时增多。

技术架构：三层可见分类器 + 一层争议层

Fable 5的安全架构分为两个层次。第一层是三个可见分类器，覆盖网络安全（不限于漏洞利用，涵盖侦察、横向移动等完整攻击链）、生物化学（从此前仅覆盖生物武器窄范围扩展至大部分生物化学请求）和模型蒸馏（检测通过提示重写、引导向量、PEFT等方式提取模型能力的尝试）。Anthropic在系统卡中披露，蒸馏防护的背景是其检测到来自特定国家的大规模能力提取行为——据Nathan Lambert的独立分析，DeepSeek约15万次查询针对推理和奖励模型，Moonshot AI约340万次，MiniMax约1300万次，后两者对应的后训练数据量约1500亿至4000亿token。

第二层就是争议焦点：针对前沿LLM开发的不可见干预。此次调整将这一层也纳入可见体系。

从API层面看，触发回退时返回HTTP 200、stop_reason为"refusal"、stop_details中注明触发类别。输出前即被拒绝的请求不计费。一个新的beta参数fallbacks（需header server-side-fallback-2026-06-01）允许集成方在一次往返中服务端重试被拒请求，目前仅Claude API和AWS上的Claude Platform支持。

行业对比：同一难题，不同解法

Fable 5面临的核心困境并非Anthropic独有。当模型能力跨过某个阈值，如何在不阻碍合法使用的前提下限制恶意利用，是所有前沿实验室的共同挑战。

OpenAI在GPT-5.5上采取的策略有所不同。OpenAI同样对高风险领域设有安全层，但其拒绝机制在用户端表现为直接的内容拒绝而非模型降级回退，且未公开披露类似的"隐性能力降级"机制。Google Gemini 3.5系列则通过分级API权限控制不同用户对敏感能力的访问，而非在推理层面做动态干预。

Fable 5的"回退而非拒绝"设计思路本身有其合理性——用户仍能得到Opus 4.8级别的回答，体验不至于完全中断。但隐性降级的做法打破了一条基本预期：用户有权知道自己在和哪个级别的模型对话。这也是为什么即便在安全立场上通常与Anthropic一致的研究者也加入了批评。

值得关注的局限与风险

首先是误报问题的短期恶化。Anthropic自己承认，保障措施从隐藏转为可见后，为抵御越狱攻击需要"撒更宽的网"，这意味着在分类器优化完成之前合法请求被错误拦截的概率会上升。此前已有实测显示，"什么是线粒体""mRNA疫苗如何工作"等基础生物学问题都会触发回退——对于付费使用Fable 5的研究者和开发者而言，这直接影响工作效率。Anthropic表示误报发生在不到5%的会话中，但对于高频使用生物化学或网络安全相关prompt的专业用户来说，实际体感可能远高于这个数字。

其次是信任修复的长期成本。从技术层面看，Anthropic此次的纠正动作足够快——发布后约48小时即宣布改为可见。但"秘密降级"这一先例已经形成。AlphaXiv等研究平台指出，隐性干预使研究者无法判断实验失败是自身方法问题还是模型提供商的人为限制，这对科学研究的可复现性构成根本性威胁。这一信任裂痕不会因为一次政策调整而即刻弥合。

第三是IPO时点的微妙影响。Anthropic在一周多前刚秘密提交了IPO文件。在即将面对公开市场审视的节点上爆发安全政策争议——先是隐瞒、再被发现、再道歉——这一叙事弧线对投资者信心的影响值得持续观察。Dean Ball的批评已经明确将此事与"AI安全是否是垄断行为的借口"这一更大叙事挂钩，这种解读可能在监管和投资者层面产生持续涟漪。

用户若认为自己的请求被错误标记，可在Claude Code中运行/feedback，在Claude.ai或Cowork中对回退结果点踩，或为API请求提交保障措施申诉表格。

好文章，需要你的鼓励