Fable 5发布次日即被突破：Pliny用多Agent协同绕过Anthropic分类器防线

2026-06-11 10:34

6月11日消息，安全研究员Pliny the Liberator（X账号@elder_plinius）公开演示突破Claude Fable 5的安全防线，使用多Agent协同、Unicode同形字替换和查询分解重组等技术组合，从Fable 5中提取了涉及缓冲区溢出利用和化学合成路径的内容。这距离Anthropic发布Fable 5仅过去一天。

Fable 5发布次日即被突破：Pliny用多Agent协同绕过Anthropic分类器防线

Anthropic为Fable 5设计了什么防线

Fable 5是Anthropic发布的首个公开可用的Mythos-class模型。Mythos级模型的核心风险在于网络安全能力——据Anthropic披露，该级别模型能够发现和利用软件漏洞，并执行多步骤自主攻击（侦察、发现、横向移动等完整攻击链）。为了在不完全封锁能力的前提下对外发布，Anthropic设计了一套新的分类器系统。

分类器是独立于主模型运行的AI系统，覆盖三个领域：网络安全、生物化学和模型蒸馏。当分类器检测到用户请求涉及这些领域时，Fable 5不会直接响应，而是自动回退到能力较弱的Claude Opus 4.8来处理。据Anthropic数据，超过95%的会话不会触发分类器回退。

在发布前，Anthropic进行了内部红队测试和外部漏洞赏金计划，累计超过1000小时的越狱尝试未发现通用越狱（universal jailbreak）。一家外部合作方报告称，Fable 5在面对30种公开越狱技术时，对涉及攻击规划、漏洞利用开发和防御规避的有害单轮请求实现了零合规。不过Anthropic在公告中也提到一个例外：英国AI安全研究所（UK AISI）在短暂的初始测试窗口内"朝通用越狱方向取得了进展"。

Pliny做了什么

Pliny在Fable 5发布当天（6月9日）首先公开了Fable 5的系统提示（system prompt），长度约12万字符，引发社区对Anthropic安全策略细节的广泛讨论。次日（6月10日），Pliny宣布突破Fable 5的安全防线，并在X上发布了演示截图。

据Pliny在X上的详细说明，突破过程使用了多种技术的组合：Unicode、同形字（homoglyph）、西里尔字母等文本变换用于混淆分类器的token识别；长上下文引用跟踪和分类体系推理用于在长对话中持续施压；虚构叙事框架和学术评审风格的上下文包装用于规避意图分类；以及分类器的意图识别不一致性（intent-classification inconsistencies）被作为攻击面利用。

Pliny指出，最有效的手段是"分解+后端重组"（decomposition + recomposition）。直接请求有害内容的完整名称（如具体的化学合成方法名）很容易被拦截，但将有害信息拆解为看似无害的子查询片段，再在后端拼接还原，分类器就难以维持防御。他还提到使用了此前已被越狱的Claude Opus来辅助构造攻击提示，形成"用Opus越狱Opus"的多Agent协同攻击模式——这与他4月份公开演示的Opus 4.7自越狱技术一脉相承。

整个过程涉及多个Agent"像狼群一样协同猎捕"（hunting as a pack），经过大量尝试才实现突破。

Anthropic的安全逻辑与Pliny的反逻辑

Anthropic的防御设计思路是：不追求绝对防越狱，而是让越狱变得"足够慢、足够昂贵，以便在规模化使用之前被检测和阻止"。Anthropic同步宣布对所有Mythos级模型流量实施强制30天数据留存（即使企业用户此前享有零留存协议），用于检测复杂攻击和减少误报。

Pliny的反逻辑则是：通过公开演示越狱的可能性，迫使AI公司直面安全声明与实际防护之间的差距。他在X上表示，Fable 5是"历史上最令人失望的模型发布之一"，认为过度敏感的安全层实际上在阻碍合法研究者为集体进步做出贡献。他强调的立场是"透明度而非封锁"。

从社区反应来看，X上的讨论呈现明显分化：约80%的评论对越狱成功表示赞赏或将其视为有价值的安全研究，约20%则批评公开演示有害内容提取路径可能带来实际风险。

需要关注的几个维度

首先，Pliny展示的不是通用越狱。Anthropic定义的"通用越狱"是指用户可以像不存在安全防护一样与模型交互。Pliny的演示需要多Agent协同、大量尝试和专业技术知识，远非"复制粘贴一段提示就能复现"的级别。这与此前GPT-4o发布当天被简单文本提示越狱的情况有本质区别。

其次，Anthropic的分类器架构存在一个结构性张力：分类器需要在用户输入层面判断意图，而语言的模糊性意味着任何基于意图分类的系统都面临"将有害请求拆解为无害片段"这一根本挑战。Pliny的分解重组策略恰好击中了这个盲区。Anthropic在公告中承认"完全防止通用越狱可能是不可能的"，这说明公司本身也将当前的安全措施视为概率性防御而非绝对屏障。

第三，30天数据留存政策的引入是一个值得注意的行业信号。这意味着使用越强大的模型可能伴随越严格的数据保留要求，对于涉及敏感数据的企业用户而言，这在安全合规与隐私保护之间制造了新的张力。TechCrunch的报道指出，这可能开创一个行业先例：越强大的模型访问权限与越严格的数据留存政策挂钩。

最后，这一事件需要放在更大的背景下看待。Pliny自2023年起持续越狱GPT、Claude、Gemini等主流模型，每次新模型发布后几乎都在短时间内公开突破。他在GitHub上维护的L1B3RT4S仓库系统性地收录了针对各家模型的越狱技术。这说明模型安全是一个持续的攻防博弈，而非一次性的工程问题。对开发者和用户而言，将模型安全声明视为"当前最佳状态评估"而非"绝对保证"，可能是更务实的预期管理方式。

好文章，需要你的鼓励