Anthropic说被偷了，Musk说你自己也是贼——AI蒸馏攻击争议全解读

2026-02-24 11:55

2月23日，一则消息引爆了全球AI圈：美国AI公司Anthropic在官方博客发布长文，指控三家中国AI实验室——DeepSeek、Moonshot AI（月之暗面）和MiniMax（稀宇科技）——利用超过24,000个欺诈账户，与其旗舰模型Claude产生超过1,600万次交互，系统性地提取Claude的核心能力来训练自己的模型。

Anthropic将这种行为定义为"蒸馏攻击"（Distillation Attack）。

这不是一个简单的商业纠纷。同一天，路透社独家报道称美国政府高级官员指控DeepSeek使用被禁的英伟达Blackwell芯片训练即将发布的V4模型。而Elon Musk则在X平台反击Anthropic，称其自身"因大规模窃取训练数据而支付了数十亿美元和解金"。

要理解这场争议，我们需要先搞清楚一个核心技术概念：什么是蒸馏？

一、什么是AI蒸馏？5分钟搞懂核心原理

蒸馏（Knowledge Distillation）是机器学习领域的一项基础技术，最早由深度学习先驱Geoffrey Hinton在2015年的论文中系统提出。

它的核心思路非常直观：让一个小模型向一个大模型"学习"。

在AI训练中，大模型（"教师模型"）虽然能力强，但运行成本高、速度慢，不适合大规模部署。蒸馏的目的是将大模型的"知识"压缩到一个更小、更高效的模型（"学生模型"）中——学生不需要从零开始学习世界知识，而是直接学习教师"怎么思考、怎么回答"。

打个直觉性的比方：一个学生不需要重新发明微积分，只需要跟着一个好老师学习解题思路，就能快速掌握解题方法。

蒸馏出的小模型通常能保留大模型80-90%的能力，但推理成本可能只有十分之一。正因如此，蒸馏是所有主流AI公司的标准操作。OpenAI的GPT-4o mini、Anthropic的Claude Haiku、Google的Gemini Flash——这些"轻量版"模型本质上都是从更大的旗舰模型蒸馏而来。

这是完全合法且被广泛认可的做法。

二、什么是蒸馏攻击？与正常蒸馏有何区别？

蒸馏攻击的核心区别在于一个字：偷。

正常蒸馏是用自己的大模型训练自己的小模型。蒸馏攻击是未经授权，大规模利用竞争对手的模型输出来训练自己的模型。

以Anthropic指控的场景为例，一次典型的蒸馏攻击分为三个步骤。

第一步是获取访问权。攻击者通过商业代理服务和大量虚假账户访问Claude API，绕过地区限制和身份验证。Anthropic称一个代理网络曾同时管理超过20,000个欺诈账户，形成他们所说的"水螺集群"（hydra cluster）架构——封一个号，立刻补一个。

第二步是系统性提取。与普通用户的随机提问不同，攻击者发送大量精心设计的提示词（prompt），专门针对模型最强的能力领域。Anthropic披露的数据显示，DeepSeek主要针对推理能力和审查安全查询的替代方案，Moonshot AI针对智能体推理、工具使用和计算机视觉，MiniMax针对智能体编码和工具编排。

第三步是训练自己的模型。收集到的海量"问题-回答"对被用作训练数据，或者用来生成强化学习所需的奖励信号。效果相当于用极低成本"搬运"了对方投入数亿美元研发出的核心能力。

简单理解两者的区别：合法蒸馏是自家厨师把招牌菜的做法教给新厨师，蒸馏攻击是派人反复去竞争对手的餐厅点菜、拍照、记录配方，然后回来复制整个菜单。

三、Anthropic是如何发现蒸馏攻击的？

这是很多技术从业者最关心的问题。根据Anthropic官方博文及TechCrunch、CyberScoop等媒体报道，检测体系涉及多个技术层面。

流量模式异常检测

正常用户和蒸馏攻击者的行为模式存在本质差异。普通用户的提问随机、多样、有上下文——今天问做菜，明天问代码，后天闲聊。蒸馏攻击流量则呈现出显著特征：极高的请求量、高度集中在特定能力领域、提示词结构高度重复且系统化。

Anthropic构建了多种分类器来自动识别这类模式。当账户的请求在频率、主题集中度、提示词结构上偏离正常用户分布时，系统会触发警报。

行为指纹识别

即使攻击者试图伪装成正常用户，行为仍会留下"指纹"。

Anthropic特别提到了思维链引出检测：蒸馏最有价值的数据不是模型的最终答案，而是推理过程。攻击者会刻意设计提示词来引出模型的完整推理链，因为这些数据正是训练强化学习所需的。Anthropic专门构建了系统来识别这类"刻意引出推理过程"的提示词模式。

协调行为检测也是关键手段。单个账户容易被封禁，攻击者因此使用数千个账户分散流量，但这些账户之间往往存在协调痕迹——相同的支付方式、同步的使用时间、相似的提示词模板、IP地址的关联性。

基础设施溯源与归因

Anthropic通过IP地址关联、请求元数据分析和基础设施指标，将攻击流量聚类归因到具体公司。他们声称以"高置信度"完成了归因，并与行业合作伙伴进行了交叉验证。

其中最有力的证据来自MiniMax案例。Anthropic声称在MiniMax的攻击仍在进行时就检测到了活动，并观察到一个关键行为：当Anthropic发布新模型时，MiniMax在24小时内将近一半流量转向新模型。这种"追新"行为几乎不可能是正常用户产生的，直接暴露了蒸馏意图，也让Anthropic能将攻击时间线与MiniMax的产品发布路线图进行比对。

检测的完整逻辑链

总结下来，Anthropic的检测逻辑链为：异常流量模式触发警报，行为指纹进行聚类分析，跨账户协调行为被识别，基础设施元数据完成溯源，与公开产品路线图比对，最后通过行业伙伴交叉验证，最终以"高置信度"归因到具体公司。

需要指出的是，Anthropic出于安全考虑没有公布完整的技术细节——公布检测方法本身会帮助攻击者改进规避策略。

四、既然会被发现，为什么还要蒸馏？

这是一个非常现实的问题。答案在于：被抓的代价远低于蒸馏带来的收益。

经济账算得过来

训练一个前沿模型从零开始需要数亿美元算力和数年研发时间。蒸馏的成本是几万个API账户的费用加上代理服务，可能几百万美元就能提取到对手花了几亿美元才训练出的核心能力。即使被发现、被封号，在账户被封之前已经获取的数据仍然可以使用。

被发现和被阻止是两回事

Anthropic说检测到了攻击，但MiniMax产生了1,300万次交互才被完整识别，数据早已到手。代理网络的"水螺集群"架构就是为此设计的——单次攻击可能被中断，但在被系统性发现之前，已经提取了足够的训练数据。检测系统永远是滞后于攻击行为的。

跨境执法几乎不可能

Anthropic能起诉中国公司吗？理论上可以，但在中国管辖权范围内执行美国法院判决几乎没有可操作性。这和Anthropic自己被美国作者起诉完全不同——那个案子在美国法院打，所以不得不赔15亿美元。对中国公司的跨境法律追责目前没有有效路径。

舆论代价也有限

三家公司截至目前都没有公开回应，沉默本身就是有效策略。而且在中美科技博弈的大背景下，这类指控天然带有地缘政治色彩——被指控方可以轻松将自己定位为"美国技术封锁的受害者"而非"知识产权的窃取者"。事实上，连很多美国网友都在社交媒体上嘲讽Anthropic"贼喊捉贼"。

所以理性计算的结论很简单：被发现的概率乘以被发现后的实际惩罚，远小于蒸馏获得的能力提升乘以该能力带来的商业价值。只要这个不等式成立，蒸馏攻击就不会停止。

五、蒸馏能缩小差距，但无法消除差距

如果蒸馏这么好用，被蒸馏的一方为什么还能保持领先？因为蒸馏有一个根本性的天花板：它能复制"答案"，但复制不了"出题能力"。

蒸馏只能提取你知道要问的东西

你通过大量提问获取了Claude在代码生成、推理、工具使用上的表现，然后训练自己的模型去模仿。但如果你不知道Claude在某个特定场景下有独特能力，你就不会去设计相关的提示词，也就提取不到。就像一个学生只能抄到他看见的考试题——没看见的题永远抄不到。

蒸馏拿到的是输出，不是架构

Claude为什么能给出高质量的答案？背后是Anthropic花了数年迭代的模型架构、训练方法、RLHF策略、安全对齐技术。蒸馏只能拿到最表层的"回答质量"，拿不到产生这些回答的底层工程能力。就像你可以临摹一幅名画，但学不会画家观察世界的方式。

蒸馏数据有"保质期"

今天蒸馏了Claude Opus 4.5的能力，Anthropic下个月发布Opus 4.6，你又落后了。蒸馏方永远在追赶上一代，而原创方在研发下一代。

真正的护城河是原创研究能力

Anthropic发明了Constitutional AI和安全对齐框架，OpenAI发明了GPT架构的多代迭代和o系列推理范式，Google DeepMind有AlphaFold和多模态架构。这些原创性研究突破是蒸馏完全无法获取的。

但也要看到另一面：DeepSeek在2025-2026年发表了多篇原创论文（mHC、Engram、DSA等架构创新），这些不是蒸馏能得来的。而且Anthropic的数据显示DeepSeek的蒸馏规模其实最小（15万次交互），远少于MiniMax的1,300万次。这说明中国实验室的快速进步，更可能是"原创研究 + 工程效率 + 蒸馏加速 + 有限算力下的极致优化"的综合结果。

真正让差距持续存在的核心因素，与其说是技术能力，不如说是算力——出口管制限制了先进GPU的获取，而训练下一代前沿模型需要数万块顶级GPU连续运行数月。蒸馏能绕过一部分算力需求，但无法完全替代。

六、如何客观评价蒸馏攻击？一个中立视角

技术层面：蒸馏是AI发展的自然产物

蒸馏本身就是机器学习领域的基础技术，2015年Hinton的论文就已经奠定了理论基础。它的存在是因为一个客观事实：大模型的能力可以通过输出被部分转移。只要你提供API服务，别人就能通过你的输出学到东西——这不是漏洞，而是这项技术的内在属性。

这和软件行业不太一样。你可以用加密、混淆来保护软件代码，但你没办法让一个模型"只给答案但不泄露任何能力信号"——答案本身就是能力的体现。所以从技术本质上说，开放API和保护模型能力之间存在结构性矛盾。每一家提供API服务的公司都在承受这个风险，包括OpenAI、Anthropic、Google。

法律层面：确实违规，但边界模糊

三家中国实验室的行为有几个层面的违规是比较清晰的：使用虚假账户违反了服务条款，从中国访问Claude违反了地区限制，大规模系统性提取可能构成对计算资源的滥用。这些在合同法层面是站得住的。

但更深层的问题变得模糊：模型的输出是否构成受保护的知识产权？目前全球没有明确的法律先例。蒸馏提取的是模型的"行为模式"，不是代码、不是权重、不是训练数据本身。这在现有知识产权框架下很难清晰定性。

而且"合法蒸馏"和"非法蒸馏"的边界在实操中非常难划。一个付费用户大量使用Claude来辅助自己的研究、用Claude的回答来构建数据集、再用这些数据训练自己的模型——这算正常使用还是蒸馏攻击？差别可能只在于规模和意图，而意图是很难从技术上证明的。

道德层面：没有哪一方是干净的

这是最让人不舒服但不得不面对的部分。

Anthropic 的立场有合理性。 他们投入了数亿美元研发Claude，竞争对手通过几百万美元的API费用就提取了核心能力，这确实不公平。如果所有公司都可以免费搭便车，那就没有人有动力投入巨资做原创研发了，整个行业的创新引擎会熄火。

但Anthropic自身的记录削弱了其道德权威。 他们下载了700多万本盗版书籍训练Claude，为此赔了15亿美元。Reddit指控他们抓取用户内容。音乐出版商也在起诉他们。他们用别人的创作成果训练模型，然后指责别人用他们模型的输出训练模型——这在逻辑结构上是一致的行为，只是方向相反。

中国实验室的行为也不能因此被洗白。 "你也偷过所以我偷没问题"不是一个有效的道德论证。违反服务条款就是违反服务条款，使用欺诈账户就是使用欺诈账户。两件错事不会因为共存而变成对的。

整个AI行业目前都建立在一个道德灰色地带上。 几乎所有前沿模型都在训练过程中使用了未经明确授权的数据。区别只在于谁的"偷窃"被法律体系所覆盖、谁的不被覆盖。Anthropic用盗版书训练模型，在美国法院有管辖权所以赔了钱；中国实验室蒸馏Claude，在美国法院没有管辖权所以目前没有后果。这是法律执行力的差异，不是道德高度的差异。

我的整体判断

蒸馏攻击是不对的。 不是因为"美国公司的利益需要保护"这种立场性理由，而是因为一个更普适的原则：未经授权、通过欺诈手段大规模提取他人的商业成果，在任何法律和商业伦理框架下都很难被辩护。

但Anthropic不是一个合格的原告。 一个因使用盗版数据赔了15亿美元的公司，来指控别人窃取自己的模型输出——这在道德叙事上是割裂的。他们的指控在事实层面可能完全准确，但他们缺乏高举道德大旗的资格。

真正需要的不是互相指责，而是规则。 目前AI行业在数据使用、模型输出的知识产权归属、跨境AI服务的法律框架上几乎是无法可依的状态。所有参与者都在灰色地带中博弈，然后在对自己有利时喊规则、不利时喊创新。这个行业需要的是一套所有参与者都受约束的国际规则——既约束"用盗版书训练模型"，也约束"用欺诈账户蒸馏模型"。

最后一个观察： 如果蒸馏真的能轻松复制前沿能力，那前沿实验室的"护城河"本身就没有它们声称的那么深。如果蒸馏不能真正复制核心能力，那蒸馏攻击造成的实际损害就没有Anthropic渲染的那么严重。这两种情况下，都不支持Anthropic博文中那种"天塌了"的紧迫语气。真正驱动那种语气的，可能更多是政策游说的需要，而非技术现实。

参考来源：

Anthropic官方博客：《Detecting and preventing distillation attacks》，2026年2月23日

Reuters独家报道：Steve Holland & Alexandra Alper，2026年2月23日

TechCrunch：Rebecca Bellan，2026年2月23日

CyberScoop：Derek B. Johnson，2026年2月23日

Decrypt：2026年2月23日

PBS/NPR：Anthropic 15亿美元和解报道，2025年9月5日

Elon Musk X平台帖文，2026年2月23日

免责声明： 本文基于截至2026年2月24日的公开信息撰写。本文不构成对任何一方的法律判断。ChooseAI作为AI工具导航平台与文中提及的公司均无商业利益关系。

好文章，需要你的鼓励