国外用户如何看待Anthropic 关于"蒸馏攻击"——蒸馏对中国大模型究竟有多重要?
2026-02-25 11:03
43
蒸馏一直是中美科技扩散叙事中最频繁讨论的话题之一。蒸馏是一个有多种定义的术语——如今通俗的含义是利用更强 AI 模型的输出来训练较弱的模型。这个词本身源于更技术性和具体的"知识蒸馏"(Knowledge Distillation)定义(Hinton、Vinyals 和 Dean,2015 年),它涉及一种特定的方法,让学生模型学习匹配教师模型的概率分布。

如今的蒸馏更准确地说应该被概括为合成数据。你从更强的模型(通常通过 API)获取输出,然后训练你的模型来预测这些输出。技术意义上的知识蒸馏实际上无法通过 API 模型实现,因为 API 模型不会向用户暴露所需的信息。
可以说,合成数据是当今 AI 研究人员在日常工作中用来改进模型的最有用的方法。没错,架构至关重要,部分数据仍然需要纯人工输入,而像大规模可验证奖励的强化学习(RL with Verifiable Rewards)这样的新思路也能改变整个行业,但当下改进模型的日常工作中,很大一部分就是在搞清楚如何正确捕获和扩展合成数据。
回到本文开头的论点:反复出现的说法是,中国头部实验室正在利用蒸馏从美国最好的 API 模型中"窃取"能力。迄今为止最突出的案例围绕着 DeepSeek R1 的发布——OpenAI 指控 DeepSeek 通过越狱 API 窃取了他们的推理链(推理链默认不对外暴露——作为背景,推理链是一个行话术语,指的是模型内部的推理过程,类似于开源推理模型向用户展示的内容)。对蒸馏的恐惧很可能也是 Gemini 迅速从向用户展示推理链转为隐藏推理链的原因。甚至还有非常知名的早期推理研究是基于 Gemini 构建的。
这一切都引向了今天的新闻——Anthropic 点名并直接指控了一系列中国实验室对其 Claude 模型进行大规模蒸馏行动。这是一个复杂的问题。在这篇文章中,我们将逐步拆解一系列问题,从影响开始,以政治收尾。核心问题是:中国实验室从蒸馏美国模型中到底获得了多大的性能收益?
Anthropic 披露了什么?
首先,让我们回顾 Anthropic 分享的内容。引自其博文,重点部分为笔者标注:
我们发现了三家 AI 实验室——DeepSeek、Moonshot 和 MiniMax——针对 Claude 进行的工业级规模行动,旨在非法提取 Claude 的能力来改进它们自己的模型。这些实验室通过大约 24,000 个欺诈账户与 Claude 生成了超过 1600 万次对话交互,违反了我们的服务条款和区域访问限制。这些实验室使用了一种叫做"蒸馏"的技术,即利用更强模型的输出来训练能力较弱的模型。**蒸馏是一种被广泛使用的合法训练方法。**例如,前沿 AI 实验室会定期蒸馏自己的模型,为客户创建更小、更便宜的版本。但蒸馏也可以被用于非法目的:竞争对手可以用它从其他实验室获取强大的能力,所需的时间和成本只是独立开发的一小部分。
蒸馏的实际影响:参差不齐
就像模型本身一样,蒸馏的收益是非常参差不齐的。对于某些能力,尤其是当你还没有为此建立完整的训练流程时,从该领域领先的前沿模型快速蒸馏一些数据,可以带来巨大的性能提升。这确实能帮助正在蒸馏的实验室比原本快得多地追赶上来。大多数蒸馏其实是相当良性的——使用大量 LLM Token 来帮助处理和精炼现有数据,投入大量计算来获得少量高质量的训练 Token。这种原始数据处理工作可以在很多不同的 API 上完成,但总有一个是最好的。
当我们深入了解 Anthropic 所说的三家中国大模型公司实际上将 Claude API 用于什么——顺便说一句,Anthropic 并未确认这些操作是通过 API、聊天应用还是 Claude Code 进行的——其实际影响非常参差不齐。我们很难知道这些实验室为其他项目(或其他美国模型)部署了多少未被追踪的使用量。
DeepSeek:规模较小
首先,Anthropic 在博文中把 DeepSeek 放在第一位,因为它是美国家喻户晓的中国 AI 名字。但他们的使用规模实际上相当小,说明这篇博文更多是关于大局而非细节:
DeepSeek规模:超过 15 万次对话交互操作目标:
- 多种任务中的推理能力
- 基于评分标准的评估任务,使 Claude 充当强化学习的奖励模型
- 为政策敏感查询创建规避审查的替代方案
在训练语言模型的规模上,15 万个样本只不过是一次实质性实验的皮毛。看起来他们在尝试一些评分标准(rubrics),可能是为了在线 RL 运行,但考虑到访问的分散性,这种可能性极低,然后还有一些关于敏感查询补全的小规模工作。这些对 Anthropic API 的使用将对 DeepSeek 传闻已久的 V4 模型(或数据贡献给的任何模型)产生微乎其微的影响。这很可能也只是 DeepSeek 的一个小团队在操作,更广泛的训练组织对此并不知情。
Moonshot AI 和 MiniMax:规模大得多
另外两家实验室——Moonshot AI(Kimi 模型的开发者)和 MiniMax 的使用量则大得多:
Moonshot AI规模:超过 340 万次对话交互操作目标:
- 智能体推理和工具使用
- 编程和数据分析
- 计算机操作智能体开发
- 计算机视觉
MiniMax规模:超过 1300 万次对话交互操作目标:
- 智能体编程
- 工具使用和编排
蒸馏的作用在不断变化。如今蒸馏 Claude 的智能体行为比过去版本的 Claude 作为教师时要有价值得多。Claude Opus 4.6 拥有其他模型无法匹敌的全面智能体导航能力。为什么不试着用一些模型输出来训练,看看你的模型能否吸收呢?但在未来几个月,这种差异化程度会降低。这有点像如今所有模型的数学能力都远超大多数人的需求——可以蒸馏的来源多的是。
粗略估算,如果每次回复有 1 万到 2.5 万个 Token,那么这两家实验室(主要是 MiniMax)的总 Token 量将在 1500 亿到 4000 亿之间。这是一个相当可观的量,可以有意义地改善模型的后训练(post-training)。例如,在 Olmo 3 中,我们有一个 200 亿 Token 的 SFT 数据集可以这样构建,而将其扩大 10 倍是完全合理的。
但这些数字只是美国公司托管的 API 上合成数据生成总量的冰山一角。同时,数量是衡量影响的一种非常粗略的方式。仅仅拿到 Claude 的输出,然后弄清楚如何将其添加到你的模型流程中,并不容易。研究社区已经看到很多案例,从特定教师模型获取输出反而意外地使学生模型变差——数据之间的微妙交互使得这类蒸馏具有可变性且操作棘手。这从根本上是一个研究问题。
中国实验室的真正优势在哪里?
我确信中国实验室正在这方面进行创新。有一种说法认为中国前沿实验室比西方同行效率高得多——这具有误导性。
这些实验室在不同的约束条件下运营。中国实验室可能因为资源较少而被迫略微高效一些,但总体来看人才获取的情况非常相似。中国实验室在应对基准测试的方式上也有所不同,使得他们看起来比实际更接近(而且看起来可能在超越)。这对于在 AI 市场获得势头和品牌认知是必要的。
中国实验室很可能在从领先 API 模型蒸馏方面有很大创新,这是由于他们受限的 GPU 获取渠道。GPU 可以用来构建合成数据,但对于研发计算资金超过可支出量的组织(受供应限制),使用基于 API 的模型是有效获取更多计算资源的少数其他选择之一。搞清楚如何获取"被禁"的 API 模型,比走私数以万计的物理 GPU 并将其部署起来要容易得多。
不仅仅是中国实验室如此运作。从你不拥有的模型获取的合成数据,都可以说是蒸馏。蒸馏是任何人获取更多计算力的捷径。它的成本风险也低得多——拥有用于研究的大型集群需要非常大的资金承诺,而 API 是按量付费的。例如,在 Olmo 3 中,我们在 Frontier 超级计算机和通过 NAIRR 获得的 Azure 额度上使用了数百万 GPU 小时来生成合成数据。我们没有等量的 GPU(实际上也没有那么多现金——感谢研究额度!)。
综合评估
总的来说,Anthropic 对此感到担忧是完全合理的。但我仍然不会说这是影响中国实验室后训练能力的关键因素,尤其不会说它能被轻易地衡量为缩小中美性能差距的时间因素。
如果退一步看,曾经有一段时期 Claude Sonnet 是领先于 Opus 的旗舰模型(我认为是 Sonnet 3.5 时期),这在很大程度上得益于它在内部从 Opus 检查点进行了良好的蒸馏。快速迭代和高质量数据可以走得很远,让学生模型超越教师模型。前沿实验室利用这一点,拥有仅供内部使用的模型来生成合成数据,但说中国模型因为数据蒸馏而永远无法超越美国前沿,就像说 Claude Sonnet 永远无法打败 Opus 一样。这不太可能,而且在很大程度上取决于发布时间,但随着 AI 模型取得戏剧性进展,比这更奇怪的事情已经真实发生过了。
强化学习时代的蒸馏困境
这里有一个最大的未被讨论的因素:在大规模强化学习成为训练最佳模型的必要手段的时代,从更强的教师模型蒸馏变得更加困难。你可以花费计算力精心构造和筛选提示词,但你仍然需要自己用大量的在策略推理(on-policy inference)来训练模型——生成占了 RL 计算成本的大部分,而且不能是来自另一个模型的生成。出于这个原因,我原本预期这个话题会逐渐降温。从中国实验室的公开研究来看,尽管计算资源短缺,他们拥有出色的 RL 基础设施。
我原本预期它会淡化的另一个原因是,禁止出于"竞争目的"蒸馏模型,长期以来一直违反 API 模型的服务条款。美国的学术界和开源模型构建者过去曾对此大为担忧和辩论(我在 2022 年和 2023 年多次写过相关文章)。直到 2024 年晚些时候,社区中的这种担忧才逐渐消退(而且没有对任何较小的模型构建者采取行动)。
地缘政治维度
Anthropic 的这一行动代表了 AI 地缘政治紧张局势又一次持续升级。限制模型蒸馏将比限制 GPU 等物理商品的出口困难得多。从很多方面来看,通过分布式访问方法完全限制蒸馏似乎几乎不可能,而限制 GPU 销售的影响要大得多。
Anthropic 和 AI 行业应该选择自己的战场。当最佳模型的 API 端点可用时,其他实体就会利用它来训练该模型的变体。这是 AI 模型的自然演进。如果 AI 模型珍贵到蒸馏构成极端风险,那么这些模型将被限制为仅用于第一方产品。Anthropic 可以选择对其最新模型这样做。API 模型替代品的市场竞争可能激烈到一些公司会走这条路——部分原因是中国模型在价格上的低价竞争——但 API 是一项基本服务,没有任何领先实验室会在短期内冒险撤回这一产品。
0
好文章,需要你的鼓励
