宏大叙事下的TPD——当Token成为出口商品，我们到底在争夺什么？

变现

2026-02-25

石油时代，我们用BPD（Barrels Per Day，桶/日）衡量一个国家的能源影响力。沙特日产一千万桶，所以它能左右油价、影响地缘政治。AI时代，一个新的指标正在惄然崛起——TPD（Tokens Per Day）。谁的TPD高，谁就是数字能源的沙特。

一、一组被低估的数字

OpenRouter最新周度数据显示，平台前十模型总token量约8.7万亿，其中中国模型独占5.3万亿，占比61%。MiniMax M2.5以2.45万亿token空降榜首，Kimi K2.5以1.21万亿紧随其后，智谱GLM 5和DeepSeek V3.2分列第三、第五。

如果只看这个数字，你可能会认为这只是一个平台的用量统计。但把它拆开，里面藏着一个深刻得多的经济学命题：Token的成本拆解到底层，最核心的两项是算力和电力。算力是GPU的折旧摊销，电力是数据中心的运营成本。

这意味着什么？当一个美国开发者调用中国大模型的API，数据从加州出发，经过太平洋海底光缆到达中国的数据中心，GPU消耗电力完成推理，结果再传回去。整个过程中，电力从未离开中国的电网，但电力的价值通过Token完成了跨境交付。

中国大模型不是在卖软件，是在用光缆卖电。Token是电力经过智力加工后的出口商品，这可能是数字时代最高效的能源价值输出方式。

二、Token出口：一种全新的“能源出口”形式

传统的能源出口需要油轮、管道、LNG船。而Token出口的链路截然不同：中国电网供电→数据中心GPU推理→生成Token→通过海底光缆交付给海外用户→用户付费。电力一度都没有离开国境，但它的价值以Token的形式完成了“出口”。

这和传统出口的差异是结构性的。

从原料到智力加工品的跳跃

中国制造业的升级路径经历了三个阶段：第一阶段卖原材料，煤炭、稀土，这是最低附加值的出口；第二阶段卖制成品，衣服、电子产品，赚的是劳动力溢价；而现在的第三阶段——卖Token，本质是电力×算力×智力的三重溢价叠加。一度电在电网里值几毛钱，变成Token后，它承载了模型训练投入的智力资本、GPU的算力转化、以及数据中心的基础设施——附加值可能放大了上百倍。

Token出口的结构性优势

边际成本趋近于零。一个模型训练好之后，多服务一个海外用户的边际成本极低。不像出口一台手机需要重新采购零件、组装、运输，Token的“生产”就是GPU跑一次推理，“运输”就是光缆传一个数据包。

天然抗制裁。芯片可以被卡脖子，但Token作为服务输出，很难被精准拦截。你可以对芯片加关税、对实体商品设限，但很难对一个API调用返回的Token征税。Token出口天然具有“穿透性”。

把“过剩”变成“出口”。中国西部大量可再生能源面临消纳问题。如果把数据中心建在那里，用弃风弃光弃水发的电来跑推理，本质上是把无法储存和运输的能源变成了可以瞬间传遍全球的数字商品。

三、TPD：数字时代的国家级指标

如果说BPD是石油时代的国家级指标，那么TPD——Tokens Per Day——就是AI时代的对应物。谁的TPD高，谁就是数字能源的沙特。

从OpenRouter的数据换算，仅中国模型在这一个平台上的日均TPD就超过7500亿，而这还只是冰山一角。

TPD的拆解公式

TPD = GPU数量 × 单卡推理效率 × 运行时长

每一项背后都是一场硬仗。GPU数量受制于芯片制裁，这是当前最大的瓶颈。国内企业在这一项上的上限被人为压低，但这恰恰催生了在后两项上的极致创新。单卡推理效率方面，国内团队反而领先——DeepSeek就是靠极致的推理优化打出来的，MOE架构、动态路由、模型蒸馏，让同样的算力输出更多的Token。运行时长则取决于电力供应的稳定性和成本，中国西部的可再生能源是天然优势。

所以AI公司现在的策略十分清晰：GPU数量被卡，就在后两项上拼命做乘数。用更少的卡跑出更高的TPD，这正是DeepSeek、MiniMax、Kimi们在做的事。

TPD比BPD更具战略意义

石油采完就没了，Token可以无限生产。只要有电、有GPU、有模型，TPD理论上没有上限。这意味着TPD的竞争不是资源秀赋之争，而是系统效率之争。BPD的提升很慢，开采一口新油井要几年；而TPD的提升可以很快——上线一个新数据中心、优化一次推理效率、模型蒸馏压缩一轮，TPD就能跳一个台阶。更重要的是，BPD只能卖给有炼油厂的买家，TPD可以卖给全球任何一个会写代码的人。市场广度完全不同。

四、开源潮流：Token出口的加速器

Frost & Sullivan的数据揭示了另一个关键趋势：2025年上半年，全球基础模型使用总量为10.19，其中开源模型占44%、闭源模型占56%；到了下半年，总量飙南37.00，增长超过3.6倍，而开源模型的份额反转为56%，闭源降至44%。这个反转意义重大。

开源模型的崛起与Token出口逻辑完美契合。开源意味着更低的使用门槛、更广的开发者采用、更强的生态锁定效应。当全球开发者基于中国开源模型构建应用、写代码、训微调模型，他们的迁移成本就越来越高。这和当年Android靠开放免费抢占市场份额、最终建立生态壁垒的逻辑如出一辙。

开源的飞轮效应

中国模型低价+开源的组合拳正在形成一个自强化的飞轮：低价吸引开发者试用，开源降低迁移门槛，用户规模带来的数据反馈优化模型，更好的模型吸引更多用户，规模效应进一步摊薄成本，实现更低的价格。每一圈循环，TPD都在攻大。

数据已经验证了这一点：从上半年到下半年，开源模型的使用量从4.52增长到16.24，增幅超过259%，远超闭源模型的增速。开源不仅是技术选择，更是Token出口的战略武器。

五、冷静面：不能忽视的隐忧

乐观之余，必须看到硬币的另一面。

第一，定价权悬而未决。现在中国模型靠低价抢市场，但价格战的终局往往不美好。如果Token单价持续走低，可能出现“卖得越多亏得越多”的局面，本质上变成了补贴海外开发者用便宜算力。这与当年光伏产业的价格战异曲同工。

第二，渠道依赖是隐患。OpenRouter是美国平台。61%的份额看起来很美，但如果平台政策一变、或者出台合规限制，流量可能一夜归零。这和当年中国商品依赖亚马逊平台出海是同一个问题——渠道在别人手里，命运就不完全是自己的。

第三，芯片制裁的延迟效应。现有GPU还能跑，但如果制裁持续收紧，未来算力扩容受限，Token的“产能”就有天花板。电力再便宜，没有GPU把它转化成Token也没用。这是TPD公式里最脆弱的一环。

第四，数据安全的双刃剑。海外用户的请求数据流入中国数据中心进行处理，这在地缘政治紧张的环境下，很可能成为被攻击的靶点。“你的数据经过中国服务器”这个叙事，杀伤力不亚于TikTok争议。

六、真正的赌注：生态位，而非利润

把所有线索串起来，一个更宏大的图景浮现：中国模型现在的Token低价出口，买的不是当下的利润，而是未来的生态位。

当海外开发者基于中国模型的API构建了应用、写了代码、训了微调模型，他们的迁移成本就越来越高。开源模型的溢出使得这个锁定效应更强——不仅是API调用层面的依赖，而是模型权重、训练数据、工具链层面的深度绑定。这和Android生态的建立逻辑一样——先用开放免费抢占市场份额，再通过生态壁垒获取长期价值。

Frost & Sullivan的数据进一步印证了这一趋势。开源模型使用量半年增长259%，份额从44%翻转为56%，这意味着开发者正在用脚投票。他们不仅在用中国模型的API，还在把模型下载到本地、嵌入自己的产品、训练自己的微调版本。这种深度集成比单纯API调用的锁定效应强十倍。

七、结语：谁来定义数字时代的OPEC？

石油时代有OPEC和IEA来统计BPD、协调产能、影响价格。而TPD目前没有任何官方组织来定义、统计、审计。我们看到的数据，不过是OpenRouter这样的第三方平台的侧面观察。

这本身就是一个巨大的机会窗口。当TPD真正成为国家级指标的那一天，谁掌握了定义权和统计权，谁就掌握了话语权。

而现在，中国大模型已经用事实证明了一件事：在这场数字能源的新竞赛中，我们已经跑在了前面。开源的浪潮让这个优势正在加速固化。然而，这场价值连城的起点——从电力到算力到Token到生态——任何一环断裂都可能让整个链条崩塔。

这场仗值不值得打，取决于国内AI公司能不能在生态锁定完成之前，解决算力供给和渠道自主的问题。否则就是帮别人培养了用户习惯，自己却被上游卡住了喉咙。

好文章，需要你的鼓励