如果要在统计机器学习领域找一位"祖师爷"级别的人物,加州大学伯克利分校教授Michael I.Jordan几乎是绕不开的名字。他的学生名单足以撑起半部当代机器学习史:吴恩达、Yoshua Bengio、Zoubin Ghahramani、David Blei……这些名字如今分别站在深度学习教育、图灵奖、贝叶斯方法、主题模型等不同领域的最前沿。
但在最近一档播客节目Machine Learning Street Talk的访谈中,这位"桃李满天下"的学者却展现出一种与主流AI叙事格格不入的态度——他几乎是在逐条拆解这个行业最常用的几个关键词:AGI、理解、超级智能。他的核心立场可以浓缩成一句话:这个行业的技术能力早已遥遥领先于它的概念深度,而年轻人正在为这种失衡买单。
一、"AGI"是公关词,不是科学概念
Jordan开门见山地表示,他从不认为自己是"AI研究者",甚至坦言自己没读过一本AI方面的书。他的学术根基是统计学和认知科学,而他眼中真正塑造了今天产业格局的机器学习——决策树、隐马尔可夫模型、贝叶斯推断——大多脱胎于统计学和运筹学,而非1950年代McCarthy等人定义的那套以符号逻辑为核心的"人工智能"传统。事实上,亚马逊最早搭建云计算基础设施,就是为了支撑供应链预测之类的机器学习负载,这套体系早在大语言模型出现之前就已经支撑起全球商业的运转。
在他看来,"AI"这个词大约五年前因大语言模型而重新流行,背后的根本原因只是输出形式变了——模型给出的是人类能读懂的流畅语言,而不再是抽象的价格预测或物流优化数字。这种表面变化制造了一种错觉,仿佛"古老的AI难题"被一举攻克,于是行业又顺势造出一个更宏大的词——AGI,用来延续这种叙事的热度。
Jordan认为,这套话语体系真正的危害不在用词本身,而在于它掩盖了一个更根本的缺失:大量自称AI研究者的人,其实从未清楚回答过"我们要解决什么具体问题""这项技术为谁创造价值""成本和收益如何分配"这类问题。整个逻辑止步于一句模糊的信念——人类是智能的,大脑像计算机,只要模仿并放大它,好事自然发生。他将这种思维方式与他早年所在的硅谷环境联系起来,称那是一种"没有深度长期思考"的内卷氛围,也是他选择离开的原因之一。
二、智能从来不是个体的事——这正是经济学该登场的地方
如果说前半部分访谈是在拆解流行词汇,那么Jordan提出的建设性方案,则集中体现在他去年发表的论文《AI的集体主义经济学视角》中。
他的出发点是一个常被忽略的事实:当前的AI系统,输入来自数十亿用户,产出也将服务数十亿用户,本质上是一个高度集体性的存在,背后牵动着一张巨大的、相互关联的网络。但主流AI研究长期把"智能"窄化为单一大脑的认知过程——神经元、梯度下降成了思考智能的全部隐喻,却忽视了人类作为社会性物种的另一面:大量的智识能力并非源自个体运算,而是来自群体观点和经验的长期聚合与文化沉淀。
更重要的是,智能本身高度依赖语境。同一个决策,在一种社会情境下是明智的,换一个情境可能就是愚蠢的,因为现实世界中始终存在着意图不透明的其他主体——他们可能想合作,也可能想利用你,而你永远无法完全确认对方的真实动机。如何在这种不确定性中试探、发出信号、设计可信的互动机制,正是经济学这门学科长期研究的核心问题。
由此,Jordan提出了他理解AI系统的三角框架:计算机科学负责算法、抽象与模块化设计;统计学负责在不确定性下进行推断;经济学负责处理激励机制与博弈均衡。他直言,如果只有计算和优化,得到的结果只能是一个语言模型;唯有把统计推断和经济激励同时纳入考量,才算得上是在构建一个完整的系统性框架。他甚至将这套组合称为"这个时代真正的新文科核心"——尽管他也调侃,人文学科领域的同事未必会认同这个说法。
三、不必问AI"是否理解",该问的是它在哪里会失灵
整场访谈中,Jordan反复回避一个被媒体和公众津津乐道的问题:AI是否真正"理解"它在处理的内容。他的态度很明确——这个问题本身就问错了方向。
他回忆起21世纪初第一次走进亚马逊时看到的场景:彼时公司已经在用随机森林这类方法处理跨海运输延误预测、零部件到货时间等供应链难题,支撑着每天数十亿件商品送达上亿用户的庞大系统。没有任何一个人能说清楚那个"黑箱"内部到底发生了什么,但这并不重要——真正重要的是,它能否降低不确定性,能否让工程系统建立在它的预测之上。
在他看来,"理解""智能"这类词汇本质上是说给媒体和公众听的——它们抓人眼球,也容易被转化为叙事,而真正在做研究的人,在自己的工作里根本用不上这些词,因为他们要解决的从来都是更具体的工程问题:这个系统在什么条件下会失效?哪些问题上它最不可靠?它有没有给出合理的误差范围?该由谁为它的错误负责?这些才是决定一项技术能否真正进入现实世界的关键,而一旦执着于"它是否理解",反而容易让人忘记去追问这些更要紧的事。
四、AlphaFold式的盲区:模型在知识边界上最自信,也最容易出错
为了说明这种"工程视角"的重要性,Jordan分享了一项他和团队针对AlphaFold所做的研究,这也是他在访谈中态度最为审慎的部分。
研究团队曾尝试验证一个假设:蛋白质中的量子涨落现象是否与磷酸化存在统计关联。用传统的已知晶体结构数据做检验,样本量太小,根本无法得出有统计功效的结论;但换成AlphaFold预测出的两亿个蛋白质结构后,样本量大幅扩充,统计检验的结果看似显著。
问题在于,团队进一步发现,这个结果对应的置信区间极其狭窄,却明显偏离了真实值——而且这种现象并非孤例,他们在多个研究方向上都观察到了类似模式。原因不难理解:AlphaFold的训练数据里,涉及量子涨落特征的蛋白质样本本就稀少,因为这类结构过去研究得不充分,晶体化难度也更高。训练数据稀疏,意味着模型在这类问题上的预测可能存在系统性偏差——但模型自己不会主动告知这一点,它依然给出一个看起来笃定的答案。
Jordan认为,这才是基础模型最值得警惕的特征:它在已知数据密集的领域表现稳健,却恰恰在科学家最感兴趣的知识边界处——也就是训练数据最稀疏的地方——最容易给出过度自信的错误答案。而且这个问题不会随着数据总量增加而自动消失,因为科学探索的本质就是不断向未知边界推进,模型越擅长处理已知领域,科学家提出的下一个问题就越会落在它依然薄弱的边缘地带。为此,他的团队开发了一种被称为"预测驱动推断"的方法,通过将少量真实标注数据与大量模型预测结果相结合,重新校准置信区间,使其既保持足够窄、又能真正覆盖真实值。他强调,这不是要否定AlphaFold这类工具的价值,而是提醒研究者:任何基础模型周围都需要建立起持续校验的机制,这并非遥远的设想,而是现在就该着手解决的工程问题。
五、末日叙事正在伤害年轻一代
访谈中情绪最强烈的部分,出现在Jordan评论Geoffrey Hinton、Stuart Russell等同行近年来的转向时。这些昔日同僚如今频繁在公开场合警告,AI正在朝着具备自主意识、能递归自我改进的方向演化,甚至可能对人类构成生存威胁。
Jordan将这类叙事定性为"科幻小说",但他强调自己并非在否定科幻本身的价值,真正让他不安的是这种声音的传播规模——当它们占据了几乎所有关于AI的公共讨论空间时,对正处在职业选择关口的年轻人造成的心理冲击是实实在在的。他观察到,许多二三十岁的年轻人对技术抱有真诚的热情,渴望用它改善自己和家人的生活,但他们听到的却是两种极端声音:要么是"我们已经把能做的都做完了,剩下的太危险,不该你们碰",要么是"超级智能很快就会到来,反正你们这辈子也不用费心做什么了"。
让他格外在意的是,这类叙事背后几乎完全缺席的是经济学思考——大多数论述仍然停留在认知科学或神经科学的框架里,仿佛梯度下降在大模型上的成功,本身就证明了人类已经"破解"了大脑的运作机制。但他指出,真正的神经科学家普遍认为,把大语言模型类比为大脑,充其量只是一个方便理解的简化比喻,而非严肃的科学结论。在他看来,真正值得担忧的从来不是机器会不会失控接管世界,而是劳动与资本之间的关系将如何被技术重塑——这才是一个具体、紧迫、值得认真对待的经济学问题。他最想传递给年轻人的判断是:超级智能和人类灭绝从来不是仅有的两个选项,在这两个极端之间,还有无数值得在人类尺度上去做的、真正积极的事情。
模型的"自信"只是在模仿语气,而非真正衡量不确定性
Jordan提出的另一个被严重低估的问题,是当前的语言模型几乎不具备对自身不确定性的真实认知。当用户追问模型"你有多确定"时,得到的回答往往两极化——要么极度笃定,要么含糊其辞地表示不确定,中间几乎没有过渡。在他看来,这并非模型真的在进行不确定性推断,而是它在模仿人类在互联网问答场景中表达确定性时惯用的语气模式。
他将真实世界中的不确定性细分为三种性质完全不同的类型,并指出当前的模型在这三方面几乎都是空白。第一种是经典统计学意义上的采样不确定性——观测到的数据是否足以支撑某个结论。但他用一个广为流传的"觅食鸭子"类比说明,即便是这种最基础的不确定性,一旦放进真实的社会和种群语境中也会发生形变:面对食物分布不均的两片区域,理性的鸭群并不会全部涌向资源更丰富的一侧,而是大致按照资源比例分配——这看似不是最优策略,实则是一种纳什均衡,因为如果所有个体都涌向同一侧,另一侧的资源就被浪费了,种群整体的"不确定性应对策略"本来就是为群体利益而非单一个体优化的。第二种是信息不对称——专家掌握着你不知道、也未必会主动透露的信息,这是一种结构性的、不会随数据积累而消失的不透明,恰恰是契约理论等经济学分支长期研究的对象。第三种则是数据的时效性问题——比如医生给出的手术成功率统计可能来自十年前的样本,这类"数据年龄"理应被定量纳入不确定性评估,但经典统计框架几乎从不处理这一维度。
他指出,人类在日常生活中几乎能无缝地将这三种不确定性综合处理——会本能地对陈旧数据打折扣、会顾及他人利益而不只追求个体最优、会对动机不明的对象保持警惕。而当前的大语言模型在这三个维度上几乎都是空白,它表现出的"自信",不过是从训练数据里学会了人类表达确定性时常用的措辞。
他还借用了一个经济学比喻来说明市场如何在更大尺度上消解不确定性:一个人如果想开比萨店,并不需要每天亲自去寻找番茄供应——正是因为存在一个成熟的市场机制,有人替他完成了这件"寻觅"的工作,稳定的供应链才让他可以安心地在此基础上构建更复杂的生意。这种大尺度的不确定性消解,靠的不是某种精巧的统计估计,而是恰当的激励结构让整个系统自发运转起来。
AI该做的,是补全人类没能进化完成的部分
访谈接近尾声时,主持人问,当下AI乐观派与悲观派之间的对立,是否存在某种共识的可能。Jordan没有正面回应这个二元设问,而是给出了一个更接近他真实立场的类比——商业航空。他提到,在自己年幼时,空难是相对常见的事,而今天大规模商业航空的事故率已经极低,这很大程度上要归功于自动驾驶仪的普及:飞机在大部分飞行时间里由自动化系统控制,飞行员则在关键时刻介入。这种人机协同模式,在他看来是目前已知最有效的技术应用方式,因为人类本就不是为驾驶这类复杂机械系统而进化出来的,技术恰恰应该用来补全这部分能力短板。
由此,他给出了自己对AI价值的最终定义:AI真正该做的,是帮助人类处理那些单凭自身难以应对的复杂信息,让信息更顺畅地流动,从而使人们在当下就能做出自己真正想做的正确决定,而不是因为信息不足,被迫做出自己其实并不愿意做的选择。他认为,人类之间造成的许多伤害,根源并非恶意,而是对彼此意图的误解——历史上不少冲突,正是因为一方未能真正理解另一方想要什么。博弈论这门学科的诞生,某种程度上正是为了帮助人类更清晰地处理这类情境,只是目前的工具仍然相当粗糙、远未成熟。而AI真正的机会,或许就在于以70亿人的尺度,去弥补这种"进化尚未跟上"的缺口。
正因如此,他真正担忧的并非AI技术本身,而是当下这场被严重两极化的公共讨论——一边是手握资本、一心只想着建造的人,另一边是高喊"这将毁灭人类"却拿不出任何建设性方案的人。在Jordan看来,这两种声音都没有认真地思考问题本身,而真正值得投入精力的,恰恰是夹在这两个极端之间、那些具体而真实的可能性。