这事儿听起来确实有点反差。
PPO(全称Proximal Policy Optimization)如今几乎是RLHF乃至各种大模型训练流程里绕不开的经典算法,但很少有人知道,它在2017年投稿NIPS(也就是后来的NeurIPS)的时候,其实被拒了。
这段往事是PPO的作者John Schulman本人最近提起的,他用很简短的一句话带过了这段经历——这篇日后影响深远的论文,当年确实没能通过NIPS 2017的评审。
时间拉回到2017年7月,这篇论文刚发布的时候,看起来并不算特别惊艳,更像是一个追求工程落地的策略优化算法。它的出发点很朴素:既想保住TRPO在训练过程中的稳定性,又想把实现门槛降下来,让强化学习训练变得更容易调试、更适合实际使用。
论文标题:Proximal Policy Optimization Algorithms
有意思的是,真正把PPO推向更大舞台的,并不是它最初瞄准的Atari游戏或机器人控制这些传统强化学习任务,而是后来兴起的大语言模型训练。从RLHF一路延伸到现在的RLVR,PPO都是大模型后训练流程中绕不过去的基础算法。Schulman自己也提到,PPO能在LLM时代迎来这样一波"第二春",热度甚至超出了论文最初发表时的预期。
这话听起来与其说是在为当年被拒鸣不平,倒更像是一种事后的感慨——一项技术真正能产生多大影响,往往会以发明者当初完全没想到的方式展现出来。
那么问题来了:PPO当年到底为什么会被拒稿?
按照Schulman后来的说法,评审当时认为这篇论文的创新程度有限,相对于已有基线方法,提升幅度也不够突出。
也有人据此分析,这种情况其实暴露出学术评审标准和产业实际需求之间存在一定的脱节:学术圈往往更看重方法本身够不够新颖,以及在小规模、可控实验条件下相对基线能拉开多少差距;但在真实应用场景里,大家更关心的是这套方法能不能撑得住更大规模的训练、能不能在复杂系统中保持稳定、能不能真正落地跑起来。
对于这段经历,Schulman本人的态度倒是相当淡然。他觉得那已经是很久以前的事情了,也希望经过这些年,学术界已经慢慢理解并接受了"简单但可规模化"这种价值取向。真正让他感到意外的,其实是PPO论文里提出的那个目标函数,居然能在这么长的时间里持续发挥影响力。一项改动究竟只是很快会被遗忘、被替代的小修补,还是会长期沉淀下来、成为难以被超越的基础组件,这种事往往很难在最初就看得清楚。而PPO的经历,恰好印证了这一点。
不止PPO:那些起初被拒,后来却影响深远的工作
其实放眼整个AI发展史,被顶会拒稿、却最终被证明影响深远的工作并不少见,PPO远不是唯一一个例子。
LSTM:1996年投稿NIPS时被拒,当年评审认为这个结构过于复杂,也缺乏足够的生物学合理性支撑。但后来它成了语音识别、机器翻译等序列建模任务里的核心技术。
SIFT:先后被ICCV 1997和CVPR 1998拒稿,理由是算法步骤过于繁琐、设计得不够优雅。但在深度学习兴起之前的十几年里,它几乎统治了整个计算机视觉领域。
Dropout:2012年投稿NIPS被拒,当时被认为更像是一种工程上的取巧手段,缺乏严谨的理论支撑。但后来它成为深度神经网络最重要的正则化方法之一,并且拿到了NeurIPS的时间检验奖。
从这些例子来看,一篇论文在投稿时是否被认可,和它日后能产生多大的实际影响,有时候真的是两件事。