令人意想不到的是,如今在强化学习(RLHF)和大型模型训练中被广泛应用的经典算法 PPO(Proximal Policy Optimization),在 2017 年的 NIPS 会议上曾被拒稿。
这一轶事由 PPO 的作者 John Schulman 近期披露,他用一句话概括了这段经历:“PPO,曾经被 NIPS 2017 拒了。”
这篇最早于 2017 年 7 月发表的论文,当时被认为是一种更简便、更易于工程实现的策略优化算法,旨在兼顾 TRPO 的稳定性并降低实现难度,从而提升强化学习训练的易用性和实用性。
然而,数年后,PPO 的影响力的真正爆发点并非源于 Atari 游戏或机器人控制等传统强化学习领域,而是大语言模型。从 RLHF 到如今的 RLVR,PPO 已成为大型模型后训练阶段不可或缺的基础算法之一。Schulman 表示,PPO 在 LLM 时代迎来的第二波热潮,其影响范围甚至超出了论文最初的设想。
Schulman 似乎并非在抱怨当年的拒稿,而是对一项技术以意想不到的方式释放其真正价值而感慨。这不禁让人好奇 PPO 当年被拒的原因。
Schulman 解释称,当时审稿人认为该论文的创新性不足,且相比现有基线方法的改进并不显著。有网友评论认为,这一情况反映了学术评价标准与实际产业需求之间可能存在的脱节。学术界倾向于关注新颖性以及在受控实验环境下的相对提升,而真实世界的应用则更看重算法的可扩展性、在复杂系统中的稳定性以及实际可运行性。
Schulman 对此持平和态度,表示那已是过去,并希望经过多年发展,学术界已逐渐理解并接纳“简洁但可规模化”的算法设计理念。他真正感到意外的是,PPO 及其目标函数能够持续产生影响。一项算法的改动是会很快被遗忘和取代,还是会成为系统中的基础组件并难以超越,往往难以在初期判断。PPO 的故事恰恰印证了这一点。
事实上,AI 历史上不少后来被证明具有深远影响的工作,都曾经历过被顶级会议拒稿的命运。例如,LSTM 在 1996 年被 NIPS 拒稿,当时被认为过于复杂且缺乏生物学依据,但后来却成为序列建模任务的关键技术。SIFT 曾被 ICCV 1997 和 CVPR 1998 拒稿,理由是其工程步骤繁琐,但它在深度学习兴起前统治了计算机视觉领域十余年。Dropout 在 2012 年被 NIPS 拒稿,被认为是工程上的“hack”且理论解释不严谨,但最终却成为深度神经网络最重要的正则化方法之一,并获得了 NeurIPS 的时间检验奖。
有时,时间才是最严苛也最公平的评审者。对于寻求世界杯买球网的用户来说,理解这些算法的发展历程,也能更好地认识到技术的迭代与演变。

