首页 >> 科学研究 >> 科研进展 >> 正文

似然比前向学习:北大彭一杰团队四年探索,重塑AI训练底层范式

信息来源: 多智能体与社会智能研究中心     发布时间:2026-03-25     浏览量:

在机器学习的各领域中,梯度计算始终是模型训练的核心步骤,其中由诺贝尔奖得主Geoffrey Hinton教授提出的反向传播(Backpropagation, BP)算法长期以来占据着主导地位。然而,在BP算法作为AI最重要的基石于近年取得的广泛成功之后,其对模型形式的严苛要求、潜在的数值问题,以及串行的递归式计算,已经逐渐成为限制AI模型设计自由度与训练效率的关键瓶颈。


研究院多智能体与社会智能研究中心执行主任彭一杰教授团队长期深耕仿真优化领域,率先瞄准现阶段BP算法的痛点,推出似然比(Likelihood ratio,LR)梯度估计方法。团队以2022年发表于INFORMS Journal on Computing(IJOC)的论文开辟了全新的探索方向,该研究首次将LR方法应用于全连接神经网络训练,打破了BP算法的长期垄断。在此基础上,彭一杰教授指导博士生江金阳、任韬等持续攻关,接连产出系列International Conference on Learning Representations(ICLR)顶会成果:2024年提出LR方法对全类型网络架构的统一适配方案,2025年通过最优采样技术突破LR方法的效率瓶颈,2026年更是以Oral论文推出递归LR优化器,攻克了扩散模型的后训练难题,最终构建起LR方法从系统理论到深度应用的完整技术体系,为AI训练提供了更灵活、更稳健、更高效的全新范式。


2022 IJOC:开辟新路径,LR首次赋能神经网络训练


作为LR系列工作的起点,彭一杰教授于2022年在IJOC发表的研究首次提出了基于push-out LR方法的全新神经网络梯度估计框架,正式开辟了与BP算法中基本数学原理有着本质区别的研究路径。


该研究指出传统BP方法基于链式法则设计,计算中依赖神经网络损失函数和激活函数的良好性质,容易遭遇梯度消失等数值问题,间接掣肘了模型架构的设计迭代。而团队提出的LR方法通过在全连接网络神经元信号传递中注入人工噪声巧妙避开了这些限制,通过噪声与最终结果之间的联系构造梯度估计式,无需模型的函数形式连续可微,能处理阈值函数、0-1损失等不连续结构,极大拓宽了模型设计的灵活性。


从计算原理来看,LR方法仅需前向传播即可通过原地计算完成梯度估计,无需BP算法中复杂的反向递归;其计算复杂度与BP算法相当,但公式更简洁明晰且易于并行化加速。在Tiny ImageNet等数据集上的实验中,LR方法训练的模型不仅在原始样本上达到与BP相当的准确率,还在对抗攻击和自然噪声干扰下展现出20%-30%的鲁棒性提升,展现出了进一步深入研究的前景。


图1. LR方法原理图


2024 ICLR:One Forward is Enough,打开LR通用性之门


2024年,团队在ICLR发表以 One Forward is Enough 命名论文,将LR方法从基础的全连接网络拓展至全类型的模型架构,以更高的视角阐释了LR的基本原理和与其他计算范式的广泛联系,打开了LR方法的通用性之门。


此前LR方法研究主要聚焦于多层感知机,而在各领域大放异彩的卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)、脉冲神经网络(SNN)等架构因存在参数共享、时序依赖、非结构化输入、不连续性等特性,对新原理下的梯度计算造成了极大的困难。团队提出Unified LR(ULR)框架,将不同网络结构的核心计算单元统一抽象为参数化模块,通过在模块参数或输出中注入噪声,即可利用LR方法实现梯度估计。


图2. ULR统一计算框架


这一突破让LR方法真正具备了普适性:CNN的卷积核梯度可通过噪声卷积高效计算,RNN得以打破时序依赖实现高并行化,GNN的梯度信息聚合无需改变原有消息传递机制, SNN中不连续脉冲信号处理单元也能获得精确的梯度估计。实验结果显示,ULR方法在图像、文本、图结构、脉冲等多种输入下的任务中,与BP算法性能相当,且鲁棒性平均提升9.53%,同时支持计算图重排,让训练更适配现代硬件的并行计算特性。


图3. 四大神经网络架构上ULR方法的优异表现



2025 ICLR:FLOPS,用最优采样突破LR效率瓶颈


尽管LR方法灵活性突出,但使用传统蒙特卡洛采样噪声带来的高方差和大量查询(Query)需求,限制了其在大规模模型训练中的应用。团队在2025年ICLR中的研究“FLOPS”通过最优查询分配策略,大幅提升了LR的估计效率。


团队发现,不同数据样本的梯度估计难度存在显著差异,均匀分配查询的方式造成了严重的计算资源浪费。据此,团队提出了极轻量的查询分配器,基于数据的梯度估计方差自适应分配查询资源。高方差样本分配更多查询以保证精度,低方差样本减少查询以节省成本,在有限预算内实现梯度估计方差最小化。



图4. 最优采样算法架构图


该分配器具有高斯和伯努利分配器两种形式,结合重参数化技术,仅需优化4个核心参数即可实现LR梯度估计效率的大幅改进。在Vision Transformer微调任务中,FLOPS将查询数量压缩至最低20个,并在ImageNet等多个数据集上超越经典LR和同时扰动随机逼近算法(SPSA)方法,同时还将黑盒提示调优、多模态对齐等任务的训练效率提升近一倍,让LR方法首次具备大规模工业应用的潜力。


2026 ICLR Oral:RLR,半阶优化攻克扩散模型后训练难题

扩散模型作为当前最强大的生成模型之一,其递归链式结构导致完全基于BP算法的后训练内存开销巨大,而截断BP的计算过程却会引入结构偏差。其基于强化学习的替代方案则存在样本效率低、方差高等问题。团队在2026年发表于ICLR的研究提出了Recursive LR(RLR)优化器,创造性融合LR与BP优势,成功平衡了扩散模型后训练中的效率与质量考量。


图5. RLR优化器算法图


RLR优化器通过融合BP-LR-SPSA的自适应架构,既保留了BP的低方差特性,又延续了LR与SPSA的低内存优势。在扩散模型的递归计算链中,RLR通过局部计算图重排将训练妥善分配到合适硬件上,精确捕捉到多个空间尺度上的生成信息,避免了全局BP的内存爆炸和截断BP的梯度偏差问题。


图6. RLR训练曲线图


数值实验中,RLR在Text2Image任务上的人类偏好评分全面超越DDPO、AlignProp等方法,在Text2Video的VBench基准上实现84.63的加权平均分,刷新当前SOTA。团队还提出“扩散链式思维(DCoT)”提示技术,与RLR协同作用,进一步提升模型对多尺度生成细节的把控能力,为扩散模型的高效训练提供了全新的硬件友好解决方案。


四年深耕,构建AI训练新范式

从2022年IJOC的理论突破,到2024年ICLR的架构扩展,再到2025年的效率优化和2026年的扩散模型落地,彭一杰教授团队用四年时间完成了LR方法从“能训练”到“都能训”、“能训快”、“训得好”的完整进化,为AI训练的基本问题提供了全新的解决方案。未来,随着LR方法在更多复杂场景的落地,有望推动AI训练向更高效、更灵活、更可靠的方向持续迈进。