首页 >> 科学研究 >> 科研进展 >> 正文

让 AI 像人一样“看懂物理”:Neural Force Field 如何实现少样本物理推理?

信息来源: 计算认知与常识推理研究中心     发布时间:2026-02-11     浏览量:

只需寥寥数次观察,便能归纳总结出物理规律——这种从有限经验中形成结构性理解的能力,长期以来被视为人类认知的优势,也恰恰构成了当前人工智能在物理推理上的关键短板。针对这一差距,北京大学研究团队从力场 (force field) 这一物理学中最基础的概念出发,重新审视模型应如何学习物理世界的规律,并据此实现复杂情境下的推理。其训练的 Neural Force Field 模型,并非单纯预测“下一步会发生什么”,而是尝试理解“为何物体会如此运动”。正因为学到的是通用的“力的规则”,模型只需少量样本就能适应新场景,实现更接近人类直觉的物理理解。相关论文 Neural Force Field: Few-shot Learning of Generalized Physical Reasoning 已被 ICLR 2026 接收。

人类理解物理世界,往往并不依赖海量数据。一个孩子只需观察几次球体下落、积木相撞,便能形成对重力、支撑、碰撞与摩擦的直觉认识,并在陌生情境中做出合理判断。这样的理解并非记住具体过程,而是把握了背后的规律。

但现实中的 AI 系统却恰恰相反:它们高度依赖大规模训练数据,往往需要成千上万条轨迹才能学会一个物理任务;它们的泛化能力不足,一旦物体数量、形状或组合方式变化,模型就容易失效,难以迁移到新场景;即便预测结果正确,模型也难以解释其依据与原因其根本原因在于,多数现有模型并未真正“理解”物理规律,而只是学会了对表层运动轨迹的拟合。


过去几年,物理推理模型主要沿着两条路线发展:


  1. 基于状态或轨迹的预测模型

例如Interaction Network、SlotFormer、EGNN 等,通过图神经网络或 Transformer 建模物体间关系。其问题在于,模型学到的是隐式表示(latent transition),对 OOD(分布外)场景极不稳健,在少样本学习时极易过拟合。


  2.引入物理先验的连续模型(ODE / Hamiltonian / PINN)

这类方法在数值精度上更“物理”,但往往依赖强先验或已知方程,难以处理复杂、多物体、非保守系统,在抽象推理任务(如 PHYRE)中并不适用。这两种路径都无法填补一个空白,即用一种显式、连续、可泛化的物理表示,让模型在少量样本下学会“物理直觉”。


图1. 离散隐式表征和连续显示表征对比


研究团队给出的答案是:直接学习力场(Force Field)。与其预测“下一帧在哪里”,不如先回答一个更本质的问题:这个位置上,物体会受到什么力?

Neural Force Field(NFF)做了三件关键的事:

1.用“神经算子”直接预测连续力场

模型不是输出离散状态,而是学习一个函数:

   输入:物体状态 + 交互关系

   输出:作用在空间任意点上的力

这一力场可以自然表达:重力(远程吸引),支撑与碰撞(局部排斥),摩擦、旋转、约束等

2.用 ODE 积分,把力“变成运动”

预测到的力不会直接变成下一帧,而是通过 二阶常微分方程(ODE) 积分得到速度与位置变化。这一步能够保证运动连续且遵循物理规律,从而避免“穿墙”“瞬移”等不合理现象,让模型天然支持长时间推理

3.力场 = 可组合的物理概念

局部力场会随着物体及其交互方式的不同而改变。当场景变化时,只需在新的交互图上叠加这些力即可,这也是 NFF 能够 跨场景泛化的核心原因。

图2. Neural Force Field (NFF) 模型学习到的力场表征


研究团队在三个极具挑战性的物理推理环境中检验了 NFF模型的性能:


1. I-PHYRE(交互式物理推理)

只用 100 条轨迹,成功学习支撑、碰撞、摆动等物理规则,在全新关卡中预测和规划均显著优于 SOTA。更重要的是,模型学到的力场是可视化的、可解释的

2. N-body(天体引力系统)

从 2–3 体系统训练,泛化到 7–9 体系统,NFF学到的力场与真实引力分布高度一致,这意味着模型并非“记住轨迹”,而是真的推断出了引力规律

图3. Neural Force Field (NFF) 模型在复杂物理推理任务上的表现

3. PHYRE(视觉物理推理)

训练数据量只有0.012M,对比方法使用百万级样本,在跨模板规划任务上,AUCCESS指标显著领先。同时,NFF 在视觉任务中仍可保持物体一致性、稳定的物理行为以及更强的跨形状泛化能力。

图4. Neural Force Field (NFF) 模型在以视觉输入的物理任务上保持了物体恒存性与物理一致性

此外,NFF模型能够根据少量交互来调整自己的预测结果,从而在下一次交互的时候规划出更好的动作,如下图所示,NFF模型达到了类似人类的规划结果和提升曲线。

图5. Neural Force Field (NFF) 模型能够通过与环境少量的交互快速反思更新来提升在规划任务的表现



这项工作传达了一个非常清晰的信号:想让 AI 具备类人的物理推理能力,表示方式比模型规模更重要。

Neural Force Field 的意义在于,它为 AI 提供了一种更接近人类直觉的理解物理世界的方式。模型不再围绕“下一步会发生什么”做被动预测,而是以“力”为中介刻画物体之间的相互作用,从而在极少样本下便能快速掌握新场景中的运动规律,真正实现 few-shot 物理学习。由于关键物理概念以力场的形式被显式呈现,模型的决策过程也更加透明、可解释;同时,这种基于动力学的表示不仅支持前向预测,还能够进行情境想象与反向推理,为更高层次的物理推理与规划能力奠定基础。

从更长远的视角看,这种物理驱动的连续表示,可能是连接世界模型、具身智能和认知推理之间的一块关键拼图。

论文共同第一作者包括北京大学人工智能研究院博士生李世乾、北京大学信息科学与技术学院本科生沈睿弘;通讯作者包括北京大学人工智能研究院副研究员陶耀宇、北京大学人工智能研究院助理教授张驰(即将入职)和北京大学心理与认知科学学院及人工智能研究院助理教授朱毅鑫。