西风 发自 凹非寺
量子位 | 公众号
国产的首个拿下国际物理奥林匹克竞赛IPhO 2025理论考试金牌的是开源模型,哟。
上海人工智能实验室团队推出新模型家族,代号P1。
IPhO 2025理论考试里,P1 - 235B - A22B拿到21.2 / 30分,成为首个达成该金牌线的开源模型,仅比 - 2.5 - Pro以及GPT - 5稍逊一筹。

不仅如此,引入智能体框架后,P1成绩进一步提升。
在团队构建而成的基准HiPhO上,该基准涵盖最新的13项顶级物理竞赛,P1 - 235B - A22B的平均成绩,发生了从35.9提升到38.4的变化,在全部33个顶流模型里,其排名是第一,此排名超过了 - 2.5 - Pro(成绩为37.7)以及GPT - 5(成绩为37.4)。
并且,在二零二五年中国物理奥林匹克CPhO人工评分里,P一减二三五B减A二二B得到二百二十七除以三百二十分,明显高于那一届全国金牌第一名人类选手的分数(一百九十九分)。

团队在开源这一方面,做得相当彻底,模型是要开源的,算法是要开源的,评测集也是要开源的,连智能体框架同样是要全链路开源的。
下面具体来看P1究竟是如何做到的。
多阶段强化学习+智能体框架
团队先构建了一个高质量的物理训练数据集,目的是要让模型去学习类似人类顶尖学生那样的推理思路。
该数据集是由构成为5065道奥赛级别的文本物理题目所形成,里头是有包含着4126道物理奥赛之中的题真实的题目还有939道竞赛教材相应的题目,它所涵盖的是涉及到力学、电磁学、热学、光学、近代物理这等作为五个领域以及总共二十五个子领域 。
那些题目长得超级离谱,复杂得让人头晕,平均题干长度是三百六十七物业经理人,最长竟然达到三千三百八十六;平均解答长度为三百四十九,最长能有五千五百一十九 。

每题都有题目,题目之后跟着完整专家解答,完整专家解答之后是可规则验证的标准答案 。

为确保数据质量,团队采用了以下措施,采用-2.5-Flash模型,采用-3.7-模型,采用GPT-4o模型,通过这三大模型交叉验证答案,安排人工对OCR错误进行检查,并删除那些凭借规则无法进行判题的题目。
构造数据只是基础。
随后,P1采用了多阶段强化学习流程进行训练。
物理题目解题被转化成了一个序列决策方面的问题,模型于每一个状态之下产生下一个token,一直到输出全部完整的解答,最终的奖励是依据模型解出的答案是不是正确来判定的。
作者运用了基于策略梯度的方式来开展训练高中物理竞赛书,然而并非径直采用PPO,而是采用了针对长链推理做出优化的GSPO(Group )。此种方法并非针对单条序列予以更新,而是于每个题目之上采样若干条完整解答,将它们视作一个group,并借助它们的相对收益来构建优势函数。如此一来能够减轻物理题奖励极为稀疏、解题过程具有成千上万token但仅在最后一步存在信号的问题。
为使GSPO能够稳定开展工作,团队搭建了一套极为精密的奖励系统以及判题器,在训练阶段,模型的最终答案必须严格依照预设格式予以输出,如此这般的结构化输出致使判题器能够可靠地提取模型答案,进而通过符号计算工具判定模型解答与标准答案是否等价 。
然而,物理学方面的题型经常要把一堆子问题裹夹着搞出来,要不然就是得以许许多多作为最终定论的结果呈现才成。为了能契合这样的一种构造状况,团队选用了跟程序评测里头“测试用例样式”的那种奖励聚合方法,把最终的奖励给界定成了这样子哟:

在整个训练的进程当中,作者严谨地仅仅运用规则性质的判题器具,以此来防止模型存有试图借助学习某一种写作风格进而“讨好”样式的判题器具的情况出现,。

在进行训练的过程中,随着其逐步推进,模型会出现这样一种情况,即可学习性出现下降,这种下降具体表现为,梯度不能够指向有效方向,并且熵急剧下降,以及模型所获取到的仅仅是模板化的表达等 。
团队针对这一点提出了两个创新处理方法。
第一点,依据题目难度(借助基座模型的多采样通过率去衡量)来开展动态数据筛选工作,那些基座模型根本做不出来的题目,鉴于所有生成轨迹奖励均为零,会致使RL难以进行学习,那些太过容易的题目则会使多样性降低、引发熵坍塌,团队所以设定只留存通过率处于0到0.7之间的题目以进入训练。
其二,随着训练的持续推进,逐步去扩展模型的探索范畴 : 一方面增大每题采样时的解答条数数量,以此让模型拥有更多机会去寻找到 "高质量轨迹";另一方面拓宽模型能够生成的最大长度限度,使得模型能够完成愈发复杂起来的问题。
这种多阶段策略用于推进整个RL训练,靠它模型在能力提升之际能保持稳定的可学习性。

另外,训练之时,所运用的概率,和推理之际,生成之时的概率,有着不可避免之偏差。
由于推理常常借由vLLM或等特定的推理引擎来开展,而训练却是在或FSDP框架之中达成,它们二者的浮点实现存有细微的差别,模型于训练期间所见到的“旧策略”和真实采样策略并不全然一样。
为此,团队引入了(TIS),通过采用一个被截断的策略比重,来对这种偏移予以校正 。

在推理的这个阶段,P1引入了一种系统,该系统是专门为物理推理而进行设计的,是协同进化多智能体系统,借助它来进一步提升解题的质量。

原设计里,是由三个交互式模块而成,其一为视觉工作室( ),其二是逻辑工作室(Logic ),再者乃审查工作室( )。
会先对输入内容予以观察、进行验证以及展开反思,把它转变为结构化的信息,而后交给Logic 。在Logic里,会生成初始的解答,并且乃是借助自我改进机制去进一步优化这个被生成好的解答。随后,这个解答会被交到那里进行双阶段的审查,其中一个负责检查物理方面的一致性,另一个则要在此基础上进一步去检查逻辑、推理的整个过程以及计算时所涉及到的各种细节。
万一在任何一个审查的阶段当中没有通过,那么系统就会给被称作Logic的对象返回一份有着详细内容的错误报告,接着依据这份报告去修正解答,随后再次提交给某个对象 。
该流程会持续循环,直至解答接连经由预先设定数量次数的审查(CV),CV还是系统里仅有的超参数。

团队格外指明,鉴于那个P1属于纯文本模型,系统里头的那个被关掉了,然而Logic跟的协同合作依旧能够明显地提升推理的稳定性以及最后的表现:
他们把P1在Logic里进行实例化当作,并且在当中让P1分别去充当两个审查器,借由这种方式去完成在内的推理协同进程。
单一模型,13场比赛取得12金1银
在实验阶段的时候,团队构建起了一个全新的、具备高难度的评测集HiPhO,其目的在于针对P1系列模型展开系统性的测评工作。
它与33个模型,其中包括GPT - 5、 - 2.5、 - 4 -、Grok - 4、系列、Qwen3系列,进行了全面对比,这33个模型里有11个闭源,22个开源。

2024–2025年最新的13场物理赛事当中,有关理论题的部分被HiPhO覆盖了,这些赛事有IPhO、还有APhO、EuPhO此类国际赛事,另外便是NBPhO、F=MA等区域性高难度赛事。
在统一评分体系之中,一个名为P1 - 235B - A22B的单一模型,这里并没有使用多智能体,它竟然就在多达13场的比赛里获得成果,这个成果是12金1银。它达到的成绩致使它与 - 2.5 - Pro、 - 2.5 - Flash - 并列处于第一场的位置,在相关对比体系里,GPT - 5有11金,Grok - 4有10金, - 4 - - 有8金 。
在里,取得二十二点二除以三十分的成绩,位列第三,仅仅落后于负二点五杠Pro以及GPT五,身为首个达成那条金牌线的开源模型。
与此同时,轻量级模型P1 - 30B - A3B所取得的成绩也是颇为引人瞩目的:获得了8金4银1铜,在开源模型当中位居第三,超越了o4 - mini、 - 4 - 等闭源模型。

和框架相联结之后,P1 - 235B - A22B的分数,从平均的35.9,提升至38.4,超越了 - 2.5 - Pro(37.7)以及GPT - 5(37.4),进而成为整体当中的第一名。

在CPhO 2025【也就是中国物理奥林匹克竞赛】这个赛事当中,团队又一次对P1-235B-A22B展开了评估。
在理论考试里,P1 - 235B - A22B的得分是227分,满分是320分,它是由人类专家,严格依照官方评分标准来进行评阅的,这个分数明显高于当届人类金牌第一名的199分。

此外,论文还展示了一个有趣的效应:
团队借助专门的数据集,对模型开展后训练,以此强化其物理解题本领。结果得以发现,这般高度定向、着重物理推理结构的训练,不但未曾损害模型的通用能力,反倒致使P1在数学、STEM、代码以及通用推理等多个任务方面,相较于其基座模型而言高中物理竞赛书,表现更为出色,这表明复杂物理推理训练具备跨领域的迁移价值。


团队简介
P1团队来自上海人工智能实验室,论文共同一作有三位。

Chen,身为香港中文大学计算机科学与工程学系的博士生,其本科是从华南理工大学毕业的 。
其本人主要研究方向为自然语言推理和强化学习。

郑,当下身为浙江大学的在读博士生,其本科阶段毕业于北京航空航天大学,往昔曾与人工智能领域的杰出人物陶大程一同发表过学术论文。

Yu,是香港中文大学(深圳)计算机与信息工程专业的博士生,在贰零年的时候,于中国科学院大学完成了本科阶段学业取得毕业资格 。
他存有对于机器学习范围广泛的兴趣,尤其着重留意专注于AI for 、(多模态)大语言模型,还有针对面向人工智能那部分的统计那些方法 。

论文链接:
项目主页:
参考链接:
~
~
— 完 —
量子位 · 头条号签约
