AI物理高分是假的？数据与物理竞赛评测漏洞曝光

2026-07-05 17:35:24辅导探讨0

数据与物理竞赛 Nw5物理好资源网(原物理ok网)

这项预印本论文, 是由独立研究者发表的, 于2026年5月13 日上传至arXiv, 其编号为arXiv:2605., 归类在计算机科学·计算与语言（cs.CL）方向。对于有兴趣深入阅读原文的读者而言, 可凭借上述编号在arXiv平台查询完整内容。Nw5物理好资源网(原物理ok网)

AI模型在物理考试里取得高分之际, 我们真的要去相信这个成绩吗? 这篇论文给出的答案为: 不一定。有一位独立研究者耗费了大量时间, 如同一名专业审计员那般, 将整个AI物理推理评测的流程自始至终检查了一回, 结果查实了三个长期被无视、却切实扭曲了评测结果的问题, 更关键的是, 他不但找出了问题, 还亲手打造了四套工具用以弥补这些漏洞, 并且训练了一个名为-R1的模型来验证这些工具的实际价值。Nw5物理好资源网(原物理ok网)

**一、先搞清楚"考试系统"是怎么运作的**Nw5物理好资源网(原物理ok网)

要明白这项研究, 就得先知晓一件事, 那就是: AI模型是怎样被测试物理能力的。大致来讲, 研究人员会先去收集一批物理题目, 将其作为“训练数据”, 让AI在这些题目上展开学习。之后, 再选用另一批题目作为“考试题”, 以此测验AI的真实水平。这跟人类备考的逻辑是全然相同的, 即: 你不能运用考试原题去练习, 不然成绩就没有参考层面的价值。Nw5物理好资源网(原物理ok网)

然而, 在现实当中, 这套系统出现了裂缝。研究者将问题归纳为三类, 第一类是训练题和考试题之间偷偷地“串通”了, 专业说法叫做“训练 - 评测数据污染”, 第二类是考试题被翻译成英文之后, 题意产生了微妙的偏差, 第三类是现有的考试题格式太过简单, 顶尖AI早就“卷”到了天花板, 完全区分不出强弱。这三个问题叠加在一起, 致使我们对AI物理能力的判断, 很可能一直处于失真的状态。Nw5物理好资源网(原物理ok网)

**二、第一个暗坑：考试题早已被"剧透"**Nw5物理好资源网(原物理ok网)

对于研究者首先着手去开展调查的内容, 那便是训练数据与评测数据之间是不是存在着重叠情况。关于这个问题, 原本存在着一种看上去较为合理的检测方式, 也就是“五字组相似度”（5 - gram）。简单来讲的话, 其意思为, 将两道题其中的文字, 拆分成五个字一组的片段, 查看这些片段里有多少是相同的。要是重叠率超过了40%, 那么就认定这道题有可能被“剧透”了。Nw5物理好资源网(原物理ok网)

对完全照抄情形有效的此方法, 在对着进行了词汇变更并实施数字修改这般 “变形之貌版本”作用时, 就整个地丧失效能了。研究者于三个主导性质类型训练数据集, 包含 -Train、、MMK12之上开展了此项测查检验, 最终所获结果为零命中, 这表明看起来训练数据同六套公开的评测题目之间不存在任何相互交叉重合之处, 呈现出极为纯粹干净的状态。Nw5物理好资源网(原物理ok网)

但研究者并未就此停止行动。他引入了第二道检测, 这道检测使用一个名为mxbai - embed - large的语义嵌入模型, 借由该模型把每道题转变为一个数学向量, 之后计算向量之间的“余弦相似度”, 运用这个方法可以发现那些意思相同可是说法不一样的题目对。结果, 在这个训练集里一下子出现了4846对“可疑题目组合”。Nw5物理好资源网(原物理ok网)

仅仅发现“可疑”是远远不够的, 毕竟在物理题目当中, 常常会出现有着相同主题然而本质却并不相同的题目, 就好比同样是在讨论动量守恒可具体的情境却全然不一样。于是研究者引入了第三道检测 , 让一个被称作 AI 法官（Haiku 4.5）的去逐对阅读这些可疑题目 , 判断它们到底是“实质相同的换皮题”还是“只是话题相近的不同题”。最终得出裁定: 在 4846 对当中有 134 对是实实在在的重复题 , 其中有部分题目在字义上面完全不一样 , 可实际上它就是同一道题换了一种说法。Nw5物理好资源网(原物理ok网)

其所具有的意义体现为: 存在这样一种情况, 即一个题对当中, 当余弦相似度超过0.95时, 会100%被判定为重复题；然而, 当余弦相似度处于0.85到0.87之间时, 只有1.5%确属真正的重复。这充分表明, 仅仅依靠字面检测是远远不足够的, 必须要将三道关卡联合起来运用, 才能够把问题查找出来。研究者将这套流程整理成了一个开源工具.py, 任何人均能够拿去对自身的数据集进行检查。Nw5物理好资源网(原物理ok网)

**三、第二个暗坑：翻译会"偷走"一部分题意**Nw5物理好资源网(原物理ok网)

更有意思的是第二个发现, 其涉及语言本身这一问题。爱沙尼亚物理奥林匹克竞赛的题目, 起初是用爱沙尼亚语来写的, 之后又被翻译成了英语。研究者手头存有59道题, 同时保留了爱沙尼亚语的原版以及英语的译版, 他运用同一个模型（4.5）, 分别对两个版本进行作答, 而后再对比成绩。Nw5物理好资源网(原物理ok网)

结果超出了预先设想的情况: 在做以爱沙尼亚语呈现的原本题目时, 模型给出正确答案的比例是30.5%；而在做英语翻译过来的题目时, 正确答案比例仅为13.6%, 两者之间相差幅度达到了足足17个百分点。这并非是那种随机产生的误差情况——研究人员进行了三种不同的统计检验方式（分别是符号检验、麦克尼马尔检验、配对自举置信区间检验）, 这三种检验方法最终均指向了同一个结论: 即这个存在的差距在统计学所具有的意义层面上是真实切实存在的, 并非单纯由运气所导致。Nw5物理好资源网(原物理ok网)

由逐题对照矩阵可知, 存在13道题呈现为爱沙尼亚语答对、英语答错的情况, 仅有3道题为反之状态。这种不对称情形表明, 针对于英语能力极强的4.5这个模型而言, 爱沙尼亚语原题反倒更易答对, 其原因或许在于, 于翻译进程当中, 物理术语精确含义、语法格指代关系以及问题细微限定条件, 都于翻译时悄然缺失了一部分。Nw5物理好资源网(原物理ok网)

这一发现有着这样的实际意义, 那就是, 当我们于英语版评测集那儿去对各个AI模型的成绩予以比较的时候, 我们实际上所比较的是它们针对翻译版题目的理解能力，并非针对原始物理问题的理解能力。对于英语训练数据丰富的模型而言, 英语译版有可能会系统性地低估其真实能力；对于英语训练数据薄弱的模型来说, 情况或许恰恰相反。这就意味着, “谁的分高谁就更聪明”这样的判断, 也许会因为评测语言的选择而出现系统性偏差。Nw5物理好资源网(原物理ok网)

**四、第三个暗坑：考试太简单数据与物理竞赛第一考试网，高分都挤在一起**Nw5物理好资源网(原物理ok网)

最直观的是第三个发现, 研究者于同一周, 使用完全一样的4.5模型, 在三套不同的物理评测集上展开测试, 从而得到了三个差异显著的分数, 其中, PhyX（四选一选择题）得分79.7分, -（开放式解答）得分50.4分, 他自己构建的 -A（开放式解答, 题目来源更新颖）得分33.4分。Nw5物理好资源网(原物理ok网)

数据与物理竞赛 Nw5物理好资源网(原物理ok网)

虽模型未变, 然而考试形式变了, 题目的来源也变了, 可分数却相差了46分, 这46分的差距究竟说明了啥呢? 选择题格式自身就赋予了模型极大的优势, 即便对题目不太有把握, 也存在25%蒙对的概率, 更为关键的是, 当许许多多的模型在选择题上皆能获取70%以上的分数时, 这张考卷便丧失了区分能力, 它没办法告知我们, 70分的模型与80分的模型在真实物理推理方面究竟哪一个更强。Nw5物理好资源网(原物理ok网)

情形好似借小学数学题目去分辨大学生与研究生的数学能力, 所有人皆能获取满分, 成绩全然丧失了参考意义, 研究者将此现象称作“MCQ饱和”, 也就是选择题（MCQ）格式被当下顶尖模型“卷”至极致。Nw5物理好资源网(原物理ok网)

**五、为了解决这三个问题，研究者造了四套工具**Nw5物理好资源网(原物理ok网)

了解到问题所处位置还不足够, 科研学习者紧接着动手制作了四样物品用来往正面方向去应对那些不足之处。Nw5物理好资源网(原物理ok网)

第一项是 -A, 它是一个多模态物理训练数据集, 其中含有 6432 道题目, 该数据集全都历经三阶段审计, 已核实与六套公开评测集之间不存在任何重复情况。这些题目源自九个各异的来源, 其中有爱沙尼亚物理奥林匹克竞赛, 它有418道题, 还附带官方难度标注, 从1分到10分；有Kevin Zhou的奥林匹克物理讲义, 共计692道题, 并且附有版权授权；包含七个国际物理竞赛, 分别是IPhO、NBPhO、EuPhO、APhO、INPhO、IYPT；另外还有教材、Stack等重新整理后的来源。Nw5物理好资源网(原物理ok网)

另外还有一件事, 是从 -A 当中挑选出来的 2268 道题目, 这些题目具备“答案格式规整”的特点, 并且是专门用来进行强化学习训练的。这些题目的答案, 一种情况是选择题的字母, 另一种是数值, 这两种情况都方便程序能够自动去判断对错。Nw5物理好资源网(原物理ok网)

第三件是 -A, 有500道开放式解答题, 这些题目来自奥林匹克竞赛, 专门用作评测集, 并且经过了三阶段审计, 确认没有与训练数据重叠。其中99.8%的题目是全新题源, 唯一一道例外是EuPhO 2020的一道题恰好也出现在 -里, 研究者选择如实披露, 而不是悄悄删掉。这套评测集还包含一个英语 - 爱沙尼亚语双语子集, 以及官方难度标注, 这使得按难度分层分析成为可能。Nw5物理好资源网(原物理ok网)

第四件是-R1本身, 它是一个训练好的视觉语言模型, 该模型能证明上述数据集确实“有用”, 并非只是在自我欣赏。Nw5物理好资源网(原物理ok网)

**六、-R1是怎么训练出来的**Nw5物理好资源网(原物理ok网)

R1的训练起点是一个名为Qwen3-VL-8B-的基础模型, 此模型是阿里巴巴开源的具备“思考”能力的视觉语言模型, 其参数规模为80亿。研究者所采用的训练算法是GSPO与DAPO的组合, GSPO即群体序列策略优化, 其核心思路是使模型针对同一道题同时进行16次回答, 接着依据这16次回答的整体表现去调整模型, 并非逐字逐句计算每个词的得分, DAPO借助“解耦截断”技术让训练过程更为稳定。Nw5物理好资源网(原物理ok网)

在开展训练的进程当中, 进行研究的人员引入了一种关于难度的筛选机制, 即要是某一道题目对于当下的模型而言过分容易, 也就是连续做到16次全都答对的情况, 又或者是太难, 也就是连续16次回答均错误的状况, 那么就会暂且将这道题目跳过去选择不处理。而这样的一种做法其实是从MM -那里借鉴过来的, 道理十分简单, 那就是过分简单的题目没办法学到全新的内容, 太难的题目所能产生的结果仅仅是无效的干扰信号, 而最具备学习价值的恰恰是那些时而答对时而答错的题目。Nw5物理好资源网(原物理ok网)

设计奖励信号是有讲究的, 研究者对两种方案做了比较, 一个是简单的二元奖励, 即答对得1分, 答错得0分, 另一个是复杂的五维奖励, 其是在二元奖励基础上, 额外奖励答案格式规范, 单位表达正确, 包含分数形式的中间步骤, 且不违反能量守恒或动量守恒, 实验结果明确支持简单方案, 也就是二元奖励在所有开放式评测上都胜出, 而五维奖励只在选择题上略有优势。Nw5物理好资源网(原物理ok网)

这个结果背后存在着理论方面的解释, 在GSPO的群体归一化机制情形下, 奖励信号的绝对大小并非具有重要意义, 关键之处在于它可不可以正确地区分“对的回答”以及“错的回答”, 五维奖励存在的问题表现为, 它会给“格式漂亮然而答案错误”的回答给出相比“格式混乱但答案亦是错误”更高的分数, 模型基于此学会了“努力将错误包装得更为好看”, 而非“努力把问题切实解决”, 这便是所谓的“古德哈特陷阱”情况: 当一个代理指标被当作目标来进行优化时, 它就不再是好的代理指标了。根据每组十六次回答所形成的数据来瞧, 五维奖励致使组内排名产生了百分之十四点三的变动, 当中百分之八十七的翻转出现在“全组人员都答错”这种状况下, 而偏偏就是这种状况最易于使得模型趋向格式代理。Nw5物理好资源网(原物理ok网)

**七、训练出来的模型数据与物理竞赛，成绩究竟如何**Nw5物理好资源网(原物理ok网)

R1针对三个随机种子, 分别是42、17、23, 各展开了一次训练, 之后将平均成绩用作最终报告的值。这么做是为验证结果的稳定性, 要是仅跑一次, 有可能恰好碰上走运的情况或者倒霉的状况, 而三次取平均会更为可靠。Nw5物理好资源网(原物理ok网)

有一个选择题评测集名为PhyX, 在这个评测集上面, 基础模型所获得的分数是73.7分, -R1的分数提升到了77.8分, 分数提升了4.1分。然而这个提升并非是那种令人感到十分震惊的, 原因在于针对这样类型的题目而言, 对于基础模型来讲原本就并非是困难的。Nw5物理好资源网(原物理ok网)

真正的考验存在于开放式解答题那儿, 于那1200道步骤分级的物理推理题之上, 其中基础模型获得23.9分, 并且-R1又上升至39.6分, 提升获得了15.7分, 而且还超出了参数规模是它四倍的Qwen3-VL-32B（其只得25.1分）以及谷歌的2.5 Pro（其只得38.8分）。在这上面, 提升了6.9分, 进而达到46.2分。Nw5物理好资源网(原物理ok网)

尤其重要的是 -A 这一整套崭新的、未曾被训练数据搀杂污染的评测集合。基础模型于此处仅仅获得 8.0 分 —— 此一较低分数恰恰映照出其在实际未曾见过的题目方面的真切能力。 -R1 将这个分数拔高至 26.3 分, 提高了 18.3 分。这 18.3 分的提高乃是整个实验进程里幅度最大的提高, 并且最能够表明关键要点: 这套别具一格的题目恰恰是致使“刷题技巧”丧失效用的所在之处, 模型于此处所取得的进步, 才是实实在在的推理能力的进步。Nw5物理好资源网(原物理ok网)

把4.5放在-A上, 它能得到33.4分, 与之相比, -R1还要落后7.1分。也就是说, 被训练出来的8B模型, 已经超过了GPT-4 o的19.5分, 也超过了2.5 Pro的12.2分, 然而距离那个闭源顶尖模型却总归还有一截落差——这种定位是真实诚恳的。Nw5物理好资源网(原物理ok网)

数据与物理竞赛 Nw5物理好资源网(原物理ok网)

研究者还手工检查了30道题, 去分析-R1到底是在何处对基础模型起到了帮助作用。发现主要有三类问题得以修复: 第一类问题是, 推理过程完全正确, 然而最后却没有给出明确的最终答案, 训练之后模型学会了在箱号（boxed{}）里规范地撰写答案；第二类问题是, 用量纲合法方式去走捷径, 像是凑出单位正确可要物理错误的表达, 训练之后模型借助难度筛选机制减少了这类行为；第三类问题是, 面对多张图片时仅仅看第一张, 训练之后模型开始整合多张图片所包含的信息。Nw5物理好资源网(原物理ok网)

**八、难度真的有意义：从爱沙尼亚奥林匹克题的表现说起**Nw5物理好资源网(原物理ok网)

做研究的人着重突出了, 在 -A 里有一个关于爱沙尼亚题目的独特作用, 那就是官方给出的难度标注。在天底下, 差不多没有别的物理奥林匹克竞赛会像爱沙尼亚那样, 给每一道题目都加上一个难度分, 并且这个分是由出题的人亲自确定的, 范围是 1 到 10, 而不是在事情发生之后, 靠 AI 去猜测或者靠人工来回溯得出的。Nw5物理好资源网(原物理ok网)

对4.5的正确率依据难度进行分组之后, 能够看到一条差不多单调递减的曲线, 难度1的题目答对率是62.5%, 难度2时下降至20%, 难度3一下子降低到0%, 后面虽说存在一些小波动, 然而难度6、8、10都是0%。这一种分布存在着两层方面的含义, 其一, -A并非是那种一旦顶尖模型出现就能够取得满分成绩的饱和题库, 它在高难度的阶段具备着真实的区分能力, 其二, 就算是最为简单的爱沙尼亚奥林匹克题目, 其难度为1且正确率是62.5%, 尚没有达到在PhyX选择题上所呈现的水平, 该水平的正确率为79.7%, 这表明了这套题目整体的难度相比一般的物理评测集确实要更高一些。Nw5物理好资源网(原物理ok网)

**九、评测本身的诚实度：研究者披露了哪些局限**Nw5物理好资源网(原物理ok网)

此篇研究于诚实度方面是值得予以单独提及一番的, 研究者并非将成绩进行包装使其显得好看, 而是主动去披露了一系列的局限以及不确定性。Nw5物理好资源网(原物理ok网)

A里面, 有占比为13.9%的题目, 是那种“无法判断”的, 这些题目的参考答案呢, 是评分细则、管理说明, 或者仅仅只有图片, 不存在可供对照的明确数值或者表达式, 所以没办法借助AI法官来判定对错。研究者没有将这些题目偷偷删掉, 而是把这13.9%当作一个“已知噪声底限”如实地公开了。Nw5物理好资源网(原物理ok网)

对于AI法官的可信度, 研究者分别运用4.5和GPT - 4o展开行动, 针对50道题自行判分, 得以察觉到, 在88%的情形下, 两者见解一致（Cohen's κ = 0.44, 归为"中等一致"程度）, 然而GPT - 4o表现得更为宽松, 存在这样的状况, 判"错"的5道题被GPT - 4o判定为"对", 而判"对"的仅有1道被GPT - 4o判定为"错"。这表明作为法官是偏向保守的, - R1的实际成绩或许比所报告的数字要稍高一些, 并非因自我偏袒而被抬高了。Nw5物理好资源网(原物理ok网)

研究者针对数据集的授权问题, 做了完整的关于书面授权的追踪。Kevin Zhou的物理讲义经邮件确认给出了CC BY - NC 4.0授权, 邮件档案是以SHA - 256哈希值留存的；爱沙尼亚物理奥林匹克题目按照竞赛政策属于公开的教育资源；其余的国际竞赛题目同样是跟着竞赛政策的公开原则的。每条由其携带原始授权信息的记录, 方便下游用户去判断能不能用于自身项目。Nw5物理好资源网(原物理ok网)

也就是说, 这篇研究做了一件事: 它并未推出那种一呼百应立马就能引人注目的新算法, 而是通过严谨的数据以及方法学论证, 揭示了评测系统长期暗藏的隐患, 具体是, 阶段审计有134对真实重复题被发现, 翻译的时间差是17分钟, 格式上的梯度差异有46分, 将这些一一公之于众, 之后还给出了对应的解决办法。Nw5物理好资源网(原物理ok网)

对普通读者而言, 这项研究提示了一件事, 当你瞅见某个AI模型“在物理考试里取得高分”的新闻时, 值得再多问一句, 这道考题之前它见过没, 考题是用原始语言出的不, 考题是选择题还是要完整推导的开放题, 这三个问题, 兴许会让那个高分显得大不一样, 要是有兴趣深入探究, 可通过arXiv编号2605查阅原始论文, 所有数据集和代码也已在和上公开公布了。Nw5物理好资源网(原物理ok网)

Q&ANw5物理好资源网(原物理ok网)

Q1：三阶段审计方法和普通的重复检测有什么区别？Nw5物理好资源网(原物理ok网)

A: 仅普通的五字组相似度检测, 也就是5 - gram , 它只能发觉几乎完全相同、没有一个字差别的复制题, 一旦碰到那种改了几个词语或者换了数字的“改头换面版”题目, 就会遗漏掉。三阶段审计呢, 是在这个基础之上, 增添了语义嵌入相似度比对, 这种比对能够发现意思大致一样, 但是表达方式不一样的题对, 之后再让AI法官一对对着去判断到底是真实的重复还是仅仅只是话题比较相近。这三者联合起来使用, 才能够在训练集当中发现134对真实重复的题目——然而要是单靠第一阶段的检测, 最终的结果就是零命中。Nw5物理好资源网(原物理ok网)

问题二: 爱沙尼亚语的原本题目, 其得分相比英语翻译过来的题目得分要高, 这是不是由于对爱沙尼亚语有着格外擅长的情况呢? Nw5物理好资源网(原物理ok网)

将其改写为: A: 部分缘由是以爱沙尼亚语的掌握情形原本就不算差, 然而更为关键的却是翻译本身致使了信息损耗。爱沙尼亚语的格变化体系能够精准地表述动作发生的走向、参与者所扮演的角色等信息, 在翻译成英语时这些具体细节常常会被简化或者模糊化, 进而使得题目的物理条件在英语版本里显得不够明晰。这一发现针对弱势语言方向而言是相反的情况：研究者预先进行了注册, 开展了一个跟进实验, 预期对于爱沙尼亚语训练数据稀缺的开源模型, 英语翻译后的题目会比爱沙尼亚语原题目得分更高。Nw5物理好资源网(原物理ok网)

问题3: 在-R1训练期间, 为何选取二元奖励, 而非那种涵盖单位、守恒律等方面物理信号的复杂奖励呢? Nw5物理好资源网(原物理ok网)

A: 用于训练算法GSPO的是“组内归一化”机制, 该机制只关注同一组16次回答中谁更具优势, 却不在意绝对分值。复杂奖励存在的问题是, 它会给“格式美观但答案有误”的回答赋予高分, 致使模型学会将错误包装得更为美观, 而非切实解决问题, 此即“古德哈特陷阱”。实验数据也证实了这一判断, 二元奖励在所有开放式题目上比复杂奖励高出4到9分, 仅在选择题这种近乎饱和的格式上略低0.3分。Nw5物理好资源网(原物理ok网)

数据与物理竞赛 Nw5物理好资源网(原物理ok网)

PREV ARTICLE上海电机学院研究生就业率100%，值得报考吗？