188bet体育app官网 南大迁移团队建议TNT, 破解「假装不想考」骗奖励

发布日期:2026-06-19 02:47    点击次数:152

188bet体育app官网 南大迁移团队建议TNT, 破解「假装不想考」骗奖励

作家先容: 南京大学智能科学与时期学院博士生甘想远为本文第一作家;南京大学高阳教会为本文配合者;上海东说念主工智能推行室孟林建后生参谋员和南京大学霍静副教会为本文通信作家。

以 DeepSeek-R1、OpenAI o1 为代表的大型推理模子,凭借长想维链的「想考」能力在数学、代码等任务上大放异彩。但想考是有代价的:冗长、反复的推理经由带来了弘大的推理支拨与蔓延,这即是广受柔和的「过度想考」(Overthinking)问题。一个当然的惩处想路是查验搀和推理模子:让模子笔据问题难度,自动决定是「三想尔后行」(thinking 方式)照旧「骨鲠在喉」(non-thinking 方式),并使用强化学习(RL)查验模子掌捏这种能力。

然则,这套看似合理的奖励联想,却埋下了一个经典的隐患:奖励糊弄(Reward Hacking)。模子很快学会了「钻空子」—— 名义上输出非想考方式的风物符号,本色里却照样进行长篇想考,既靠想考拿到了正确谜底,又骗取了非想考方式的特地奖励。

为了惩处这一问题,来自南京大学、上海东说念主工智能推行室和中国迁移九天参谋院的参谋团队建议了Thinking-Based Non-Thinking(TNT):不依赖腾贵的 SFT,仅应用想考方式修起中「谜底部分」的长度信息,为每个问题动态设定非想考方式的 token 上限,就将奖励糊弄的发生概率压到了 10% 以下,同期在五个数学基准上已毕了准确率与效力的最优权衡。

现在,该论文已被当然讲话处理顶级会议 ACL 2026 Main Conference 招揽。

论文权衡:https://arxiv.org/abs/2601.04805

代码权衡:https://github.com/SiyuanGan/Thinking-Based_Non-thinking

布景先容:搀和推理模子与 RL 查验范式

咱们先来总结一下搀和推理模子的基本设定。

给定一个以特殊 token 落幕的输入提醒,推理模子的修起领先是想考部分 —— 包含不断探索、反想与自我考据的长想维链; 符号想考截止;后来 则是最终的解答(solution)部分,只包含正确的解题顺序与谜底。沿用先前责任的商定,若想考部分为空,则该修起被判定为非想考方式,不然为想考方式。在 RL 查验中,为了饱读吹模子在能力允许时优先遴荐高效的非想考方式,正确的非想考修起会被赋予比正确的想考修起更高的奖励。

动机:一个被低估的奖励糊弄问题

问题正好出在「更高的奖励」上。由于方式判定仅依赖第一个 token 这种名义信号,模子完竣不错先输出 伪装成非想考方式,随后的内容却照样反复推演,以致再次生成 闭幕符 —— 靠实在的想考得到正确谜底,却领走了非想考方式的高额奖励。

奖励糊弄问题示例。模子生成的首个 token 为 ,被分类为 non-thinking 方式,但修起内容澄澈具有 thinking 方式特征(如使用 "Wait"、"Alternatively" 等关节词),组成了典型的奖励糊弄四肢。

这一问题的严重性超出想象。著作实测发现,未处理奖励糊弄的 RL 顺序在 AIME24 上,被判定为「非想考方式」的修起平均 token 用量竟高达 10845,与想考方式的 11976 险些不相荆棘 —— 所谓的「非想考」已名存实一火,统统查验事实上仍是坍塌。

针对该问题,现存有筹画约略有两条路,但各有硬伤:其一是引入 SFT 来固定模子两种方式的输出行,但 SFT 推断打算支拨极其奋斗;更糟的是,188bet体育app官网SFT 还会带来权臣的性能退化,先前责任的 SFT 模子在 AIME24 上准确率仅约 10%。其二是为非想考方式设定最大 token 上限,超限即视为糊弄,但现存责任对通盘问题施加合伙的上限,这在逻辑上是行欠亨的:浅薄问题(如「1+1 等于几」)即便用长想维链反复考据,其 token 数也可能远低于复杂 AIME 题目普遍作答的长度。

顺序:

用想考方式的「谜底」

标定非想考方式的「尺子」

图 1:TNT 顺序概览。

破局的关节洞见独特优雅:想考方式修起中 之后的解答部分,本人就不含想考 —— 而这恰好就瑕瑜想考方式的界说。换言之,想考方式修起自带一份「该问题的谜底普遍应该写多长」的免费标尺。TNT 恰是应用这少量,为每个问题动态设定非想考方式的 token 上限。

整套顺序基于 GRPO 进行查验,无需任何 SFT,无需修改模子结构或 tokenizer,况兼与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法自然兼容,是一个即插即用的奖励层面修正。

推行考据:准确率与效力的双赢

著作以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模子进行了推行的考据。

百家乐2026世界杯中国官方下载

更少的 token,更高的准确率。在 1.5B 模子上,TNT 比较基座模子将平均 token 用量削减 46.2%,平均准确率反而栽植 4.1 个百分点,杰出统统同类顺序确立。

不同搀和推理模子查验顺序在数学基准上的平均准确率与 token 用量对比。

各模子在 non-thinking 方式修起中出现 thinking 关系动词的概率。

奖励糊弄被灵验淆乱。著作统计了非想考方式修起中「Wait」、「Alternatively」等想考类动词的出现概率:未探讨该问题的 AutoThink 概率最高,接管合伙上限的 AdaptThink 也权臣偏高,而 TNT 在通盘测试集上均低于 10%,仅次于付出了奋斗 SFT 代价的顺序。

模子学会了「看菜下饭」。TNT 的非想考方式占比与任务难度呈明晰的负关系:在 AIME24/25 这类贫寒上险些全程想考(占比仅 1.7%/0.8%),在相对浅薄的 AMC23 上则有近 30% 的问题平直作答,已毕了基于难度的自主方式遴荐。

基座越强,上风越大。在 DeepScaleR-1.5B 与 7B 模子上,TNT 的 TE 远离达到 0.70 与 0.79,大幅逾越次优顺序的 0.54 与 0.67;在 7B 上更是同期拿下最高平均准确率(54.2%)与最低 token 用量。此外,TNT 在与 CoT 压缩顺序的对比中全面胜出,并在 GPQA Diamond 这一散播外基准上获取最优效力,展现了考究的泛化性。

总结和瞻望

一言以蔽之188bet体育app官网,这篇论文直面了搀和推理模子 RL 查验中一个具体而致命的失效方式,奖励糊弄,并给出了一个四两拨千斤的解法:与其用腾贵的 SFT 去「管住」模子的输出,或用一刀切的上限去「猜」每说念题的合理长度,不如让想考方式我方的解答部分来告诉咱们,这说念题不想考时普遍应该写多长。由此建议的 TNT 无需 SFT、无需转变模子结构,仅在奖励层面引入一个动态 token 上限,便在三个基座模子、五个数学基准上一致地已毕了约 50% 的 token 削减与准确率栽植,并将奖励糊弄概率压制在 10% 以内。