米兰体育MILAN中国官网

米兰体育MILAN中国官网 ICML 2026 | Agentic强化学习磨真金不怕火的信息自锁问题

本文作家邹德誉，香港汉文大学计算机科学与工程系博士生，本科毕业于中国科学期间大学。考虑观念为假话语模子智能体、强化学习与主动推理，热心模子在信息不完备的多轮交互中如何主动获取、更新并欺诈信念。关系责任发表于 ICLR 2026 Oral 与 ICML 2026。

跟着假话语模子逐渐从「单轮问答」走向「委果环境中的抓续交互」，LLM agents 正在被用于越来越复杂的 agentic applications：deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。这些任务和传统问答最大的不同在于：任务所需的信息时常不是一入手就完整给出的。Agent 必须在不信赖景况下主动选择行为，举例发问、搜索、调用器用、查验响应，并在多轮交互中继续更新我方对任务景况的领路。

这类技艺不错概述为 active reasoning：在信息不完备的环境中，agent 不单是 “回答问题”，而是需要主动获取新信息，并把新信息信得过整合进后续决策和推理中。

根据过往在许多推理任务上的得手，强化学习似乎应该很相宜磨真金不怕火这类技艺。只须临了任务得手就给正奖励，失败就不给奖励，模子不就应该逐渐学会更好的交互战术吗？

但事情并莫得这样粗浅。与此前 T3 （Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral）对多轮推理中 belief deviation 和 belief-trapped trajectory 的分析相呼应，香港汉文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节逾越的考虑者进一步发现发现，在 active reasoning 场景中，outcome-based RL 并不一定会自然磨真金不怕火出更善于交互的 agent。相背，模子可能参预一种低信息量的磨真金不怕火款式：它反复实行无效操作，过早依赖开动判断，忽略用户或环境复返的新字据；以至在最终 reward 有所进步时，背后的行为也未必信得过变得更会主动获取和使用信息。

要是说 T3 更热心 agent 在多轮交互中如何逐渐偏离正确 belief，那么这篇论文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系统分析了这一风光背后的原因：在 active reasoning 中，agent 的推崇同期依赖于两个彼此耦合的技艺：一方面是选拔什么动作来获取信息，另一方面是如何把获取到的信息整合进后续判断。outcome reward 很难自动为这两个彼此依赖的关节提供明晰 credit：面前者无法带来有用响应，后者就穷乏可学习的字据；而当后者无法正确接纳响适时，前者的价值又很难通过最终 reward 得到正确 credit。

考虑者将这种磨真金不怕火失败机制称为：

Information Self-Locking，信息自锁。

基于这一不雅察，作家进一步建议了一个粗浅而有用的法度：AREW（Action-Selection & Belief-Tracking Advantage Reweighting），通过轻量的观念性响应从头分派 trajectory 里面的 credit，从而缓解 information self-locking。

论文已被 ICML 2026 领受。

现金炸金花游戏软件中国官方平台

论文标题：On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents

技俩代码：https://github.com/unimpor/T3

论文华集：https://arxiv.org/abs/2603.12109

小序：为什么 RL 磨真金不怕火出来的 agent 照旧不会主动推理？

在好多 LLM agent 任务中，模子并不成一入手就看到完整谜底。它必须通过多轮交互逐渐迫临委果任务景况。

比如：

在医疗问诊中，agent 需要主动策划症结症状，而不是重叠问平凡的问题；

在用户偏好想到中，agent 需要假想有别离度的问题，逐渐识别用户信得过的偏好；

在客服场景中，agent 需要决定什么时辰发音书、什么时辰调用器用、什么时辰指导用户完成某些操作。

这些任务有一个共同结构：agent 的推崇同期取决于两件事。

第一，它要知说念下一步该问什么、查什么、调用什么器用。作家称为 Action Selection（AS）。

第二，它要能把得到的新响应接纳进我方的里面领路，信得过更新对任务景况的判断。作家称为 Belief Tracking（BT）。

要是 AS 很弱，agent 就拿不到有用信息；要是 BT 很弱，即使拿到了有用信息，模子也不会用。

更症结的是，这两者不是零丁的，而是强耦合的：

好的行为只好在响应被正确使用时，才会在最终 reward 中体现价值；好的 belief update 又依赖于前边行为带来了富有有信息量的响应。

这就带来了 active reasoning 中一个特地避讳的 credit assignment 问题：outcome reward 只在临了出现，它很难判断到底是 “问得不好”，照旧 “问到了但没接纳好”。

论文第一页的图给出了这一机制的举座直观。

图：原文 Figure 1。Vanilla outcome RL 下，agent 可能参预 self-locking：informative action 的价值被 weak BT 掩盖，导致 credit assignment 错位；AREW 通过 directional critiques 从头分派 trajectory 里面 credit，使 AS 和 BT 从头对皆。

Information Self-Locking：磨真金不怕火信号被 “锁住”

作家率先发现了一个反直观风光。

在 outcome-based RL 中，reward 可能照实飞腾了，但这并不料味着模子信得过学会了主动获取信息。为了解耦不雅察这极少，论文先在两个可控的 active reasoning 任务中作念分析：Preference Estimation 要求 agent 通过比较问题逐渐想到用户遮掩偏好，MediQ 则要求 agent 通干预诊病东说念主问题逐渐识别正确会诊。二者都需要 agent 一边主动获取字据，一边更新对遮掩任务景况的判断，因此很相宜用来不雅察 AS 和 BT 的磨真金不怕火动态。

论文在这两类任务中追踪了三个量：

Final reward：最终任务推崇；

AS proxy：agent 的行为是否带来有信息量的响应；

BT proxy：agent 是否把响应正确接纳进 belief。

驱散骄矜，reward 不错作念有限的飞腾，但 AS 和 BT 并莫得同步进步。也即是说，模子名义上变强了，但它并莫得信得过更会 “获取信息” 和 “使用信息”。

图：原文 Figure 2。左半部分展示磨真金不怕火历程中 reward、AS、BT 的变化：蓝线暗意 agent 作念出有信息量行为的比例，橙线暗意 agent 是否有用接纳响应并更新 belief，绿线暗意最终任务得手率。不错看到，即使得手率随磨真金不怕火有一些有限的飞腾，AS 和 BT 也可能停滞以至退化。右半部分进一步固定疏导的 action-selection 序列：横轴暗意一条轨迹中有若干次有信息量的行为，浅蓝色柱子暗意这类轨迹出现的频率；蓝线暗意由 agent 自身 BT 处理这些响适时的得手率，橙线暗意由 stronger BT 处理疏导响适时的得手率。驱散骄矜，只好当 BT 富有强时，informative AS 才会和最终 reward 造成更强正关系。

这张图的右半部分揭示了 AREW 的中枢 insight：

Weak BT 会讳饰 informative AS 的孝顺。

假定 agent 建议了一个很有价值的问题，环境也复返了症结字据。但要是模子莫得把这条字据接纳进后续推理，最终谜底仍然错了。此时，outcome reward 会告诉 RL：“这条 trajectory 失败了。”

问题在于，RL 并不知说念失败的原因是 belief update 作念得差，而不是 action selection 作念得差。于是，阿谁本来很有价值的问题也可能得不到正向 credit。

反过来亦然同样。

要是 AS 变得保守，模子老是问一些低信息量的问题，BT 就拿不到有价值的响应。莫得富有信息流，belief tracking 也很难学好。久而久之，RL 可能反而饱读舞模子依赖开动判断或非交互式 shortcut，而不是讲求欺诈交互响应（详原宥文 Section 2.3 observation 3 ｜ Fig. 6a）。

这即是 information self-locking：

AS 弱导致 BT 没字据可学；BT 弱导致 AS 的价值无法被 reward 识别。二者彼此收尾，使模子卡在低信息量磨真金不怕火区域。

从 Sef-Locking 看 active reasoning 的磨真金不怕火瓶颈

前边提到，论文将 active reasoning 中的 agent 行为瓦解为两个彼此轮流的历程：

Action Selection（AS）：根据面前 belief 选拔下一步环境交互动作，举例发问、搜索、调用器用；

Belief Tracking（BT）：根据新响应更新里面任务领路，并决定后续如何行为。

这个瓦解指出 active reasoning 的难点不单是 sparse reward，而是 sparse outcome reward 下两个技艺的耦合学习失败。

平常 outcome RL 只看到最终成败，很难把 reward 正确分派给 trajectory 中不同的 AS 和 BT 决策。驱散是：

要是 BT 差，好的 AS 行为也无法滚动为高 reward；

要是 AS 差，BT 莫得富有信息不错接纳；

要是二者都处于低水平，梯度信号会同期变弱；

模子可能弥远停留在低信息量区域，难以靠 outcome reward 自行逃离。

论文在表面部分把这个区域体式化为 self-locking regime：AS informativeness 低，同期 BT capability 也低。在这个区域中，outcome-gradient 对 AS 和 BT 的进步信号都会被面前技艺水平收尾，因此磨真金不怕火动态很难自然逃出。

为了更直不雅地诠释这极少，论文 appendix 给出了一个二维相图：横轴暗意 AS informativeness，纵轴暗意 BT capability。

图：原文 Figure 8。AS-BT phase space 中的 learning dynamics。左图暗意 outcome-only RL：在低 AS、低 BT 的 locking regime 内，更新观念很弱，agent 难以逃离；右图暗意 AREW：directional critiques 在 locking regime 内引入特别更新观念，为模子创造逃离低信息量区域的旅途。这张图概述了 AREW 的表面直观：作家不需要齐全重写 RL，也不需要精准 dense reward；只需要在 AS/BT 的症结局部决策上提供一些观念性信号，就不错篡改低信息量区域内的 effective update field。

AREW：用 weak directional critiques 从头分派 trajectory 里面 credit

既然 SeL 的中枢问题在于 outcome reward 难以在 AS 和 BT 之间提供明晰的学习信号，一个奏凯的决策，是为每个中间决策都假想精准的 dense supervision：举例准确判断某个问题到底孝顺了若干信息，或者某次 belief update 到底应当取得若干中间奖励。然而，在长程 agentic tasks 中，这类 calibrated intermediate reward 时常不成粗疏取得。

庆幸的是，agentic active reasoning 场景常常会自然流露一些更粗粒度、但更容易获取的观念性会诊信号：举例，一个 action 是否让环境或用户复返了新的有用字据；一次 belief update 是否把新不雅察朝着更接近委果任务景况的观念接纳进去。

AREW 的起点恰是欺诈这些 uncalibrated directional signals。它并不试图为每一步构造精准的中间奖励，也不需要磨真金不怕火特别的 dense reward model，而是把这些观念性信号看成 weak directional critiques，注入到 policy-gradient 更新中，对 trajectory 里面的 stepwise advantage 进行从头分派。

换句话说，AREW 保留正本的 outcome reward，只是在 actor update 时把更多 credit 分派给被正向 critique 的 AS/BT 决策，并松开被负向 critique 的决策。通过这种 reward-preserving 的 credit reallocation，AREW 在 SeL regime 中从头提供非退化的局部学习信号，使 AS 和 BT 有契机共同改善并逃离低信息量磨真金不怕火区域。

在兑现上，AREW 将一条 trajectory 中被正向 critique 的样式集中记为 positive steps，被负向 critique 的样式集中记为 negative steps。然后构造一个 intra-trajectory likelihood margin：增多 positive steps 的 log-probability，相对缩短 negative steps 的 log-probability。

经过推导（详原宥文 Section 4.2），最终落实到 policy gradient 上，即是一个特地轻量的 advantage reweighting：

对正本每一步的 advantage 加上一个由 critique 决定的局部修正项。

直不雅来说，米兰体育MILANAREW 作念的是：

不篡改最终 outcome reward；

不篡改 critic target；

不重写 PPO / GRPO / GSPO 的中枢框架；

只是在 actor update 时，把 trajectory 里面的 credit 从负向样式从头分派给正向样式。

这使得 AREW 具有很强的可集成性：它不错看成一个表层 credit assignment 修正机制，插入现存 outcome-based RL pipeline。

更蹙迫的是，AREW 不要求 critique 齐全。表面分析（原文 proposition 4.1）标明，只须 directional critiques 的 weighted accuracy 好于立时，就不错提供有用的一阶矫正信号。后头的现实也考证了这极少：即使 critique 有噪声，AREW 仍然常常优于 vanilla RL。

现实配置：4 个交互规模，9 个 active reasoning 任务 / 配置

论文在多个 agentic active reasoning 场景中系统评估 AREW。

举座包括 4 个交互规模：

1. Preference Estimation

Agent 需要通过多轮 pairwise comparison 逐渐想到用户遮掩偏好向量。该规模包含 PE-G 和 PE-F 不同配置。AREW 在这里领受的 AS 信号特地直不雅：要是两部被比较的 item 在不同属性维度上存在 trade-off，而不是一方在系数维度上都赫然占优，那么这个 comparison 更可能带来有信息量的偏好响应；BT 信号则看 agent 更新后的偏好想到是否比上一轮更接近委果偏好向量。

2. Medical Diagnosis

在 MediQ 中，agent 需要基于 clinical vignette 和候选假定，主动策划病东说念主会诊关系问题，并逐渐提高正确会诊的 belief。AREW 的 AS 信号来自 patient feedback 是否果真提供了新的会诊信息；BT 信号则查验模子是否根据有用响应合理更新了不同会诊假定的置信度，举例是否让正确假定相对其他候选更占优，或者在无信息响应下保抓 belief 不被过失扰动。

3. Troubleshooting

在 FloDial 中，agent 需要通过 yes/no diagnostic questions 排查用户问题，并从候选诠释或不断决策中识别正确项。AREW 在这里把用户响应看成轻量观念性信号：要是问题射中了可会诊信息并得到有用 Yes/No 响应，就证实该 action 更有价值；要是只得到 Unknown，则证实该问题莫得匹配到有用会诊印迹。BT 侧则进一步查验 agent 是否在取得有用响应后提高了正确故障候选的置信度；要是响应是 Unknown，则更但愿 belief 保抓结识，而不是虚构漂移。

4. Customer Service / Tool Use

在 tau2-bench-Telecom 中，agent 需要通过多轮对话和器用调用完成委果感更强的 telecom customer-service 任务。AREW 的配置在本文后头会被单独提到。

在前三个规模中，论文评估了 7 个 active reasoning tasks；在 tau2-bench 上进一步评估 solo setting 和 standard dual-control setting，系数造成 9 个任务 / 配置。系数任务都只提供结尾监督。

主要模子包括 Qwen2.5-7B-Instruct 和 LLaMA-3.1-8B-Instruct。RL 算法包括 PPO，并进一步扩张到 GRPO 和 GSPO。

主驱散：AREW 在险些系数配置下结识优于 vanilla PPO

论文率先在前三个规模的 7 个任务上讲演最终平均 outcome reward。

表：原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三个规模的 7 个 agentic active reasoning tasks 上，与 direct inference 和 vanilla PPO 进行比较。

这里，AREW-AS only 暗意仅使用 action-selection 侧的 directional critiques 来重加权动作决策的 advantage，而 AREW-AS+BT 则同期使用 action-selection 和 belief-tracking 两侧的 critiques，对 “获取信息” 和 “接纳信息” 两个关节的 credit 进行协调修正。

主驱散特地明晰：

在 28 个 PPO 评估配置中，AREW 在 27 个配置中显耀优于 vanilla PPO。

这些驱散证实，AREW 的收益并不是某个模子或某个数据集上的随机风光，而是在不同模子族和不同 active reasoning 任务中都能结识表露作用。

磨真金不怕火动态：AREW 不单是提高最终分数，也篡改了学习历程

除了最终驱散，论文还展示了磨真金不怕火历程中的 reward dynamics。

图：原文 Figure 3。Qwen2.5-7B-Instruct 上，vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

这张图不错看到三类典型风光。

在一些任务中，vanilla PPO 险些无法抓续进步 reward；而 AREW 不错赫然突破这种停滞，并抓续提高 performance。

在一些 vanilla PPO 本来也能自如进步的任务中，AREW 仍然推崇出更快的拘谨速率和更高的最终 reward。

即使某些情况下 reward curve 看起来差距莫得那么大，AREW 也会在 AS 和 BT 行为层面带来更明晰的矫正。也即是说，AREW 不单是 “刷高分”，而是在篡改模子获取和使用信息的面容。

AS/BT 行为分析：AREW 果真让 agent 更会获取和接纳信息

为了考证 AREW 的矫恰是否来自 active reasoning 技艺自身，论文进一步分析了 AS 和 BT proxy。

图：原文 Figure 4。AREW 对 AS 和 BT capability proxies 的影响。

这张图最值得郑重的所在，不单是 AREW-AS+BT 成果最佳，还有：AREW-AS only 一经不错同期改善 AS 和 BT。

名义上看，AS-only 只对 action-selection 侧进行 advantage reweighting，也即是只饱读舞模子选拔更有信息量的动作，并莫得奏凯给 belief-tracking 决策特别加 credit。但现实驱散骄矜，只是改善信息获取，BT 也会随之变好。

这碰巧证实 AS 和 BT 并不是两个彼此零丁的技艺。更好的 AS 会篡改 agent 后续看到的 observation stream：当环境或用户复返的响应更有信息量，belief tracking 就更容易从这些响应中学习和更新。换句话说，即使莫得奏凯优化 BT，只须 AS 提供了更高质料的信息流，BT 的学习要求也会被改善。

自然，AS-only 并不成齐全替代 BT-side correction。Figure 4 中，AREW-AS+BT 在大都情况下会进一步进步 BT proxy，证实当模子不仅被饱读舞 “获取更有用的信息”，也被饱读舞 “把这些信息正确接纳进 belief” 时，AS 和 BT 更容易造成正向轮回。

因此，AREW 的收益不是粗浅来自某个单点模块的增强，而是来自对 AS-BT coupling 的喧阗。只修正 AS 一经粗略带动 BT，而同期修正 AS 和 BT 则不错更充分地突破 information self-locking。

不同 RL 算法有用性

一个自然问题是：AREW 是否只是对 PPO 有用？

论文进一步在 GRPO 和 GSPO 上作念了现实。驱散骄矜，即使使用 group-based RL variants，self-locking 仍然可能存在；只是增多 rollout 采样并不成从压根上不断 AS/BT 的耦合 credit assignment 问题。而 AREW 在 GRPO 和 GSPO 下也能进步 final performance、AS 和 BT proxies。

图：原文 Figure 6 (b) (c)。

真场景应用 customer-service agent：tau2-bench 上的驱散

除了 controlled domains，论文还在更复杂的 tau2-bench-Telecom 上评估 AREW。

tau2-bench 的挑战在于，agent 不单是问答，还需要在多轮 customer-service 场景中进行器用调用、与用户协调，并完成委果感更强的就业任务。

论文率先洽商 no-user solo setting。在这个 setting 中，Qwen2.5-7B agent 奏凯适度任务不断历程。AREW 使用 benchmark 自带的信号构造 critiques：

负向 critique 主要来自运行历程中的赫然失败，举例器用调用样式过失、器用实行失败、重叠实行疏导动作等；

正向 critique 则来自任务评估器提供的进展信号，举例面前轨迹是否新完成了某个预期动作，或是否比上一阶段更接近任务完成。

图：原文 Figure 5。Tau2Bench-Telecom solo setting 中，AREW 进步 reward，同期显耀减少 tool execution errors；而况这种进步不是靠更长回复或更多交互轮数换来的。

Figure 5 展示了一个实用驱散：AREW 不单是提高 reward，还显耀减少 tool execution errors，同期 response tokens 更少，interaction turns 基本可比。这证实 AREW 的收益不是粗浅来自 “说更多” 或 “多试几轮”，而是来自更有用的 credit assignment。

论文进一步洽商 standard dual-control setting。在这个 setting 中，Qwen2.5-14B agent 需要和 GPT-4o-simulated user 协调。这里存在一个更复杂的 credit assignment 问题：任务进展可能来自 agent 我刚直确使用器用，也可能来自 agent 指导用户完成 user-side repair actions。

图：原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中，AREW 比拟 vanilla PPO 将 reward 从约 0.20 进步到约 0.50，同期减少对 user-side operation shortcut 的依赖，并保抓更多 assistant-side tool-use 行为。

在 vanilla PPO 中，模子容易走向一种 shortcut：更多依赖用户侧操作来完成部分任务，而 assistant 我方的 tool-use 行为反而下落。这自然能不断一部分样本，但会使磨真金不怕火偏向最容易取得 reward 的 progress channel，而不是 benchmark 信得过但愿评估的 assistant-side tool-use 技艺。

AREW 则通过 directional critiques 给有用的 assistant-side tool decisions 更多 credit，从而减少对 user-side repair 的过度依赖，把优化压力合理分派到 agent 我方的有用器用使用行为上。

这个驱散证实，AREW 也不错用于更接近委果 agentic application 的长程器用使用环境。

Robustness：AREW 不依赖齐全 critiques

AREW 使用的是 weak directional critiques，一个蹙迫问题是：要是 critique 有噪声若何办？

论文通过立时翻转 stepwise critiques 来评估鲁棒性。

表：原文 Table 2。不同 critique perturbation ratio 下，AREW 的最终推崇。即使 critique 被较强扰动，AREW 常常仍然保抓与 vanilla baseline 竞争以至更好的推崇。

驱散骄矜，跟着扰动比例增多，AREW 的性能会逐渐下落，这是合理的。但在较大范围内，AREW 仍然优于或接近 vanilla baseline，并莫得因为 critique 不齐全而崩溃。

论文 appendix 还进一步分析了更结构化的 critique destruction，举例只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常数 label 填补缺失 critique 等。举座论断一致：AREW 对多种 critique 噪声和摧折面容都具有一定鲁棒性。

这也复兴了一个本体部署中的症结担忧：在复杂 agentic tasks 中，咱们很贵重到精准的 dense supervision，但相对容易取得一些局部观念性信号。AREW 恰是为这种 supervision regime 假想的。

这项责任的瞻仰与启示

这篇责任给 RL for agentic active reasoning 中一个常见但容易被疏远的问题提供了机制诠释。夙昔咱们常说，agent 在多轮任务中推崇不好，是因为 reward sparse、exploration hard、tool use complicated。但 AREW 指出，在 active reasoning 中还有一个更结构性的勤苦：

获取信息和使用信息是耦合学习的。Outcome reward 很难自然把这两个技艺分开 credit。

这会导致一种自锁：

BT 弱时，好的 AS 行为无法取得应有 credit；

AS 弱时，BT 莫得富有字据不错学习；

两者沿路弱时，outcome-gradient 对二者的进步信号都很弱；

模子因此停留在低信息量 interaction pattern 中。

AREW 的想路也很奏凯：既然最终 reward 很难自动分派 credit，就欺诈 active reasoning 中自然存在的局部会诊信号，把 trajectory 里面的 credit 从头分派给更有信息价值的决策。

这带来几个 takeaway：

第一，active reasoning 的磨真金不怕火不成只看最终 reward。 Reward 飞腾不等于模子果真学会了更好地交互。咱们需要热心 agent 是否更会主动获取信息，以及是否更会整合新字据。

第二，LLM agent 的磨真金不怕火失败有时不是单一技艺不及，而是多个技艺之间的耦合失效。 AS 和 BT 单独看都蹙迫，但信得过的问题发生在二者彼此依赖、彼此 masking 的磨真金不怕火动态中。

第三，弱监督也不错很有用。 AREW 不要求东说念主工标注精准中间奖励，也不需要磨真金不怕火 dense reward model。只须能判断某些样式约莫应该饱读舞照旧扼制，就不错显耀改善 credit assignment。

第四，这类法度可能对更复杂的 agentic systems 有启发。在 Deep Research、coding、customer service、computer use 等任务中，agent 都需要继续决定 “下一步获取什么信息” 以及 “如何接纳新信息”。这恰是 AS/BT coupling 最容易出现的所在。

宽容查阅论文与代码以获取更多期间细节。

要是您合计这篇责任有匡助，宽容热心与援用。

米兰体育MILAN中国官网

米兰体育MILAN中国官网 ICML 2026 | Agentic强化学习磨真金不怕火的信息自锁问题

热点资讯

推荐资讯