[LG]《WhenAgentsgoAstray:Course-Corre

爱生活爱珂珂 2025-09-04 06:32:19

[LG]《When Agents go Astray: Course-Correcting SWE Agents with PRMs》S Gandhi, J Tsay, J Ganhotra, K Kate... [IBM Research & CMU] (2025)

软件工程多步骤任务中，LLM代理常因轨迹低效（如循环、冗余探索、未及时终止）导致资源浪费和成功率下降。论文《Act Like You’re Paying for This: Course-Correcting Code Agents with PRMs》提出SWE-PRM，一种推理时实时介入的Process Reward Model，通过轻量且可解释的自然语言反馈，基于错误分类体系动态纠正代理执行轨迹，显著提升软件工程代理的表现和效率。

• SWE-PRM利用三大错误分类：规格错误（任务违规、重复步骤、终止判断失误）、推理错误（问题误判、工具选用错误、幻觉生成、信息处理失败）、协调错误（任务偏离、目标偏差、上下文遗忘、验证缺失），每类均配套具体纠正策略。

• PRM定期接收最近执行轨迹和任务描述，生成细致的自然语言反馈，引导代理调整下一步行为，且无需更改底层策略模型架构。

• 在SWE-bench Verified基准测试中，闭源PRM（如Claude-Sonnet-4）比开源PRM显著提升解析率（最高+10.6个百分点至50.6%），尤其在中难度任务中效果突出，同时缩短平均步骤数，提升执行效率。

• 不同反馈策略对比显示：基于分类的详细反馈（PRM-D）最优，既提升成功率又减少步骤；无指导推理（PRM-S）虽提升成功率但轨迹变长；带动作建议（PRM-DR）虽缩短轨迹但成功率下降，表明过度约束可能抑制灵活性。

• 成本方面，闭源PRM增加推理开销约至24-28美元/100实例，折合每增加一个成功案例花费约23美元，权衡精度与成本表现合理，适合复杂长周期任务优化。

心得：

1. 实时、基于分类的反馈能有效阻断错误轨迹积累，避免执行效率恶化，优于传统事后诊断。

2. 纠正策略设计需精准且灵活，过度指令可能牺牲成功率，合理平衡自由度与指导性至关重要。

3. 轻量级、模块化的PRM架构兼容多种模型，具备跨任务、跨领域推广潜力，指向未来通用多步骤推理代理的优化方向。

详情🔗arxiv.org/abs/2509.02360

人工智能软件工程大语言模型过程奖励模型自动纠错多步骤推理

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

深度解析为何不推荐 Ollama，推荐多 GPU 服务器使用 vLLM 或 Ex

2

Jupyter Agent Dataset：针对数据分析与代码智能的标杆训练集，

3

新书《Agentic Design Patterns》由谷歌专家 Antonio

4

[人人能懂] 从社交脑到自我精炼（扫码收听）

5

[LG]《Distilled Pretraining: A modern len

6

[LG]《When Agents go Astray: Course-Corre

7

[LG]《Learning to Refine: Self-Refinement

8

[CL]《Jointly Reinforcing Diversity and Q

9

[LG]《Social World Models》X Zhou, J Liu,

10

早！[太阳] 早安

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

光刻机禁售，我忍了。芯片技术封锁，我也忍了。但全国首台国产电子束光刻机在杭州

2

太tm解气了，当华为pura80ultra更新后，麒麟9020出现的那一刻，心

3

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

4

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

5

华为的前三号员工1.任正非（工号001）华为创始人，1987年集资2.1万

6

追觅官宣造车追觅：要造最快的车！这么卷的汽车市场还有选手入场，给追觅点赞[爱你

7

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

8

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

9

实锤了！中国不买美国芯片，H20就暂停生产了，现在黄仁勋更加睡不着觉了，由于这次

10

9月骁龙峰会，六款国产旗舰新机扎堆硬刚苹果17：荣耀Magic8系列、iQ

科技最新文章

1

这是谁同意的？荣耀500Pro改设计了？这果里果气的确定好看？相对于外观设计

2

千万别眨眼，vivo真够可以的，X300系列配置顶满，都是旗舰芯片。4299打爆

3

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，内

4

朋友问我这几款手机怎么选，计划长期用下去，不想折腾来回换手机简单对比下来，荣

5

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，

6

小米终于想通了下一代旗舰全系标配100W快充，还有7000mAh电池，再次领先

7

小米手机16系列全系参数曝光！米粉速瞅小米16系列发布时间确定9月25日左右，

8

一加这是不打算给友商留活路了啊。刚看到一加Ace6Pro的爆料，我下巴都快

9

不可思议！就在刚刚，英伟达正式官宣了...9月2日，英伟达官方宣布，将于20

10

太炸裂了吧？外卖大战的最新进展是，美团可能撑不住了。不是美团资金不够用，也不是