[CL]《BeyondTenTurns:UnlockingLong-Ho

爱生活爱珂珂 2025-08-13 06:33:10

[CL]《Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL》J Gao, W Fu, M Xie, S Xu... [Tsinghua University] (2025)

ASearcher:开源大规模异步强化学习训练搜索智能代理的新范式

• 解决现有开源搜索代理在策略深度与训练效率上的瓶颈,支持长达128步的多轮工具调用,训练过程中工具调用次数超40次,生成内容超15万token。

• 采用全异步强化学习架构,有效消除长轨迹执行阻塞,实现训练与轨迹生成完全解耦,提升GPU利用率与训练速度。

• 设计基于大语言模型的自动QA数据合成代理,结合注入与模糊修改策略,产出13.4万高质量、多层次不确定性问题,推动代理学习复杂搜索与推理。

• 支持基于基础LLM(Qwen2.5-7B/14B)与大规模推理模型(QwQ-32B)两类模型训练,均显著超越同规模开源对手,在GAIA、xBench-DeepSearch等多跳问答及复杂检索任务中平均提升20%+。

• 通过案例分析展现代理具备不确定性推理、精确信息抽取、跨文档推断及结论验证等专家级搜索智能能力,显著减少错误结论与幻觉。

• 所有模型、训练代码及数据集开放,助力社区复现与进一步创新,推动面向复杂现实任务的智能搜索代理发展。

详见👉 arxiv.org/abs/2508.07976

强化学习大语言模型搜索智能异步训练开源AI

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注