[CL]《BeyondTenTurns:UnlockingLong-Ho

爱生活爱珂珂 2025-08-13 06:33:10

[CL]《Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL》J Gao, W Fu, M Xie, S Xu... [Tsinghua University] (2025)

ASearcher：开源大规模异步强化学习训练搜索智能代理的新范式

• 解决现有开源搜索代理在策略深度与训练效率上的瓶颈，支持长达128步的多轮工具调用，训练过程中工具调用次数超40次，生成内容超15万token。

• 采用全异步强化学习架构，有效消除长轨迹执行阻塞，实现训练与轨迹生成完全解耦，提升GPU利用率与训练速度。

• 设计基于大语言模型的自动QA数据合成代理，结合注入与模糊修改策略，产出13.4万高质量、多层次不确定性问题，推动代理学习复杂搜索与推理。

• 支持基于基础LLM（Qwen2.5-7B/14B）与大规模推理模型（QwQ-32B）两类模型训练，均显著超越同规模开源对手，在GAIA、xBench-DeepSearch等多跳问答及复杂检索任务中平均提升20%+。

• 通过案例分析展现代理具备不确定性推理、精确信息抽取、跨文档推断及结论验证等专家级搜索智能能力，显著减少错误结论与幻觉。

• 所有模型、训练代码及数据集开放，助力社区复现与进一步创新，推动面向复杂现实任务的智能搜索代理发展。

详见👉 arxiv.org/abs/2508.07976

强化学习大语言模型搜索智能异步训练开源AI

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

早！[太阳] 早安

2

FastAPI-MCP 今日登上 GitHub 热门，展示了其在 Model C

3

Claude Code 新增 Opus Plan Mode，结合 Opus 4.

4

[人人能懂] AI思考的五种新姿势：它如何学会了“死磕”、“变通”与“偷懒”？

5

Claude Sonnet 4 在 Anthropic API 上实现了 1 百

6

[CL]《Less Is More: Training-Free Sparse

7

[LG]《What One Cannot, Two Can: Two-Layer

8

[LG]《Multi-head Transformers Provably Le

9

[LG]《AdaptFlow: Adaptive Workflow Optimi

10

[CL]《Beyond Ten Turns: Unlocking Long-Ho

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

3

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

4

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

5

一加15外观大改配置升级，这不得卖爆？？最新爆料，官方透露一加15外观远比想

6

缝缝补补又三年，相较于iPhone16Pro，即将发布的iPhone17

7

你们这帮b的钱都他妈从哪里赚的呀我操[笑着哭][笑着哭][笑着哭][笑着哭]

8

iPhone16ProMax最不流畅荣耀Magic7RSR居然最强

9

真我GT8Pro这么强了，这次会不会卖爆？汇总了接下来子品牌的新旗舰，发现真

10

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

科技最新文章

1

直屏手机推荐来啦！荣耀Magic7绝对是不错的选择，搭载骁龙8至尊版芯片

2

华为、荣耀大比拼，荣耀亮点超吸睛！说到折叠屏手机，华为Mate系列折叠

3

听我一句劝，2025年买手机就得这么买：1、要是追求智慧又安全，那荣耀简直是

4

估计不少人已经发现，手机这玩意就别买太贵的现在的千元机其实就能用好几年大多数

5

英伟达说H20没后门，可玉渊潭天把芯片拆到晶体管级，发现三条可疑信号线直通管理引

6

英伟达说H20没后门，结果底裤都被扒干净了！玉渊潭天直接把芯片拆到晶体管级，发现

7

大哥这手机，我闭着眼睛都能认出来是啥

8

5699的时候，你们说太贵5199的时候，你们又说贵4699的时候，有的人说

9

一加15外观大改配置升级，这不得卖爆？？最新爆料，官方透露一加15外观远比想

10

红米Note15Pro系列官宣本月发布，此前新机已经入网，支持90W有线充电