[AI]《AI Scientist via Synthetic Task Sca

[AI]《AI Scientist via Synthetic Task Scaling》Z Cai, H Behl [Princeton University & Microsoft Research] (2026)

训练能做研究的AI，卡在没有训练数据这堵墙上。现有智能体系统大多从论文、代码等静态产物中学习，却跳过了真实研究中最关键的过程——调试、失败、迭代修正。LLM空有知识储备，却无法将其转化为有效的多步骤研究行动。

本文的核心洞见是：把"如何获得训练数据"这个问题，重新看作"如何自动制造训练环境"。以GPT-5为教师，全自动生成500个机器学习任务（从主题采样到HuggingFace数据集验证，再到可运行代码），用自调试循环淘汰破损任务，最终蒸馏出3万条真实操作轨迹。Qwen3-4B与8B在MLGym基准上分别提升9%和12%。

这项工作真正留下的遗产是：一条无需人工标注、可大规模扩展的智能体训练范式——用可执行环境替代静态语料。它为后来者打开的新门是将此框架接入强化学习，让奖励信号直接来自任务得分，驱动真正的探索与发现。但尚未跨过的门槛是：当前证据仅限于MLGym单一基准，格式熟悉度与真实能力提升仍无法区分，教师模型的盲区也直接成为学生的天花板。

arxiv.org/abs/2603.17216

机器学习人工智能论文 AI创造营

云霞资讯网

[AI]《AI Scientist via Synthetic Task Sca

热门分类