《Jupiter:EnhancingLLMDataAnalysisCa

爱生活爱珂珂 2025-09-14 07:40:57

《Jupiter: Enhancing LLM Data Analysis Capabilities via Notebook and Inference-Time Value-Guided Search》

JUPITER:通过笔记本和推理时价值引导搜索,显著提升大型语言模型的数据分析能力

• 构建NbQA数据集:自动爬取160万+GitHub Jupyter笔记本,筛选高质量、多步解题任务,涵盖统计分析、特征工程、机器学习等多种真实数据分析场景,生成3.8万+标准化任务-解决方案对,支持模型监督微调与价值模型训练。

• JUPITER框架创新:将数据分析建模为状态空间搜索问题,结合蒙特卡洛树搜索(MCTS)采集多样化解题轨迹,训练价值模型指导推理时搜索,有效聚焦高价值分支,极大提升多步推理和工具调用效率。

• 实验成果领先:基于NbQA微调的7B与14B开源模型,在InfiAgent-DABench基准上分别达到77.82%和86.38%任务准确率,超越GPT-4o及多种先进Agent框架;在DSBench和AIME等异构任务中展示强泛化与跨领域多步工具使用能力。

• 细致数据构建策略:采用多层过滤(结构完整性、执行成功率、数据复杂度、算法类型)、多任务提取与格式标准化,确保任务描述清晰、答案可验证、避免上下文依赖,保证训练与评测的严谨性。

• 价值模型训练与推理优化:基于MCTS轨迹的Q值回归训练,推理阶段去除探索项,依赖节点访问次数与价值估计引导搜索,减少无效探索,提高推理速度和准确性。

心得:

1. 从真实笔记本中提取多步操作流程,远胜于单步或合成数据,体现实际科学工作流的复杂性和内在逻辑。

2. 结合价值引导的蒙特卡洛树搜索,平衡探索与利用,突破传统LLM推理的多步长依赖和错误传播限制。

3. 精细设计任务约束与答案格式,实现自动评估和模型训练的闭环,显著提升模型实用性和泛化能力。

详情🔗arxiv.org/abs/2509.09245

人工智能 大型语言模型 数据分析 多步推理 强化学习 机器学习 自动化科学研究

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注