云霞资讯网

【AI前沿论文速递】北大清华UIUC本周密集发布三项突破性研究 本周arXiv

【AI前沿论文速递】北大清华UIUC本周密集发布三项突破性研究

本周arXiv平台涌现多项重磅AI论文,涵盖模型压缩、上下文学习和跨模态Agent协作三大方向。

一、北大浙大联合提出TIDE框架,首次实现扩散语言模型跨架构蒸馏(arXiv:2604.26951)。扩散大语言模型dLLM虽具备并行解码和双向上下文等优势,但顶尖模型参数量高达数十亿。现有蒸馏方法仅能在同架构内压缩推理步数,无法解决教师与学生模型在架构、注意力机制和分词器完全不同时的知识迁移难题。TIDE框架包含三大模块:TIDAL联合调制训练进度和扩散时间步的蒸馏强度,考虑教师模型噪声依赖的可靠性变化;CompDemo通过互补掩码分割丰富教师上下文,改善重度掩码下的预测质量;Reverse CALM创新性地翻转分块级似然匹配目标,实现梯度有界化和双端噪声过滤。实验将8B稠密模型和16B MoE模型蒸馏至仅0.6B的学生模型,在8个基准测试上平均提升1.53分,代码生成HumanEval达48.78分,远超32.3分的自回归基线。

二、清华联合UIUC等机构提出Ctx2Skill自演化框架,让语言模型学会从复杂上下文中自主提炼技能(arXiv:2604.27660)。现实中大量任务要求模型对超出参数知识的复杂上下文进行推理,直接从上下文学习成为刚需。Ctx2Skill核心创新是无需人工标注和外部反馈的多智能体自博弈循环:Challenger生成探测任务和评分标准,Reasoner在动态技能集指导下解题,Judge给出二值反馈。专门设计的Proposer和Generator分析失败案例,将其提炼为针对性技能更新。为防止对抗坍塌,引入跨时间回放机制,选出在代表性案例上泛化最优的技能集。在CL-bench四个上下文学习任务上持续提升解题率。

三、UIUC提出Eywa异构智能体框架,打破语言Agent的单一模态瓶颈(arXiv:2604.27351)。现有Agent系统以语言为通用接口,但科学领域大量专业基础模型处理的是非语言数据(如蛋白质结构、分子图、气象场)。Eywa的核心思路是用语言模型为领域基础模型提供推理接口,使其能参与高层决策。框架支持单Agent(EywaAgent)、多Agent系统(EywaMAS)和规划编排(EywaOrchestra)三种部署模式,在物理、生命和社会科学多领域验证有效。

三项研究共同指向AI发展的关键趋势:更高效的模型压缩、更强的上下文自适应能力、更跨模态的协作框架。AI资讯 人工智能