云霞资讯网

【AI前沿速递】浙江大学构建海洋大模型基础数据集,菲尔兹奖得主实测GPT-5.5

【AI前沿速递】浙江大学构建海洋大模型基础数据集,菲尔兹奖得主实测GPT-5.5 Pro完成博士级数学研究

一、浙江大学发布OceanPile:首个大规模海洋多模态语料库(arXiv:2605.00877)。海洋覆盖地球表面70%以上,在气候调节和生物多样性保护中至关重要,但AI在海洋科学领域的应用长期受限于数据瓶颈:海洋数据极度分散、多模态异构、高噪声、弱标注,缺乏统一语义对齐。浙江大学计算机学院、软件学院、海洋学院及舟山海洋研究中心联合攻关,依托海洋感知国家重点实验室,系统性构建了OceanPile三大组件:OceanCorpus整合声呐数据、水下图像、海洋科学视觉和科学文本等多源权威数据;OceanInstruction基于分层海洋概念知识图谱引导的合成流水线,构建高质量指令数据集;OceanBenchmark为手动策划的评测基准。团队建立多阶段质量控制流程确保科学有效性和模态对齐。实验验证表明,基于该数据训练的模型性能显著提升。全部数据集已公开发布,旨在推动海洋人工智能领域发展和赋能领域专用多模态大模型。

二、意大利学者揭示LLM Agent后端代码生成的约束衰减现象(arXiv:2605.06445)。LLM Agent在宽松规范下的自主代码生成表现强劲,但生产级软件要求严格遵守架构模式、数据库和对象关系映射等结构约束。研究团队固定统一API契约,在80个绿地生成任务和20个功能实现任务中跨越8个Web框架进行系统评估,通过端到端行为测试和静态验证器双重评测隔离结构复杂性影响。研究发现约束衰减现象:随着结构需求累积,Agent性能显著下降。有能力配置从基线到完全指定任务,断言通过率平均损失30分,较弱配置接近零。框架敏感性分析显示Agent在Flask等极简显式框架中成功,但在FastAPI、Django等约定优于配置环境中表现大幅下降。错误分析识别数据层缺陷(如查询组合错误和ORM运行时违规)为主要根因。

三、菲尔兹奖得主威廉·高尔斯实测ChatGPT-5.5 Pro:一小时完成博士级数学原创成果。5月8日高尔斯在个人博客分享测试经历,在几乎不提供专业数学提示和思路引导的前提下,模型用时约一小时完成加性数论公开问题的研究:快速优化已有研究上界证明、给出全新构造方法,并在后续多轮对话中将原有指数阶结果改进为多项式阶结果。AI资讯 人工智能