【AI前沿速递】浙江大学构建海洋大模型基础数据集，菲尔兹奖得主实测GPT-5.5

【AI前沿速递】浙江大学构建海洋大模型基础数据集，菲尔兹奖得主实测GPT-5.5 Pro完成博士级数学研究

一、浙江大学发布OceanPile：首个大规模海洋多模态语料库（arXiv:2605.00877）。海洋覆盖地球表面70%以上，在气候调节和生物多样性保护中至关重要，但AI在海洋科学领域的应用长期受限于数据瓶颈：海洋数据极度分散、多模态异构、高噪声、弱标注，缺乏统一语义对齐。浙江大学计算机学院、软件学院、海洋学院及舟山海洋研究中心联合攻关，依托海洋感知国家重点实验室，系统性构建了OceanPile三大组件：OceanCorpus整合声呐数据、水下图像、海洋科学视觉和科学文本等多源权威数据；OceanInstruction基于分层海洋概念知识图谱引导的合成流水线，构建高质量指令数据集；OceanBenchmark为手动策划的评测基准。团队建立多阶段质量控制流程确保科学有效性和模态对齐。实验验证表明，基于该数据训练的模型性能显著提升。全部数据集已公开发布，旨在推动海洋人工智能领域发展和赋能领域专用多模态大模型。

二、意大利学者揭示LLM Agent后端代码生成的约束衰减现象（arXiv:2605.06445）。LLM Agent在宽松规范下的自主代码生成表现强劲，但生产级软件要求严格遵守架构模式、数据库和对象关系映射等结构约束。研究团队固定统一API契约，在80个绿地生成任务和20个功能实现任务中跨越8个Web框架进行系统评估，通过端到端行为测试和静态验证器双重评测隔离结构复杂性影响。研究发现约束衰减现象：随着结构需求累积，Agent性能显著下降。有能力配置从基线到完全指定任务，断言通过率平均损失30分，较弱配置接近零。框架敏感性分析显示Agent在Flask等极简显式框架中成功，但在FastAPI、Django等约定优于配置环境中表现大幅下降。错误分析识别数据层缺陷（如查询组合错误和ORM运行时违规）为主要根因。

三、菲尔兹奖得主威廉·高尔斯实测ChatGPT-5.5 Pro：一小时完成博士级数学原创成果。5月8日高尔斯在个人博客分享测试经历，在几乎不提供专业数学提示和思路引导的前提下，模型用时约一小时完成加性数论公开问题的研究：快速优化已有研究上界证明、给出全新构造方法，并在后续多轮对话中将原有指数阶结果改进为多项式阶结果。AI资讯人工智能

云霞资讯网

【AI前沿速递】浙江大学构建海洋大模型基础数据集，菲尔兹奖得主实测GPT-5.5

热门分类