哈萨比斯：AGI需突破上下文窗口扩容，建立持续学习与记忆机制

编辑｜重点君

4月29日，谷歌AI掌门人、DeepMind CEO Demis Hassabis（哈萨比斯）接受了YC访谈，披露了他关于AGI、大模型演进路径、AI驱动科学发现与科技创业的最新思考。

Demis Hassabis的职业路径在科技界极为罕见。他在英国出生，早年作为国际象棋神童展露头角，并在17岁时主导设计了畅销电子游戏《主题公园》。此后，他选择重返学术界，获得了认知神经科学博士学位，其间发表的关于大脑记忆与想象力运作机制的研究，成为该领域的基础性成果。2010年，他联合创立了DeepMind，将团队目标锁定在一个核心使命上：解决智能问题。这家公司后来被谷歌收购，哈萨比斯此后也一直担任谷歌DeepMind的CEO。

在过去的十余年里，DeepMind实验室实现了多项技术突破：AlphaGo战胜了人类围棋世界冠军李世石，AlphaFold则攻克了困扰生物学界长达50年的蛋白质结构预测难题，并将核心成果向全球科学家免费开放，这直接促成了他获得去年的诺贝尔化学奖。目前，Hassabis正带领Google DeepMind团队开发Gemini模型，继续推进他自青少年时期便确立的通用人工智能（AGI）目标。

我们梳理了这场访谈的核心信息，以下是重点内容：

1、通往AGI需突破单纯上下文窗口扩容，建立持续学习与记忆机制

当前行业惯于不断扩大上下文窗口，但把所有有用、无用甚至错误的信息全塞进工作记忆，是一种计算成本极高的暴力做法。即使拥有千万级Token的上下文，检索特定信息的成本也高得不切实际。真正的AGI系统需要具备持续学习能力，能够优雅地将新知识融入现有知识库中，并在合适的场景精准调用，而不是每次都从头读取冗长的历史记录。

2、强化学习将重塑大模型的内省与推理能力

强化学习在迈向更高维智能的道路上被严重低估。当前前沿大模型展现的思维链推理，本质上是AlphaGo和AlphaZero理念在大规模基础模型上的复现。目前的大模型在推理时往往缺乏内省能力，在选错答案后依然会盲目重试。DeepMind正重新引入蒙特卡洛树搜索等经典算法，将强化学习与大模型深度融合，以此打破当前模型推理能力的天花板。

3、端侧小模型与开源战略是终端部署的必然选择

通过模型蒸馏技术，极小参数量的模型已能达到前沿大模型90%至95%的性能水平，且具备极高的速度和成本优势。未来计算的主流形态将是由云端大模型负责复杂统筹，由运行在手机、智能眼镜或家庭机器人上的端侧模型处理本地隐私数据。由于端侧模型一旦部署到物理表面，其技术极易被提取，因此直接将其完全开放是战略上的必然选择。

4、AI在科学探索中的目标是跨越模式匹配并提出全新假设

科学发现不能仅停留在对已有数据的插值计算，AI不仅需要完美解决现有问题，更需具备发明新规则的能力。DeepMind正在推进从“细胞核”切入，目标在未来十年内构建完整的“虚拟细胞”。衡量AI科学发现能力的标准在于它能否通过“爱因斯坦测试”：即仅输入1901年之前的物理知识，跨越模式匹配，独立推导出狭义相对论。

5、科技创业者应构建高度专业化的垂直系统以协同AGI

科技企业的成长周期通常需要十年，这意味着AGI必然会在当前创业周期的中途（约2030年左右）实现。面对这一确定性变量，创业者不应试图将垂直领域的复杂参数强行塞进通用大模型中，因为这会破坏通用模型的效率和其他能力。合理的路径是构建高度专业化的独立工具系统或基础设施，未来顺应通用AGI作为大脑去自主调用这些垂直系统的协作关系。

以下是Demis Hassabis访谈实录：

1.在实现AGI之前还缺少什么？

Garry Tan：Demis Hassabis拥有科技界最不寻常的职业生涯之一。他小时候是国际象棋神童，17岁时设计了首款热门电子游戏《主题公园》。随后他重返校园获得认知神经科学博士学位，发表了关于大脑记忆和想象力运作机制的基础性研究成果。2010年他联合创立了DeepMind，只有一个使命：解决智能问题。我认为他们已经做到了。

从那时起，他的实验室不断取得那些被大多数人认为还需几十年才能实现的成就。AlphaGo击败了围棋世界冠军，AlphaFold攻克了困扰生物学界50年的蛋白质结构预测重大挑战，并将成果免费提供给全球科学家，这项工作让他赢得了去年的诺贝尔化学奖。如今Demis领导着Google DeepMind团队构建Gemini，并朝着他青少年时期就设定的通用人工智能(AGI)目标努力。让我们欢迎Demis。

你对AGI的思考比几乎任何人都要久。审视当前的大规模预训练、RLHF和思维链(CoT)等范式，你认为在AGI的最终架构中我们已经掌握了多少？目前根本上缺失的又是什么？

Demis Hassabis：首先感谢Garry精彩的介绍，很高兴来到这里，感谢大家的欢迎。这个场地非常棒，我以后得多来。能在这一领域工作确实令人备受鼓舞。回到你的问题，我非常确信你刚才提到的那些技术组件都会成为AGI最终架构的一部分。目前它们已经取得了长足的进步，我们也证明了其诸多功能。我不认为几年后我们会发现这些技术是死胡同，这说不通。

但在已知有效的基础之上，可能还缺少一两项关键技术。比如持续学习、长期推理以及记忆系统的某些方面，这些目前仍是悬而未决的问题，包括如何让系统在各方面表现得更加一致。我认为实现AGI必须解决这些问题。

现有的技术有可能通过一些渐进式的创新直接扩展到AGI的规模，但也可能还需要攻克一两个重大的理论难题。即便还有未解之谜，我认为也不会超过一两个。在这个问题上我认为两种情况的概率各占一半。所以在Google DeepMind，我们目前正在双管齐下同时推进这两方面的工作。

Garry Tan：在处理一系列智能体(Agent)系统时，最让我觉得不可思议的是它们在很大程度上是在反复使用相同的权重。因此持续学习(Continual Learning)的概念非常有趣，因为目前我们有点像是在用胶带把它们勉强拼凑起来，比如夜间发生的梦境周期这类机制。

Demis Hassabis：梦境周期确实非常酷。过去我们常将情景记忆结合起来，通过巩固机制来思考这个问题。实际上我读博期间研究的就是海马体如何运作并进行记忆整合，也就是如何将新知识优雅地融入现有的知识库中。大脑在这方面做得非常出色，它主要在睡眠期间完成这些工作，尤其是像快速眼动睡眠阶段，大脑会回放那些重要的片段以便从中学习。

事实上我们最早的Atari游戏AI程序DQN能够精通游戏的方法之一就是通过经验回放(Experience Replay)。我们算是从神经科学中借鉴了这一点，通过多次回放成功的轨迹来训练模型。那还是在2013年，现在回想起来简直可以说是AI的黑暗时代了，但那是非常重要的一步。

我同意你的看法，现在我们有点像是在到处修修补补，比如简单粗暴地把所有东西都塞进上下文窗口(Context Window)里，但这似乎有点不尽如人意。尽管我们研究的是机器而非生物大脑，你可以拥有数百万甚至数千万规模的完美上下文窗口或内存。但检索并提取正确的内容仍然是有成本的，这实际上与你当前必须做出的特定决策息息相关。这个问题不容小觑，即使你能存储所有数据，其调用成本也极高。我认为在记忆(Memory)等领域其实还有极大的创新空间。

Garry Tan：确实如此。让人觉得疯狂的是，目前百万级Token的上下文看起来已经足够庞大了，完全可以支持很多操作。

Demis Hassabis：对于绝大多数应用场景来说，它的确已经足够大了。如果仔细思考，上下文窗口在某种程度上相当于工作记忆。人类只有几位数字的记忆能力，平均只有七个。而现在的AI拥有百万级甚至一千万级的上下文窗口。但问题在于我们正试图把所有内容都一股脑儿地塞进去，包括那些不重要的或者错误的信息。

目前这种暴力破解(Brute Force)的方式看起来并不合理。接下来的挑战是，如果你尝试处理实时视频，只是简单天真地记录下所有Token，那么一百万个Token其实并不算多，大约只能处理20分钟的视频。所以如果你想要一个真正能够理解长期上下文的系统，让它了解你过去一两个月的生活中发生了什么，就需要远超于此的容量。

Garry Tan：DeepMind在历史上一直倾向于强化学习和搜索技术，例如AlphaGo、AlphaZero和MuZero。这种理念在你们如今构建Gemini的过程中实际融入了多少？强化学习(RL)目前是否仍然被低估了？

Demis Hassabis：是的，我认为强化学习很有可能被低估了。技术的发展总是呈波浪式起伏。自DeepMind成立之初，我们就一直在研究智能体(Agent)，这也是我们对外明确的目标。所有的Atari游戏研究以及AlphaGo，本质上都是智能体系统。

我们所说的智能体系统是指能够自主实现目标、做出主动决策并制定计划的系统。我们最初在游戏领域开展这项工作是为了使其具备可操作性，然后逐步挑战日益复杂的任务。比如在AlphaGo之后，我们研发了针对《星际争霸》的AlphaStar。基本上我们已经攻克了当时市面上所有的游戏。

接下来的问题自然是，能否将这些模型泛化为世界模型或语言模型，而不仅仅局限于简单或复杂的游戏模型？这就是过去几年我们一直在努力的方向。实际上你可以发现，今天我们做的很多工作，包括所有具备思考模式和思维链推理的前沿模型，在某种程度上都是AlphaGo开创性特性的回归。

我认为我们当年做的很多工作在如今依然高度相关。我们正在重新审视一些旧想法，并在当今的大模型规模下以一种更通用的方式进行实践，包括蒙特卡洛树搜索(Monte Carlo)等方法，并在现有基础上进一步增强强化学习。无论是来自AlphaGo还是AlphaZero的理念，对于目前基础模型的发展阶段都极具参考价值。我认为这些理念正是我们在未来几年即将看到的重大突破方向。

2.为什么小型模型正变得如此强大

Garry Tan：我还有一个问题。如今我们需要越来越大的模型来提升智能水平，但同时我们也看到了模型蒸馏(Distillation)技术的应用，让更小的模型运行得快得多。你们拥有令人难以置信的Flash模型，并且发现它们能达到前沿(Frontier)模型95%的性能水平，而成本却只有其十分之一。是这样吗？

Demis Hassabis：我认为这是我们的核心优势之一。毫无疑问，你必须构建最庞大的模型才能具备最前沿的能力。但我们一直以来的最大优势，就是能够非常迅速地将这种前沿能力进行蒸馏，并封装到体积更小的模型中。

我们在早期就发明了这种蒸馏工艺，凭借Jeff和Oriol等科学家的努力，我们至今仍是该领域的全球顶尖专家。同时我们也有巨大的内部需求去落地这项技术，因为我们必须为全球规模最大的AI用户界面提供服务。

除了带有AI概览(AI Overviews)的搜索引擎、Gemini应用之外，如今越来越多的Google产品，比如Google地图和YouTube等，都已经融入了Gemini的相关技术。这触达了数十亿用户，我们有十几个用户量超十亿的产品，因此其推理服务必须极其快速、高效、廉价且具备极低延迟。这给了我们极大的动力去开发Flash甚至更小巧的Flashlight模型，使其做到极致高效，并希望最终能够完美适配大家日常处理的各种工作负载。

Garry Tan：我很好奇这些较小的模型实际上能聪明到什么程度。比如模型蒸馏过程是否存在某种理论极限？一个50B或400B参数规模的模型，未来能像今天那些神乎其神的前沿大模型一样聪明吗？

Demis Hassabis：我不认为我们已经触及了任何形式的极限，或者至少目前业界还没人知道我们是否达到了某种信息承载的极限。也许在未来的某个时刻会出现无法逾越的信息密度瓶颈。但基于目前的假设，当我们的Pro模型或前沿大模型发布半年到一年之后，你就能在那些非常微小的边缘侧模型中看到同等的能力表现。大家也能在我们的Gemma模型中看到这些优势，希望你们会喜欢这四款Gemma模型。考虑到它们的参数尺寸，其能力表现确实令人惊叹。这背后再次大量运用了模型蒸馏技术，以及如何让极小模型变得极其高效的创新思路。因此我目前还没有看到任何理论上的极限，我们离那个天花板还相当遥远。

Garry Tan：这太惊人了，真的非常棒。现在我们观察到的最不可思议的现象之一是，工程师们现在能够完成的工作量是六个月前的500到1000倍。我想指的就是在这个房间里的很多人，他们现在的工作产出可能达到了过去的一千倍。正如Steve Yegge所说，这相当于2000年代一名Google工程师工作量的总和。这非常令人兴奋。

Demis Hassabis：我认为小模型有很多用途，降低成本显然是其一，但更重要的是速度上的优势。无论是编程还是其他工作，这种速度能让你迭代得快得多，尤其是在你与系统进行深度协作时。我们非常需要这种极其快速的系统。也许它们确实没有完全达到前沿模型的级别，就像你说的，只有95%或90%的性能，但这已经足够好了。在敏捷的迭代速度面前，这种收益远远超过了那10%的性能差距。

我认为另一件重要的事情是在边缘端运行这些模型。这主要是出于效率、隐私和安全方面的考量。考虑到可能会在处理极其私密信息的设备上运行这些系统，或者在机器人技术领域，例如家用机器人就需要极其高效且强大的本地模型来协调运行。随着云端出现更大规模的前沿模型，设备只需在特定环境下将任务委托给云端即可。所有的音视频流都可以保留在本地进行处理。我认为这会是一种非常理想的最终状态。

3.持续学习与智能体的未来

Garry Tan：关于上下文和记忆能力的话题，目前模型是无状态的。对于使用持续学习模型的开发者而言该如何引导它呢？

Demis Hassabis：这个问题非常有趣。目前缺乏持续学习能力正是阻碍智能体执行完整任务的因素之一。虽然它们在任务的某些方面非常有用且能拼凑起来完成很酷的事情，但无法适应具体的语境。这是它们实现自主完成任务状态所缺失的关键一环。它们需要具备针对具体上下文的学习能力。我们必须攻克这一点才能实现完全的通用智能。

Garry Tan：目前我们在推理方面进展如何？现在的模型已经可以进行令人印象深刻的思维链推理，但在一些聪明的本科生都不会出错的基础问题上仍然会失败。具体需要做出哪些改变以及您期望在推理方面取得什么样的进展？

Demis Hassabis：思考范式方面仍有很大的创新空间。我们目前所做的事情还相当简单且非常依赖暴力破解。在监控思维链方面存在巨大潜力，也许可以在思维过程的中途进行干预。

我经常感觉我们的系统以及竞争对手的系统都在过度思考，似乎陷入了某种循环。我有时喜欢和Gemini下国际象棋。有趣的是所有领先的基础模型在游戏方面的表现都很差。观察这些思维链非常有意思，因为它们很容易被理解。

我能迅速判断出模型是否跑题，其思维过程也是高度可验证的。有时它在考虑某一步棋时会意识到这是一个大错，但在找不到更好走法的情况下又会趋向于回到那一步并最终执行。在严密的推理系统中不应该发生这种情况。目前仍然存在差距，但也许只需一两个调整就能修复这些问题。这些差距导致了参差不齐的智能表现。一方面它能解答极难的国际数学奥林匹克竞赛金牌题目，但另一方面如果在提问方式上稍有不同它又会犯基础的初等数学和推理错误。这说明模型在自我思维过程的反思能力上仍然有所缺失。

Garry Tan：智能体现在非常火热，虽然有人认为它们被过度炒作了，但我个人认为它们才刚刚起步。关于智能体的能力现状DeepMind的内部研究得出了什么结论？相比于外界的炒作实际情况究竟如何？

Demis Hassabis：我同意你的看法，智能体才刚刚起步。必须拥有一个能主动解决问题的系统才能实现通用人工智能。这对我们来说一直很明确，智能体就是通往目标的路径。大家都在逐渐习惯如何将其融入工作流并发挥最佳效果，不仅是把它当作锦上添花的东西，而是真正开始用它处理根本性事务。

目前我们都处于实验阶段。直到最近几个月技术水平才真正达到能创造实质价值的程度。它不再是玩具或漂亮的演示，而是能真正提升时间和效率。我看到很多人让几十个智能体运行几十个小时，但我还不确定是否看到了能证明这种投入合理性的产出。不过这一天终究会到来。

我们尚未看到哪款由智能体生成的3A级游戏能登顶应用商店排行榜。很多人都做过很棒的小型演示程序，我现在半小时就能做一个主题公园原型，而我17岁时这需要花半年时间。这令人震撼。不过开发依然需要人类的匠心、灵魂和品味。必须确保无论构建什么都要将这种特质融入其中。

目前尚未达到完美水平，毕竟还没看到一个孩子做出销量千万的热门游戏。考虑到已投入的努力这是应该成为现实的，所以不知何故仍然缺失了一些东西，也许与流程或工具相关。我预计在未来半年到一年内一旦技术发挥出全部价值就会看到显著成果。

Garry Tan：我不认为我们会最先看到完全的自主性。

Demis Hassabis：我们可能首先会看到人类借助工具将工作效率提升千倍，比如游戏等领域的公司利用这些工具开发出畅销应用或游戏，随后更多环节才会被自动化。

智能体确实还没有达到那种高度。如果讨论创意的话，可以参考AlphaGo在第二局下出的第37手。我们十年前推出AlphaGo，但我一直在等待像AlphaFold那样的科学突破时刻。

仅仅想出第37手虽然很酷且有用，但它能发明出围棋吗？我想要的是一个能够发明围棋的系统。如果你给它一个高度概括的描述，要求发明一种五分钟能学会规则但需耗费一生去精通且极具美感的游戏，系统就能反馈出围棋。显然今天的系统还做不到这一点，我认为那里仍然缺失了一些东西。

也许也并没有缺失任何东西，仅仅是我们使用这些系统的方式存在问题，只要有足够出色的创意人士去使用它就能实现。这可能确实是答案。只要人们日以继夜地钻研这些工具，熟练掌握达到与工具合二为一的境界，并赋予项目灵魂动力。当这一点与真正的深度创意相结合时，一些更加不可思议的事情就有可能实现。

4.开放模型、Gemma与本地AI

Garry Tan：把话题切换到开源以及开放权重。最近发布的Gemma功能强大且能在本地运行。这对未来意味着什么？AI是否会从主要在云端运行转变为真正掌握在用户手中的工具，这是否会改变模型的开发者群体？

Demis Hassabis：我们是开源和开放科学的坚定支持者。正如前面提到的AlphaFold，我们将其成果和所有科学工作都免费公开，直到今天依然在顶级期刊上发表论文。我们致力于打造同等参数规模下世界领先的模型，Gemma正是为此而生。Gemma在短短两周半内的下载量就达到了四千万次，我们希望更多人能基于它进行开发。

受限于人才和算力资源，同时打造两个具有不同属性的最高规格前沿模型非常困难。因此我们决定将应用于安卓设备、智能眼镜和机器人领域的边缘模型进行开源。因为一旦将模型部署到终端设备上它们就很容易受到攻击，不如直接完全开放。我们在Nano尺寸级别上对其进行了统一规划，这在战略上也对我们有利。

Garry Tan：早些时候我向你演示了一个类似电影《她》里面Samantha版本的Gemini。演示成功运行让人觉得不可思议。Gemini是原生多模态构建的，其上下文深度、工具使用以及语音直接输入模型的体验是无与伦比的，毫无疑问是目前最好的。

Demis Hassabis：Gemini系列从一开始就被设计为多模态这一特点仍然被有些低估了。尽管这增加了研发难度，不再仅仅专注于文本，但我们坚信长远来看会从中受益。我们现在正见证着这一点。

在基于Gemini构建Genie等世界模型时，这对机器人技术等领域至关重要。机器人基础模型将建立在多模态之上，凭借Gemini在多模态方面的强劲表现，我们拥有竞争优势并越来越多地将其应用于Waymo等项目中。数字助手随你进入现实世界并在手机或眼镜等设备上运行，需要理解物理世界、直观物理学以及所处的物理环境。这正是我们系统非常擅长的地方。我们将继续在这方面发力，使其保持领先。

5.从AlphaFold到虚拟细胞

Garry Tan：随着推理成本的快速下降，当推理几乎免费时什么将成为可能，这又会如何改变团队优化的目标？

Demis Hassabis：我不确定推理成本是否真的能降到几乎为零。这有点像杰文斯悖论，最终大家会使用数以百万计的智能体协同工作，或者让智能体朝着多个方向思考并进行集成，这些都会消耗掉可用的推理资源。如果核聚变、超导体或电池技术取得突破，能源成本确实会降低甚至趋于零，但芯片制造的物理瓶颈依然存在。至少在未来几十年里依然会有资源配额限制，因此必须高效地利用算力。

Garry Tan：好在较小的模型正变得越来越聪明，这太棒了。观众席中有很多生物和生物技术领域的创始人，我能看到几位。AlphaFold 3让我们超越了蛋白质，走向了更广谱的生物分子。我们距离模拟完整的细胞系统还有多远？或者说这本质上仍然是一个属于另一维度的更难的问题？

Demis Hassabis：Isomorphic Labs是我们在完成AlphaFold 2之后从DeepMind拆分出来的，目前进展非常顺利。它不仅试图构建AlphaFold这种只负责药物研发过程中单个环节的模型，我们还尝试推进相关的生物化学和化学研究，以设计出具备正确属性的化合物。我们很快会在该领域发布一些重大公告。

我们的最终目标是构建一个完整的虚拟细胞。我在许多科学演讲中都谈到过这种完整的运行模拟：你可以对细胞进行扰动，其输出结果将足够接近实验数据从而产生实际效用。你可以借此跳过大量的搜索步骤，生成大量合成数据来训练其他模型，最终预测真实细胞的情况。我认为距离实现完整的虚拟细胞大概还需要10年时间。

DeepMind科学团队已经着手开展这项工作。我们首先从细胞核入手，因为它相对自给自足。解决此类问题的诀窍在于能否切入复杂性的一角。虽然最终目标是模拟人体，但在此之前需要找到正确的细节模拟水平，并找出一个可以从中提取出足够独立内容的切面。你可以对其进行建模和近似，将输入和输出整合进这个独立的系统，然后只专注于这一部分。从这个角度来看，细胞核是一个非常有趣的切入点。

另一个问题是目前数据不足。我曾与多位顶尖的电子显微镜科学家以及其他成像领域的专家交流过。如果我们能在不杀死细胞的前提下对活体细胞进行成像，这显然是颠覆性的，因为那将把它转化为一个我们擅长解决的视觉问题。但我目前还不知道有任何技术能够同时提供纳米级分辨率、不产生破坏，且能在活体动态细胞中观察所有相互作用。虽然现在已经可以拍摄出极其精细的静态图像，但这还不足以将其转化为复杂的视觉问题。

解决这个问题有两种途径：一种是由硬件和数据驱动的解决方案；另一种则偏向建模，即构建出针对这些动力系统更好的学习型模拟器。

6.AI作为科学研究的终极工具

Garry Tan：你一直在关注除了生物学之外的各种科学领域，包括材料科学、药物研发、气候建模和数学。如果让你对未来五年内将发生最剧烈变革的科学领域进行排名，你的名单里会有哪些？

Demis Hassabis：这些领域都非常令人兴奋。我投身AI领域并在整个30多年的职业生涯里深耕于此，初衷就是将AI作为终极工具来使用。我一直认为AI将会是科学研究、探索环境、推进科学理解与发现，以及加深我们对医学和周围宇宙理解的终极工具。

我们最初的使命分为两个步骤：第一步是解决智能问题，即构建AGI；第二步是利用它来解决其他所有问题。

当时人们经常质疑我们是否真的打算解决其他所有问题，我们确实是那个意思。具体而言，我指的是解决科学中的根节点问题，即那些能够开启全新科学分支或探索途径的领域，而AlphaFold正是我们要实现该目标的典型范例。

目前全球有超过300万名研究人员，几乎世界上每一位生物学研究人员都在使用AlphaFold。制药行业的高管朋友告诉我，今后几乎每一款研发出的药物都将在其研发的某个阶段使用AlphaFold。这正是我们希望通过AI产生的影响力，也是我们非常自豪的事情，但我认为这仅仅是个开始。

我实在想不出有任何科学或工程领域是AI无法提供帮助的。你提到的那些领域，我认为目前正处于类似AlphaFold 1的阶段。我们已经取得了非常有前景的成果，但还没有完全解决该领域的重大挑战。在接下来的几年里，从材料学到数学，所有这些领域都有很多值得探讨的内容。

Garry Tan：就科学方面而言，这感觉具有普罗米修斯般的开创性。

Demis Hassabis：的确如此。但同时，正如普罗米修斯的寓言所警示的那样，我们必须对如何使用这些工具、将其用于何处，以及如何防止滥用保持谨慎。

Garry Tan：在座的许多人都试图创办将AI应用于科学领域的公司。在你看来，一家真正推动前沿发展的初创公司与那些仅仅在基础模型上封装一个API就自称“AI for Science”的公司相比，区别在哪里？

Demis Hassabis：这是我建议大家重点关注的事情之一。如果你坐在Y Combinator里观察各种事物，显然你必须紧跟AI技术的发展趋势。但我确实认为，将AI的发展方向与其他深科技领域相结合存在巨大的空间。

这种黄金结合点无论是材料学、医学还是其他极其艰深的科学领域都极具价值。特别是涉及原子世界这种需要跨学科团队的领域，在可预见的未来是没有捷径可走的。在这些领域创业相当安全，你不必担心仅仅因为基础模型的一次更新就被彻底席卷。

我个人一直热爱深科技，认为任何真正持久且有价值的事情都不是轻而易举的。在2010年我们刚起步时AI也是如此。当时无论是投资者还是学术界，都认为AI行不通，认为那只是个在90年代尝试过并被证明失败的小众课题。但如果你对自己的想法有坚定的信念，清楚这次有什么不同，或者清楚基于自身背景所拥有的特殊优势，比如你是机器学习专家并且拥有另一个应用领域的专业知识，或者你组建了一个具备该专业知识的创始团队，那你们就能产生巨大的影响并创造极高的价值。

Garry Tan：这是一个非常重要的信息。这很容易被遗忘，一旦你做成了大家就觉得理所当然，但在你成功之前人们往往会反对你。

Demis Hassabis：确实如此，当初没人相信它。这也是为什么我认为你必须致力于那些发自内心热爱的事情。对我来说，无论发生什么我都会致力于AI研究。我从小就认定这是我能想到的最能产生深远影响的事情，事实证明也确实如此。而且它也是我能想到的最有趣的研究方向。所以哪怕到了今天我们的技术还没完全跑通，依然身处某个小车库里，或者退回学术界，我肯定还会通过某种方式继续研究AI。

7.AlphaFold的突破模式

Garry Tan：AlphaFold就像是一个你所追求的并且最终成功的突发性突破案例。你认为是什么让科学领域具备了实现AlphaFold式突破的成熟条件？是否存在某种模式或者特定的目标函数？

Demis Hassabis：等我有空闲的时候应该把这件事专门写下来。但我从AlphaGo和AlphaFold等所有的Alpha项目中学到的教训是：如果一个问题可以被描述为大规模的组合搜索问题，那么我们现有的技术就能发挥巨大的作用。在某种程度上搜索空间越大越好，这就使得任何暴力破解或特殊情况算法都无法解决它。无论是围棋的着法还是蛋白质的不同构型，其数量都远超宇宙中的原子总数。

其次，你需要一个明确的目标函数，比如最小化蛋白质中的自由能，或者赢得围棋比赛。你需要清晰地定义这个目标函数以便执行算法。

最后，你需要足够的数据，或者一个能够为你生成大量分布内模拟合成数据的模拟器。只要满足这些条件，利用当今的方法你就能在解决问题上走得很远，在大海捞针般的搜索中找到你需要的解决方案。我首先想到的就是药物研发。物理定律允许存在某种可以治愈特定疾病且没有任何副作用的化合物，唯一的问题是如何以一种高效的方式找到它。我们通过AlphaGo首次证明了这些系统能够在大海捞针般的搜索中发现完美的目标。

8.AI能否实现真正的科学发现？

Garry Tan：我们来谈点元层面的问题。我们探讨了人类利用这些方法来创造AlphaFold，但在这个元层面，人类也可以利用AI来探索可能的假设空间。我们距离能够进行真正科学推理，而不仅仅是对数据进行模式匹配的AI系统还有多远？

Demis Hassabis：我认为我们已经很接近了。所有的前沿实验室都在进行这方面的实验，我们正在开发像Co-Scientist这样的通用系统，还有AlphaEvolve等能够比基础大模型做得更深入的算法。

虽然目前我还未看到任何具有真正意义的重大科学发现，但我认为它即将到来。这可能与我们讨论过的关于创造力以及如何超越已知领域的界限有关。到那时，AI就不只是进行模式匹配或外推，因为已经没有既有的模式可供匹配了，它需要进行类比推理。目前这些系统可能还不具备这种能力，或者说我们还没有找到正确的方法来激发这种能力。

我在科学领域经常这样测试它：它能否提出一个真正有趣的假设，而不仅仅是解决一个问题。我们现在谈论的可是解决黎曼猜想或千禧年大奖难题这种需要顶尖数学家投入一生去研究的深奥问题。那是一个更高一级的难度，我们目前还不知道该如何实现这一点，但我认为这并不神秘，这些系统最终将能够做到。

也许我们还缺少一两块拼图。我有时会把它称作我的爱因斯坦测试。你能不能把1901年之前的物理学知识教给一个系统，然后看它是否能像爱因斯坦在1905年的奇迹年那样提出狭义相对论？我们也许应该持续进行这项测试。一旦实现了这一点，我们离这些系统能够发明出真正新颖、前所未有的事物的阶段就不远了。

9.在AGI到来之前该构建什么

Garry Tan：最后一个问题提给在座想要致力于类似长期科技项目的资深技术人员。你主导了全球最大的AI项目之一，这些年来你一直是这一领域的先驱。我想这个房间里的每一个人都会发自内心地感谢你以及DeepMind的同事们。关于在最前沿领域进行构建，有哪些事是你现在已知、但希望当初就能掌握的？

Demis Hassabis：我认为我们前面已经涵盖了其中的一部分。攻克深层难题在某些方面并不比解决浅显表层的问题更难，它们只是难点不同。考虑到人生苦短、精力和时间都有限，你大可以把生命投入到真正能产生影响的事情中。如果你不去推动，这些影响就不会发生。

另一件事是我非常热爱跨学科研究。我认为在接下来的几年里，跨领域的结合会变得越来越普遍，有了AI的帮助，寻找这些领域之间的联系将变得更加容易。

还有一点我想说的是，如果你开启了一段深科技之旅，这段征程往往需要长达10年。那么你现在必须考虑AGI可能会在这段旅程的中途出现。我对AGI实现时间的预测大约是2030年。如果AGI在中途出现这意味着什么？它并不一定是坏事，但你必须将它纳入考量。AGI系统会如何利用你的技术？它会用来做什么？这又回到了我们之前提到的专业工具与通用AI系统的关系。

我可以预见，像Gemini或Claude这样的通用系统会将AlphaFold之类的专业系统作为工具使用。我不认为我们会把所有的蛋白质折叠知识都强行整合进一个通用的大脑中，这会导致过多的回归问题。如果把所有专业知识都塞进去，肯定会对其语言等其他能力产生负面影响。因此，更好的做法是拥有非常出色的通用工具调用模型，让它们去调用那些特定的工具。这些专业工具将处于一个独立的系统中。你需要认真对待这件事，试着想象一下那个世界会是什么样子，并在沿途构建出一些有价值的东西。