云霞资讯网

华为芯片远不如英伟达,DeepSeek适配华为最新昇腾芯片,黄仁勋为何很惊慌?

当黄仁勋在 Dwarkesh 播客里说出 "如果 DeepSeek 把新模型优化适配到华为芯片上,对我们国家来说,将是一

当黄仁勋在 Dwarkesh 播客里说出 "如果 DeepSeek 把新模型优化适配到华为芯片上,对我们国家来说,将是一个可怕的结果" 这句话时,很多人第一反应是不解。毕竟从纯技术参数看,华为最新的昇腾 910B 芯片 FP16 算力约 320-376 TFLOPS,而英伟达 H100 高达 1979 TFLOPS,差距一目了然。

但黄仁勋的惊慌,从来都不是因为某一款芯片的性能。他怕的是,过去二十年 AI 世界那条 "默认规则" 被打破了 —— 所有前沿大模型必须以 CUDA 为首要优化目标。

英伟达的真正护城河从来不是芯片本身,而是 CUDA 生态。全球 90% 以上的 AI 开发者、几乎所有主流框架和算子库,都是围绕 CUDA 生长出来的。这就像一个巨大的操作系统,你用惯了 Windows,就再也离不开微软。过去,任何一家芯片公司想挑战英伟达,都必须先说服全世界的开发者放弃 CUDA,重新学习一套新的工具链。这几乎是不可能完成的任务。

DeepSeek V4 的出现,第一次在万亿参数级别上证明了:存在一条真实、可运行、被顶级模型验证过的非 CUDA 路径。

这次适配不是简单的 "兼容",而是从模型设计阶段就原生针对华为昇腾的硬件特性进行优化。DeepSeek 团队重写了 200 多个核心算子,将底层代码从 CUDA 迁移到华为自研的 CANN 框架,最终实现了惊人的效果:昇腾 950PR 单卡推理性能达到英伟达对华特供版 H20 的 2.87 倍,而价格仅为其四分之一。

更让英伟达坐立不安的是,这不是一次孤立的技术突破,而是一个完整生态闭环的雏形。当中国顶尖的大模型公司与最先进的芯片制造商完成深度绑定,美国的芯片封锁就失去了关键抓手。过去,美国可以通过限制高端芯片出口来卡住中国 AI 的脖子;现在,中国已经有了自己的 "芯片 + 模型 + 框架" 全栈解决方案。

黄仁勋比任何人都清楚,一旦开发者开始大规模迁移到 CANN 生态,就会形成不可逆的正反馈循环。更多的模型适配会吸引更多的开发者,更多的开发者会推动更多的工具和应用诞生,最终形成一个与 CUDA 分庭抗礼的独立生态。

中国市场的失守只是开始。英伟达在中国深耕了 30 年,从显卡到 AI 芯片,从游戏玩家到互联网巨头,积累了深厚的客户基础。但两年的出口管制,让这一切几乎归零。更可怕的是,当华为昇腾在中国市场站稳脚跟后,必然会向东南亚、中东、拉美等新兴市场扩张。这些地区对价格敏感,对供应链安全有强烈需求,"国模 + 国芯" 的方案对他们有着致命的吸引力。

黄仁勋在播客里还说了一句意味深长的话:"中国拥有惊人的充沛能源供给,当能源足够便宜,谁还会在乎单芯片的效能?你直接堆芯片扩集群就好了。" 这句话道出了他内心深处的恐惧 —— 英伟达拼命卷单芯片性能的优势,在中国的规模优势面前,可能变得毫无意义。

当然,我们必须清醒地认识到,华为昇腾与英伟达在高端训练芯片上还有不小的差距,CANN 生态的成熟度也远不如 CUDA。但这已经不重要了。重要的是,那条路被走通了。一旦有了第一个成功的案例,就会有第二个、第三个。

黄仁勋的惊慌,本质上是对一个时代结束的预感。过去,AI 的标准由美国制定,由英伟达执行。未来,世界可能会出现两个平行的 AI 技术体系。而这一切的起点,就是 DeepSeek V4 在华为昇腾芯片上成功运行的那一刻。