深夜王炸!英伟达放出一张全模态核弹,AI智能体效率提升9倍
凌晨,黄仁勋又搞突袭了。
英伟达正式推出Nemotron 3 Nano Omni模型,在业内首次实现了视觉、音频和语言的真正统一。AI智能体效率瞬间跃升9倍——不是纸面跑分,而是实实在在的吞吐量大涨。
富士康、Palantir直接第一时间抢用。戴尔、甲骨文、DocuSign等一大票科技巨头集体进入评测。这已经不是在追热点了,这是在疯狂抢船票。
如果还是简单地把它当成一次普通的新版AI发布会来看,那可能就要错过后市那场最大底牌的游戏规则改变了。
拆开这颗核弹的内部设计。
第一,颠覆性原生的全模态。过去它是怎么回事呢?图像、声音、文字三套系统独立作战,来回翻译二次传话,不仅延迟高得离谱,而且断章取义,容错率很低。Nemotron 3 Nano Omni怎么做的呢?直接把视觉、听觉和语言的编码器熔在了一起,原生架构在一个推理回路里就完成了跨模态决策。你可以把这个新东西理解为一名真正打通了眼、耳、脑的侦探,而不是以前那个被蒙在鼓里,等着小秘书递纸条的官僚。
第二,还有一点就是极致高效率的算力博弈。它采用的是黑科技"30B-A3B混合专家架构"——这就相当于它脑袋里有十个专家待命,但遇到难题只派出一位强者去处理,所以它的计算精度极高、反应巨快,功耗和成本也极低。在同等的响应水准下,它处理信息的吞吐量,能达到其他全能模型的9倍,长文档与复杂视频推理能力超7倍以上。9倍效率,就意味着9倍的降低企业应用成本。
第三点,也是老黄真正的野心:这次发布把"全模态+高效能"直接做成了全面开源。这意味着模型权重、训练数据和优化配方全都公开晾晒。开发者蜂拥而至,生态建在英伟达GPU上,从底层硬件到顶层应用都在用英伟达的生态服务;同时它还首次引入了GUI屏幕理解数据,让AI学会直接看桌面、点按钮、解读数表,这使它能像人一样操作软件。
这次的战略意图到底在哪?
10个字:抢做"AI智能体时代的水电煤"。
不久前,Anthropic的Claude Code刚上演了AI写代码的商业布局,谷歌就在身后准备砸进400亿美元。传统大模型只负责讲段子回答问题的功能天花板摆在眼前,而下个时代的战场,比如看懂监控视频的保安,能看屏幕操作系统的数字员工,取代初级法务去翻万页合同的超级助理——这些才真是万亿级的。
英伟达这次丢出来的不是抢一两个客户,是一整套开源的操作系统级的感知大脑,直接批量助推千行万业的AI智能体在这套标准体系里生根发芽。
顺着这束强光打到A股产线上,三条利基赛道被瞬间照亮。
第一条线:AI服务器组装和散热。单模型处理视频音频所需推理算力不下十倍的一般语言模型,富士康忙着抢入生态,对应能消化溢出的AI服务器的代工龙头,比如内地的工业富联和液冷服务提供商,长线承接算力溢出的逻辑继续做实。
第二条线:数据中心和高速互联。多模型切换变成单一模型全模态扫视,要求极其严苛的数据吞吐网络,推动数据中心与光模块的更快速迭代。
第三条线:端侧和边缘推理终端。300亿总参数激活30亿,架构高效让企业极低成本私密部署成为了可能,在边缘网关、智能摄像头、车载终端里跑原生全模态变得触手可及。
一份清醒清单:
第一,这仍然是产业生态层面的催化,短期不直接增厚个股财报,谨防情绪追涨。第二,开源模型兴起也会反噬训练芯片用量,多模态落地的真实商业闭环仍需验证。第三,全模态能力为安全合规带来新的挑战,监管强化可能拉长落地周期。
如果说之前的DeepSeek-V4是让机器更会写,谷歌的Claude Code是让机器更会编程;那么老黄今天抛出的Nemotron 3 Nano Omni就是让机器真的"能看、会听、更会执行"。一个全模态的智能体时代已经拉开序幕。
AI从此能看懂你的屏幕、听懂你的指令、自己动手操作软件——你认为这种"全模态智能体"先颠覆的是哪个行业?
