云霞资讯网

安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍

打造AI时代计算效率的新标杆。

作者|靖宇

去年一本讲述周朝灭商的历史学著作《翦商》,让不少人对于商朝这个传说中的朝代,有了完全不同于《封神榜》中神仙妖怪的认知。

作者李硕认为,周文王作为边缘民族的头领,被商王囚禁在地牢里自己弄出的「周易」,本质是私下利用了当时流行的占卜技术,来预测未来推翻商朝可能性大小。

文王的儿子武王,成功推翻商朝后,在周公旦的努力下,「周易」变成了之后知名的《易经》,变身成中国文化中神秘科技的代表。

其实,如果扩大一些视角,《易经》代表的几千年前的科技巅峰,和当下最流行的大模型技术引领的AI多少有些相似之处——都是利用算力来预测未来。关键在于,几千年前人们用的是木棍和脑力,现在,用的则是芯片,此事在刘慈欣的《三体》中亦有记载。

随着AI大模型技术从云端向边缘侧、端侧设备下沉,一场围绕端侧AI算力的「军备竞赛」已经打响。从智能手机、AIPC到智能汽车,消费者对设备本地运行AIGC的需求正迎来爆发性增长。然而,要在功耗、散热和成本都受到严格限制的端侧设备上,高效运行动辄数十亿参数的大模型,整个行业都面临着算力受限、能效要求严苛、带宽瓶明等一系列严峻挑战。

正是在这一行业背景下,11月13日,安谋科技(ArmChina)在上海正式发布了「周易」X3NPUIP。这不仅是安谋科技ArmChina明确「AllinAI」产品战略后推出的首款重磅产品,也被视为其「AIArmCHINA」战略发展的关键实践。安谋科技ArmChina毫不掩饰其目标,即直面端侧AI大模型运行的难题,打造计算效率的新标杆。

01

为Transformer和浮点计算而生

半导体IP行业的一个共识是,产品研发必须「面向未来5年进行前瞻布局」。安谋科技ArmChina产品研发副总裁刘浩在发布会上也强调了这一点,他表示公司将持续加大投入,以「前瞻性视野整合顶尖研发资源」,并秉持「开放合作理念」,为伙伴提供从硬件到软件的端到端解决方案。

「周易」X3正是这一前瞻性布局的产物。安谋科技ArmChinaNPU产品线负责人兼首席架构师舒浩博士指出,X3的产品优势源于其「通用、灵活、高效且软硬协同的系统架构设计」。

这种前瞻性首先体现在架构上。「周易」X3采用了一种专为大模型而生的最新DSP+DSA架构。它在设计之初就深刻理解了AI模型的演进趋势——即从传统的CNN(卷积神经网络)全面转向Transformer(大模型的基础架构)。

因此,X3采用了「兼顾CNN与Transformer的通用架构设计」,使其既能高效处理传统的AI任务,也能从容应对未来几年的GenAI(生成式AI)、AgenticAI(代理AI)与PhysicalAI(具身智能)的端侧落地需求。

这种新架构带来的另一个关键转变,是对浮点运算的强力支持。传统AI运算(如安防)大多使用定点计算,而大模型推理则高度依赖浮点(FP)运算。X3全面增强了浮点运算(FLOPS)能力,支持从定点到浮点计算的关键转变,为承载大模型奠定了技术基石。

02

解码10倍AIGC算力

如果说架构是蓝图,那么性能数据就是最直观的成果。相较于上一代产品,「周易」X3在AIGC大模型能力上实现了高达10倍的增长。这一惊人的跃升并非单一因素造就,而是由16倍的FP16TFLOPS(每秒万亿次半精度浮点运算)、4倍的计算核心带宽,以及超过10倍的Softmax和LayerNorm(均为大模型关键算子)性能提升共同驱动的。

在具体规格上,「周易」X3的单Cluster(集群)最高支持4个Core(核心),可提供8至80FP8TFLOPS(每秒万亿次8位浮点运算)的算力,并且支持灵活配置。其单核带宽高达256GB/s。即使在传统的CNN模型上,其性能也比X2提升了30%~50%。

但对于大模型而言,峰值算力(TFLOPS)只是「入场券」,如何真正在运行中把算力用起来,即「算力利用率」,才是核心难题。

安谋科技ArmChina给出了一组基于Llama27B(70亿参数)大模型的实测数据:「周易」X3在Prefill(处理提示词)阶段的算力利用率高达72%。这是一个远超行业平均水平的数字,意味着NPU在处理用户输入时没有「出工不出力」。

更令人瞩目的是Decode(生成token)阶段的数据。安谋科技ArmChina宣称,在自研解压硬件WDC的加持下,X3实现了「Decode阶段有效带宽利用率超100%」。

「有效带宽超100%」听起来有悖常理,但这背后是安谋科技ArmChina解决端侧带宽瓶颈的「独门武器」。这个名为WDC的自研解压硬件,允许大模型的权重(Weights)以软件无损压缩的形式存储。在NPU运算需要调用这些权重时,WDC硬件会实时进行解压。这一过程对软件透明,却能带来15%~20%的等效带宽提升。换言之,它让有限的物理带宽「跑」出了远超其物理限制的数据量,从而极大满足了大模型解码阶段对高吞吐量的渴求。

为了让云端大模型能高效迁移到端侧,「周易」X3还在架构上集成了多项关键创新。它新增了W4A8/W4A16(4位权重、8/16位激活)计算加速模式,这种低比特量化技术能大幅降低模型对带宽的消耗。同时,它提供了极其广泛的多精度融合计算支持,涵盖int4,int8,int16,int32,fp4,fp8,fp16,bf16,fp32等几乎所有主流数据类型,使其能灵活平衡性能与能效,适配从传统CNN到前沿大模型的各种需求。

此外,X3还集成了一个AI专属硬件引擎AIFF(AIFixed-Function)和一个专用硬化调度器。在智能座舱或ADAS这类需要多任务并行和高优先级响应的场景中,这一设计至关重要。它能将AI任务调度对CPU的负载降低至0.5%,让宝贵的CPU资源去处理其他系统任务,同时确保高优先级AI任务(如碰撞预警)获得即时响应。

03

让AI开发从「好用」到「用好」

「周易」X3不仅仅是一块高性能的硬件IP,它还配套了一个名为「CompassAI」的软件平台。安谋科技ArmChina产品总监鲍敏祺指出,X3遵循「软硬协同、全周期服务与成就客户」的准则,旨在提供从硬件、软件到售后服务的全链路支持。

在AI落地过程中,软件开发的「适配难、周期长、门槛高」是长期存在的痛点。「CompassAI」平台的目标,就是通过「软硬一体」的协同设计,让开发者从「好用」进阶到「用好」。

该平台的核心是NNCompiler(神经网络编译器)。它支持TensorFlow、ONNX、PyTorch等主流AI框架,兼容超过160种算子和270种模型。

对于当前火热的大模型生态,「CompassAI」平台提供了一个极具吸引力的功能:通过其AIPULLM工具链,可直接支持HuggingFace格式模型,实现「一站式」转化与部署。HuggingFace是全球最大的AI模型集散地,这一功能意味着开发者可以极低门槛地将社区的前沿模型快速部署到「周易」X3上。

该平台还具备先进的模型推理优化能力,包括业界领先的大模型动态shape支持(能高效处理任意长度的输入序列),并支持GPTQ等主流量化方案,以及对LLM(大语言模型)、VLM(视觉语言模型)和MoE(混合专家模型)的高性能支持。

更重要的是,安谋科技ArmChina选择了「开放生态」路线。Compass平台中的Parser(模型解析)、Optimizer(优化器)、LinuxDriver(驱动)等核心组件已相继开源。这为开发者提供了「白盒」部署的可能,他们可以利用丰富的调试工具和Bit精度软件仿真平台进行深度性能调优。有能力的客户甚至可以利用平台提供的工具和接口,开发自定义算子,乃至打造出「属于自己的模型编译器」,从而实现产品差异化。

这种「软硬协同」贯穿了X3的设计始终。例如AIFF模块,硬件团队通过增大总线带宽、增加DMA(直接内存访问)的outstanding等方式提升数据搬运效率;软件团队则针对性设计专属使用模式,如对模型进行合理切分,以充分发挥多核并行优势。在系统兼容性上,Compass平台也做到了全面覆盖,支持Android、Linux、RTOS、QNX等多种操作系统,并通过TVM/ONNX实现SoC异构计算。

04

从无形IP到AI万象

「周易」X3的发布,清晰地勾勒出了安谋科技ArmChina面向的四大核心领域:基础设施、智能汽车、移动终端和智能物联网。

在发布会现场的demo展示区,安谋科技ArmChina展示了「周易」IP家族的演进:从Z1赋能AIoT的人脸识别,到Z2/Z3进入入门级座舱和辅助驾驶,再到X1/X2运行自动泊车、StableDiffusion文生图。

而新旗舰「周易」X3则全面展示了其作为「端侧大模型杀手」的实力,现场演示了运行DeepSeek-R1-Distill-Qwen-1.5B模型的流畅AI对话,以及运行StableDiffusionv1.5的文生图和MiniCPMv2.6的多模态图文理解。

这一演进路径,清晰地表明端侧AI已从单一的功能感知,迈向了融合多种模型的「复杂认知」新阶段。

具体到应用中:

智能汽车领域:这是X3的重点目标。它将同时赋能智能驾驶与智能座舱,在ADAS系统中为自动泊车等功能提供AI算力;在IVI(车载信息娱乐系统)中,则支持基于语音和车内外视频的智能互动。

移动终端领域:在AIPC和AI手机上,X3可用于超分渲染(提升显示效果),并为基于大模型的AIAgent应用提供澎湃算力。

基础设施与物联网:在加速卡、智能IPC(网络摄像机)、智能网关等设备中,X3的本地AI推理能力将带来更快的响应速度和更好的隐私保护。

「周易」X3的发布,标志着安谋科技ArmChina「AllinAI」产品战略的正式启动。在「AIArmCHINA」的战略发展方向下,安谋科技ArmChina正携手生态伙伴,试图加快构建国内「AI+」产业升级的智能计算基石,为千行百业的智能化转型提供更强的IP「核芯」动力。

极客一问

你如何看待「周易」X3?

360集团创始人周鸿祎:人类的数据用的差不多了,AGI可能没那么快到来

点赞关注极客公园视频号,