关于AI算力,这么多年圈里人都明白一个尴尬的现实,你想搭个大模型训练集群,网络这块儿,其实就两条路。 一条是NV的IB。性能确实没得说,稳,快,但代价也摆在那儿,贵,而且供应捏在人家手里。你得掂量掂量预算,还得祈祷地缘zz别突然“加戏”。另一条是国产厂商们主推的RoCE。这玩意儿便宜,生态开放,看起来挺美。但真跑起万卡级的大集群,问题就来了,RoCE本质是在以太网上模拟RDMA,规模一上去,延时抖、丢包率高、配置调参能把人调秃。说白了,它是个经济适用型方案,想追求极致性能,差点意思。 所以过去聊方案基本就是个两难选择,要么咬牙上IB,承受高成本和供应链风险;要么退而求其次选RoCE,接受性能妥协和复杂的运维。没得选。 但现在终于是有了“第三选择”,就是曙光刚发布的首款全栈自研400G无损高速网络scaleFabric,算是给这个僵局撕开了一道口子。 它厉害在哪儿?它走的是原生的IB技术路线,不是RoCE那种模拟玩法。scaleFabric400网卡端到端通信延迟压在1微秒以内,交换机转发延迟260纳秒,轻松撑起11.4万卡集群部署,这几个数据摆出来,懂行的就知道,这是冲着NVIDIA NDR去的,而且是真把性能做到了同一梯队。 更关键的是,它全栈自研,从112G SerDes IP到交换芯片、网卡、软件,全部自己搞定。这意味着你不用再看海外脸色,也不用在性能和自主之间做取舍。 以前客户问我有没得选,我只能说你要性能就IB,要成本就RoCE。现在我可以告诉他,有个东西叫scaleFabric,又强又自主,你不用妥协了。这种第三选择的出现,不是要替代谁,而是让市场真正有了选择权。对行业来说,这才是最大的变量。 scaleFabric 中科曙光
