关于AI算力，这么多年圈里人都明白一个尴尬的现实，你想搭个大模型训练集群，网络这

关于AI算力，这么多年圈里人都明白一个尴尬的现实，你想搭个大模型训练集群，网络这块儿，其实就两条路。一条是NV的IB。性能确实没得说，稳，快，但代价也摆在那儿，贵，而且供应捏在人家手里。你得掂量掂量预算，还得祈祷地缘zz别突然“加戏”。另一条是国产厂商们主推的RoCE。这玩意儿便宜，生态开放，看起来挺美。但真跑起万卡级的大集群，问题就来了，RoCE本质是在以太网上模拟RDMA，规模一上去，延时抖、丢包率高、配置调参能把人调秃。说白了，它是个经济适用型方案，想追求极致性能，差点意思。所以过去聊方案基本就是个两难选择，要么咬牙上IB，承受高成本和供应链风险；要么退而求其次选RoCE，接受性能妥协和复杂的运维。没得选。但现在终于是有了“第三选择”，就是曙光刚发布的首款全栈自研400G无损高速网络scaleFabric，算是给这个僵局撕开了一道口子。它厉害在哪儿？它走的是原生的IB技术路线，不是RoCE那种模拟玩法。scaleFabric400网卡端到端通信延迟压在1微秒以内，交换机转发延迟260纳秒，轻松撑起11.4万卡集群部署，这几个数据摆出来，懂行的就知道，这是冲着NVIDIA NDR去的，而且是真把性能做到了同一梯队。更关键的是，它全栈自研，从112G SerDes IP到交换芯片、网卡、软件，全部自己搞定。这意味着你不用再看海外脸色，也不用在性能和自主之间做取舍。以前客户问我有没得选，我只能说你要性能就IB，要成本就RoCE。现在我可以告诉他，有个东西叫scaleFabric，又强又自主，你不用妥协了。这种第三选择的出现，不是要替代谁，而是让市场真正有了选择权。对行业来说，这才是最大的变量。 scaleFabric 中科曙光

云霞资讯网

关于AI算力，这么多年圈里人都明白一个尴尬的现实，你想搭个大模型训练集群，网络这

热门分类