云霞资讯网

AI算力打到万卡,中国其实还缺一块“最难的拼图” 最近业内流传的一条消息让不少人

AI算力打到万卡,中国其实还缺一块“最难的拼图” 最近业内流传的一条消息让不少人摩拳擦掌:国外媒体说国内某头部算力厂商正在做国产IB网络技术,而且是原生RDMA路线。为什么这个消息会激起讨论? 当AI训练从几百卡扩展到上万卡,系统就不再是单机问题,而是一个巨型网络问题。 节点越多,数据同步越频繁,如果网络延迟高一点、丢包多一点,整个集群效率都会急剧下降。这也是为什么全球最顶级AI集群几乎都在用IB网络。低延迟、原生RDMA、信用流控,设计目标就是极端规模的计算互联。 问题是,这一块长期被海外厂商掌握。国内过去几年更多是在RoCE体系上做优化,虽然能用,但在400G级高速互联和大规模稳定性上仍然有差距。 国内真正有能力做整套计算系统的厂商其实不多,很多人第一反应就会想到几家老牌超算玩家。很多人猜测,一旦成真,这可能会是国内高端算力体系里最关键的一块补丁。