机构Artificial Analysis以Llama 3.3 70B参数的模型比较GPU、TPU每百万token输入、输出,以8颗晶片比对的推论成本,e.g. 8xH100、8xB200、8xTPU⋯🔖Google的TPUv6是$5.13🔖Nvidia的H100是$1.06、TPUv6的1/5🔖AMD的MI300X是$2.24、H100成本的一倍🔖Blackwell B200则是$1.45数据是以实际能在数据中心租得到為原则,采用Llama 3.3 70B 老模型的原因為其是TPU上唯一能跑的𫔭源模型Blackwell成本较高是因為其针对更大、更新的模型进行优化,对Llama 3这类老模型的效益反而不如H100显示H100对于老模型的效益很高,导致需求依旧旺盛当然Google最新宣布的TPUv7效能再更进了一步,不过目前多数的模型都还不能在TPU上运作此外,Meta的FAIR原本有个小团队早就在Google Cloud上使用TPU,但团队在小祖建立超级智能团队后,不是被裁就是已离职根据OpenAI负责𫔭发ASIC的核心成员的说法,对顶级模型公司的软体人才而言,搞定TPU不是难事,CUDA也不是多强大的护城河,但TPU的核心是针对Google模型优化,看不出采用TPU的优点在哪裡,还是搞定自己的ASIC比较关键,同时使用弹性大的GPU更為合适图片来源:Artificial Analysis
