英伟达(NVDA.O)在Blackwell GPU正式上市前是否遇到了新的障碍?据The Information报道,继几个月前的产量问题后,这家人工智能巨头的Blackwell处理器在高容量服务器架中安装时遭遇过热问题。
报告指出,这些挑战已导致设计修改和延迟,引起包括谷歌(GOOGL.O)、Meta Platforms(META.O)和微软(MSFT.O)等主要客户对Blackwell服务器及时部署的担忧。
报道中提到,知情人士告诉The Information,用于AI和高性能计算(HPC)的Blackwell GPU在容纳72个处理器的服务器中面临过热问题,这些服务器每个架子可能需要高达120kW的功率。
因此,英伟达据报道已多次修改其服务器架设计,因为过热不仅妨碍GPU性能,还可能损坏硬件。
鉴于像谷歌、Meta和微软这样的客户依赖这些GPU来训练他们最先进的大型语言模型,英伟达的一位发言人告诉路透社,该公司正在与云服务提供商密切合作,并将设计调整描述为开发过程中的常规部分。
值得注意的是,据Tom's Hardware报道,尽管此类调整在大规模技术推广中很常见,但它们已导致延误,可能会进一步推迟预期的发货时间表。
Tom's Hardware指出,Blackwell的最终修订版仅在10月底进入大规模生产,预计发货将在1月底开始。最新的过热问题是否会进一步延迟Blackwell的发货,尚待观察。
这绝非英伟达首次在Blackwell上遇到问题。几个月前,据报道GPU因设计缺陷影响处理器产量,这与台积电(TSM.N)的CoWoS高级封装有关,但最终通过更改GPU的掩模得以解决。
然而,英伟达首席执行官黄仁勋在10月驳斥了台积电应受责备的传言,强调台积电帮助解决了问题,并以“难以置信的速度”恢复了制造。他还形容对Blackwell的需求“疯狂”。