英伟达(NVDA)首席执行官黄仁勋周一在该公司年度GTC大会上宣告“推理时代”(Age of Inference)的到来,并推出大量软硬件新产品,旨在让AI模型运行得更快、更高效。
在圣何塞鲨鱼曲棍球队主场SAP中心面对逾3万名观众,黄仁勋揭晓了英伟达的新旗舰产品。他称,这款产品将彻底改变“推理”——即允许模型响应用户查询的AI计算形式。
多年来,英伟达一直主导着图形处理器(GPU)市场。这种强大的芯片被用于训练大多数大型AI模型。但在过去一年里,随着AI公司迅速推进其模型及基于模型构建的AI工具的商业化,客户要求获得更适合推理计算而非训练的更好芯片。
这款名为英伟达Groq 3 LPX机架的新型服务器,将72台英伟达下一代Vera Rubin服务器与256块名为LPU的新型芯片相结合。LPU由Groq公司开发,英伟达在去年12月通过一项200亿美元的技术授权交易收购了该公司的核心领导团队。
“这就是AI的未来。这就是AI想要去的方向,”黄仁勋表示。“它专为推理而设计,只服务于这一种工作负载。而这种工作负载正是驱动AI工厂的动力。”
英伟达表示,这款新系统每秒可生成7亿个token——这是计算度量的基本单位——其计算速度是英伟达上一代Hopper GPU的350倍。
在过去一年的大部分时间里,黄仁勋一直在暗示,英伟达未来将越来越专注于推理计算。该公司的传统GPU通常不被认为是推理的理想选择,因为它们能耗巨大,且没有足够的内置内存让模型访问其训练所依赖的海量数据。
新的Vera Rubin与Groq组合服务器将拥有比Hopper一代多500倍的高带宽内存,有助于解决内存瓶颈问题。
“推理的拐点已经到来,”黄仁勋在主题演讲中表示。“这就是秘诀所在。”
黄仁勋表示,英伟达预计到2027年底将售出价值1万亿美元的Blackwell和Rubin芯片,这更新了此前到2026年底售出5000亿美元的预测。
黄仁勋在演讲中还宣布了一系列旨在加强英伟达在“数字孪生”和其他类型模拟设计领域业务的合作伙伴关系。该公司还宣布成立一个由Cursor、Mistral、Perplexity、Reflection和Thinking Machines等软件公司组成的联盟,旨在降低开发前沿开源AI模型的难度。
黄仁勋表示,该联盟的工作将把企业软件工具的开发推入快车道,助力全球软件即服务行业加速转型为智能体AI即服务行业。
就在黄仁勋演讲之际,英伟达投资的英国云计算初创公司Nscale宣布,将在西弗吉尼亚州使用新的Vera Rubin服务器构建一个1.35千兆瓦的数据中心集群。该公司将该项目称为“Monarch计算园区”,并称其为全球最大的AI计算设施之一。
英伟达还宣布扩大其自动驾驶业务,包括为其自动驾驶出租车计算系统新增四家合作伙伴——比亚迪印度公司、中国的吉利汽车、现代汽车和日产汽车。黄仁勋表示,借助英伟达的芯片和模拟模型,这些汽车制造商有望显著增加道路上的自动驾驶共享汽车数量。
演讲接近尾声时,由英伟达、DeepMind和迪士尼合作设计的、来自迪士尼《冰雪奇缘》动画系列的雪人“奥拉夫”机器人版本蹒跚着走上舞台,与黄仁勋就其Omniverse部门进行了一段生硬的对话。该部门负责为机器人等产品开发物理AI。
“你是在Omniverse里面学会走路的,”黄仁勋告诉机器人。
“我真的很喜欢走路!”它热情地回应道。
“你们能想象吗?”黄仁勋在离场前问道。“迪士尼乐园的未来:所有这些机器人,所有这些角色到处走动。”