周一,英伟达(NVDA.O)发布了一套面向机器人开发者的新一代全球AI模型、库及其他基础设施,其中最引人注目的是“Cosmos Reason”,一款拥有70亿参数、面向物理AI应用与机器人的“推理型”视觉语言模型。
此次加入现有Cosmos世界模型阵列的还包括Cosmos Transfer-2,可加速从3D仿真场景或空间控制输入生成合成数据,以及一款为速度优化的精简版Cosmos Transfer。
英伟达在周一SIGGRAPH大会上表示,这些模型旨在用于创建合成文本、图像和视频数据集,以训练机器人和AI代理。
据英伟达介绍,Cosmos Reason赋予机器人和AI代理“推理”能力,凭借其记忆与物理理解能力,可“作为规划模型推测具身智能体下一步可能采取的行动”。它可应用于数据整理、机器人规划及视频分析等领域。
例如,运行该模型的机器人手臂可以根据“面包+烤面包机”的场景,推断出将面包放进烤面包机进行烘烤是最合理的下一步动作,并将思考逻辑转化为操作指令。
Cosmos Reason在机器人及物理AI领域拥有多种应用场景。其数据整理与标注功能,可以帮助开发者自动化完成对海量且多样化训练数据集的筛选、评估与标注,大幅提升数据处理效率。
在机器人规划与推理方面,借助机器人视觉语言动作(VLA)模型,Cosmos Reason能够支持有条理、循序渐进的决策制定。
机器人不仅可以理解所处环境,还能在接收到复杂指令时,将其拆解为可执行的任务,并依靠常识在陌生环境中完成执行。
此外,在视频分析领域,基于英伟达Blueprint构建的视频检索与摘要AI代理,可从海量录制或实时视频中提取有价值的洞察,并进行根因分析,非常适合用于城市交通网络、工厂及仓库等场景。
公司还发布了新的神经重建库,其中包括一种渲染技术的库,允许开发者利用传感器数据在3D中模拟真实世界。该渲染功能也将整合进开源模拟器CARLA,这是一款广受开发者欢迎的平台。此外,Omniverse软件开发工具包也迎来了更新。
在机器人工作流方面,英伟达还推出了新服务器RTX Pro Blackwell Server,提供单一架构以支持机器人开发工作负载;DGX Cloud则是一个基于云的管理平台。
这些发布显示,这家芯片巨头正加速进军机器人领域,寻找继AI数据中心之后AI GPU的下一个重要应用场景。