阿里巴巴集团(BABA.N)发布了一款可帮助机器人及其他设备执行现实世界任务的AI模型,在迈向最终主导多个AI领域的目标上再进一步。
该模型被命名为RynnBrain,是一款可与环境互动的开源基础模型,能够理解时间维度下的空间关系,并推演完成任务所需的步骤。从描述来看,它可用于物体建模、轨迹预测,并能在厨房或工厂装配线等复杂、拥挤的环境中实现自主导航。
RynnBrain基于阿里巴巴的Qwen3-VL视觉语言模型训练而成,目前已在Hugging Face和GitHub等平台上线,提供多个版本,参数规模从最小的20亿参数到效率更高的混合专家模型不等。
据了解,RynnBrain包含7个全系列模型,其中最引人注目的是业界首个30B MoE架构的具身模型。RynnBrain首次赋予机器人时空记忆和空间推理能力,使其能够在复杂环境中进行可靠规划和深度理解。
具身智能的发展一直面临智能水平瓶颈,尤其是模型的泛化能力有待提升。RynnBrain通过引入时空记忆和物理世界推理克服了不少难题。其时空记忆能力让机器人能够在完整的历史记忆中定位物体、目标区域,甚至预测运动轨迹,赋予机器人全局时空回溯能力。
物理空间推理则通过文本与空间定位交错进行的策略,确保推理过程紧密扎根于物理环境,大大减弱了幻觉问题。例如,运行RynnBrain的机器人在执行任务时被中断,能够记住任务的时间和空间状态,之后继续完成任务。
达摩院具身智能实验室负责人赵德丽表示,RynnBrain首次实现了大脑对物理世界的深度理解与可靠规划,为通用具身智能迈出了关键一步,有望加速AI从数字世界走向真实物理场景的落地进程。
随着该模型发布,阿里巴巴正面迎战包括Alphabet Inc.(GOOGL.O)旗下谷歌以及英伟达(NVDA.O)在内的AI领先者。阿里巴巴称,其在基准测试中的表现达到了最先进水平,优于谷歌的Gemini Robotics-ER 1.5以及英伟达的Cosmos-Reason2。
该模型的设计部分着眼于一个各国正在激烈争夺主导权的领域。中国企业在AI领域总体更倾向于开源路线,这与美国将前沿技术封闭在专有体系内的做法形成对比。实体AI领域的开源策略有望吸引全球开发者和研究人员共同完善相关技术,从而削弱西方的领先地位。