阿里发布首个具身大模型 Qwen-Robot 系列 — Nav + Manip + World 三合一

阿里发布首个具身大模型 Qwen-Robot 系列 — Nav + Manip + World 三合一

发布时间: 2026年6月16日
来源: OSCHINA
论文: Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models (arXiv)
标签: 具身智能, 物理智能, 世界模型

Qwen-Robot 架构图

概述

阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列。这是千问大模型家族首个完整的具身智能模型系列,包含三大模型:

模型 类型 定位
Qwen-RobotNav VLN(视觉语言导航) 物理智能体的行动入口
Qwen-RobotManip VLA(视觉语言动作) 物理智能体的交互基石
Qwen-RobotWorld 世界模型 物理智能体的无限世界

一、Qwen-RobotNav:物理智能体的行动入口

通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了四类导航任务。

统一多域导航

基准 指标 成绩
VLN-CE RxR SR(成功率) 76.5%
HM3Dv2 目标搜索 SR(仅RGB) 75.6%
EVT-Bench 跟踪率 90.0%
NAVSIM PDMS 91.4
3 个 EQA 基准 新纪录

单一模型、单组权重,在 5 个导航领域达到 SOTA。2B 到 8B 参数一致提升。

可控观测协议

四个控制轴作为推理时参数暴露:

控制轴 说明
视觉词元预算 控制视觉 token 数量
时间衰减 历史帧权重衰减
逐相机权重 多相机加权融合
帧采样模式 采样策略选择

训练时逐样本随机化,无需重新训练或修改 Qwen3-VL 架构即可适配任意配置。

智能体导航系统

作为双层系统中可重配置的导航原语:
- 上层规划器(Qwen3.6-Plus):分解长时序目标,调度可配置的导航调用
- 双层记忆机制:短期 + 长期记忆
- EXPRESS-Bench 提升 15.4%,导航步数减少 77%

开放环境泛化

Unitree Go2 四足机器人上零样本部署,仅使用单个低分辨率相机,在开放真实环境与自由自然语言指令下展现出强大的泛化能力,无需任何环境特定微调。

模型在 1,560 万条样本上训练,联合视觉语言数据以保留感知能力,一套权重统一五类导航任务。

二、Qwen-RobotManip:物理智能体的交互基石

Qwen3.5-4B VL 为骨干,结合流匹配 DiT 动作头,将视觉语言能力接入操作控制。

关键技术

技术 说明
80 维状态-动作表示 在单臂、双臂、灵巧手和移动平台等本体间共享
相机坐标系增量位姿 视觉上相似的运动在不同机器人之间数值上也保持一致
流匹配 DiT 动作头 Diffusion Transformer 生成连续动作序列

训练规模

  • 语料库:>38,100 小时
  • 完全由开源数据构建
  • 大规模多机型训练

arXiv 已发布 Technical Report: "Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models"

三、Qwen-RobotWorld:物理智能体的无限世界

通过自然语言动作接口,把视觉语言能力接入世界动态预测。

核心能力

  • 操作、驾驶和导航场景预测符合物理规律的未来
  • 同一个世界模型覆盖多种物理交互场景
  • 自然语言作为动作接口,降低使用门槛

四、基准测试成绩汇总

模型 基准 指标 成绩
RobotNav VLN-CE RxR SR 76.5%
RobotNav HM3Dv2 目标搜索 SR (RGB) 75.6%
RobotNav EVT-Bench 跟踪率 90.0%
RobotNav NAVSIM PDMS 91.4
RobotNav EXPRESS-Bench 提升 15.4%
RobotNav 导航步数 减少 77%
RobotManip >38,100h 语料 多机型 全开源数据
RobotWorld 跨场景 物理预测 操作+驾驶+导航

五、与业界对比

维度 Qwen-Robot RT-2 (Google) Octo (UC Berkeley)
模型体系 Nav + Manip + World 三合一 单一 VLA 单一 VLA
导航能力 ✅ VLN 专精
世界模型 ✅ Qwen-RobotWorld
基座模型 Qwen3.5-4B VL PaLM-E / PaLI Octo-small/base
数据来源 全开源数据 内部数据 开源 + 内部
零样本泛化 ✅ Unitree Go2 验证 ❌ 需微调 ⚠️ 有限
机器人类型 单臂/双臂/灵巧手/四足 单臂 单臂

六、总结

Qwen-Robot 的发布标志着千问大模型正式进入物理世界。其"Nav + Manip + World"三合一架构、全开源数据训练策略、以及零样本跨平台泛化能力,为具身智能的规模化落地提供了重要参考。

苏ICP备19018690号-1