阿里发布首个具身大模型 Qwen-Robot 系列 — Nav + Manip + World 三合一
阿里发布首个具身大模型 Qwen-Robot 系列 — Nav + Manip + World 三合一
发布时间: 2026年6月16日
来源: OSCHINA
论文: Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models (arXiv)
标签: 具身智能, 物理智能, 世界模型
概述
阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列。这是千问大模型家族首个完整的具身智能模型系列,包含三大模型:
| 模型 | 类型 | 定位 |
|---|---|---|
| Qwen-RobotNav | VLN(视觉语言导航) | 物理智能体的行动入口 |
| Qwen-RobotManip | VLA(视觉语言动作) | 物理智能体的交互基石 |
| Qwen-RobotWorld | 世界模型 | 物理智能体的无限世界 |
一、Qwen-RobotNav:物理智能体的行动入口
通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了四类导航任务。
统一多域导航
| 基准 | 指标 | 成绩 |
|---|---|---|
| VLN-CE RxR | SR(成功率) | 76.5% |
| HM3Dv2 目标搜索 | SR(仅RGB) | 75.6% |
| EVT-Bench | 跟踪率 | 90.0% |
| NAVSIM | PDMS | 91.4 |
| 3 个 EQA 基准 | 新纪录 | ✅ |
单一模型、单组权重,在 5 个导航领域达到 SOTA。2B 到 8B 参数一致提升。
可控观测协议
四个控制轴作为推理时参数暴露:
| 控制轴 | 说明 |
|---|---|
| 视觉词元预算 | 控制视觉 token 数量 |
| 时间衰减 | 历史帧权重衰减 |
| 逐相机权重 | 多相机加权融合 |
| 帧采样模式 | 采样策略选择 |
训练时逐样本随机化,无需重新训练或修改 Qwen3-VL 架构即可适配任意配置。
智能体导航系统
作为双层系统中可重配置的导航原语:
- 上层规划器(Qwen3.6-Plus):分解长时序目标,调度可配置的导航调用
- 双层记忆机制:短期 + 长期记忆
- EXPRESS-Bench 提升 15.4%,导航步数减少 77%
开放环境泛化
在 Unitree Go2 四足机器人上零样本部署,仅使用单个低分辨率相机,在开放真实环境与自由自然语言指令下展现出强大的泛化能力,无需任何环境特定微调。
模型在 1,560 万条样本上训练,联合视觉语言数据以保留感知能力,一套权重统一五类导航任务。
二、Qwen-RobotManip:物理智能体的交互基石
以 Qwen3.5-4B VL 为骨干,结合流匹配 DiT 动作头,将视觉语言能力接入操作控制。
关键技术
| 技术 | 说明 |
|---|---|
| 80 维状态-动作表示 | 在单臂、双臂、灵巧手和移动平台等本体间共享 |
| 相机坐标系增量位姿 | 视觉上相似的运动在不同机器人之间数值上也保持一致 |
| 流匹配 DiT 动作头 | Diffusion Transformer 生成连续动作序列 |
训练规模
- 语料库:>38,100 小时
- 完全由开源数据构建
- 大规模多机型训练
arXiv 已发布 Technical Report: "Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models"
三、Qwen-RobotWorld:物理智能体的无限世界
通过自然语言动作接口,把视觉语言能力接入世界动态预测。
核心能力
- 跨操作、驾驶和导航场景预测符合物理规律的未来
- 同一个世界模型覆盖多种物理交互场景
- 自然语言作为动作接口,降低使用门槛
四、基准测试成绩汇总
| 模型 | 基准 | 指标 | 成绩 |
|---|---|---|---|
| RobotNav | VLN-CE RxR | SR | 76.5% |
| RobotNav | HM3Dv2 目标搜索 | SR (RGB) | 75.6% |
| RobotNav | EVT-Bench | 跟踪率 | 90.0% |
| RobotNav | NAVSIM | PDMS | 91.4 |
| RobotNav | EXPRESS-Bench | 提升 | 15.4% |
| RobotNav | 导航步数 | 减少 | 77% |
| RobotManip | >38,100h 语料 | 多机型 | 全开源数据 |
| RobotWorld | 跨场景 | 物理预测 | 操作+驾驶+导航 |
五、与业界对比
| 维度 | Qwen-Robot | RT-2 (Google) | Octo (UC Berkeley) |
|---|---|---|---|
| 模型体系 | Nav + Manip + World 三合一 | 单一 VLA | 单一 VLA |
| 导航能力 | ✅ VLN 专精 | ❌ | ❌ |
| 世界模型 | ✅ Qwen-RobotWorld | ❌ | ❌ |
| 基座模型 | Qwen3.5-4B VL | PaLM-E / PaLI | Octo-small/base |
| 数据来源 | 全开源数据 | 内部数据 | 开源 + 内部 |
| 零样本泛化 | ✅ Unitree Go2 验证 | ❌ 需微调 | ⚠️ 有限 |
| 机器人类型 | 单臂/双臂/灵巧手/四足 | 单臂 | 单臂 |
六、总结
Qwen-Robot 的发布标志着千问大模型正式进入物理世界。其"Nav + Manip + World"三合一架构、全开源数据训练策略、以及零样本跨平台泛化能力,为具身智能的规模化落地提供了重要参考。