技术资讯

阿里发布首个具身大模型 Qwen-Robot 系列 — Nav + Manip + World 三合一

hanghai tian

17 Jun 2026 • 阅读时间 4 分钟

阿里发布首个具身大模型 Qwen-Robot 系列 — Nav + Manip + World 三合一

发布时间： 2026年6月16日
来源： OSCHINA
论文： Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models (arXiv)
标签： 具身智能, 物理智能, 世界模型

Qwen-Robot 架构图

概述

阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列。这是千问大模型家族首个完整的具身智能模型系列，包含三大模型：

模型	类型	定位
Qwen-RobotNav	VLN（视觉语言导航）	物理智能体的行动入口
Qwen-RobotManip	VLA（视觉语言动作）	物理智能体的交互基石
Qwen-RobotWorld	世界模型	物理智能体的无限世界

一、Qwen-RobotNav：物理智能体的行动入口

通过可控观测编码和工具接口，把视觉语言能力接入移动控制，统一了四类导航任务。

统一多域导航

基准	指标	成绩
VLN-CE RxR	SR（成功率）	76.5%
HM3Dv2 目标搜索	SR（仅RGB）	75.6%
EVT-Bench	跟踪率	90.0%
NAVSIM	PDMS	91.4
3 个 EQA 基准	新纪录	✅

单一模型、单组权重，在 5 个导航领域达到 SOTA。2B 到 8B 参数一致提升。

可控观测协议

四个控制轴作为推理时参数暴露：

控制轴	说明
视觉词元预算	控制视觉 token 数量
时间衰减	历史帧权重衰减
逐相机权重	多相机加权融合
帧采样模式	采样策略选择

训练时逐样本随机化，无需重新训练或修改 Qwen3-VL 架构即可适配任意配置。

智能体导航系统

作为双层系统中可重配置的导航原语：
- 上层规划器（Qwen3.6-Plus）：分解长时序目标，调度可配置的导航调用
- 双层记忆机制：短期 + 长期记忆
- EXPRESS-Bench 提升 15.4%，导航步数减少 77%

开放环境泛化

在 Unitree Go2 四足机器人上零样本部署，仅使用单个低分辨率相机，在开放真实环境与自由自然语言指令下展现出强大的泛化能力，无需任何环境特定微调。

模型在 1,560 万条样本上训练，联合视觉语言数据以保留感知能力，一套权重统一五类导航任务。

二、Qwen-RobotManip：物理智能体的交互基石

以 Qwen3.5-4B VL 为骨干，结合流匹配 DiT 动作头，将视觉语言能力接入操作控制。

关键技术

技术	说明
80 维状态-动作表示	在单臂、双臂、灵巧手和移动平台等本体间共享
相机坐标系增量位姿	视觉上相似的运动在不同机器人之间数值上也保持一致
流匹配 DiT 动作头	Diffusion Transformer 生成连续动作序列

训练规模

语料库：>38,100 小时
完全由开源数据构建
大规模多机型训练

arXiv 已发布 Technical Report: "Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models"

三、Qwen-RobotWorld：物理智能体的无限世界

通过自然语言动作接口，把视觉语言能力接入世界动态预测。

核心能力

跨操作、驾驶和导航场景预测符合物理规律的未来
同一个世界模型覆盖多种物理交互场景
自然语言作为动作接口，降低使用门槛

四、基准测试成绩汇总

模型	基准	指标	成绩
RobotNav	VLN-CE RxR	SR	76.5%
RobotNav	HM3Dv2 目标搜索	SR (RGB)	75.6%
RobotNav	EVT-Bench	跟踪率	90.0%
RobotNav	NAVSIM	PDMS	91.4
RobotNav	EXPRESS-Bench	提升	15.4%
RobotNav	导航步数	减少	77%
RobotManip	>38,100h 语料	多机型	全开源数据
RobotWorld	跨场景	物理预测	操作+驾驶+导航

五、与业界对比

维度	Qwen-Robot	RT-2 (Google)	Octo (UC Berkeley)
模型体系	Nav + Manip + World 三合一	单一 VLA	单一 VLA
导航能力	✅ VLN 专精	❌	❌
世界模型	✅ Qwen-RobotWorld	❌	❌
基座模型	Qwen3.5-4B VL	PaLM-E / PaLI	Octo-small/base
数据来源	全开源数据	内部数据	开源 + 内部
零样本泛化	✅ Unitree Go2 验证	❌ 需微调	⚠️ 有限
机器人类型	单臂/双臂/灵巧手/四足	单臂	单臂

六、总结

Qwen-Robot 的发布标志着千问大模型正式进入物理世界。其"Nav + Manip + World"三合一架构、全开源数据训练策略、以及零样本跨平台泛化能力，为具身智能的规模化落地提供了重要参考。