摩尔线程开源 MusaCoder — 首个基于国产全功能 GPU 全栈训练的代码大模型

发布时间: 2026年6月
来源: OSCHINA | 摩尔学院论文版 | InfoQ 报道
论文: arXiv:2606.04847
归档日期: 2026-06-11

MusaCoder 概览

概述

摩尔线程正式发布并开源面向 GPU 底层算子生成的专用代码大模型 MusaCoder,包含 9B 和 27B 两个参数规模。这是业内首个基于国产 GPU 算力底座(MTT S5000)完成全链路训练与验证的开源代码大模型。

KernelBench 严格评测中,MusaCoder-27B-RL 以 Overall 领先水平超越多个开源和闭源基线模型。

核心技术亮点

1. 全栈训练框架

MusaCoder 提出了一套完整的全栈训练流程:

  • 渐进式算子数据合成(Progressive Kernel-oriented Data Synthesis):从高层张量程序生成可执行、高效的底层代码
  • 多样性保留的拒绝微调(Diversity-preserving Rejection Fine-tuning):保证生成代码的多样性和质量
  • 执行反馈强化学习(Execution-feedback RL):通过 MooreEval 分布式验证器和奖励环境进行训练

2. 强化学习稳定性创新

针对 RL 训练中的稀疏奖励、奖励攻击和训练不稳定问题,MusaCoder 引入了三项关键改进:

技术 作用
PrimeEcho 首轮锚定的多轮奖励机制
Buffered Dynamic Retry 从全失败的硬样本中恢复信号
MirrorPop 离策略序列过滤

3. 性能表现

  • MusaCoder-9B 匹配或超越前沿闭源模型
  • MusaCoder-27B 在 KernelBench 上达到 SOTA
  • 支持 CUDA 和 MUSA 双后端

行业背景 — MUSA 生态进化

此次发布是摩尔线程 2026年5月18日「词元时代,万物智能」年度发布会的一部分。

MUSA 生态全景

开源生态融入:
- MUSA 后端正式加入 SGLang 官方支持,已合入主线(47个 PR,41个已合并)
- MUSA 成为 vLLM 官方后端,开源 vLLM-MUSA
- Triton-MUSA 升级至 Triton 3.6,与智源研究院合作推进 FlagOS
- TileLang-MUSA 已合入开源主线,GEMM 算子 95%+ 汇编级性能效率

迁移成本降低:
- MUSA SDK 5.1.0 完全对标 CUDA 12.8
- FlashAttention3 在摩尔线程 GPU 上计算效率达 95%
- 热点算子覆盖率突破 90%
- AI Agent 自动化迁移体系:Automusify Skill 实现零干预自动化迁移

MUSACODE 编程工具:
- 支持自然语言生成代码,30天自动生成并测试 PP 库 12015 个算子
- 基于 TileLang 自动调优 Group GEMM 算子实现 60% 性能提升
- 支持 Python、C++、Rust、Go 等多种语言
- 提供 MUSA VSCode Edition 官方插件,代码完全本地端侧运行


参考链接:
- OSCHINA 原文
- 摩尔学院 - 论文页
- InfoQ - 从兼容 CUDA 到自我进化
- arXiv:2606.04847