科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

摩尔线程正式开源 MT-MegatronLM 和 MT-TransformerEngine 两大AI框架

2025-03-18 16:31:39 来源:IT之家 A+A-

3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。

据介绍,MT-MegatronLM 是面向全功能 GPU 的开源混合并行训练框架,支持 dense 模型、多模态模型及 MoE(混合专家)模型的高效训练;MT-TransformerEngine 主要用于 Transformer 模型的训练与推理优化,通过算子融合、并行加速策略等技术,释放摩尔线程全功能 GPU 高密度计算的潜力和 memory bound 算子效率。两大框架的技术突破体现在硬件适配与算法创新的深度协同:

  • 混合并行训练:支持 Dense、多模态及 MoE 模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;

  • FP8 混合训练策略:结合摩尔线程 GPU 原生支持的 FP8 混合精度训练策略,能够有效提升训练效率;

  • 高性能算子库:通过高性能算子库 muDNN 与通信库 MCCL 的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源 Simumax 库,可自动进行并行策略搜索,并针对不同模型和加速环境 spec 最大化并行训练性能;

  • 异常训练处理:框架内置的 rewind 异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;

  • 完整的兼容性:两个框架兼容 GPU 主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的 AI 技术栈提供了底层支撑。

实际应用效果如下:

  • 高效训练:在全功能 GPU 集群上,Llama3 8B 模型的训练任务,可以利用 FP8 在 loss 几乎无损的情况下 MFU 达到 90% 以上;(如下图所示)

▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速
  • 复现 DeepSeek 满血版训练:摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支持,MT-DualPipe 可以完整接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功实现 DeepSeek V3 训练流程的完整复现,支持 MLA、MTP 及多种专家平衡策略;

  • 性能大幅优化:通过多种 Transformer 算子融合技术,显著提升了内存带宽利用率,有效缓解 memory bound 瓶颈,进一步释放国产 GPU 的硬件潜力。

摩尔线程官方表示将持续优化 MT-MegatronLM 与 MT-TransformerEngine 框架,并引入系列功能,具体如下:

  • Dual Pipe / ZeroBubble 并行策略:进一步降低气泡率,提升并行训练效率;

  • 多种 FP8 优化策略:独创的 FP8 优化策略,提高训练的性能和稳定性;

  • 异步 checkpoint 策略:提高训练过程中的容错能力和效率;

  • 优化后的重计算策略:减少计算和显存开销,提高训练速度;

  • 容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;

  • 集成摩尔线程 FlashMLA 和 DeepGemm 库:进一步释放摩尔线程 GPU 的算力和 FP8 计算能力,提升计算性能和效率。

附开源地址如下:

  • MT-MegatronLM 开源地址:https://github.com/MooreThreads/MT-MegatronLM

  • MT-TransformerEngine 开源地址:https://github.com/MooreThreads/MT-TransformerEngine

  • 摩尔线程 Simumax 开源地址:https://github.com/MooreThreads/SimuMax

(责任编辑:Diy92)

推荐阅读 相关文章

豆包上线视频通话功能:支持实时问答互动,具备视觉理解能力

5月23日消息,从豆包公众号获悉,豆包今日宣布在 App 端上线实时视频通话功能,用户在“...[详细]

2025-05-25 10:51:15

今年前4月我国智能家居类消费品新增3万种,同比增长1985.5%

5月23日消息,市场监管总局今日发布统计数据,今年1—4月,我国消费品新增809.8万种,同比...[详细]

2025-05-25 10:51:15

联想展出国内首个轮胎 AI 质检智能体方案,效率较人工提升1.5倍

5月23日消息,据联想官方今日消息,在上周的2025中国国际橡胶轮胎暨汽车配件展览会上,...[详细]

2025-05-25 10:51:15

京东内部的智能体数量已超1.4万个,JoyAgent2.0发布

5月23日消息,京东云城市大会于5月20日在上海举行,京东云发布 JoyAgent 智能体2.0。...[详细]

2025-05-25 10:51:15

0.103秒!全球最快魔方机器人问世,解魔方比眨眼还快

5月23日消息,科技媒体 scitechdaily 昨日发布博文,报道称来自普渡大学的工程团队研...[详细]

2025-05-25 10:51:15

据称 Meta公司正计划投资Scale AI,价值预计超过100亿美元

6月8日消息,彭博社今日报道称,Meta 正在就投资 AI 初创公司 Scale AI 进行谈判,这笔...[详细]

2025-06-10 07:22:44

“氪星科技中国造”:DC《超人》电影角色“机器人4号”搭载脉塔智能关节模组

6月8日消息,DC 电影官方微博上月发文宣布,DC 影业首部大银幕作品《超人》内地定档 7...[详细]

2025-06-10 07:22:44

首月仅需1美元,ChatGPT Team 会员美/英/欧/澳迎优惠

6月8日消息,ChatGPT Team订阅现已在美区/英区/欧洲区/澳洲区迎来限时优惠,任何 IP ...[详细]

2025-06-10 07:22:44

ChatGPT 高级语音模式再次升级:更有“人情味”,新增加多国语言翻译功能

6月8日消息,ChatGPT 针对其付费用户升级了其高级语音模式,此次更新在语音语调、自然...[详细]

2025-06-10 07:22:44

英国法院警告:律师若引用虚假的 AI 获取内容,不排除面临严厉处罚的可能性

6月8日消息,英格兰和威尔士高等法院表示,律师需要采取更有力的措施,防止在工作中滥用...[详细]

2025-06-10 07:22:44

联系方式