突破摩尔线程:原生FP8计算助力DeepSeek FlashMLA高效适配

2025-02-27 12:13:22 来源: 大科技网 点击数:

摩尔线程的MUSA Compute Capability 3.1计算架构,以其独到的FP8计算天赋和升级版的MUTLASS高性能线性代数库,不仅迅速融入了FlashMLA技术,还在GPU架构上对FP8矩阵乘法进行了深度优化。这一系列动作,不仅展示了摩尔线程在生态兼容和快速适配方面的强大实力,还为AI计算领域带来了新的活力。

自从DeepSeek启动了“开源周”,三个代码库已经陆续对外开源。摩尔线程的MUSA架构以其原生FP8计算能力和对FlashMLA的快速支持,成为了开源社区的亮点。

FlashMLA,一个高效的MLA推理内核,专为DeepSeek系列模型设计。而DeepGEMM,一个FP8 GEMM库,为V3/R1的训练与推理提供了强大的支持。这两个开源仓库均基于GEMM的C++模板库开发,代表了摩尔线程在矩阵运算领域的深入探索。

摩尔线程的全功能GPU,基于MUSA Compute Capability 3.1,拥有全新的Tensor计算引擎和数据搬运引擎,能够提供原生FP8计算能力。MUTLASS库的优化,使得FP8计算不仅精度高,而且无需二次精度修正,为前沿算法的探索提供了坚实的基础。

摩尔线程通过MUTLASS 0.2.0发布了MT-FlashMLA开源仓库,对DeepSeek FlashMLA实现了快速兼容部署。这一举措不仅展示了摩尔线程对开源生态的重视,也体现了其在GPU计算领域的创新能力。

摩尔线程,作为国内率先支持FP8计算精度的GPU企业,正迅速响应DeepSeek的开源项目,旨在为GPU开发者赋能,推动开源生态的发展,加速国产GPU在AI计算领域的规模化应用。

关键字:摩尔线程DeepSeekFlashMLA开源

责任编辑:Brick
Copyright © Science and Technology Daily, All Rights Reserved
科技日记 版权所有