DeepSeek放大招?开源Flash MLA,速度狂飙3000 GB/s,太猛了!

关注我们的 WhatsApp 频道, TikTokInstagram 以观看最新的短视频 - 开箱,测评与第一手新闻资讯。

DeepSeek宣布启动 “开源周”,并率先开源Flash MLA代码库。这款为Hopper GPU优化的高效MLA解码内核,专门用于处理可变长度序列,已在实际生产中投入使用。

值得注意的是,Flash MLA在GitHub上已获得超过1700个star和62个fork,受到开发者社区的广泛关注。作为DeepSeek V2-V3系列大模型的重要技术创新,MLA主要用于减少推理过程中的KV Cache,从而有效降低推理成本。

Flash MLA针对Hopper GPU进行了深度优化,目前发布的版本包括BF16和块大小为64的分页KV Cache。在基准测试中,该解码内核在NVIDIA H800 SXM5 GPU上展现出惊人的性能表现,内存速度高达3000 GB/s,计算上限达到580 TFLOPS,大幅提升了计算效率和推理速度。

DeepSeek表示,此次开源Flash MLA的目的是鼓励开发者参与,共同推动技术进步。通过开源,开发者可以深入研究Flash MLA的实现原理,并在此基础上进行改进和创新。

据了解,DeepSeek在2月21日就已预告 “开源周” 计划,并计划陆续开源5个代码库。在这一周内,DeepSeek每天都会解锁新内容,向全球开发者分享最新的技术进展,持续带来惊喜。

更多科技资讯,继续留守TechNave中文版!
资料来源

大家来评论

DeepSeek放大招?开源Flash MLA,速度狂飙3000 GB/s,太猛了!