文章来源:放心AI网发布时间:2025-04-21 12:50:01
DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。
FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。
该项目已经过生产环境验证,展现出优异的稳定性。开发团队表示,FlashMLA的设计借鉴了FlashAttention23和cutlass等项目的优秀经验,并在此基础上实现了创新突破。
开发者可通过简单的安装命令快速部署FlashMLA:只需执行"python setup.py install"即可完成安装,随后可运行测试脚本"python tests/test_flash_mla.py"体验其性能。
开源地址:https://github.com/deepseek-ai/FlashMLA
相关攻略 更多
最新资讯 更多
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06
商汤日日新融合大模型交互版开放商用实时音视频对话限时免费
更新时间:2025-05-06