FlashMLA
ストックにはログインが必要です
Hopper GPU上での高速LLM推論
Artificial Intelligence
GitHub
Open Source
Development
概要
FlashMLAは、DeepSeekから提供される新しいオープンソースプロジェクトで、NVIDIA Hopper GPU向けに設計された、高効率なMLAデコーディングカーネルです。
特徴
- 最適化: FlashMLAは、可変長シーケンスに特化しており、実世界でのサービスにおける速度と効率を追求しています。
- 性能: 最大3000 GB/sのメモリ帯域幅と580 TFLOPSの計算性能を実現しています。
技術的背景
FlashMLAは、LLMのデコーディング過程の重要な要素であるMLA(Multi-Layer Attention)における低レベルのコードコンポーネントとして機能します。このプロジェクトの背景には、限られたリソースで強力な結果を出すDeepSeekの技術的秘密が隠されているかもしれません。これにより、リソースが無限にある企業に対抗可能な速度を実現しています。
投票数: 6