FlashMLA

Efficient MLA decoding kernel for Hopper GPUs

FlashMLA is DeepSeek's open-source GPU kernel/software tool for efficient Multi-Head Latent Attention (MLA) decoding, aimed at Hopper GPUs and LLM inference workloads.

Recent stories

0 linked stories

No linked stories yet.