Name	Name	Last commit message	Last commit date
Latest commit History 21 Commits
benchmark	benchmark
csrc	csrc
flash_mla	flash_mla
tests	tests
.gitignore	.gitignore
LICENSE	LICENSE
README.md	README.md
build_flashmla.sh	build_flashmla.sh
clean_flashmla.sh	clean_flashmla.sh
install_flashmla.sh	install_flashmla.sh
setup.py	setup.py

Name

Last commit message

Last commit date

21 Commits

FlashMLA on Iluvatar CoreX

Here is the implementation of FlashMLA base on Iluvatar Corex Toolkit and Iluvatar Corex chips.

Quick start

Install

bash clean_flashmla.sh
bash build_flashmla.sh
bash install_flashmla.sh

Benchmark

python tests/test_flash_mla.py

Usage

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

Requirements

Iluvatar CoreX GPUs
Iluvatar CoreX Toolkit
PyTorch 2.0 and above

Acknowledgement

FlashMLA is inspired by FlashAttention 2&3 and cutlass projects.

Citation

@misc{flashmla2025,
      title={FlashMLA: Efficient MLA decoding kernels},
      author={Jiashi Li},
      year={2025},
      publisher = {GitHub},
      howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

FlashMLA on Iluvatar CoreX

Quick start

Install

Benchmark

Usage

Requirements

Acknowledgement

Citation

About

Uh oh!

Releases

Packages

Languages

License

Deep-Spark/FlashMLA

Folders and files

Latest commit

History

Repository files navigation

FlashMLA on Iluvatar CoreX

Quick start

Install

Benchmark

Usage

Requirements

Acknowledgement

Citation

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages