flash-attention

Jan 19 2026

GitHub: https://github.com/ROCm/flash-attention

⭐ 星星數： 208

摘要： 這是一個高效能且記憶體優化的精確注意力機制實現，專為AMD ROCm平台設計的Transformer注意力加速庫。

技術堆疊： Python, PyTorch, ROCm, CUDA, C++, HIP, Triton

架構： 專案採用C++/CUDA/HIP擴展核心，包含多層次模組化設計：核心注意力算法、融合密集層、層歸一化等，支援AMD和NVIDIA GPU硬體加速，並提供完整的模型實現範例。