flash-attention

flash-attention

GitHub: https://github.com/ROCm/flash-attention

⭐ 星星數: 208

摘要: 這是一個高效能且記憶體優化的精確注意力機制實現,專為AMD ROCm平台設計的Transformer注意力加速庫。

技術堆疊: Python, PyTorch, ROCm, CUDA, C++, HIP, Triton

架構: 專案採用C++/CUDA/HIP擴展核心,包含多層次模組化設計:核心注意力算法、融合密集層、層歸一化等,支援AMD和NVIDIA GPU硬體加速,並提供完整的模型實現範例。