flash-attention
flash-attention
GitHub: https://github.com/ROCm/flash-attention
⭐ 星星數: 208
摘要: 這是一個高效能且記憶體優化的精確注意力機制實現,專為AMD ROCm平台設計的Transformer注意力加速庫。
技術堆疊: Python, PyTorch, ROCm, CUDA, C++, HIP, Triton
架構: 專案採用C++/CUDA/HIP擴展核心,包含多層次模組化設計:核心注意力算法、融合密集層、層歸一化等,支援AMD和NVIDIA GPU硬體加速,並提供完整的模型實現範例。