vllm
vllm
GitHub: https://github.com/hyoon1/vllm
⭐ 星星數: 2
摘要: 這是一個針對大型語言模型的高吞吐量、記憶體高效能推理與服務引擎,專注於優化LLM的推論效能。
技術堆疊: Python, PyTorch, CUDA, CMake, Ninja, setuptools
架構: 專案採用C++/CUDA核心擴展架構,包含csrc目錄用於高效能核心實現,使用CMake建置系統,支援GPU加速推理,顯示其專注於底層效能優化的設計理念。
GitHub: https://github.com/hyoon1/vllm
⭐ 星星數: 2
摘要: 這是一個針對大型語言模型的高吞吐量、記憶體高效能推理與服務引擎,專注於優化LLM的推論效能。
技術堆疊: Python, PyTorch, CUDA, CMake, Ninja, setuptools
架構: 專案採用C++/CUDA核心擴展架構,包含csrc目錄用於高效能核心實現,使用CMake建置系統,支援GPU加速推理,顯示其專注於底層效能優化的設計理念。