vllm

vllm

GitHub: https://github.com/hyoon1/vllm

⭐ 星星數: 2

摘要: 這是一個針對大型語言模型的高吞吐量、記憶體高效能推理與服務引擎,專注於優化LLM的推論效能。

技術堆疊: Python, PyTorch, CUDA, CMake, Ninja, setuptools

架構: 專案採用C++/CUDA核心擴展架構,包含csrc目錄用於高效能核心實現,使用CMake建置系統,支援GPU加速推理,顯示其專注於底層效能優化的設計理念。