vllm

Jan 19 2026

GitHub: https://github.com/hyoon1/vllm

⭐ 星星數： 2

摘要： 這是一個針對大型語言模型的高吞吐量、記憶體高效能推理與服務引擎，專注於優化LLM的推論效能。

技術堆疊： Python, PyTorch, CUDA, CMake, Ninja, setuptools

架構： 專案採用C++/CUDA核心擴展架構，包含csrc目錄用於高效能核心實現，使用CMake建置系統，支援GPU加速推理，顯示其專注於底層效能優化的設計理念。