vllm

Jan 19 2026

vllm

GitHub: https://github.com/vllm-project/vllm

⭐ 星星數： 67777

摘要： 這是一個針對大型語言模型的高吞吐量且記憶體效率優化的推理與服務引擎。

技術堆疊： Python, PyTorch, CUDA, ROCM, CMake, gRPC

架構： 專案使用C++/CUDA擴展進行高效能推理，包含建置系統與測試框架，支援多種硬體加速器，並採用模組化設計以實現記憶體最佳化。