WeDLM

Jan 19 2026

WeDLM

GitHub: https://github.com/Tencent/WeDLM

⭐ 星星數： 572

摘要： 這是一個基於擴散模型的快速語言模型，通過重新排序因果注意力機制實現高效推理，並兼容標準KV緩存，提供比vLLM更快的推理速度。

技術堆疊： PyTorch, Transformers, Flash-Attention, Triton, Flask, Safetensors, HuggingFace Hub

架構： 專案採用模組化設計，核心包含模型層(wedlm/models)、引擎層(wedlm/engine)和工具層(wedlm/utils)。支援HuggingFace兼容接口(hf_compat)和微調功能(finetune)，並提供完整的評估框架(evaluation)。依賴Flash-Attention和Triton進行GPU優化。