WeDLM
WeDLM
GitHub: https://github.com/Tencent/WeDLM
⭐ 星星數: 572
摘要: 這是一個基於擴散模型的快速語言模型,通過重新排序因果注意力機制實現高效推理,並兼容標準KV緩存,提供比vLLM更快的推理速度。
技術堆疊: PyTorch, Transformers, Flash-Attention, Triton, Flask, Safetensors, HuggingFace Hub
架構: 專案採用模組化設計,核心包含模型層(wedlm/models)、引擎層(wedlm/engine)和工具層(wedlm/utils)。支援HuggingFace兼容接口(hf_compat)和微調功能(finetune),並提供完整的評估框架(evaluation)。依賴Flash-Attention和Triton進行GPU優化。