WeDLM

WeDLM

GitHub: https://github.com/Tencent/WeDLM

⭐ 星星數: 572

摘要: 這是一個基於擴散模型的快速語言模型,通過重新排序因果注意力機制實現高效推理,並兼容標準KV緩存,提供比vLLM更快的推理速度。

技術堆疊: PyTorch, Transformers, Flash-Attention, Triton, Flask, Safetensors, HuggingFace Hub

架構: 專案採用模組化設計,核心包含模型層(wedlm/models)、引擎層(wedlm/engine)和工具層(wedlm/utils)。支援HuggingFace兼容接口(hf_compat)和微調功能(finetune),並提供完整的評估框架(evaluation)。依賴Flash-Attention和Triton進行GPU優化。