SDPO
SDPO
GitHub: https://github.com/lasgroup/SDPO
⭐ 星星數: 228
摘要: 這是一個基於自我蒸餾的強化學習框架,專門用於大型語言模型的訓練與優化。
技術堆疊: PyTorch, Transformers, Accelerate, Ray, PEFT, FastAPI, WandB
架構: 專案採用模組化設計,包含資料處理、模型訓練、基準測試和部署工具。依賴顯示支援分散式訓練(Ray)、參數高效微調(PEFT)和實驗追蹤(WandB),並提供多種Docker環境以適應不同硬體配置。