SDPO

Feb 4 2026

GitHub: https://github.com/lasgroup/SDPO

⭐ 星星數： 228

摘要： 這是一個基於自我蒸餾的強化學習框架，專門用於大型語言模型的訓練與優化。

技術堆疊： PyTorch, Transformers, Accelerate, Ray, PEFT, FastAPI, WandB

架構： 專案採用模組化設計，包含資料處理、模型訓練、基準測試和部署工具。依賴顯示支援分散式訓練（Ray）、參數高效微調（PEFT）和實驗追蹤（WandB），並提供多種Docker環境以適應不同硬體配置。