MegaDLMs
MegaDLMs
GitHub: https://github.com/JinjieNi/MegaDLMs
⭐ 星星數: 317
摘要: 這是一個GPU優化的框架,專門用於訓練任意規模的擴散語言模型,是Quokka、Super Data Learners和OpenMoE 2訓練的後端系統。
技術堆疊: PyTorch, Flash Attention, NVIDIA CUDA, ONNX, Lightning Thunder, Apex, NVIDIA DALI, NVIDIA Model Optimization
架構: 基於Megatron-LM架構擴展,包含分散式訓練檢查點、資料集管理(特別是Retro檢索增強)、模型最佳化工具。目錄結構顯示核心模組化設計,支援大規模分散式訓練和模型匯出功能。