MegaDLMs

Jan 19 2026

GitHub: https://github.com/JinjieNi/MegaDLMs

⭐ 星星數： 317

摘要： 這是一個GPU優化的框架，專門用於訓練任意規模的擴散語言模型，是Quokka、Super Data Learners和OpenMoE 2訓練的後端系統。

技術堆疊： PyTorch, Flash Attention, NVIDIA CUDA, ONNX, Lightning Thunder, Apex, NVIDIA DALI, NVIDIA Model Optimization

架構： 基於Megatron-LM架構擴展，包含分散式訓練檢查點、資料集管理（特別是Retro檢索增強）、模型最佳化工具。目錄結構顯示核心模組化設計，支援大規模分散式訓練和模型匯出功能。