NaViL

Jan 19 2026

GitHub: https://github.com/OpenGVLab/NaViL

⭐ 星星數： 88

摘要： 這是一個研究在數據限制下原生多模態大型語言模型縮放特性的專案，專注於視覺語言模型的訓練與評估。

技術堆疊： PyTorch, Transformers, DeepSpeed, Flash-Attention, HuggingFace, PEFT, Diffusers, OpenCV

架構： 專案採用模組化設計，包含多個預訓練模型架構（InternLM2、Qwen2-VL、Qwen3）的實作，並提供獨立的訓練模組。依賴項顯示其支援分散式訓練、量化技術和高效注意力機制。