diffrhythm2

Jan 19 2026

GitHub: https://github.com/xiaomi-research/diffrhythm2

⭐ 星星數： 105

摘要： 這是一個基於擴散模型和神經網絡的音樂生成或節奏處理系統，專注於語音合成或音樂生成任務。

技術堆疊： PyTorch, Transformers, Librosa, ONNX, TorchDiffEq, BigVGAN

架構： 專案採用模組化設計，包含diffrhythm2核心模型、bigvgan語音合成組件、g2p文字轉音素處理層，以及示例目錄，顯示出完整的音頻生成流水線架構。