diffrhythm2

diffrhythm2

GitHub: https://github.com/xiaomi-research/diffrhythm2

⭐ 星星數: 105

摘要: 這是一個基於擴散模型和神經網絡的音樂生成或節奏處理系統,專注於語音合成或音樂生成任務。

技術堆疊: PyTorch, Transformers, Librosa, ONNX, TorchDiffEq, BigVGAN

架構: 專案採用模組化設計,包含diffrhythm2核心模型、bigvgan語音合成組件、g2p文字轉音素處理層,以及示例目錄,顯示出完整的音頻生成流水線架構。