dia2

dia2

GitHub: https://github.com/nari-labs/dia2

⭐ 星星數: 1017

摘要: 這是一個基於CUDA的即時流式對話語音合成模型,能夠生成高品質的對話音訊。

技術堆疊: PyTorch, Transformers, Hugging Face Hub, Gradio, NumPy, SafeTensors, SoundFile, Whisper-timestamped

架構: 專案採用模組化設計,包含核心模型處理、音訊處理和運行時管理三個主要模組,使用PyTorch進行GPU加速推理,並提供Gradio介面進行互動演示。