VibeVoice

VibeVoice

GitHub: https://github.com/microsoft/VibeVoice

⭐ 星星數: 20390

摘要: 這是一個由微軟開源的語音生成AI模型,採用自回歸加擴散模型的混合架構,能夠生成高品質的語音。

技術堆疊: PyTorch, Transformers, Diffusers, FastAPI, Gradio, aiortc, Librosa

架構: 專案採用模組化設計,包含配置、處理器、排程等核心模組,並提供網頁演示介面。技術架構結合深度學習框架與即時串流技術,支援語音生成與互動式演示。