Step-Audio

Step-Audio

GitHub: https://github.com/stepfun-ai/Step-Audio

⭐ 星星數: 4608

摘要: 這是一個基於深度學習的音訊處理工具包,整合了語音合成、語音辨識和音訊生成等多種AI音訊模型。

技術堆疊: PyTorch, Transformers, Diffusers, Gradio, FunASR, Whisper, ONNX Runtime

架構: 專案採用模組化設計,包含cosyvoice(語音合成)、funasr_detach(語音辨識)等核心模組,使用Gradio提供Web介面,支援多種音訊AI模型整合與推理。