Step-Audio
Step-Audio
GitHub: https://github.com/stepfun-ai/Step-Audio
⭐ 星星數: 4608
摘要: 這是一個基於深度學習的音訊處理工具包,整合了語音合成、語音辨識和音訊生成等多種AI音訊模型。
技術堆疊: PyTorch, Transformers, Diffusers, Gradio, FunASR, Whisper, ONNX Runtime
架構: 專案採用模組化設計,包含cosyvoice(語音合成)、funasr_detach(語音辨識)等核心模組,使用Gradio提供Web介面,支援多種音訊AI模型整合與推理。