Step-Audio

Feb 4 2026

GitHub: https://github.com/stepfun-ai/Step-Audio

⭐ 星星數： 4608

摘要： 這是一個基於深度學習的音訊處理工具包，整合了語音合成、語音辨識和音訊生成等多種AI音訊模型。

技術堆疊： PyTorch, Transformers, Diffusers, Gradio, FunASR, Whisper, ONNX Runtime

架構： 專案採用模組化設計，包含cosyvoice（語音合成）、funasr_detach（語音辨識）等核心模組，使用Gradio提供Web介面，支援多種音訊AI模型整合與推理。