Step-Audio-EditX

Jan 19 2026

GitHub: https://github.com/stepfun-ai/Step-Audio-EditX

⭐ 星星數： 857

摘要： 這是一個基於30億參數大型語言模型的強化學習音訊編輯模型，專精於情感、說話風格和副語言特徵的編輯，並具備強大的零樣本文字轉語音功能。

技術堆疊： PyTorch, Transformers, Gradio, FunASR, Whisper, Diffusers, DeepSpeed, vLLM, ONNX Runtime

架構： 專案採用模組化設計，包含訓練配置、模型架構、資料處理和前端介面。核心依賴深度學習框架PyTorch和強化學習庫TRL，並整合多個音訊處理工具如FunASR和Whisper進行語音辨識與合成。