Step-Audio-EditX
Step-Audio-EditX
GitHub: https://github.com/stepfun-ai/Step-Audio-EditX
⭐ 星星數: 857
摘要: 這是一個基於30億參數大型語言模型的強化學習音訊編輯模型,專精於情感、說話風格和副語言特徵的編輯,並具備強大的零樣本文字轉語音功能。
技術堆疊: PyTorch, Transformers, Gradio, FunASR, Whisper, Diffusers, DeepSpeed, vLLM, ONNX Runtime
架構: 專案採用模組化設計,包含訓練配置、模型架構、資料處理和前端介面。核心依賴深度學習框架PyTorch和強化學習庫TRL,並整合多個音訊處理工具如FunASR和Whisper進行語音辨識與合成。