Alibaba Tongyi Lab merilis proyek model besar pidato open source FunAudioLLM-Redplanx

Alibaba Tongyi Lab baru-baru ini merilis proyek model besar suara open source FunAudioLLM, yang mencakup dua model: SenseVoice dan CosyVoice. SenseVoice berfokus pada pengenalan ucapan multi-bahasa dengan presisi tinggi, pengenalan emosi, dan deteksi peristiwa audio. SenseVoice mendukung lebih dari 50 pengenalan bahasa dan lebih baik daripada model Whisper. CosyVoice berfokus pada generasi ucapan alami dan mendukung berbagai bahasa, timbre, dan kontrol emosi.