Alibaba Tongyi Lab vydává velký modelový projekt řeči FunAudioLLM s otevřeným zdrojovým kódem-Redplanx

Alibaba Tongyi Lab nedávno vydala open source projekt velkého modelu hlasu FunAudioLLM, který zahrnuje dva modely: SenseVoice a CosyVoice. SenseVoice se zaměřuje na vysoce přesné vícejazyčné rozpoznávání řeči, rozpoznávání emocí a detekci zvukových událostí. Podporuje rozpoznávání více než 50 jazyků a je lepší než model Whisper. CosyVoice se zaměřuje na generování přirozené řeči a podporuje více jazyků, zabarvení a ovládání emocí.