Alibaba Tongyi Lab julkaisee avoimen lähdekoodin puheen suuren malliprojektin FunAudioLLM

172
Alibaba Tongyi Lab julkaisi hiljattain avoimen lähdekoodin äänimalliprojektin FunAudioLLM, joka sisältää kaksi mallia: SenseVoice ja CosyVoice. SenseVoice keskittyy erittäin tarkkaan monikieliseen puheentunnistukseen, tunteiden tunnistukseen ja äänitapahtumien tunnistukseen. Se tukee yli 50 kielen tunnistusta ja on parempi kuin Whisper-malli. CosyVoice keskittyy luonnolliseen puheentuotantoon ja tukee useita kieliä, sointia ja tunteiden hallintaa.