Alibaba Tongyi Lab objavljuje projekt velikog govornog modela otvorenog koda FunAudioLLM-Redplanx

Alibaba Tongyi Lab nedavno je objavio projekt velikog modela glasa otvorenog koda FunAudioLLM, koji uključuje dva modela: SenseVoice i CosyVoice. SenseVoice se fokusira na visokoprecizno višejezično prepoznavanje govora, prepoznavanje emocija i otkrivanje audio događaja. Podržava prepoznavanje više od 50 jezika i bolji je od modela Whisper. CosyVoice se fokusira na generiranje prirodnog govora i podržava kontrolu više jezika, zvuka i emocija.