Alibaba Tongyi Lab vydáva open source rečový veľký modelový projekt FunAudioLLM-Redplanx

Alibaba Tongyi Lab nedávno vydala open source projekt veľkého modelu hlasu FunAudioLLM, ktorý zahŕňa dva modely: SenseVoice a CosyVoice. SenseVoice sa zameriava na vysoko presné viacjazyčné rozpoznávanie reči, rozpoznávanie emócií a detekciu zvukových udalostí. Podporuje rozpoznávanie viac ako 50 jazykov a je lepšie ako model Whisper. CosyVoice sa zameriava na prirodzenú tvorbu reči a podporuje viacero jazykov, zafarbenie a ovládanie emócií.