Az Alibaba Tongyi Lab kiadja a nyílt forráskódú, nagyméretű beszédmodell projektet, a FunAudioLLM-et-Redplanx

Az Alibaba Tongyi Lab a közelmúltban kiadta a FunAudioLLM nyílt forráskódú hangmodell projektet, amely két modellt tartalmaz: SenseVoice és CosyVoice. A SenseVoice a nagy pontosságú többnyelvű beszédfelismerésre, az érzelemfelismerésre és az audioesemények felismerésére összpontosít. Több mint 50 nyelv felismerését támogatja, és jobb, mint a Whisper modell. A CosyVoice a természetes beszédgenerálásra összpontosít, és több nyelvet, hangszín- és érzelemvezérlést támogat.