Alibaba Tongyi Lab lanza proyecto de modelo grande de discurso de código abierto FunAudioLLM-Redplanx

Alibaba Tongyi Lab lanzó recientemente el proyecto de modelo grande de voz de código abierto FunAudioLLM, que incluye dos modelos: SenseVoice y CosyVoice. SenseVoice se centra en el reconocimiento de voz en varios idiomas, el reconocimiento de emociones y la detección de eventos de audio de alta precisión. Admite el reconocimiento de más de 50 idiomas y es mejor que el modelo Whisper. CosyVoice se centra en la generación natural del habla y admite múltiples idiomas, control de timbre y emociones.