Alibaba Tongyi Lab lanza proyecto de modelo grande de discurso de código abierto FunAudioLLM

172
Alibaba Tongyi Lab lanzó recientemente el proyecto de modelo grande de voz de código abierto FunAudioLLM, que incluye dos modelos: SenseVoice y CosyVoice. SenseVoice se centra en el reconocimiento de voz en varios idiomas, el reconocimiento de emociones y la detección de eventos de audio de alta precisión. Admite el reconocimiento de más de 50 idiomas y es mejor que el modelo Whisper. CosyVoice se centra en la generación natural del habla y admite múltiples idiomas, control de timbre y emociones.