Alibaba Tongyi Lab пуска голям проект за реч с отворен код FunAudioLLM

172
Alibaba Tongyi Lab наскоро пусна големия проект за глас с отворен код FunAudioLLM, който включва два модела: SenseVoice и CosyVoice. SenseVoice се фокусира върху високо прецизно разпознаване на много езици, разпознаване на емоции и откриване на аудио събития. Той поддържа разпознаване на повече от 50 езика и е по-добър от модела Whisper. CosyVoice се фокусира върху генерирането на естествена реч и поддържа множество езици, тембър и контрол на емоциите.