Phòng thí nghiệm Tongyi của Alibaba phát hành dự án mô hình lớn về bài phát biểu nguồn mở FunAudioLLM-Redplanx

Alibaba Tongyi Lab gần đây đã phát hành dự án mô hình lớn giọng nói nguồn mở FunAudioLLM, bao gồm hai mô hình: SenseVoice và CosyVoice. SenseVoice tập trung vào nhận dạng giọng nói đa ngôn ngữ có độ chính xác cao, nhận dạng cảm xúc và phát hiện sự kiện âm thanh. Nó hỗ trợ nhận dạng hơn 50 ngôn ngữ và tốt hơn mô hình Whisper. CosyVoice tập trung vào việc tạo giọng nói tự nhiên và hỗ trợ nhiều ngôn ngữ, âm sắc và kiểm soát cảm xúc.