Alibaba Tongyi Lab、オープンソース音声大規模モデルプロジェクト FunAudioLLM をリリース-Redplanx

Alibaba Tongyi Lab は最近、オープンソースの音声大規模モデルプロジェクト FunAudioLLM をリリースしました。これには、SenseVoice と CosyVoice の 2 つのモデルが含まれています。 SenseVoice は、高精度の多言語音声認識、感情認識、音声イベント検出に重点を置いており、50 以上の言語認識をサポートしており、Whisper モデルよりも優れています。 CosyVoice は自然な音声生成に焦点を当てており、複数の言語、音色、感情制御をサポートしています。