Alibaba Tongyi Lab выпускает проект большой модели речи с открытым исходным кодом FunAudioLLM-Redplanx

Alibaba Tongyi Lab недавно выпустила проект большой голосовой модели с открытым исходным кодом FunAudioLLM, который включает в себя две модели: SenseVoice и CosyVoice. SenseVoice ориентирован на высокоточное многоязычное распознавание речи, распознавание эмоций и обнаружение аудиособытий. Он поддерживает распознавание более 50 языков и превосходит модель Whisper. CosyVoice фокусируется на генерации естественной речи и поддерживает несколько языков, тембр и контроль эмоций.