Alibaba Tongyi Lab پروژه مدل بزرگ گفتار منبع باز FunAudioLLM را منتشر کرد

172
Alibaba Tongyi Lab اخیراً پروژه مدل بزرگ صدای منبع باز FunAudioLLM را منتشر کرده است که شامل دو مدل SenseVoice و CosyVoice است. SenseVoice بر روی تشخیص گفتار چند زبانه با دقت بالا، تشخیص احساسات و تشخیص رویدادهای صوتی تمرکز دارد و از مدل Whisper بهتر است. CosyVoice بر تولید گفتار طبیعی تمرکز دارد و از چندین زبان، کنترل صدا و احساسات پشتیبانی می کند.