Alibaba Tongyi Lab udostępnia duży projekt modelowy mowy o otwartym kodzie źródłowym FunAudioLLM-Redplanx

Alibaba Tongyi Lab wydało niedawno duży projekt modelu głosu o otwartym kodzie źródłowym FunAudioLLM, który obejmuje dwa modele: SenseVoice i CosyVoice. SenseVoice koncentruje się na precyzyjnym wielojęzycznym rozpoznawaniu mowy, rozpoznawaniu emocji i wykrywaniu zdarzeń dźwiękowych. Obsługuje rozpoznawanie ponad 50 języków i jest lepszy niż model Whisper. CosyVoice koncentruje się na generowaniu naturalnej mowy i obsługuje wiele języków, kontrolę barwy i emocji.