Baichuan Intelligent rilascia una nuova strategia per l'ottimizzazione dell'efficienza dei trasformatori

74
Wang Bingning, responsabile della pre-formazione presso Baichuan Intelligence, ha condiviso gli ultimi risultati della ricerca sull'ottimizzazione dell'efficienza dei trasformatori alla "Conferenza globale sulla tecnologia di apprendimento automatico del 2024". Ha proposto che implementando due strategie di ottimizzazione, GQA e MQA, il problema del collo di bottiglia I/O di Transformer nella fase di decodifica possa essere risolto efficacemente, migliorando così l'efficienza dell'inferenza.