Baichuan Intelligent verëffentlecht nei Strategie fir Transformer Effizienz Optimiséierung

74
De Wang Bingning, Chef vum Pre-Training bei Baichuan Intelligence, huet déi lescht Fuerschungsresultater iwwer Transformer Effizienzoptiméierung op der "2024 Global Machine Learning Technology Conference" gedeelt. Hien huet proposéiert datt duerch d'Ëmsetzung vun zwou Optimisatiounsstrategien, GQA a MQA, den I/O Flaschenhalsproblem vum Transformer an der Dekodéierungsstadium effektiv geléist ka ginn, an doduerch d'Inferenzeffizienz verbessert.