Baichuan Intelligent veröffentlicht neue Strategie zur Optimierung der Transformatoreffizienz

74
Wang Bingning, Leiter der Vorschulung bei Baichuan Intelligence, stellte auf der „2024 Global Machine Learning Technology Conference“ die neuesten Forschungsergebnisse zur Effizienzoptimierung von Transformatoren vor. Er schlug vor, dass durch die Implementierung von zwei Optimierungsstrategien, GQA und MQA, das I/O-Engpassproblem von Transformer in der Decodierungsphase effektiv gelöst werden kann, wodurch die Inferenzeffizienz verbessert wird.