Baichuan Intelligent, 변압기 효율 최적화를 위한 새로운 전략 출시

74
Baichuan Intelligence의 사전 교육 책임자인 Wang Bingning은 '2024 글로벌 머신러닝 기술 컨퍼런스'에서 변압기 효율성 최적화에 대한 최신 연구 결과를 공유했습니다. 그는 GQA와 MQA라는 두 가지 최적화 전략을 구현함으로써 디코딩 단계에서 Transformer의 I/O 병목 현상 문제를 효과적으로 해결하여 추론 효율성을 향상시킬 수 있다고 제안했습니다.