百川智能发布Transformer效率优化新策略

2024-11-28 15:41
 74
百川智能的预训练负责人王炳宁在“2024全球机器学习技术大会”上,分享了关于Transformer效率优化的最新研究成果。他提出,通过实施GQA和MQA两种优化策略,可以有效解决Transformer在解码阶段的I/O瓶颈问题,从而提升推理效率。