当前位置：首页>东莞>ISCA获奖研究:港科大(广州)黄嘉逸团队提出Chimera,突破LLM混合并行通信瓶颈

ISCA获奖研究:港科大(广州)黄嘉逸团队提出Chimera,突破LLM混合并行通信瓶颈

2026-05-02 23:02:39

关注ACM，掌握最新计算机前沿

ACM获奖研究

大语言模型（LLM）依赖多NPU混合并行来突破内存限制，但由此引发的频繁通信已成为关键瓶颈。

香港科技大学（广州）团队的研究“Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models”提出了Chimera通信融合机制，通过智能消除混合并行中的通信冗余，实现了显著加速。

这篇研究发表在ISCA'25中并荣获Best Artifact！

论文信息

Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models

作者：Le Qin, Junwei Cui, Weilin Cai, Jiayi Huang（香港科技大学（广州））

论文摘要

随着大语言模型参数量与计算需求的激增，单一计算设备已无法满足其训练与推理需求。为此，业界普遍采用混合并行化策略，结合数据并行、张量并行、序列并行、流水线并行、专家并行等多种模式，以分布式方式部署模型。然而，不同并行模式之间的切换会引入大量集合通信操作，这些通信往往存在数据冗余，严重制约系统整体效率。

为系统解决这一挑战，研究团队提出 Chimera——一种面向大语言模型混合并行化的通信融合框架。Chimera 首先对主流并行模式中的通信过程进行建模与分析，识别出相邻并行模式切换时因输出同步而产生的数据冗余。在此基础上，通过算子重排将相邻通信操作调整为可融合状态，进而将其替换为单一、无冗余的融合通信算子，从而在不改变语义的前提下显著降低通信量。

实验表明，Chimera 不仅适用于各种常见混合并行组合，还能与现有算子融合、流水线调度等优化方法协同工作，进一步提升系统性能。Chimera的完整实现和评估框架已开源：

https://github.com/redbird-arch/isca2025-chimera-artifact。

图片说明：Chimera中通信融合机制与其他已有技术的区别

阅读原文

doi.org/10.1145/3695053.3731025

作者评论

Chimera 首次揭示并系统论证了大规模混合并行训练中由模块化堆叠导致的结构性通信冗余这一根本问题，验证了通过计算图变换（重排与融合）直接消除冗余数据移动的可行性。实验证明，该方法在多种并行组合与网络环境下，能实现显著的通信加速与端到端性能提升，突破了传统优化方法仅围绕既定通信模式进行算子调度或传算重叠的局限。

论文提出的通信融合方法论与基本算子抽象，为未来分布式机器学习系统的通信层设计提供了全新的优化方向与核心洞察，可被广泛借鉴至编译器、运行时及新兴硬件协同设计等领域，推动系统优化范式从“以原语为中心的性能调优”迈向“以通信为中心的整体优化”的新阶段。

作者简介

第一作者

秦乐，香港科技大学(广州)微电子学域博士研究生，导师为黄嘉逸教授。他的研究方向为互连网络，以及机器学习系统中的通信优化。

通讯作者

黄嘉逸，香港科技大学（广州）微电子学域助理教授。此前曾任阿里巴巴达摩院计算技术科学家，并在美国加州圣塔芭芭拉分校从事博士后工作。分别于浙江大学和美国德州农工大学获得学士和博士学位。研究工作主要发表于ISCA、MICRO、ASPLOS、HPCA和IEEE TC等计算机体系结构顶级会议和期刊，研究方向为计算机体系结构、互连网络和机器学习系统。