随着大语言模型参数量与计算需求的激增,单一计算设备已无法满足其训练与推理需求。为此,业界普遍采用混合并行化策略,结合数据并行、张量并行、序列并行、流水线并行、专家并行等多种模式,以分布式方式部署模型。然而,不同并行模式之间的切换会引入大量集合通信操作,这些通信往往存在数据冗余,严重制约系统整体效率。
为系统解决这一挑战,研究团队提出 Chimera——一种面向大语言模型混合并行化的通信融合框架。Chimera 首先对主流并行模式中的通信过程进行建模与分析,识别出相邻并行模式切换时因输出同步而产生的数据冗余。在此基础上,通过算子重排将相邻通信操作调整为可融合状态,进而将其替换为单一、无冗余的融合通信算子,从而在不改变语义的前提下显著降低通信量。
实验表明,Chimera 不仅适用于各种常见混合并行组合,还能与现有算子融合、流水线调度等优化方法协同工作,进一步提升系统性能。Chimera的完整实现和评估框架已开源:
https://github.com/redbird-arch/isca2025-chimera-artifact。