随着单细胞RNA测序(scRNA-seq)技术的普及,生命科学研究进入高分辨率图谱时代,但如何将微观的细胞分子特征与宏观的患者临床表型精准关联,一直是制约单细胞数据临床转化的关键瓶颈。传统分析流程高度依赖“数据整合—聚类—细胞注释—差异分析”的分析范式,易受批次效应、聚类偏差等因素干扰,导致细胞层面的生物学信号难以稳定映射到患者级临床表型,限制了其在精准医疗和生物标志物发现中的应用。
针对这一行业难题,研究团队基于多示例学习范式(Multiple Instance Learning, MIL)打造了scPhase框架,创新性地将每位患者的单细胞视为独立“实例”,患者样本定义为包含大量实例的“包(bag)”,实现从细胞层到患者层的端到端整体建模与临床表型预测。其核心优势在于“弱化对聚类注释结果的依赖”,可直接从大规模单细胞数据中学习鲁棒的患者级表征,在完成高精度临床表型预测的同时,同步定位驱动疾病发生发展的关键细胞亚群及分子特征,真正实现“表型预测+机制探索”的闭环衔接。
为保障scPhase的实用性与稳定性,研究团队在scPhase中引入三项关键设计:第一,引入LinFormer线性注意力模块,将注意力计算复杂度由平方级降至线性级,使模型能够在数百万细胞规模的数据中高效捕捉样本内部的全局细胞依赖关系;第二,采用基于混合专家的多示例学习聚合模块(MoE-MIL),通过门控注意力机制驱动多个“专家”网络协同工作,动态识别并加权与表型差异最相关的关键细胞,将海量单细胞信息聚合为浓缩且鲁棒的患者级表征;第三,结合对抗式域适应策略,在训练过程中有效减弱跨队列、跨平台带来的批次效应,提升模型在不同数据集上的稳定性与泛化能力。此外,scPhase构建了多层次可解释性分析体系:一方面利用MoE-MIL模块的注意力权重刻画细胞层贡献,另一方面结合积分梯度(Integrated Gradients)评估基因层重要性,并可进一步扩展至通路与调控维度,实现对预测结果的系统溯源,从而在表型预测与机制探索之间建立更紧密的闭环衔接。