当前位置：首页>深圳>中国科学院深圳先进技术研究院成果、F=15.1分|StructSAM:结构感知的快速适应在CT中稳健的肺癌病变分割

中国科学院深圳先进技术研究院成果、F=15.1分|StructSAM:结构感知的快速适应在CT中稳健的肺癌病变分割

2026-06-14 21:36:23

今天分享一篇来自首中国科学院深圳先进技术研究院、2026年2月发表于《NPJ Digit Med》（新锐期刊分区1区、IF=15.1分）的研究。肺癌是全球癌症相关死亡的主要原因之一，CT影像中肺结节和肿瘤的精确分割对早期诊断、分期、治疗计划及疗效评估至关重要。然而，由于CT图像中病灶与周围组织对比度低、边界模糊，且存在显著的形态和大小变异，传统分割方法及通用的视觉基础模型（如Segment Anything Model, SAM）在医学影像上表现不佳。SAM虽然在自然图像分割中表现卓越，但其本质为2D模型，缺乏对解剖结构和三维体积连续性的理解，难以直接应用于医学CT数据。为克服上述挑战，本文提出StructSAM框架，首次将解剖结构先验显式嵌入到SAM的提示生成路径中，并引入轻量级三维切片间聚合器与参数高效微调策略。StructSAM在LIDC-IDRI肺结节数据集上达到88.6%的Dice系数，显著超越现有方法，并在跨器官（肾脏、胰腺）分割任务中展现了优异的泛化能力。该工作验证了“结构对齐”而非单纯“数据对齐”是推动医学影像基础模型临床落地的关键路径。

论文题目：StructSAM: structure-aware prompt adaptation for robust lung cancer lesion segmentation in CT

一、背景与引入

❓问题：SAM在自然图像中表现优异，但在医学CT影像中直接应用存在三大核心问题：① 低对比度与模糊边界导致提示不稳定，易产生欠分割或过分割；② 缺乏解剖先验知识，生成的分割结果可能违背生物解剖合理性；③ 原生为2D模型，无法利用CT体积数据中切片间的连续性，导致切片间分割不一致。

✅解决：提出StructSAM框架，针对上述问题分别设计：① 结构感知提示生成器（SAPG）注入解剖先验；② 三维感知切片间聚合器（3D-AIA）建模体积上下文；③ 领域感知参数高效微调（PEFT）实现轻量化适应。

✅思路：不重新训练SAM主干，而是通过提示路径注入结构信息，结合轻量三维聚合模块和低秩自适应（LoRA），在保持SAM泛化能力的同时，使其适配医学CT的解剖与体积约束，实现鲁棒、高效、可跨器官的分割。

二、思路实现

✅结构感知提示生成器（SAPG）：利用可复用的图像处理算子，对每个CT切片生成三类先验图——肺/器官区域掩膜（如lungmask或TotalSegmentor）、多尺度Frangi血管增强图、高斯平滑后的梯度幅度边缘图。通过浅层CNN融合为软先验掩膜，并自动从中提取稀疏提示（多个正样本点 + 紧致边界框）和密集提示，同时附加一个可学习的结构特征token。

✅三维感知切片间聚合器（3D-AIA）：对当前切片及其前后各若干切片（共 2ℓ+1 张）的SAM图像特征进行空间池化降维，加入可学习的轴向位置编码，通过轻量Transformer（多头自注意力 + 前馈网络）实现跨切片特征交互。输出一个门控图，对中心切片的原始特征进行调制，增强体积一致性。

✅领域感知参数高效微调（PEFT）：冻结SAM的图像编码器和提示编码器，仅在掩膜解码器的自注意力层中的Query和Value投影上添加LoRA模块（秩 r=8），可训练参数占比 <5%。同时，训练目标包含Dice损失、交叉熵损失、拓扑保持损失（clDice）、边界长度惩罚、切片间连续性损失及领域MMD对齐损失。

✅测试时提示精炼（TPR）：可选地在测试阶段仅更新LayerNorm的仿射参数和结构token的偏置，通过熵最小化进行单样本自适应，不改变主干权重，计算开销极小。

三、结果解读

✅肺结节分割性能：在LIDC-IDRI数据集上，StructSAM的Dice达到88.6%，IoU为77.4%，HD95降至7.8 mm，显著优于通用医学模型（MedSAM 82.4%）、强基线nnU-Net（84.7%）和专用肺结节模型（NoduleNet 87.2%）。所有对比均在统一预处理和训练协议下进行，差异具有统计学意义（p<0.05）。

✅消融实验贡献分解：从原始SAM（Dice 74.8%）出发，单独加入SAPG提升至81.5%，再加入3D-AIA提升至85.7%，最终加入PEFT达到88.6%。HD95从15.4 mm依次降至12.6、9.7、7.8 mm，验证了三个模块的互补作用：SAPG解决边界模糊，3D-AIA增强体积连续性，PEFT适配临床数据分布。

✅跨器官泛化能力：在LIDC-IDRI上训练的模型直接测试于KiTS19（肾脏肿瘤）和MSD胰腺数据集，StructSAM分别取得70.5%和83.1%的Dice，远超MedSAM（61.2% / 79.8%）和nnU-Net（64.5% / 81.5%）。通过简单替换器官先验（如使用TotalSegmentor生成的粗胰腺掩膜），框架无需重新训练即可适应新器官，证明其结构先验具有跨解剖部位的迁移性。

✅鲁棒性与效率：在先验质量受严重干扰（10像素形变）时，Dice仅下降2.6%，表明模型对先验噪声不敏感。软梯度边缘先验优于二值Canny边缘（Dice +1.8%）。3D-AIA的FLOPs与窗口长度呈亚线性增长，吞吐量>20体积/秒，LoRA仅更新<5%参数，兼顾精度与效率。