今天分享一篇来自首中国科学院深圳先进技术研究院、2026年2月发表于《NPJ Digit Med》(新锐期刊分区1区、IF=15.1分)的研究。肺癌是全球癌症相关死亡的主要原因之一,CT影像中肺结节和肿瘤的精确分割对早期诊断、分期、治疗计划及疗效评估至关重要。然而,由于CT图像中病灶与周围组织对比度低、边界模糊,且存在显著的形态和大小变异,传统分割方法及通用的视觉基础模型(如Segment Anything Model, SAM)在医学影像上表现不佳。SAM虽然在自然图像分割中表现卓越,但其本质为2D模型,缺乏对解剖结构和三维体积连续性的理解,难以直接应用于医学CT数据。为克服上述挑战,本文提出StructSAM框架,首次将解剖结构先验显式嵌入到SAM的提示生成路径中,并引入轻量级三维切片间聚合器与参数高效微调策略。StructSAM在LIDC-IDRI肺结节数据集上达到88.6%的Dice系数,显著超越现有方法,并在跨器官(肾脏、胰腺)分割任务中展现了优异的泛化能力。该工作验证了“结构对齐”而非单纯“数据对齐”是推动医学影像基础模型临床落地的关键路径。论文题目:StructSAM: structure-aware prompt adaptation for robust lung cancer lesion segmentation in CT一、背景与引入
❓问题:SAM在自然图像中表现优异,但在医学CT影像中直接应用存在三大核心问题:① 低对比度与模糊边界导致提示不稳定,易产生欠分割或过分割;② 缺乏解剖先验知识,生成的分割结果可能违背生物解剖合理性;③ 原生为2D模型,无法利用CT体积数据中切片间的连续性,导致切片间分割不一致。
✅解决:提出StructSAM框架,针对上述问题分别设计:① 结构感知提示生成器(SAPG)注入解剖先验;② 三维感知切片间聚合器(3D-AIA)建模体积上下文;③ 领域感知参数高效微调(PEFT)实现轻量化适应。
✅思路:不重新训练SAM主干,而是通过提示路径注入结构信息,结合轻量三维聚合模块和低秩自适应(LoRA),在保持SAM泛化能力的同时,使其适配医学CT的解剖与体积约束,实现鲁棒、高效、可跨器官的分割。
二、思路实现
✅结构感知提示生成器(SAPG):利用可复用的图像处理算子,对每个CT切片生成三类先验图——肺/器官区域掩膜(如lungmask或TotalSegmentor)、多尺度Frangi血管增强图、高斯平滑后的梯度幅度边缘图。通过浅层CNN融合为软先验掩膜,并自动从中提取稀疏提示(多个正样本点 + 紧致边界框)和密集提示,同时附加一个可学习的结构特征token。
✅三维感知切片间聚合器(3D-AIA):对当前切片及其前后各若干切片(共 2ℓ+1 张)的SAM图像特征进行空间池化降维,加入可学习的轴向位置编码,通过轻量Transformer(多头自注意力 + 前馈网络)实现跨切片特征交互。输出一个门控图,对中心切片的原始特征进行调制,增强体积一致性。
✅领域感知参数高效微调(PEFT):冻结SAM的图像编码器和提示编码器,仅在掩膜解码器的自注意力层中的Query和Value投影上添加LoRA模块(秩 r=8),可训练参数占比 <5%。同时,训练目标包含Dice损失、交叉熵损失、拓扑保持损失(clDice)、边界长度惩罚、切片间连续性损失及领域MMD对齐损失。
✅测试时提示精炼(TPR):可选地在测试阶段仅更新LayerNorm的仿射参数和结构token的偏置,通过熵最小化进行单样本自适应,不改变主干权重,计算开销极小。
三、结果解读
✅肺结节分割性能:在LIDC-IDRI数据集上,StructSAM的Dice达到88.6%,IoU为77.4%,HD95降至7.8 mm,显著优于通用医学模型(MedSAM 82.4%)、强基线nnU-Net(84.7%)和专用肺结节模型(NoduleNet 87.2%)。所有对比均在统一预处理和训练协议下进行,差异具有统计学意义(p<0.05)。
✅消融实验贡献分解:从原始SAM(Dice 74.8%)出发,单独加入SAPG提升至81.5%,再加入3D-AIA提升至85.7%,最终加入PEFT达到88.6%。HD95从15.4 mm依次降至12.6、9.7、7.8 mm,验证了三个模块的互补作用:SAPG解决边界模糊,3D-AIA增强体积连续性,PEFT适配临床数据分布。
✅跨器官泛化能力:在LIDC-IDRI上训练的模型直接测试于KiTS19(肾脏肿瘤)和MSD胰腺数据集,StructSAM分别取得70.5%和83.1%的Dice,远超MedSAM(61.2% / 79.8%)和nnU-Net(64.5% / 81.5%)。通过简单替换器官先验(如使用TotalSegmentor生成的粗胰腺掩膜),框架无需重新训练即可适应新器官,证明其结构先验具有跨解剖部位的迁移性。
✅鲁棒性与效率:在先验质量受严重干扰(10像素形变)时,Dice仅下降2.6%,表明模型对先验噪声不敏感。软梯度边缘先验优于二值Canny边缘(Dice +1.8%)。3D-AIA的FLOPs与窗口长度呈亚线性增长,吞吐量>20体积/秒,LoRA仅更新<5%参数,兼顾精度与效率。
图1:跨域Dice分析。在跨域评估中,TPR持续提升Dice分数。
图2:领域偏移下HD95的分布。TPR降低了HD95的方差,产生更稳定的预测。
图3:TPR对熵权重的敏感性分析。在一定范围的熵权重下,性能保持稳定。
图4:精度-效率权衡。TPR在推理时以极低开销实现精度提升。
图5:LIDC-IDRI数据集上肺结节分割结果的定性比较。从左至右:带边界框提示的输入CT、StructSAM(本文)、MedSAM、TransUNet、SAM。本文方法能识别出基线模型漏检或分割不佳的结节。
图6:参数与Dice的关系。Dice随LoRA秩增加而提升,在r=8时饱和,体现了参数效率。
图7:FLOPs与精度的关系。FLOPs-精度曲线显示,StructSAM在相近计算成本下获得了比MedSAM和SwinUNET更高的Dice。
图8:内存与轴向窗口长度的关系。内存随轴向窗口长度呈亚线性增长,并保持在40 GB预算内。
图9:(文中虽未直接列出编号,但图内容提及)吞吐量 vs Dice。StructSAM位于更优的帕累托前沿(吞吐量 vs Dice)。
图10:测试时提示精炼的Dice/吞吐量对比(原文中无独立编号,结合上下文归纳)。
图11:跨数据集敏感性。测试时精炼在不同熵权重下保持稳定的跨数据集性能。
图12:逐例Dice分布。小提琴图与箱线图叠加显示,StructSAM(含TPR)获得了更高的中位数Dice,并且方差显著降低,表明跨案例的鲁棒性增强。
图13:StructSAM框架概览。展示了所提出的用于CT肺癌病灶分割的StructSAM框架的整体结构。