当前位置：首页>深圳>MIA(IF11.8)|港科技&深圳先进技术研究院等团队(0311):多粒度知识增强的3D医学影像视觉-语言预训练模型研究

MIA(IF11.8)|港科技&深圳先进技术研究院等团队(0311):多粒度知识增强的3D医学影像视觉-语言预训练模型研究

2026-04-02 22:42:16

★ 团队：香港科技大学、中国科学院深圳先进技术研究院等团队

★ 期刊：Medical Image Analysis（IF11.8/1区）

★ 题目：MG-3D：多粒度知识增强的3D医学影像视觉-语言预训练

★ 创新点：突破了现有3D医学AI预训练方法对放射学报告多粒度语义挖掘不足的局限，通过构建“患者内多粒度对应”与“患者间语义关联”的双重学习机制，显著提升了模型在3D CT/MRI分析中的泛化能力与可解释性，为构建大规模3D医学基础模型提供了新范式

图1（研究流程图）：展示3D CT影像-报告配对数据输入、视觉语言预训练、下游多临床任务应用的完整流程。

AI医学影像精彩世界，尽在‘AI影像智研坊’：

★研究背景★

• 痛点：3D 医学影像AI泛化性差、标注成本极高，放射报告蕴含的丰富医学语义未被充分利用；现有 3D 视觉语言预训练缺乏多粒度语义挖掘与跨患者关联建模。

• 需求：打造可复用、少标注、高泛化的 3D 医学影像基础模型，支撑诊断、分割、预后、报告生成等全流程临床任务。

★数据与方法★

• 数据：

训练：CT‑RATE 数据集 47.1K 对 3D CT‑放射报告配对数据；CTRG‑Chest 1.8K 对用于消融实验

下游验证：覆盖中、美、法、土多国数据，含10大任务（分类、分割、预后、报告生成、检索等）

• 技术方法：

①流程：3D体积与报告输入 → 患者内多粒度语义提取（全局对齐+局部重建） → 患者间多粒度语义对齐（细粒度匹配+全局对比） → 输出通用3D视觉编码器

②核心步骤：

患者内学习：通过跨模态全局特征对齐（CGA）建立影像与报告的整体联系；利用互补模态引导的局部信息重建（MIM/MLM/SFR），以句子级语义指导掩码体积重建，以体积特征辅助掩码词/句重建。

患者间学习：构建患者间细粒度语义相似性矩阵，指导不同患者间视觉特征的细粒度对齐（SSM）；通过解耦特征聚合（DFA）进行患者级对比学习，保持对个体全局差异的敏感性。

• 核心技术方法：

①多粒度跨模态交互机制：不同于传统的简单全局对齐，该方法创新性地引入“句子级”作为中间粒度。在掩码图像建模（MIM）中，提出以体积特征为主导、句子语义为查询的新型跨模态注意力机制，有效解决了文本主导导致的信息丢失问题，实现了更精准的细粒度视觉-文本关联。

②患者间语义关联挖掘：探索不同患者间放射学报告的细粒度语义关联。通过构建句子级语义相似性矩阵，强制模型学习不同患者间相似病理表现的视觉共性，同时利用对比学习区分不同患者的全局特征，增强模型判别能力和泛化性。

★研究结果★

①性能领先：在10个下游任务中，MG-3D均达到或超越最先进（SOTA）水平。如在肺炎分类（CC-CCII）ACC达93.61%，肺结节分类（LUNA16）AUC达98.20%，肺肿瘤分割Dice系数提升至65.52%。

②跨模态泛化：仅在CT数据上预训练的MG-3D，在MRI心脏分割任务（ACDC）中Dice系数达89.38%，展现出卓越的跨模态迁移能力。

③报告生成质量高：在报告生成任务中，BLEU-1得分达63.54，显著优于其他VLP及SSL方法，表明其具备深厚的放射学语义理解能力。

④规模效应显著：验证了数据与模型规模的Scaling Law，随着预训练数据量从1.4K增至47.1K，以及模型从Swin-B升级至Swin-L，性能在多数任务上持续提升。

图2（MG-3D框架总览）：呈现患者内多粒度语义提取与患者间多粒度语义对齐的双分支核心架构。

图3（模态互补局部重建）：说明句子引导掩码体重建、视觉引导掩码词重建、句子级特征重建的实现方式。

图4（跨模态注意力对比）：对比传统跨模态注意力与本文提出的以视觉特征为主导的跨模态注意力机制差异。

图5（跨模态全局对齐）：展示全局影像特征与全局文本特征通过跨模态注意力实现语义对齐的过程。

图6（患者间多粒度对齐）：阐释基于报告句子相似度的细粒度视觉特征匹配与全局对比学习流程。

图7（数据规模缩放规律）：呈现预训练数据量增大与分类性能提升的正相关关系。

★文章亮点★

• 技术亮点：多粒度语义深挖。摒弃了仅利用报告整体嵌入的粗放模式，创新性地利用句子级语义作为桥梁，实现了从“全局对齐”到“细粒度重构”再到“跨患者关联”的纵深学习，极大丰富了3D视觉表征的语义内涵。

• 临床方向：低成本高效能。充分利用临床现成的放射学报告作为监督信号，大幅降低了对昂贵精细标注（如分割掩码）的依赖，为解决3D医学影像标注稀缺难题提供了可行路径，具有极高的临床落地潜力。

参考文献：Ni X, Wu L, Zhuang J, Wang Q, Wu M, Vardhanabhuti V, Zhang L, Gao H, Chen H. MG-3D: Multi-grained knowledge-enhanced vision-language pre-training for 3D medical image analysis. Med Image Anal. 2026 Mar 11;111:104027.

AI医学影像精彩世界，尽在‘AI影像智研坊’：

往期回顾：

Nature Cardiovascular Research(IF10.8）|加州大学旧金山分校(0317)：多视角深度学习提升超声心动图重大心脏疾病检测能力

NPJ Digit Med(IF15.1)|科隆大学等团队(0317):AI驱动的无标签拉曼光谱用于术中脊髓肿瘤评估

Nat Commun(IF15.7)|达摩院&盛京医院的石喻&侯阳等团队:多模态AI模型用于脂肪肝的机会性筛查、分期和进展风险分层

NPJ Digit Med(IF15.1) | 浙江大学金凯等团队:多模态视觉定位辅助的眼部B超可解释报告生成研究

Mol Cancer(IF=33.9) | 郑大一附院闫东明等团队(0307):基于多组学机器学习模型实现胶质母细胞瘤风险分层并鉴定分子异质性与治疗靶点

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

MIA(IF11.8)|港科技&深圳先进技术研究院等团队(0311):多粒度知识增强的3D医学影像视觉-语言预训练模型研究

最新文章

热门文章

随机文章

MIA(IF11.8)|港科技&深圳先进技术研究院等团队(0311):多粒度知识增强的3D医学影像视觉-语言预训练模型研究

深圳市宝安区运送病人转运车:跨院转诊、孕产妇出院接送、儿童患者转运、机场/火车站护送患者

深圳普工午休现状调查:纸皮为席,半小时地板觉背后的生存逻辑

最新文章

热门文章

随机文章