当前位置：首页>深圳>深圳大学新作:让Mamba“三头六臂”,高光谱重建又快又好!

深圳大学新作:让Mamba“三头六臂”,高光谱重建又快又好!

2026-05-05 03:54:35

龙哥读论文学术交流群（知识星球）来了！

想了解最新最快最好的CV/DL/ML/LLM论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入龙哥读论文交流群，连续入选知识星球新星榜！

龙哥推荐理由：
这篇来自深圳大学的论文，巧妙地将时下热门的Mamba模型与经典U-Net结构结合，并创造性地引入了“多感知”融合模块。它不仅解决了高光谱重建中单一感知的瓶颈，还在精度和计算效率之间取得了出色的平衡。方法设计清晰、实验充分，代码也已开源，是底层视觉领域一个非常扎实且具有启发性的工作。

原论文信息如下：

论文标题:
M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction 发表日期:
2026年01月发表单位:
深圳大学计算机与软件工程学院，深圳技术大学人工智能学院原文链接:
https://arxiv.org/pdf/2601.08293v1.pdf 开源代码链接:
https://github.com/zhangyuzecn/M3SR

想象一下，你的手机摄像头突然拥有了“超级视力”——不仅能拍下眼前的景象，还能瞬间分析出画面里每样东西的化学组成、水分含量甚至健康状态。这听起来像科幻，但这正是高光谱成像（Hyperspectral Imaging）试图为我们带来的能力。

传统RGB相机用红绿蓝三个通道记录世界，而高光谱相机则用几十甚至上百个连续的窄波段“看清”物体反射或发射的光谱特征。这项技术在环境监测、精准农业、医疗诊断等领域潜力巨大。

但问题来了：专业的高光谱相机又贵又笨重，不适合日常使用。于是，研究人员想了个“曲线救国”的办法：从普通的RGB图像里，“猜”出它对应的高光谱图像。这个任务就叫光谱重建（Spectral Reconstruction, SR）。

这就像给你一张黑白照片，让你脑补出它原本的彩色样子，而且还得是包含了紫外线、红外线等不可见光的“超级彩色”。难吧？🤨

近年来，Transformer模型在这个任务上表现不错，因为它能捕捉图像中远处的像素关系。但它有个老毛病：计算量随着图像尺寸暴增，对于高分辨率的高光谱图像来说，实在太“烧钱”了。

图：M3SR重建的高光谱图像（右）与真实值（中）的绝对误差对比。蓝色越深，说明重建得越准。

Mamba遇上高光谱重建：单感知的瓶颈在哪？

就在Transformer为计算量发愁时，一个叫Mamba的新星在NLP领域崛起了。它基于状态空间模型（State Space Model, SSM），能以线性复杂度处理超长序列，性能和Transformer差不多，但效率高得多！

很快，视觉领域的Mamba（比如VMamba）也出现了，大家惊喜地发现，它在图像分类、分割等任务上也能打。于是，有人开始尝试把Mamba用到光谱重建上。

但直接“拿来主义”遇到了两个明显的瓶颈：

瓶颈一：单感知的“偏科”Mamba的核心是处理一维序列。用在图像上，它主要擅长捕捉空间上的长距离依赖关系（比如图像左上角和右下角物体的关联）。但高光谱图像是三维数据块（空间宽度×空间高度×光谱维度）！它不仅有丰富的空间纹理，还有沿着光谱维度连续变化的特征。只盯着空间关系看，就像只用耳朵听交响乐，忽略了乐谱和乐器的色彩，无法全面“理解”这首曲子。

瓶颈二：单尺度的“短视”很多Mamba方法是单尺度提取特征。但图像信息是分层次的：全局轮廓、物体部件、局部细节（比如叶脉、织物纹理）。单尺度特征提取很难同时把握“大局观”和“微表情”，在重建复杂的高光谱图像时，容易顾此失彼。

深圳大学和深圳技术大学的团队敏锐地捕捉到了这些问题，并提出了一个漂亮的解决方案：M3SR。

多尺度多感知Mamba（M3SR）如何破局？

M3SR这个名字就直击要害：Multi-Scale（多尺度）和 Multi-Perceptual（多感知）。它的整体架构非常清晰，基于经典的U-Net，但“芯”换成了自家的秘密武器。

图3：M3SR的整体架构（上）和其核心——多感知融合块（MPF）的详细结构（下）。它像是一个由多个专家组成的“顾问团”，各自从不同角度分析图像。

多尺度是怎么实现的？答案就是U-Net的编码器-解码器结构。输入图像经过多次下采样，特征图越来越小，感受野越来越大，这就捕捉到了全局尺度的语义信息（比如：这是一片森林）。然后通过上采样和跳跃连接，逐步恢复空间细节，同时结合编码过程中提取的中间尺度（一棵棵树）和局部尺度（一片片叶子）的特征。

那多感知的魔法又藏在哪呢？这就全靠那个被塞进U-Net每一层的多感知融合块（Multi-Perceptual Fusion Block, MPF）了。它才是M3SR真正的“大脑”。

核心组件解析：多感知融合（MPF）块

MPF块内部有三条并行的“专家流水线”，分别从空间、频率和光谱三个维度来感知和理解输入特征。

1. 空间感知分支：Mamba的看家本领

这一支是Mamba的“本职工作”。它使用了一个名为VSS块（Visual State Space block）的模块，其核心是二维选择性扫描（SS2D）。简单说，SS2D会把2D图像特征沿着水平、垂直等四个方向“拉直”成1D序列，然后用Mamba的高效选择性状态空间模型（S6）分别处理这些序列，最后再合并回来。这样，它就能以线性复杂度捕捉图像中任意两个像素间的空间长程依赖。

2. 频率感知分支：小波变换的神来之笔

这是本文一个非常巧妙的创新点！图像处理中，空间域看像素的明暗变化，频率域则看变化的快慢（频率）。平缓的背景是低频，锐利的边缘和细腻的纹理是高频。

图2：离散小波变换（DWT）将一幅图像分解为一个低频近似子带（LL，包含主要轮廓）和三个方向的高频细节子带（LH， HL， HH，包含边缘纹理）。这就像把一幅画分解成了“轮廓草图”和“细节笔触”。

MPF的频率分支就利用了离散小波变换（Discrete Wavelet Transform, DWT）。它把输入特征图分解成四个子带（一个低频，三个不同方向的高频）。然后，对每个子带分别用前面提到的VSS块进行处理（让Mamba去理解频率信息的全局关系），最后再用逆离散小波变换（IDWT）合成回来。这样做的好处是，模型可以显式地、有针对性地处理不同频率的信息，对于恢复高光谱图像中至关重要的纹理细节帮助极大。

3. 光谱感知分支：为高光谱量身定制

这是专门针对高光谱数据特性的设计。对于一个像素点，它在31个光谱通道上的数值，可以看作一个一维序列（波长从400nm到700nm连续变化）。Mamba处理这种序列正是拿手好戏！

这一分支将输入特征在通道维度上进行分组，对每一组应用标准的Mamba块（图4b），专门用来建模不同波长之间的依赖关系。例如，植物在特定波段的吸收峰会影响邻近波段的反射率，这个分支就能捕捉到这种光谱连续性。

三条分支各司其职，提取到的特征如何融合呢？M3SR采用了一种自适应加权融合的方式。三个可学习的权重参数 ω_a, ω_f, ω_e 分别对应空间、频率、光谱特征的重要性，在训练中自动调整。最后，再加上一个残差连接，确保网络稳定训练。

至此，一个能从多角度、多层次“理解”图像的强大模块就构建完成了。把它嵌入U-Net的每一层，让模型在提取不同尺度特征时，都能进行这种全方位的感知分析。

实验结果：精度与效率的双重领先

设计得再漂亮，也得靠实验结果说话。论文在四个公开高光谱重建数据集（NTIRE2022， CAVE， NTIRE2020-Clean， NTIRE2020-Realworld）上，与10个SOTA方法进行了全面对比。

评估指标包括衡量数值精度的RMSE（均方根误差，越低越好）和PSNR（峰值信噪比，越高越好），衡量光谱保真度的SAM（光谱角制图，越低越好），以及衡量结构相似度的MSSIM（平均结构相似性，越高越好）。

图1：一张图看懂M3SR的“性价比”。横轴是计算量（FLOPs，越左越好），纵轴是质量（PSNR，越高越好），圆圈大小是参数量（越小越好）。M3SR（我们的）稳稳地坐在了左上角——用相对少的计算和参数，拿到了最高的质量。这平衡感绝了！

来看具体数据：

表1：在NTIRE2022和CAVE数据集上的结果。M3SR在NTIRE2022的所有指标（RMSE， PSNR， MSSIM）上都取得了第一，在CAVE数据集的RMSE和PSNR上也拔得头筹。注意看参数量（Params）和计算量（FLOPs），M3SR并非最小，但相比性能接近的MST++等Transformer方法，它的计算成本（100.9G FLOPs vs 177.7G）有显著优势。

表2：在NTIRE2020数据集上的结果。在Clean数据集上，M3SR实现了所有指标的全面第一。在更具挑战性的Realworld数据集上，也拿下了RMSE、PSNR和MSSIM三个关键指标的第一。

视觉对比更直观：

图5：这是重建结果与真实值之间的绝对误差热力图。蓝色越深，误差越小，重建得越准。可以明显看到，M3SR的结果图（最右）蓝色区域最大、最深，说明其重建误差整体最小、最均匀，尤其是在图像中央的纹理复杂区域，优势明显。

消融实验：每个感知分支都不可或缺

为了验证MPF块中三条分支是否真的都起作用，论文做了详细的消融实验。

表3：分别移除空间（M3SR-V1）、频率（M3SR-V2）和光谱（M3SR-V3）分支后，性能全面下降。这强有力地证明了“多感知”设计的必要性：

去掉空间分支：模型“看不懂”物体形状和布局，PSNR和RMSE恶化严重，光谱角误差（SAM）暴增，说明空间结构一塌糊涂。

去掉频率分支：模型失去了处理纹理细节的“利器”，PSNR和结构相似性（MSSIM）明显下降，重建结果变得模糊。

去掉光谱分支：模型无法理解颜色（光谱）随波长的连续变化，导致在所有指标上都有可观的性能损失。

此外，论文还对光谱分支中的分组数G进行了调参，发现G=4时能在性能和计算开销间取得最佳平衡（表4）。

总结与展望：Mamba在底层视觉的更多可能

深圳大学团队的这项工作，可以看作是将Mamba成功引入底层视觉任务（尤其是高光谱重建）的一个典范。

它没有简单地堆砌Mamba层，而是深刻分析了任务特性与模型瓶颈，提出了“多感知融合”这一核心思想，并巧妙地用小波变换开辟了频率感知的新路径。结合经典的U-Net实现多尺度分析，最终实现了精度和效率的“双赢”。

这项研究给我们带来很多启发：未来，Mamba这类高效序列模型在图像修复、去噪、超分等其他底层视觉任务中，结合特定的领域知识（如频率分析、物理模型）进行“感知增强”，可能会催生出更多高性能、低功耗的实用模型。

通往“超级视力”的手机摄像头，或许又近了一步。👓

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

这篇论文解决的核心问题是什么？它解决的是如何从一张普通的RGB彩色照片，高质量、高效率地重建出对应的高光谱图像（包含数十个连续窄波段信息）。传统方法和一些基于Transformer的模型要么精度不够，要么计算成本太高。本文用Mamba模型来解决效率问题，并创新性地提出了“多感知融合”模块来攻克精度瓶颈。

Mamba到底是什么？和Transformer比有何优劣？Mamba是一种基于状态空间模型（SSM）的新型序列模型。你可以把它理解为Transformer的一个高效竞争者。优势：处理长序列时，计算复杂度是线性的（Transformer是平方级的），因此效率极高，特别适合高分辨率图像。它还有一个“选择性”机制，能动态关注重要信息。劣势：作为较新的架构，其在各种视觉任务上的潜力和最佳应用方式仍在探索中，不像Transformer那样有成熟的生态和套路。

高光谱图像具体有什么用？能举个生活化的例子吗？用处非常大！比如在农业上，通过分析作物叶片的光谱，可以判断其缺水、缺氮还是生病了，实现精准灌溉和施肥。在环保领域，可以用无人机搭载高光谱相机监测水体污染程度、藻类爆发。在医疗上，可以帮助医生区分肿瘤组织和正常组织。甚至在艺术品鉴定中，可以无损分析画作的颜料成分和历史层次。它让机器拥有了超越人眼的“物质分析”能力。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~

龙哥点评

论文创新性分数：★★★★☆

将Mamba用于光谱重建不是首创，但提出“多感知融合”概念，并首创性地结合空间Mamba、小波变换（频率）和光谱Mamba三个分支，设计思路清晰且有新意。尤其是在频率域引入小波变换+DWT/IDWT的处理方式，非常巧妙。

实验合理度：★★★★★

实验非常充分。在四个主流数据集上与10个SOTA方法对比，涵盖数值误差、光谱保真、结构相似性和计算效率多个维度。消融实验完整证明了每个组件的有效性，参数分析也到位。对比公平，结论可信。

学术研究价值：★★★★☆

为Mamba在底层视觉任务中的应用提供了一个优秀范例。其“多感知”设计哲学可以迁移到其他图像恢复、增强任务中。开源代码也促进了领域内的复现和后续研究。启发性强。

稳定性：★★★★☆

基于U-Net和Mamba块构建，结构稳定。使用了残差连接和自适应加权融合，训练过程应较稳定。在多个不同特性的数据集（Clean/Realworld）上表现一致，鲁棒性较好。

适应性以及泛化能力：★★★★☆

方法针对高光谱重建任务设计，但其多尺度U-Net骨架和多感知融合的思想具有一定通用性。是否能直接用于自然图像超分、去噪等任务，需要针对性的适配和验证。

硬件需求及成本：★★★★☆

计算量（100G FLOPs级别）相比SOTA Transformer模型显著降低，但仍需要GPU进行训练和高效推理。对于实时性要求极高的移动端部署，可能还需进一步轻量化。

复现难度：★★★★★

论文方法描述清晰，代码已在GitHub开源，复现难度低。数据集的获取和处理方式在论文中也有明确说明，便于跟进研究。

产品化成熟度：★★★☆☆

作为学术研究，性能已达到SOTA，且效率有优势。但要产品化集成到手机或专业设备中，仍需解决模型固化、与相机ISP（图像信号处理器） pipeline整合、特定场景优化（如暗光、动态场景）等工程问题。

可能的问题：论文整体扎实，但“多感知”中空间与频率分支均使用VSS块，一定程度存在结构冗余。另外，自适应权重的学习过程及其可解释性可进一步探讨。整体来说，这是一篇高质量的工作。

主要参考文献

[1] Gu, A., & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces.

[2] Liu, Y., et al. (2024). VMamba: Visual State Space Model.

[3] Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation.

[4] Arad, B., et al. (2020, 2022). NTIRE spectral reconstruction challenge and datasets.

[5] Cai, Y., et al. (2022). MST++: Multi-stage spectral-wise transformer for efficient spectral reconstruction.

龙哥读论文学术交流群（知识星球）来了！

每日提供最新最快最好的CV/DL/ML/LLM论文速递、优质开源项目、学习教程和实战训练等资料！想第一时间看懂像M3SR这样巧妙融合多感知、多尺度的前沿工作？想高效追踪底层视觉领域的最新进展？扫码加入「龙哥读论文」知识星球，让论文解读像看短视频一样轻松，前沿干货、实用资源一站式拿捏～

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

深圳大学新作:让Mamba“三头六臂”,高光谱重建又快又好!

Mamba遇上高光谱重建：单感知的瓶颈在哪？

多尺度多感知Mamba（M3SR）如何破局？

核心组件解析：多感知融合（MPF）块

实验结果：精度与效率的双重领先

消融实验：每个感知分支都不可或缺

总结与展望：Mamba在底层视觉的更多可能

龙迷三问

龙哥点评

最新文章

热门文章

随机文章

深圳大学新作:让Mamba“三头六臂”,高光谱重建又快又好!

Mamba遇上高光谱重建：单感知的瓶颈在哪？

多尺度多感知Mamba（M3SR）如何破局？

核心组件解析：多感知融合（MPF）块

实验结果：精度与效率的双重领先

消融实验：每个感知分支都不可或缺

总结与展望：Mamba在底层视觉的更多可能

龙迷三问

龙哥点评

【东莞智能装配工厂】 正式工:综合工资7-15K,买五险一金,装配学徒工、CNC编程、售后工程师,“职”等你来,应届生也可报名

严重违纪违法,刘亮被纪委带走开除,东莞人认识吗

最新文章

热门文章

随机文章

【东莞智能装配工厂】正式工:综合工资7-15K,买五险一金,装配学徒工、CNC编程、售后工程师,“职”等你来,应届生也可报名