深圳大学周晔教授研究基于聚(3 - 己基噻吩)(P3HT)- 氧化锌(ZnO)异质结构构建双极性晶体管,利用其线性区实现稀疏矩阵运算、饱和区提供类 tanh 非线性特性、动态响应自然引入时间属性的优势,构建物理回声状态网络(ESN),在静态模式下完成图像识别、时序预测及多模态分类任务,动态模式下 MNIST 手写数字识别准确率达 96.98%、Fashion-MNIST 达 86.67%,为 neuromorphic 计算提供了兼具高性能与低功耗的硬件架构。
随着人工智能的快速发展,传统冯・诺依曼架构面临物理极限、存储瓶颈、能耗过高等严峻挑战。neuromorphic 计算架构模仿人脑工作机制,通过物理器件模拟生物突触与神经元,大幅提升计算效率并降低能耗,成为解决上述问题的理想方案。
目前,物理器件已被广泛用于模拟突触权重与神经元数据映射,在图像识别领域取得显著进展,但基于循环神经网络解决时序预测问题的研究相对有限 —— 这主要源于时序任务训练过程复杂,对物理器件的导电态范围要求更高。回声状态网络(ESN)作为一种特殊的循环神经网络,其储备池层由固定权重的稀疏矩阵和神经元构成,无需训练即可将数据映射为高维特征,特别适用于时序预测任务,也可处理转化为时序信号的图像数据,因此成为物理储备池计算的重要研究方向。
然而,现有基于物理器件的储备池计算仍存在二值化、多位存储等问题亟待解决。双极性晶体管因能同时传输电子与空穴,具备更丰富的导电态与非线性特性,有望为构建高性能物理 ESN 提供新的解决方案,突破现有技术瓶颈。
(a) 回声状态网络(ESN)的结构示意图;(b) 10 万倍放大下的横截面 TEM 图像:n 型晶体管、双极性晶体管、p 型晶体管的横截面,以及三种晶体管中 ZnO 层的高分辨率横截面形貌;(c) AFM 观察到的表面形貌:n 型、双极性、p 型晶体管中的 ZnO 层,以及 n 型、双极性、p 型晶体管中的 P3HT 层;(d) 以 100 nm SiO₂为介质层的 n 型、双极性、p 型晶体管的输出曲线;(e) 双极性晶体管阵列的光学图像;(f) 物理 ESN 系统的光学图像;(g) 阵列中双极性晶体管的输出特性与 tanh 函数对比。
(a) 英文字母在输出层的转化过程;(b) 晶体管构建的储备池层示意图;(c) ESN 的储备池状态输出;(d) ESN 识别英文字母的混淆矩阵。
图 3 基于动态机制的物理 ESN 用于 MNIST 手写数字识别
(a) 基于动态响应构建的 4 位编码;(b) 不同脉冲间隔下 “0,0,0,0” 和 “1,0,1,0” 编码的实现;(c) 通过改变脉冲间隔实现的 MNIST 数据集映射;(d) 物理 ESN 为这些映射生成的对应储备池状态空间;(e) 五种组合脉冲下的混淆矩阵,展示最终分类性能。
图 4 基于动态响应的物理储备池计算实现洛伦兹吸引子预测任务
(a) 方法示意图:器件动态特性对洛伦兹吸引子进行编码与预测;(b-d) 利用单个器件的本征动态特性对洛伦兹吸引子 x、y、z 轴轨迹的非线性映射(Vds=1 V,洛伦兹吸引子曲线经归一化后通过 DAC 转换为 0~+10 V 的Vg信号);(e) 预测归一化均方根误差(NRMSE)随脉冲间隔变化的关系;(f) 不同工作模式下预测的洛伦兹吸引子时间轨迹。
(a) 心电图(ECG)信号、通道 1 的短时傅里叶变换图像、通道 2 的短时傅里叶变换图像;(b) 心电图多模态识别的示意图;(c) 心电图图像与心电图信号的储备池状态;(d) 储备池尺寸为 100×100 至 1000×1000 时,ESN 的多模态识别准确率。
文章链接:https://doi.org/10.1038/s41467-026-70171-2