研究人员发现轻量级深度学习算法可用于未来光学人工智能-当前资讯

来源: 盖世汽车 ┆ 时间: 2022-10-18 18:44:16

【资料图】

据外媒报道，科学期刊《光电进展》（Opto-Electronic Advances）发布了一篇新论文。该文章讨论了上海理工大学的研究人员使用轻量级散斑转换器（Speckle-Transformer，SpT）Unet的高性能“非局部”通用人脸重建模型。

利用现有先进计算机神经网络的提取和泛化能力，并结合光学人工智能算法的光速、低能耗和并行多维光信号处理能力，研究人员设计并开发出计算成像（CI）光学人工智能。

CI技术取得重大进展，其中电卷积神经网络（CNN）已经证明，从通过组织的非侵入性医学成像，到雾天车辆自主导航的图像都可以重建。然而，由于卷积算子的“局部”内核大小有限，CNN的性能对于空间密集模式（例如通用人脸图像）是不准确的。因此迫切需要一个能够提取特征图长期相关性的“非局部”内核。转换器是完全依赖注意力机制的模块，可以很容易地并行化。

此外，与深度学习中的卷积和递归对应物相比，转换器假设关于问题结构的先验知识最少。在视觉方面，转换器已成功用于图像识别、对象检测、分割、图像超分辨率、视频理解、图像生成、文本图像合成等。然而，根据目前的知识，没有一项研究探索过CI中变压器的性能，例如散斑重建。

在论文中，研究人员实现了一种称为散斑转换器（SpT）UNet的“非局部”模型，用于对散斑重建进行高精度、节能的并行处理。该网络是一个UNet架构，包括高级变压器编码器和解码器块。

为了更好的特征保留/提取，研究人员提出并演示了三个关键机制，即预批归一化（pre-BN）、多头注意力/多头交叉注意力（MHA/MHCA）中的位置编码和自我建立上/下采样管道。对于“可扩展”数据采集，研究采用了40 mm检测范围内的四种不同粒度的漫射器。值得注意的是，SpT UNet是一个轻量级的网络，与视觉计算中的ViT和SWIN Transformer等其他最先进的“非局部”网络相比，其参数少于一阶。

研究人员进一步用四个科学指标定量评估网络性能：皮尔逊相关系数（PCC）、结构相似性度量（SSIM）、杰卡德指数（JI）和峰值信噪比（PSNR）。轻量级的SpT UNet与皮尔逊相关系数（PCC）和结构相似性度量（SSIM）分别超过0.989和0.950，显示出高效率和强大的比较性能。对于光学人工智能，作为并行处理模型，轻量级SpT UNet可以进一步发展为具有超越特征提取、光速和被动处理能力的全光神经网络。