首页 >> 科学研究 >> 科研进展 >> 正文

计算机视觉研究中心穆亚东课题组在基于谱变换的非局部神经网络研究中取得进展

信息来源:     发布时间:2021-01-13     浏览量:

近年来,随着残差网络(residual network)的提出,以及大规模标注数据集的不断涌现,现有的深度网络通常表现出网络层数和泛化性能之间的正相关。然而,对于极深的网络(如ResNet-152),处理数据时需要的计算量很大,推动深度学习领域的研究者思考新的神经网络结构,能够在网络层数和性能之间取得更好的权衡。出于控制模型参数量的考虑,现有的卷积神经网络通常采用极小可视野的卷积核(如3*3卷积)。对于需要全局上下文信息的计算任务(如图像分割等),这不利于不同位置的有效信息的传播。


针对这一问题,计算机视觉研究中心穆亚东课题组提出了一系列基于谱变换(spectral transform)的全局可视野技术,有效促进神经网络中的信息传播,从而需要更少的网络层数和计算量来得到特定的模型泛化精度。相关工作发表于计算机视觉和机器学习领域的知名会议NeurIPS 2020(参考文献[1])、CVPR 2020(参考文献[2])和ACM Multimedia 2019(参考文献[3])。相关源代码均已开源。



上图展示了参考文献[1]所提出的快速傅里叶卷积(Fast Fourier ConvolutionFFC)。该工作是对前期工作[2][3]的扩展研究。同现有的非局部神经网络相比,FFC具有多种优势:1)同普通卷积算子相比,在复杂度几乎相等的情况下,在多种任务上一致性地表现出显著性能提升。同现有的非局部神经网络技术相比,FFC能够在大多数神经网络中无缝替换现有的普通卷积算子(而非现有技术所采用的稀疏插入方式),使得深度模型的每一处都获得非局部神经感受野;2)能够在同一卷积单元里通过可学习的参数来实现三种尺度信息(分别是全局尺度、局部尺度和半全局尺度)的融合。实验证明,这种跨尺度的信息融合对于上下文敏感(context-sensitive)的计算任务至关重要。


参考文献(*为通讯作者):

[1] Lu Chi, Borui Jiang, Yadong Mu(*),Fast Fourier Convolution, Thirty-fourth Conference on Neural Information Processing Systems (NeurIPS) 2020.(代码链接https://github.com/pkumivision/FFC)

[2] Lu Chi, Zehuan Yuan, Yadong Mu(*), Changhu Wang, Non-Local Neural Networks with Grouped Bilinear Attentional Transforms, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020.(源代码可通过电子邮件向通讯作者索要)

[3] Lu Chi, Guiyu Tian, Yadong Mu(*), Lingxi Xie, Qi Tian, Fast Non-Local Neural Networks with Spectral Residual Learning, ACM Multimedia 2019.(代码链接https://github.com/1820366459/SRL-Pose-Estimation)