如果有人朝你扔过来一个球,通常你会怎么办?——当然是马上把它接住。
这个问题是不是很简单?但实际上,这一过程是最复杂的处理过程之一:首先,在复杂的背景环境下,球进入人的视野,被视网膜捕捉到后,经视觉通路发送到大脑处理视觉信息的脑区,进行更加彻底的图像分析。同时视皮层与其他脑区协作,判断物体的种类,预测它的行进轨迹,最终通过传出神经控制肌肉的运动,决定人的下一步行动:举起双手、接住球。上述过程只在零点几秒内发生,几乎完全是下意识的行为,也很少会出差错。
为了让计算机模仿这一过程,首先需要让计算机做到像人类那样“看”,尤其是在嘈杂背景下像人类那样快速准确地“看”,成为近年来视觉感知这一研究领域备受关注的关键问题之一。
近年来,基于梯度反向传播的脉冲神经网络(snn)训练方法逐渐兴起。在这种训练方法下,snn能够在保留神经元内部动力学的同时获得较好的性能。
在此基础上,中国科学院自动化研究所听觉模型与认知计算团队模仿刻画视听觉系统神经元侧向作用的数学模型动态神经场,提出了具有侧向作用的snn——lisnn,用于图像识别任务。并且在测试中,根据侧向作用的动力学特点,人为加入噪声以验证侧向作用对网络鲁棒性的提升。
在生物神经系统的感受器中存在着临近神经元间的相互抑制和相互激励。其中,侧向抑制最初为解释马赫带效应而提出,即人们在明暗变化边界上常常会在亮处看到一条更亮的光带而在暗区看到一条更暗的线条(见图1)。这种侧向作用后来在鲎、猫等多种动物的不同感觉系统中被证实并应用在仿生的计算模型中。
lisnn的结构如图2所示,前端是两层具有卷积感受野的脉冲神经元层,每层后面有一层平均池化层,后端是两层全连接的脉冲神经元层。具有卷积感受野的脉冲神经元在模型中承担特征提取的功能,类似于感受器的作用,因此只在这层结构中使用侧向作用。在侧向作用机制下,每个脉冲神经元的膜电位都额外受邻域内的其他神经元上一时刻状态的影响。在目前已有的使用侧向作用的计算模型中,侧向作用系数往往是固定的和神经元间距离相关的函数,而lisnn中的侧向作用系数则可以通过反向传播进行学习。
该研究工作分别在静态数据集mnist与fashion mnist、动态数据集n-mnist上对lisnn的性能进行了验证。输入数据以特定方式编码为一定长度的脉冲序列,每个时刻的序列规模与原图像(或事件点坐标范围)相同。模型在mnist和n-mnist数据集上均取得了和已有最好性能相近的结果;在fashion-mnist数据集上则取得了snn中的最好性能。本模型与已发表模型的性能对比见图3-5。
除此之外,团队还选择在mnist和fashion mnist的测试集中加入不同水平的高斯噪声和脉冲噪声,以进一步测试侧向作用对网络鲁棒性的提升。图6展示了部分原始图片和加噪后的图片。
图7中,灰线和蓝线分别代表lisnn和没有侧向作用的snn在添加了高斯噪声的测试集上的准确率;黄线和橙线分别代表lisnn和没有侧向作用的snn在添加了脉冲噪声的测试集上的准确率。在大部分情况下,lisnn的性能损失都小于没有侧向作用的snn,尤其是在训练集中没有添加噪声数据的情况下。
与传统的神经网络算法相比,所提算法能取得较好的性能并自然地实现对噪声干扰的抗性,具有一定理论研究价值和工程实用价值。
论文信息:xiang cheng, yunzhe hao, jiaming xu, bo xu. lisnn: improving spiking neural networks with lateral interactions for robust object recognition. ijcai, 2020.
图1 马赫带效应示意(图引wiki)
图2 lisnn模型结构示意图
图3 静态图像数据集mnist上,lisnn模型与已发表模型准确率对比
图4 静态图像数据集fashion mnist上,lisnn模型与已发表模型准确率对比
图5 动态图像数据集n-mnist上,lisnn模型与已发表模型准确率对比
图6 (a)三行依次为原始mnist测试集图片、加入高斯噪声后的图片、加入脉冲噪声后的图片;(b)三行依次为原始fashion mnist测试集图片、加入高斯噪声后的图片、加入脉冲噪声后的图片
图7 (a)模型在无噪声的mnist训练集上训练;(b)模型在无噪声的fashion mnist训练集上训练;(c)模型在有高斯噪声的mnist训练集上训练;(d)模型在有高斯噪声的fashion mnist训练集上训练