3.基于rnn的图像分割
recurrent neural networks(rnns)除了在手写和语音识别上表现出色外,在解决计算机视觉的任务上也表现不俗,在本篇文章中我们就将要介绍rnn在2d图像处理上的一些应用,其中也包括介绍使用到它的结构或者思想的一些模型。
rnn是由long-short-term memory(lstm)块组成的网络,rnn来自序列数据的长期学习的能力以及随着序列保存记忆的能力使其在许多计算机视觉的任务中游刃有余,其中也包括语义分割以及数据标注的任务。接下来的部分我们将介绍几个使用到rnn结构的用于分割的网络结构模型:
1.reseg模型
reseg可能不被许多人所熟知,在百度上搜索出的相关说明与解析也不多,但是这是一个很有效的语义分割方法。众所周知,fcn可谓是图像分割领域的开山作,而regnet的作者则在自己的文章中大胆的提出了fcn的不足:没有考虑到局部或者全局的上下文依赖关系,而在语义分割中这种依赖关系是非常有用的。所以在reseg中作者使用rnn去检索上下文信息,以此作为分割的一部分依据。
该结构的核心就是recurrent layer,它由多个rnn组合在一起,捕获输入数据的局部和全局空间结构。
优缺点:
充分考虑了上下文信息关系;
使用了中值频率平衡,它通过类的中位数(在训练集上计算)和每个类的频率之间的比值来重新加权类的预测。这就增加了低频率类的分数,这是一个更有噪声的分割掩码的代价,因为被低估的类的概率被高估了,并且可能导致在输出分割掩码中错误分类的像素增加。
2.mdrnns(multi-dimensional recurrent neural networks)模型
传统的rnn在一维序列学习问题上有着很好的表现,比如演讲(speech)和在线手写识别。但是 在多为问题中应用却并不到位。mdrnns在一定程度上将rnn拓展到多维空间领域,使之在图像处理、视频处理等领域上也能有所表现。
该论文的基本思想是:将单个递归连接替换为多个递归连接,相应可以在一定程度上解决时间随数据样本的增加呈指数增长的问题。以下就是该论文提出的两个前向反馈和反向反馈的算法。
4.基于上采样/反卷积的分割方法
卷积神经网络在进行采样的时候会丢失部分细节信息,这样的目的是得到更具特征的价值。但是这个过程是不可逆的,有的时候会导致后面进行操作的时候图像的分辨率太低,出现细节丢失等问题。因此我们通过上采样在一定程度上可以不全一些丢失的信息,从而得到更加准确的分割边界。
接下来介绍几个非常著名的分割模型:
a.fcn(fully convolutional network)
是的!讲来讲去终于讲到这位大佬了,fcn!在图像分割领域已然成为一个业界标杆,大多数的分割方法多多少少都会利用到fcn或者其中的一部分,比如前面我们讲过的mask r-cnn。
在fcn当中的反卷积-升采样结构中,图片会先进性上采样(扩大像素);再进行卷积——通过学习获得权值。fcn的网络结构如下图所示:
当然最后我们还是需要分析一下fcn,不能无脑吹啦~
优缺点:
fcn对图像进行了像素级的分类,从而解决了语义级别的图像分割问题;
fcn可以接受任意尺寸的输入图像,可以保留下原始输入图像中的空间信息;
得到的结果由于上采样的原因比较模糊和平滑,对图像中的细节不敏感;
对各个像素分别进行分类,没有充分考虑像素与像素的关系,缺乏空间一致性。
2.setnet
segnet是剑桥提出的旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,segnet基于fcn,与fcn的思路十分相似,只是其编码-解码器和fcn的稍有不同,其解码器中使用去池化对特征图进行上采样,并在分各种保持高频细节的完整性;而编码器不使用全连接层,因此是拥有较少参数的轻量级网络:
setnet的优缺点:
保存了高频部分的完整性;
网络不笨重,参数少,较为轻便;
对于分类的边界位置置信度较低;
对于难以分辨的类别,例如人与自行车,两者如果有相互重叠,不确定性会增加。
以上两种网络结构就是基于反卷积/上采样的分割方法,当然其中最最最重要的就是fcn了,哪怕是后面大名鼎鼎的segnet也是基于fcn架构的,而且fcn可谓是语义分割领域中开创级别的网络结构,所以虽然这个部分虽然只有两个网络结构,但是这两位可都是重量级嘉宾,希望各位能够深刻理解~
上一篇:“原始人饮食”可能并不健康