▌4、语义分割
计算机视觉的核心是分割,它将整个图像分成一个个像素组,然后对其进行标记和分类。特别地,语义分割试图在语义上理解图像中每个像素的角色(比如,识别它是汽车、摩托车还是其他的类别)。如上图所示,除了识别人、道路、汽车、树木等之外,我们还必须确定每个物体的边界。因此,与分类不同,我们需要用模型对密集的像素进行预测。
与其他计算机视觉任务一样,卷积神经网络在分割任务上取得了巨大成功。最流行的原始方法之一是通过滑动窗口进行块分类,利用每个像素周围的图像块,对每个像素分别进行分类。但是其计算效率非常低,因为我们不能在重叠块之间重用共享特征。
凯发天生赢家一触即发官网的解决方案就是加州大学伯克利分校提出的全卷积网络( fcn ),它提出了端到端的卷积神经网络体系结构,在没有任何全连接层的情况下进行密集预测。
这种方法允许针对任何尺寸的图像生成分割映射,并且比块分类算法快得多,几乎后续所有的语义分割算法都采用了这种范式。
但是,这也仍然存在一个问题:在原始图像分辨率上进行卷积运算非常昂贵。为了解决这个问题, fcn 在网络内部使用了下采样和上采样:下采样层被称为条纹卷积( striped convolution );而上采样层被称为反卷积( transposed convolution )。
尽管采用了上采样和下采样层,但由于池化期间的信息丢失, fcn 会生成比较粗糙的分割映射。 segnet 是一种比 fcn (使用最大池化和编码解码框架)更高效的内存架构。在 segnet解码技术中,从更高分辨率的特征映射中引入了 shortcut/skip connections ,以改善上采样和下采样后的粗糙分割映射。
目前的语义分割研究都依赖于完全卷积网络,如空洞卷积 ( dilated convolutions ),deeplab 和 refinenet 。