wangbaoyun的个人博客分享 http://blog.sciencenet.cn/u/wangbaoyun

博文

基于残差注意力机制的泥石流灾害沟谷识别

已有 1995 次阅读 2023-1-26 11:07 |个人分类:机器学习|系统分类:论文交流

   这是我们运用深度迁移学习进行沟谷泥石流易发性评估的系列文章, 2022年12月发表在《中国地质灾害与防治学报》上。

     1 本文算法描述 

     1.1 总流程

目前,卷积神经网络已经在计算机视觉领域表现出了优越性。然而,随着卷积神经网络模型越来越庞大,层数越来越深,网络极易出现梯度消失等问题,导致模型性能下降。残差网络模型较好的解决了梯度消失等问题,被广泛应用于各类任务。深度卷积神经网络拥有较多的参数,在数据样本充足的情况下能够达到较好的分类效果。但本文所使用的泥石流灾害沟谷图像数据集较小,每个类分别约300张。直接使用较深的网络模型极易产生过拟合现象,导致模型性能下降。因此,本文提出了Resnet18_SC网络模型,将残差注意力模块SCAM嵌入Resnet18残差网络模型中,充分捕获泥石流灾害沟谷图像信息,从而提高模型分类的准确率,如图1所示。

debris1.png

1 基于残差注意力机制的泥石流灾害沟谷图像分类模型Resnet18_SC

Resnet18_SC网络模型的输入是一张沟谷图像,输出是该沟谷图像的类别概率。Resnet18_SC首先采用1次卷积对输入的图像进行处理,过滤器的尺寸为7×7,设置步长为2,将输出的特征映射降维至原来的1/2。在每次卷积后,均采用Batch Normalization以进一步缓解过拟合;leakyRelu激活函数充分利用梯度信息,保证模型尽快收敛。之后,采用过滤器大小为3×3、步长为2的最大池化操作减少特征映射的参数,再次将其降维至上一层输出的1/2。然后,采用了8个残差注意力卷积组提取特征映射的高级特征,每个残差注意力卷积组包含2次卷积和1次残差注意力操作。每组卷积操作的过滤器大小均为3×3,过滤器的数量分别为64、64、128、128、256、256、512、512。最后,利用全局平均池化层提取最后一次卷积输出特征映射的空间信息,降低了模型的参数数量。经过全连接层,使用Softmax激活函数输出分类的结果概率。

    1.2 残差注意力模块

在卷积神经网络中加入注意力机制能够让网络模型更加关注感兴趣区域,使得模型聚焦所要提取的重要特征,忽略不相关特征。本文提出的残差注意力模块包括残差空间注意力模块和残差通道注意力模块,同时用于关注特征映射的空间域和通道域信息。

1) 残差通道注意力模块

本文的残差通道注意力模块如图2所示。

在遥感图像的分类问题中,卷积神经网络通过卷积提取的特征图是由不同的特征通道组成的,有些通道包含的是与目标信息无关的背景信息,这些无用信息不但会影响判别结果,而且会增加计算量。残差通道注意力模块主要关注特征矩阵中有价值的信息,提取特定目标的分辨性较强的特征。在普通的卷积操作中,受到感受野范围的限制,卷积核每次只能关注特征映射的某一局部区域,不能捕获该局部区域以外的上下文信息。通道注意力模块利用不同通道之间的依赖性,使网络能够提升细节部分的注意力。通道注意力通过对特征图进行计算,能够将更高的权重分配在含有判别性信息的特征通道上,从而有效提高泥石流灾害沟谷图像的分类效果。

通道注意力模块的输入特征为通过卷积神经网络卷积运算提取的特征图,经过基于宽度和高度的全局最大池化和全局平均池化,然后将结果分别送入两个共享参数多层感知机(MLP)。将MLP输出的特征进行对象相乘、相加,再使用Sigmoid函数激活,生成最终的通道注意力特征图Mc。

debirs2.png

2 通道注意力机制模块

2) 残差空间注意力模块

除了通道信息,特征图中还存在着丰富的空间维度信息,为了探索特征映射局部区域之间的空间关系,本文提出了一个残差空间注意力模块,如图3所示。空间注意力模块是通过特征图的空间维度的相互位置信息进行特征提取,计算得到空间维度的注意力权重,这个过程也是对关键特征的有效选择,更加关注目标物体在输入特征映射的位置信息。空间注意力模块能够对通道注意力模块进行补充,加强网络对特征图像细节部分的提取,提高网络的学习能力,增强网络的识别率。

空间注意力模块的输入特征为通道注意力模块的输出特征图Fc,首先基于通道(Channel)进行全局最大池化(GMP)和全局平均池化(GAP),池化后获得两个二维的特征图,将其按照通道维度拼接,拼接后通过卷积层对特征图进行卷积使其再次降维为1个通道。最后使用Sigmoid激活函数生成空间注意力特征Ms。

debris3.png

3 空间注意力机制模块

3) CBAM

CBAM是一种结合通道注意力(CA)和空间注意力(SA)的注意力模块,结构如图4所示,与Woo等人[25]得出的实验结果有所不同,通过实验对比发现先空间后通道注意力机制的顺序在泥石流灾害沟谷分类结果上表现的更好,因此图4为Resnet18_SC模型中使用的先空间后通道注意力模块。CBAM通过将卷积层提取出的特征进行计算生成一个注意权重来调整每层提取特征的比重,使卷积神经网络模型能够自行学习权重。与其它注意力模块相比,CBAM具有更少的参数以及更易解释的特性。CBAM主要的机制就是用最后生成的输出特征图Fs替换原始输入特征图F,实现提取通道和空间两个维度的注意力权重。

debirs4.png

4 通道和空间注意力机制结合的CBAM模块

   至此,我们就得到Resnet18_SC模型。

      2,实验与讨论

      2.1 实验数据

本文使用的数据为云南省2005-2017年间发生泥石流灾点沟谷和未发生泥石流灾害沟谷。该数据通过Arcgis软件对DEM图像和高分一号遥感数据处理得到,共获得原始数据560张。数据处理前期共获得5种数据:DEM图像、高分一号4个波段图像(红光波段、绿光波段、蓝光波段和近红外波段),经过多组实验对比发现高分一号遥感数据第四个通道下的近红外波段数据特征更丰富、分类效果最佳,因此本文采用的数据为高分一号近红外波段的图像。本实验的目的是为了通过智能化的手段高效的识别出某处泥石流发生的概率,因此本文将提取的泥石流沟谷按灾害发生次数进行分类,分为0类,1类,2类,3类。0类代表该沟谷处未记录发生过泥石流,1类代表该沟谷处记录发生过1次泥石流,2类代表该沟谷处记录发生过2次泥石流,3类代表该沟谷处记录发生过3次及以上泥石流。图5为近红外波泥石流沟谷数据集的0,1,2,3类数据展示。

debris5.png

5 泥石流数据集

由于深度学习模型的训练中,需要大量数据集支持才能防止过拟合,得到泛化能力强的网络。然而在泥石流研究中,难以获取到大量复杂的、有标注的泥石流沟谷遥感图像作为训练的数据集。数据增强可以增加数据量,提升神经网络模型的整体性能。因此采用数据增强的方法,对泥石流沟谷遥感图像进行水平、垂直翻转、随机角度旋转、随机颜色抖动、随机噪声以及对比度、亮度、颜色增强,解决数据量不足的问题。经过数据增强后,共得到泥石流沟谷图像1240张,四类泥石流沟谷遥感影像的数量分别为:300、290、320、330张,按照训练集、验证集和测试集的6:2:2的比例划分数据集。

2.2 实验结果

本节将对卷积网络Alexnet、VGG16和残差网络Resnet18引入Woo等人[25]提出的CBAM先通道后空间的注意力机制模型进行实验,分析CBAM对不同网络的影响以及对泥石流灾害沟谷数据集的可行性。

在卷积神经网络中,只需将CBAM模块加入到卷积层的后面,若卷积网络中有连续多个相同大小的卷积层仅需要在第一个卷积层后面添加CBAM,因此Alexnet和VGG16模型分别需要在网络中添加3个和5个CBAM。残差网络与卷积网络在结构上存在差异性,残差网络是由多个残差块和残差连接组成,在Resnet18中引入CBAM时比在Alexnet中更复杂。Resnet18的核心结构主要是4种不同的卷积残差模块(2个conv2_x、2个conv3_x、2个conv4_x、2个conv5_x),每个卷积残差模块由2个卷积层和跨越它们的连接组成。对于resnet18,需要插入8个CBAM,分别插入到八个卷积块第1个卷积层的后面,从而实现对所有尺寸的输入特征图分配注意力权重。

对上述三个网络添加CBAM后进行结构重组,调整网络合适的参数,最后对改进前后模型进行训练。结果如表1-3所示。表1-3分别对应resnet18、resnet50、resnet101三个神经网络加入CBAM前后结果对比。

表1  Alexnet与Alexnet_cbam结果对比

模型

特异性/%

灵敏度/%

损失

准确率/%

Alexnet

60.37

60.08

0.0394

61.29

Alexnet_cbam

61.81

62.15

0.0373

63.44

2  VGG16VGG16_cbam结果对比

模型

特异性/%

灵敏度/%

损失

准确率/%

VGG16

61.41

61.52

0.0371

62.72

VGG16_cbam

60.76

62.86

0.0356

65.23

3  resnet18resnet18_cbam结果对比

模型

特异性/%

灵敏度/%

损失

准确率/%

Resnet18

87.26

69.88

0.0289

70.32

Resnet18_cbam

87.99

71.35

0.0261

73.12

三个表分别从特异性、灵敏度、损失值和准确率四个评价指标进行分析,除了VGG16_cbam模型在特异性上没有提升外,其他参数值均在加入CBAM后表现的更好。相较与原网络在准确率上Alexnet_cbam提升了2.15%、VGG_cbam提升了2.51%、resnet18_cbam提升了2.8%。Resnet18的准确率高于另外两个卷积神经网络,这是由于残差网络的特殊结构决定的,其残差结构能够防止网络过拟合和梯度消失,且在训练速度上也有很大的提升。VGG16相较于AlexNet,在同时添加注意力模块的情况下,VGG16_cbam各项指标仍略高于Alexnet_cbam,这是因为本身VGG16含有的卷积层数就远多于AlexNet,模型能够更多的提取特征信息。通过上述分析发现CBAM模块加入到传统的卷积网络中具有显著效果,从另一方面也说明了CBAM模块对于泥石流灾害数据集的信息提取是有用的。

3,总结

出了基于注意力机制的残差网络模型Resnet18_SC,对历史发生泥石流灾害沟谷图像按发生次数进行分类。在该模型的残差映射结构中加入残差注意力模块,不仅能够关注泥石流灾害沟谷图像中的位置信息,还能重点捕捉泥石流沟谷图像中山脊和轮廓等特征信息,极大降低噪声的影响,提升模型的分类准确率。通过一系列实验证明了提出的Resnet18_SC残差网络模型在泥石流灾害沟谷图像分类问题的有效性。未来的工作中,将未使用的4种泥石流灾害沟谷数据(DEM图像,高分一号前3个通道图像)进行实验,使它们携带的特征信息应用到泥石流灾害沟谷分类中,提高分类准确率。

参考文献

[1]刘坤香,王保云,徐繁树,韩俊.基于残差注意力机制的泥石流沟谷识别[J].中国地质灾害与防治学报,2022,33(06):134-141.DOI:10.16031/j.cnki.issn.1003-8035.202111010.

作者:wangbaoyun 排版:wangbaoyun  审核:wangbaoyun



https://wap.sciencenet.cn/blog-3452484-1373520.html

上一篇:测定四个变量就可以评估场所的拥挤踩踏风险
下一篇:【成果】小样本学习用于泥石流灾害易发性评价
收藏 IP: 202.203.137.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 22:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部