Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

[转载]基于深度可分离卷积网络的皮肤镜图像病灶分割方法

已有 224 次阅读 2021-7-24 11:17 |个人分类:智能科学与技术学报|系统分类:论文交流|文章来源:转载

微信截图_20210724111555.png

基于深度可分离卷积网络的皮肤镜图像病灶分割方法



崔文成, 张鹏霞, 邵虹

沈阳工业大学信息科学与工程学院,辽宁 沈阳 110870

 

【摘  要】针对皮肤镜图像病灶难定位、病灶精准分割难以实现的问题,提出一种基于深度可分离卷积网络的皮肤镜图像病灶分割方法。首先对皮肤镜图像进行黑框移除和毛发移除处理,将图像中有碍确定病灶位置的人工噪声、天然噪声移除;然后在降噪处理的基础上,对图像进行形变、旋转,以扩充数据集;最后构建基于深度可分离卷积、空洞卷积的编解码分割模型,编码部分对图像进行特征提取,解码部分融合特征图,并对图像细节特征进行恢复。实验结果表明,该方法针对皮肤镜图像病灶分割问题可取得较好的分割效果,分割病灶的准确率达到95.24%,与分割模型U-Net相比,准确度提高了6.17%。

【关键词】 皮肤镜图像 ; 病灶分割 ; 空洞卷积 ; 深度可分离卷积 ; 编解码模型

【引用格式】

崔文成, 张鹏霞, 邵虹. 基于深度可分离卷积网络的皮肤镜图像病灶分割方法[J]. 智能科学与技术学报, 2020, 2(4): 385-393.

CUI W C, ZHANG P X, SHAO H. Dermoscopic image lesion segmentation method based on deep separable convolutional network[J]. CHINESE JOURNAL OF INTELLIGENT SCIENCE AND TECHNOLOGY, 2020, 2(4): 385-393.



1.引言



皮肤病具有极高的发病率,且病症直接表现在皮肤表面。在皮肤病早期若不及时发现并治疗,中后期则会出现某些病症变异,并伴随复杂的并发症,最终对人体产生巨大的伤害,甚至导致死亡。因此,对皮肤病的及时诊断具有极大的现实意义。

皮肤镜通过显微技术将皮肤表面的组织结构、纹理变化和颜色差异等细节特征非常清晰地体现在皮肤镜图像上,利用皮肤镜图像可以观察皮肤病的颜色、形态、纹理等形态学特征,这为皮肤科临床医师诊断皮肤病提供了扎实的依据。

随着数字图像处理和计算机视觉与医学相结合,基于皮肤镜图像的计算机辅助诊断成为一个重要的研究领域。皮肤病的计算机辅助诊断系统以皮肤镜图像为介质,结合智能计算更加客观地分析处理数据,病灶区域分割则是其中的关键技术之一。然而,在采集皮肤镜图像的过程中,操作流程和环境、病人的自身肤质和病症表现等的差异会造成皮肤镜图像具有以下分析难点:

●皮损边界模糊、形状不规则;

●血管、毛发、浸泡液体中的气泡等遮挡病灶区域;

●皮损区域颜色分布不均;

●各种皮肤病的皮损区域表现出不同的特征,没有统一的模式。

皮肤镜图像的以上特征使实现病灶分割面临巨大的挑战。

分割问题不仅是实现皮肤病自动诊断的关键点,也是计算机图像处理与模式识别领域的重要研究内容。在智能计算过程中,分割任务的本质是对像素进行分类,即语义分割。Long J等人首次利用全卷积层代替全连接层,构建了一个全卷积神经网络,通过该网络进行端到端、像素到像素的训练,将分类网络转换为分割网络,为语义分割提供了新的方法。在此之后,基于卷积神经网络的语义分割方法逐渐涌现。Ronneberger O等人针对少样本的医学图像分割问题提出 U-Net,该网络通过数据增强功能辅助提取特征,并将特征与标签图像进行匹配,通过编码路径捕获上下文信息,通过解码路径实现精确定位,最终U-Net在神经元结构的分割任务中取得了优秀的成绩。U-Net 的提出不仅对医学图像的分割做出了巨大贡献,也为其他目标的分割提供了参考价值。TernausNet针对逐像素图像分割问题,使用在ImageNet上预训练的VGG11网络作为U-Net的编码结构,对U-Net进行改进。这一方法大大提高了分割模型的准确性,但未考虑分割效率。逐像素语义分割不仅要准确,还要高效率,为此Chaurasia A等人提出LinkNet模型。LinkNet模型将残差块作为编码器对U-Net进行改进,残差块的使用大大降低了参数和操作的数量,从而提高了分割效率。皮肤病的计算机辅助诊断包括疾病的分类、属性检测和病灶分割3个部分,为了同时实现这3个目标,Jahanifar M等人在编解码(encoderdecoder)架构的基础上提出了一个基于迁移学习的卷积神经网络框架,编码部分利用预训练的网络提取特征,解码部分使用空间金字塔组合多尺度信息,从而生成预测图。

基于编解码架构的U-Net为语义分割提供了新的思路,但不是唯一的解决方法。病灶分割的准确度对计算机辅助诊断系统中的皮肤病分类是否准确起着决定性作用,而准确的特征提取是实现分割的关键,因此国内外许多学者着重于特征提取器的设计。Al-Masni M A等人针对皮肤病病灶形状不确定、边界模糊导致分割困难的问题,提出一种全分辨率卷积网络,该网络直接学习输入数据的每个像素的全分辨率特征。Wang X H等人针对不同患者的皮肤镜图像病变差异大的问题,提出一种双向皮肤镜特征学习框架,通过控制两个互补方向的特征信息实现特征提取,将这一特征学习框架放在卷积网络的顶部以提高特征解析性能,再使用多尺度融合策略自动调整特征信息,从而获得深层的详细特征。Xie F Y等人针对特征图的空间会随着网络层的处理而减小的问题,提出基于注意力机制的卷积神经网络分割方法,设计了一个包含主注意分支、空间注意分支和通道注意分支的高分辨率功能块,主注意分支将高分辨特征图作为输入,以提取边界周围的细节特征,其他两个注意分支在空间和通道维度上增强主分支的特征,通过融合分支输出来获取具有详细信息的特征。参考文献在实现病灶分割时同样将重点放在如何获得详细、有效的特征上,实现病灶分割的思路均为通过设计特征提取器获得详细并具有鲁棒性的特征,再结合神经网络实现病灶分割。

通过设计和使用神经网络分割框架实现病灶分割是当前分割任务的研究热点,相比于传统方法,该方法的分割效果有明显的改善。但是针对皮肤镜图像的分割任务,目前仍存在黑框和毛发噪声妨碍定位病灶、边界模糊和病灶分布不均导致精准分割难以实现的难点。

本文针对皮肤镜图像存在黑框和毛发噪声这一难点进行黑框和毛发移除处理,以编解码架构为基础,设计基于深度可分离卷积的特征提取器,实现皮肤镜图像分割。


2. 皮肤病数据降噪

在采集皮肤镜图像时,不同患者的肤质差异、病症外观差异、采集操作流程和采集环境差异,均会造成皮肤镜图像的质量参差不齐。采集操作流程和采集环境差异导致图像中存在大量的黑框、光斑噪声,进而导致对病灶区域的提取存在偏差;当病变发生在腋下、头皮等毛发茂盛的部位时,采集的图像包含大量毛发,导致病灶被严重遮挡。因此,在提取病灶特征前,本文先对皮肤镜图像中的黑框、毛发噪声进行移除处理,以便得到更准确的病灶信息。


2.1 黑框移除


皮肤镜图像的黑框是指图像采集过程中,因操作不当造成的图像周围亮度较低的像素带。由此可见,黑框本身具有亮度低于其他区域的特点,因此可以根据亮度来定位黑框。

为了移除黑框部分,首先将图像转换到 HSL空间,根据亮度分量L来定位黑框所在的位置。

1.png

其中,R、G、B分别为RGB色彩空间的3个分量。

统计每行、每列满足L<20的像素点的个数N,若N占每行、每列像素点总数的比例超过0.6,则将该行、该列标记为黑框。定位所有黑框后,在原始图像中分别根据锁定的位置进行垂直和水平的黑框移除。

2.2 毛发移除


毛发、血管等天然噪声是无法通过图像采集技术避免的,但它们的存在对病灶的精准分割造成了很大的干扰,因此需对图像做毛发移除处理。

毛发移除算法的主要步骤如下。

步骤 1:将RGB空间中已移除黑框噪声的图像转换到LUV空间。

步骤 2:对L、U、V 3个分量分别进行形态学闭操作,得到图像MR。


2.png


其中,⊕表示形态学膨胀操作,!表示形态学腐蚀操作,B表示结构元素。

步骤 3:对闭操作前后的图像做差,并进行波谷检测,得到毛发图像CR。

步骤 4:对 CR 图像进行区域连通处理,并统计连通区域的毛发数量N。

步骤 5:若N>T(T为用来区分粗密毛发模式、稀疏毛发模式的阈值),则转到粗密毛发处理模式,采用偏微分运算修复毛发部位,设初始图像为u0(i,j),利用式(3)对图像进行修复。否则转到步骤6。


3.png

其中,c(x)表示扩散系数函数,常用形式为图片(i,j)表示像素点坐标,D表示像素(i,j)的邻域,λ表示一个平滑系数常量,n 表示邻域中的像素点个数,t表示迭代次数。

步骤 6:若N<T,则转到稀疏毛发处理模式,采用双线性插值修复毛发信息,以移除天然毛发噪声,通过计算原始图像中的4个相邻像素,输出目标图像的每个像素值,目标图像即移除毛发图像。

4.png


其中,u(i,j)表示输出图像中每个像素点的值, (x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)表示原始图像中相邻的4个像素点。

3.基于深度卷积的分割模型

本文的分割模型以编解码架构为基础,编码由一个基于深度可分离卷积的特征提取器和基于空洞卷积的空间金字塔池化块组成,解码部分对编码部分的特征结果进行融合,以获得预测结果。

3.1 深度可分离卷积


在图像处理领域,卷积操作通过选择不同的过滤函数,达到从输入中提取特征的目的。卷积运算中的卷积核被视为一个滤波器,即过滤函数,采用不同的过滤函数能够从输入中获取不同的特征。但标准卷积操作中的参数数量级会随着网络层级的增加而成倍增长,这给深层次的网络模型带来了极大的运算量,同时大大妨碍了运算效率的提高。深度可分离卷积的提出缓解了标准卷积参数数量巨大的问题。标准卷积操作的本质是实现图像在通道维度和空间维度的耦合,而深度可分离卷积则是将通道维度和空间维度分开进行映射,先进行通道维度的卷积,再进行空间维度的卷积。

在图1所示的标准卷积中,卷积层有4个过滤器,每个过滤器中有3个核,每个核的大小为3×3,则这一卷积层的参数数量为Nstd=4×3×3×3=108。
图1.png

在图2所示的通道维度卷积中,过滤器数量与输入数据的深度相同。因此3通道的图像经3个滤波器后生成了 3 个特征图,参数个数为Ndepthwise=3×3×3=27。通道维度的卷积只对每个通道维度独立进行卷积运算,未考虑不同特征图在空间位置上的信息,因此需要通过执行空间维度的卷积将通道维度的特征图组合生成新的特征图,卷积核是1×1× M,M 是输入数据的深度。此时,过滤器的数量决定了输出特征图的数量,如图3所示。

图2-3.png


图3 所示的空间维度卷积中,参数个数为Npointwise=1×1×3×4=12。最终输出的特征图数量为4个,与标准卷积一致。整个分离卷积参数由通道维度的和空间维度的卷积参数两部分组成,合计39个。

对于相同的输入、输出,深度可分离卷积的参数量级仅仅是标准卷积的1/3,因此在相同的参数量级下,使用深度可分离卷积可以构建更深层次的网络结构。本文通过采用深度可分离卷积构建特征提取器,包括两个核为3× 3的标准卷积层、20个核为3× 3的深度可分离卷积层,其结构如图4所示。
图4.png

3.2 空洞卷积


在深度卷积神经网络中,标准的卷积运算虽然能够提取有效特征,但也面临着随着深度的增加,空间分辨率大大降低的问题。此外,多层级的卷积、池化运算会导致内部数据结构丢失。如此一来,使用卷积神经网络进行图像语义分割不得不面对一个尴尬的问题,即浅层神经网络无法获取足够的有效特征,而较深层的神经网络却存在数据结构丢失、图像分辨率降低的问题。为了解决这一问题,本文在实现特征提取时使用空洞卷积这一操作。


空洞卷积,顾名思义,即在标准卷积中注入空洞,同时引入超参数——膨胀率。空洞卷积通过增加空洞的方式,在不进行池化损失信息的情况下增加了感受野,从而调整膨胀率,使每次卷积结果包含更大范围的信息。

图5所示,标准卷积的卷积核为3×3,空洞卷积的卷积核为3× 3,膨胀率为2。与标准卷积相比,空洞卷积通过添加空洞,原本3×3的卷积核拥有了5×5的感受野,由此可见,通过调整膨胀率,可以获得更大的感受野。
图5.png

空洞卷积的实际卷积核大小为:

图片


其中,k表示原始标准卷积的卷积核大小,r表示空洞卷积的膨胀率。

空洞卷积的感受野大小为:

图片


其中rn是本层网络的感受野,rn-1是上层网络的感受野,si是第 i 层网络卷积运算的步长, kernel 是空洞卷积的实际卷积核大小,由式(5)计算得到。

对于空洞卷积而言,卷积核中间部分包含大量的零元素,当使用这样的卷积核实现卷积运算时,得到的输出结果会失去信息的连续性。为了解决这一问题,使用空间金字塔差池结构。先使用核为1×1的标准卷积降低通道数,再基于空洞卷积的金字塔模型,获取多尺度信息,框架结构如图6所示。在此,利用特征分层的思想将膨胀率不同的空洞卷积的输出特征分层,将不同感受野进行特征融合,以改善空洞导致的信息不连续问题。
图6.png

本文采用基于空洞卷积的金字塔池化模型,从基于深度可分离卷积的特征提取器获得的特征图中获取更丰富的细节特征,金字塔结构包括1个核为1×1的标准卷积,3个核为3× 3、膨胀率分别为6、12、18的空洞卷积,以及一个池化层。

3.3 编解码模型

编解码模型是在整个网络结构中使用两个网络模块处理序列到序列问题的模型,其数学模型如图7 所示。简单而言,就是根据输入序列生成输出序列。编码就是将输入序列3.3-1.png转化为固定长度的向量C解码就是将编码生成的向量C转化为输出序列3.3-2.png
图7.png
在本次的病灶分割任务中,编码部分由深度可分离卷积模块和基于空洞卷积的空间金字塔模块两部分组成。原始图像经过深度可分离卷积模块得到一个低级特征和一个高级特征,低级特征直接输出到解码模块,高级特征经过空洞空间金字塔处理后得到多尺度特征,将该特征经过核为1×1的卷积运算以降低通道数,然后送入解码部分。解码部分通过从编码部分获取的信息逐渐恢复图像的细节信息及其空间维度,其由一个核为1×1的标准卷积层、特征融合层、核为3×3的标准卷积层和上采样层构成。解码模块将来自深度可分离卷积的低级特征经过核为1×1的卷积运算降低维度,将接收到的多尺度特征进行双线性差值上采样处理。两部分特征经过特征融合后,再进行一个核为3×3的卷积运算,对输出结果执行一次上采样。

3.4 Dice损失函数


在医学影像的智能处理中,不可避免地需要面对数据样本不均衡的难题。针对数据不平衡问题,现有的解决方法主要有数据重采样和代价敏感学习。数据重采样即通过对数据做形变来调整数据样本的比例,代价敏感学习则是通过设置损失函数实现。

骰子系数(Dice系数)similar是一种衡量两个样本集之间的相似度的指标,定义如下:


7.png
其中,3.4-1.png集合图片图片的交集,图片分别表示集合X和Y中的元素个数。

由式(7)可知,Dice 系数是离散化的。为了适用于分割任务,需将其连续化,定义Dice损失函数为:

8.png


其中,X为预测图,Y为标签,将|X∩Y|定义为预测图与标签之间的点乘,并将点乘的结果相加,将|X|和|Y|定义为元素的平方和。

为了避免|X|和|Y|都为 0 的特殊情况,同时也为了减少过拟合现象,在式(8)中添加一个平滑算子,即:

9.png

4.实验结果


4.1 数据集


本课题将ISIC2018皮肤镜数据集作为训练集,将PH2_dataset数据集作为验证集。ISIC2018数据集包含2 594张皮肤镜原始图像和2 594张与之对应的二元标签图像,其中包含光化性角化病和上皮内瘤、良性角化病、基底细胞癌、鳞状细胞癌、皮肤纤维瘤、黑色素瘤、痣、血管病变等皮肤病。PH2_dataset数据集包含200张皮肤镜原始图像、200张标签图像,其中包含160例痣、40例黑色素瘤。

数据集中的皮肤镜图像具有以下几点特征:

●数据中包含大量毛发、血管之类的噪声,对病灶造成遮挡;

●存在数据不平衡现象,如在ISIC数据集中,病灶区域占整个图像的比例最小不足 1%,最大达到98%;

●病灶区域与背景区域界限模糊,难以区分。

4.2 数据降噪结果


实验首先对数据进行预处理,消除黑框、毛发噪声。将原始数据作为输入,先移除图像中的黑框,然后再处理图像中的毛发信息,之后将移除了黑框、毛发的图像通过形变对数据进行扩充。数据扩充即对数据图像及其相对应的标签图像进行翻转、旋转、改变对比度,以达到增加数据量的目的,最后将得到的数据集进行归一化处理。

原始数据图像和移除黑框后的图像如图8所示。

图片
图8   移除黑框前后对比

移除毛发前后对比如图9所示,图9(a)、图9(c)为带有毛发的图像,图9(b)、图9(d)分别为对应的移除毛发后的图像。

图片
图9   移除毛发前后对比

实验结果表明,本文降噪方法能够有效去除皮肤镜图像中的黑框和毛发噪声。然后通过对降噪后的数据进行形变来扩充数据,从而缓解数据量小的问题。

4.3 病灶分割结果


就深度学习领域来说,本文使用的ISIC数据集和 PH2_dataset 数据集的数据量是非常小的,直接使用这些数据集从无到有地训练深度学习的模型是一件既耗时又费力的事情,而这样获得的模型也很容易出现过拟合现象,并且会影响模型的可延展性。因此,在实际的实验过程中,本文采用迁移学习方法来训练分割模型,利用已在大数据集上预训练好的网络模型权重,在皮肤镜数据集上完成模型训练。

常见的网络模型将交叉熵损失函数(cross-entry loss function)作为代价函数,但是交叉熵损失函数并不适用于皮肤镜图像,因此本文使用Dice损失函数作为代价函数,并为病灶区域与背景区域分配不同的权重比,设置病灶区域比重为 0.7,背景区域比重 0.3;分割模型中的特征提取部分采用深度可分离卷积实现。

实验中使用的网络训练算法为收敛速度较快的自适应动量估计算法(Adam算法),训练过程采取20个Epoch训练,Batchsize设为4,学习率(Lr)为0.01,训练准确度稳定在86.71%,测试准确率稳定在85.01%。实验结果如图10所示。
图10.png

此外,为了使训练过程尽可能优化,本文对模型中的参数进行了调优对比,同时增大训练Epoch,结果见表1。

表1.png


在训练过程中,随着Batchsize的增大,训练速度缓慢下降,当Batchsize=12时,分割模型的训练速度较Batchsize=4时明显下降,并出现内存溢出现象。训练速度下降是因为本文分割模型的构建使用的是较深层次的卷积运算,随着层级深入,每个层级输出的特征图的深度逐渐增大,在此基础上,增加Batchsize就会降低训练速度。

使用U-Net分割模型对本文的研究对象进行训练,训练中的Epoch为20,Batchsize为8,学习率为0.05,将实验结果与本文方法进行对比,如图11所示。
图11.png
结果表明,本文所述基于深度可分离卷积的编解码模型较U-Net模型能够得到更高的准确率。对于相同的参数设置,训练20个Epoch后,本文方法的训练准确率达到 92.24%,测试准确率达到90.82%;U-Net模型的训练准确率达到86.07%,测试准确率达到84.71%。

综合以上实验结果,针对皮肤病数据集,本文方法的训练准确率最高可达到95.24%,测试准确率最高可达93.82%。

5.结束语

本文以皮肤镜图像为研究对象,在分析了皮肤镜图像的特点后,针对图像特有噪声提出了有效的降噪方法,移除了图像中的人工噪声黑框和天然噪声毛发;又结合深度可分离卷积、空洞卷积、编解码模型构建分割模型,通过深度可分离卷积降低模型中的参数量级,通过空洞卷积在不降低分辨率的情况下获取多尺度特征,通过编解码模型恢复图像细节得到分割预测图。实验结果表明,该方法针对皮肤镜图像能够取得较好的分割效果。本文方法虽然对皮肤镜图像做了有效的噪声移除,但对与病灶具有高相似度的噪声未做到有效处理,如血管。在分割性能方面,Batchsize≥12时训练速度慢的问题有待进一步深入解决。此外,在医疗辅助系统中还需要考虑疾病的识别问题,以及皮肤病病理图像的分割及识别问题,这些都是未来研究的重点。

作者简介 About authors

崔文成(1973-),男,沈阳工业大学信息科学与工程学院副教授,主要研究方向为智能信息处理。

张鹏霞(1996-),女,沈阳工业大学信息科学与工程学院硕士生,主要研究方向为智能信息处理。

邵虹(1974-),女,博士,沈阳工业大学信息科学与工程学院教授,主要研究方向为图像处理与模式识别、智能信息处理。 





https://wap.sciencenet.cn/blog-951291-1296782.html

上一篇:[转载]基于DQN的列车节能驾驶控制方法
下一篇:[转载]异构多智能体系统的输出同步:一个基于数据的强化学习方法

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-9-17 06:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部