引用本文
廖苗, 杨睿新, 赵于前, 邸拴虎, 杨振. 基于CE TransNet的腹部CT图像多器官分割. 自动化学报, 2025, 51(6): 1371−1387 doi: 10.16383/j.aas.c240489
Liao Miao, Yang Rui-Xin, Zhao Yu-Qian, Di Shuan-Hu, Yang Zhen. Multi-organ segmentation from abdominal CT images based on CE TransNet. Acta Automatica Sinica, 2025, 51(6): 1371−1387 doi: 10.16383/j.aas.c240489
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240489
关键词
多器官分割,深度学习,Transformer,交叉连接
摘要
受限于局部感受野, 卷积神经网络无法建立足够的长距离依赖关系. 一些方法通过将Transformer部署至卷积网络的某些特定部位来缓解这个问题, 如网络编码器、解码器或跳跃连接层. 但这些方法只能为某些特定特征建立长距离依赖关系, 难以捕获大小、形态多样的腹部器官之间的复杂依赖关系. 针对该问题, 提出一种交叉增强Transformer (CE transformer)结构, 并用它作为特征提取单元构建一种新的多层级编−解码分割网络CE TransNet. CE transformer采用双路径设计, 深度融合Transformer与卷积结构, 可同时对长、短距离依赖关系进行建模. 在双路径中, 引入密集交叉连接促进不同粒度信息的交互与融合, 提高模型整体特征捕获能力. 将CE transformer部署于CE TransNet的整个编解码路径中, 可有效捕捉多器官的复杂上下文关系. 实验结果表明, 所提出方法在WORD和Synapse腹部CT多器官数据集上的平均Dice相似系数值分别高达82.42%和81.94%, 显著高于多种当前先进方法.
文章导读
腹部计算机断层扫描 (Computed tomography, CT)图像中的多器官分割有助于器官的形态分析、疾病诊断、治疗方案制定等任务, 可为手术导航、器官移植、放射治疗等提供有价值的定量评估[1]. 目前, 临床上腹部多器官分割主要由医生手动勾画完成. 由于每个病人包含的切片数量巨大, 手动勾画过程繁琐、效率低、可重复性差[2]. 此外, 腹部是人体最复杂的区域之一. CT图像中腹部器官通常具有结构复杂、边界模糊、形态多样等特点[3], 人工手动勾画的主观性大, 其准确性严重依赖于临床医生的经验和技巧[4]. 因此, 研究腹部CT图像多器官的自动分割对于提高计算机辅助诊疗的精度和效率具有重要意义.
近年来, 由于强大的非线性特征提取能力, 深度学习技术, 尤其是深度卷积神经网络 (Convolutional neural network, CNN)在医学图像分割任务上取得显著的进展[5−6]. 这些进展极大地推动了医学影像分析的自动化与精准化. 特别是在器官识别、病灶检测、病理分级等关键应用中, CNN展现出超越传统方法的性能[7−8]. Long等[9]提出全卷积网络 (Full convolutional neural network, FCN), 该网络利用编码器−解码器架构以及跳跃连接促进抽象特征信息与次级细节信息的融合, 显著提高了模型的分割性能. U-Net[10], 一种呈U形的全卷积网络, 可有效保留空间细节信息, 在医学图像分割任务中展现出强大的分割能力, 是医学图像分割领域的一个重要里程碑[11]. 尽管基于CNN的模型取得了相当的成功, 但受限于局部感受野、归纳偏置等, 这些基于CNN的方法难以建立图像中长距离目标之间的依赖关系, 其分割性能仍无法满足临床要求.
为克服CNN在建模全局语义特征方面的局限, 基于多头自注意力(Multi-head self-attention, MHSA)[12]机制的视觉Transformer (Vision transformer, ViT)[13]被提出. 在Transformer层中, 所有输入序列被并行处理, 模型能够一次性获得整个图像的全局视图, 无需依赖逐层递增的感受野[14−15]. 这使得模型能更高效地处理长距离依赖关系, 在视觉任务中识别跨越多个尺度的结构[16−17]. 最近, Kirillov等[18]提出一种基于ViT的大模型, 称为SAM (Segmentation anything model). SAM在大规模视觉数据上进行训练, 对自然图像展现出强大的分割能力. 然而, SAM在分割对象之前需要输入提示词, 无法实现全自动分割. 它在各种医学图像和任务中的准确性也存在显著差异[19], 尤其是在处理小尺寸、低对比度和不规则形状的目标区域时面临挑战[20−21].
鉴于Transformer在视觉任务上展现出的巨大潜能, 不少专家学者将其引入医学图像分割领域[22]. Chen等[23]首次将Transformer嵌入U-Net编码器深层, 构建TransUNet分割模型, 以捕获图像长距离依赖关系. 类似地, TransBTS[24]、UCTransNet[25]和SegTran[26]同样以CNN作为骨干网络, 并将Transformer部署于网络的局部结构中, 例如编码器、解码器或跳跃连接等. 上述方法在CNN框架的某些特定部分引入Transformer, 两者之间缺乏信息交互和融合机制. CNN通过卷积操作来捕捉局部特征, 强调空间结构和局部特征[6−7]. Transformer则利用自注意力机制捕捉长距离依赖关系, 将输入视为序列而不是结构化的像素网格[13, 15]. 这种差异导致CNN提取的局部特征与Transformer捕捉的全局语义之间出现不匹配, 这种不匹配导致特征表示不一致, 限制了模型的性能, 无法实现预期的优势互补与协同效应[27]. 此外, 也有一些完全基于Transformer的分割网络提出, 如Swin Unet[28]、MedT[29]和MISSFormer[30]. 上述网络过分依赖于长距离建模能力, 而对小目标、边界等局部信息的关注有限, 而这些局部信息对于医学图像分割至关重要.
为克服CNN和Transformer特征表示不一致的问题, 近期的研究尝试探索更加紧密的融合策略, 以充分利用两者优势. 例如, ScribFormer[31]、SSNet[32]和HAFormer[33]均采用CNN-Transformer双编码器, 并引入交互模块实现特征融合. ScribFormer利用特征耦合单元(Feature compling units, FCU)建立双编码器之间的信息通路, 以整合全局和局部特征. SSNet采用特征融合模块(Feature fuse module, FFM)和特征注入模块(Feature inject module, FIM)来融合CNN-Transformer双编码器之间的信息. 然而, FCU、FFM和FIM部署于每个阶段的末端, 其发挥的特征融合作用有限. HAFormer将一种相关性加权融合(Correlation-weighted fusion, cwF)模块部署于编码路径的最后阶段, 忽略浅层网络的特征融合, 在建模多器官的复杂依赖关系方面仍存在挑战.
为深度融合CNN-Transformer, 实现全局和局部特征的渐进式、深入融合, 本文提出一种基于密集交叉连接的混合特征提取模块CE transformer. 不同于现有特征提取模块, CE transformer采用双路径结构并行提取图像局部和全局特征, 以捕获多器官的上下文关系, 并引入密集交叉连接, 构建双流信息通道, 促进不同粒度特征的深度交互与融合. 以CE transformer为基础特征提取模块, 本文构建了一种编码−解码结构的腹部CT图像多器官分割模型CE TransNet. 编码器通过级联多个下采样和CE transformer结构, 获取图像多尺度特征, 解码器利用门控注意力模块和CE transformer逐步融合编码端特征, 生成分割图. 本文的主要贡献如下:
1)提出一种新的交叉增强Transformer结构, 可全面、深入提取图像全局及局部特征. CE transformer以多头自注意力机制和深度可分离卷积为基础, 采用双路径设计, 并引入密集交叉连接促进不同模块之间的特征交互, 为模型提供更丰富的上下文信息, 使模型具备同时捕获长−短范围目标之间依赖关系的能力.
2)以CE transformer为核心, 提出一种多层级编−解码网络架构CE TransNet. 不同于现有网络直接将Transformer部署于某些特定结构, CE TransNet将CE transformer贯穿于整个网络的编−解码路径, 显著提高模型从全局和局部视角提取图像特征的能力, 可充分、深入捕获各器官内部结构及不同器官间的相对关系, 实现腹部CT多器官同时准确分割.
3)在多个腹部CT多器官图像数据集上评估提出网络的分割性能. 结果表明, 与目前先进方法相比, 提出的CE TransNet在Dice相似系数 (Dice similarity coefficient, DSC)、平均交并比 (Mean intersection over union, mIoU)、归一化表面Dice (Normalized surface Dice, NSD)、豪斯多夫距离 (Hausdorff distance, HD)、平均表面距离 (Average surface distance, ASD)和准确率等多个分割指标上表现出明显优势, 大大提升了十二指肠、结肠和胆囊等形态复杂器官的分割精度.
图 1 CE TransNet网络结构示意图
图 2 CE transformer结构
图 3 焦点调制层结构
CNN模型在处理形态复杂器官时, 受限于固定大小卷积核, 难以建立足够的长距离依赖关系. 鉴于Transformer在全局信息提取上的优势, 一些方法将其引入CNN模型的编码、解码或跳跃连接等结构. 由于卷积层与Transformer的独立执行, 图像局部与全局信息无法进行深度融合, 从而限制了模型综合特征的捕获能力. 针对上述问题, 本文提出一种基于交叉增强Transformer的腹部多器官分割网络CE TransNet. CE transformer采用双路径结构, 结合卷积与Transformer优势, 同时建模特征的长、短距离依赖关系, 提高模型对复杂依赖关系的表征能力. 在双路径结构中, 引入密集交叉连接促进不同粒度信息的交互与融合, 促使模型产生更综合、全面的特征. CE transformer部署于CE TransNet整个编−解码路径, 全面捕获CT图像复杂的上下文关系. 通过在WORD和Synapse两个腹部CT多器官数据集上进行评估发现, 本文方法表现出明显优势, 取得更精确和稳定的分割结果, 超过现有最先进的卷积与Transformer分割网络.
作者简介
廖苗
湖南科技大学计算机科学与工程学院副教授. 主要研究方向为图像处理与模式识别. E-mail: mliao@hnust.edu.cn
杨睿新
湖南科技大学计算机科学与工程学院硕士研究生. 主要研究方向为医学图像处理, 图像分割. E-mail: 22020501025@mail.hnust.edu.cn
赵于前
中南大学自动化学院教授. 主要研究方向为图像处理, 模式识别, 机器学习. 本文通信作者. E-mail: zyq@csu.edu.cn
邸拴虎
国防科技大学智能科学学院讲师. 主要研究方向为模式识别和持续学习. E-mail: dishuanhu@nudt.edu.cn
杨振
中南大学湘雅医院肿瘤科副主任医师. 主要研究方向为医学影像学, 计算机辅助放疗. E-mail: yangzhen@188.com
转载本文请联系原作者获取授权,同时请注明本文来自Ouariel科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1495962.html?mobile=1
收藏