分享
基于Transformer的红外掩埋目标检测_陆恬昳.pdf
下载文档

ID:2251300

大小:2.12MB

页数:3页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 Transformer 红外 掩埋 目标 检测 陆恬昳
基于 Transformer 的红外掩埋目标检测红外探测技术因其非接触式和被动探测的特点受到广泛关注,是当前及未来先进武器系统的核心技术之一,在工业、交通、安保、医疗、天文等民用领域也有着广泛应用需求。红外技术在远距离、大范围、被动探测及非金属探测等方面有独特的优势。红外成像探测地下目标时通过目标与土壤不同的热力学性质来实现,反映在红外图像上是不同的区域具有灰度值差异,且随时间变化1。通过对红外图像的处理,便可以实现红外掩埋目标的检测。红外目标探测可以应用在许多领域,如地雷探测、地下工事探测、矿藏分布勘探、地下电缆管道探测及地下考古等,因此已成为计算机视觉领域的一个热门研究课题。通过红外探测技术获得红外图像用于目标检测,会有以下几个难点:目标特征少。一般来说图像中的目标尺寸小,其辐射能量小于背景,且形状特征也难以获取,且不存在颜色特征,可用于目标检测的特征少。图像信噪比低。目标与背景的杂波和噪声有着相似的特点,进而容易被淹没和干扰,从而导致目标信号几乎淹没在背景中而难以检测。考虑到红外图像的特点,本文使用基于语义分割的方法来实现掩埋目标的检测。现有的语义分割模型基本都基于FCN2。FCN是由编码器和解码器组成的架构,编码器用于特征表示学习,而解码器用于对编码器产生的特征表示进行像素级分类。大多数基于卷积神经网络(Convolutional Neural Network,CNN)的方法都取得了良好的性能,但卷积层存在几个问题。首先,卷积核与图像的内容无关;其次,由于卷积核通常看作是一个小块,其中获取的特征是局部信息,对于整个图片,通过大量卷积层之后全局信息可能会丢失。而Transformer网络架构3最初是用于机器翻译任务的网络结构,后经过一系列研究改良,逐渐被用于图像领域。该网络结构采用完全依赖于注意力机制的结构,有效解决全局信息丢失的问题。在图像领域,Vision Transformer将纯粹的Transformer结构直接应用到一系列图像块上进行分类任务;DETR则是以CNN和Transformer混合的目标检测框架4。考虑到基于CNN的方法和Transformer方法各自的优势,本文设计了一个基于Transformer的红外掩埋目标探测网络。采用FCN的编码器-解码器架构,首先通过结合Transformer和ResNet5的编码器网络获取目标特征,然后使用解码器来恢复原始图像分辨率。1方法SETR6将语义分割视为序列到序列的预测任务通过一个纯粹的Transformer来替代传统的卷积神经网络,不进行卷积和分辨率降低,将图像编码为一系列patch,通过在Transformer的每一层中建模全局上下文。本文设计的网络中,选择了SegNet7为baseline,编码器网 络 使 用ResNet34,同 时 在 编 码 器 网 络 中 添 加SETR中Transformer的编码器来提取全局信息作为附加特征,以提升整个网络目标检测的性能。1.1整体网络结构本文设计的整体网络如图1所示,输入原始红外图像,进入陆恬昳张俊杰曾丹(上海大学通信与信息工程学院,上海200444)Transformer-based Infrared Buried Target Detection摘要:红外探测技术由于不易受环境因素的干扰而常用于各种情形下的目标检测,红外掩埋目标检测是其中很重要的一个应用。红外图像的对比度低、目标的视觉信息弱,导致红外目标检测困难。为了解决红外掩埋目标检测率低的问题,设计了一个基于Transformer的红外掩埋目标检测网络。该网络通过结合卷积神经网络提取的深层特征和Transformer保留的全局信息,提高目标的检测率。关键词:深度学习;红外图像;卷积神经网络;TransformerAbstract:Infrared detection technology is often used for target detection in various situations because it is not easilydisturbed by environmental factors.Infrared buried target detection is one of the most important applications.Low contrastand weak visual information made the target detection difficult.In order to solve the problem of low detection rate of in-frared buried targets,a Transformer-based infrared buried target detection network is designed in this paper.The networkimproves the detection rate of objects by combining the deep features extracted by the convolutional neural network andthe global information retained by the Transformer.Keywords:deep learning,infrared image,convolutional neural network,Transformer图1基于Transformer的红外目标检测网络结构图基于Transformer的红外掩埋目标检测92工业控制计算机2023年第36卷第1期编码器模块,通过ResNet34的多层卷积获取图像特征,同时通过Transformer编码器获取包含全局信息的特征,将两部分特征结合输入解码器网络,每个编码器层都对应一个解码器层,通过几个上采样还原到原始尺寸,最终解码器的输出被送入分类器为每个像素产生类别概率,可视化成分割的结果图。1.2编码模块编码模块主要分为ResNet34的CNN编码模块和Trans-former编码模块两部分。ResNet34部分结构如图1中间部分所示,包含一个77的卷积层、池化层和4组残差块,在第一个卷积层、池化层后和后三组残差块后提取5个尺寸的特征图输出,用于解码器网络。Transformer模块通过将图像分割成块(patches),并将它们映射为一个线性嵌入序列,用编码器进行编码,将图像问题转化为文本式的序列来处理。Transformer模块的详细结构如图2。首先将输入图片按照设定的Patch尺寸分割为块,然后将其展平为向量,即图2中的Patch embedding。考虑到要保留原始图像中像素位置之间的关系,引入一个位置编码向量,即图中的Position Embedding,将其与展平后的向量相加,就将图像转换为了序列。随后,该序列通过Transformer的多头自注意力(Multi-Head Self-Attention,MHSA)和多层感知机器(Multi-layer Perceptron,MLP)模块,提取出具有全局依赖的特征图。图2Transformer模块结构MHSA作为Transformer里重要模块,是对自注意力(Self-Attention)模块的延伸。自注意力模块将处理过的序列向量转化成Query、Key、Value三个向量以增加可学习性,经过一个线性变换,通过计算Q和K两者的相关性来做匹配,相关性越大,对应的V的权重越大。此相关性是通过放缩点积注意力(Scaleddot-Product Attention)来计算的。自注意力的计算公式如下:Attention(Q,K,V)=softmaxQKTd()V其中,Q、K、V分别表示序列转化的三个向量,d表示Q和K的维度,作用是使得变量保持同一量纲。Q和K用于计算相似度得到权重,而V用来和权重做加权求和。自注意力能够整合整张图像的信息,具有全局依赖能力。多头自注意力的多头则是使用不同的参数得到不同的Q、K、V值,同样输入到放缩点积注意力模块做总计h次计算,最后将多次的结果进行拼接,再进行一次线性变换,最终得到的值作为多头注意力的结果。这里的h便是设置的多头的数目。对于多头自注意力,由于一个头只有一个学习空间,多个头则可以有多个学习空间而学习更多的东西,能够从多个角度进行特征提取,缓解偏差,从而提升模型的性能。1.3解码模块上述Transformer提取的特征图和ResNet34提取的特征图相融合后输入解码模块。解码模块由卷积层和上采样层组成,利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成同尺寸的输出。编码模块得到的特征图通过解码模块的上采样操作等,得到通道数为类别数的最终特征图以后,送入Softmax分类器,完成逐像素的分类。2实验结果为了验证本文提出的网络的性能,在一个通过模拟室外环境升温降温过程采集的红外多时相掩埋物体数据集上进行研究。该数据集使用中科院上海物理研究所自制的红外相机拍摄,在矿物质土、有机土、细沙和黄土等环境下进行模拟升降温实验拍摄得到数据。整个数据集包含4类环境下共5360张图像,像素分辨率为256320,包含目标和干扰物总数40 744个。本文的网络在该数据集上进行了实验,与传统语义分割方法FCN2、Unet9、Deeplabv38、SegNet7和Transformer的语义分割网络SETR6方法进行对比,得到的结果如表1所示。全部方法均基于Pytorch框架实现,在相同的训练验证集上训练,并在相同测试集上进行测试。评价指标为语义分割任务常用评价指标平均交并比(mIoU)、准确率(Precision)和召回率(Recall)。表1红外掩埋目标检测的实验结果从结果中可以看出,本文的方法在mIoU、Precision和Re-call指标上都取得了最好的结果,证明了方法的有效性。各方法的结果图如图3所示,其中(1)和(5)分别是原始图片和真实标签图的可视化图像,(2)(4)分别为FCN、Unet、Deeplabv3对(1)的检测结果的可视化图像,(6)(8)分别为SegNet、SETR、本文方法对(1)的检测结果的可视化图像。浅色表示目标,深色表示干扰物。图3各方法预测结果示意图从图3中可以看出,通用的语义分割方法容易在和目标类似的区域产生错误的检测,而引入全局信息的Transformer结构,在一定程度上排除了部分错误的干扰。另一方面,纯粹的Transformer方法SETR则会由于数据数量的限制,导致并不能很好地实现检测。除此之外,可以看到图3中(7)SETR对图像右侧的干扰物的检测结果比传统基于CNN的语义分割网络图3中(2)(4)更好,图3中(8)即本文方法也检测到了右侧的干扰物,说明本文方法通过结合了Transformer提取的特征的方法有效地结合了卷积神经网络提取的深层特征和Transformer保留的全局信息,使得对红外掩埋目标的检测效果更好,有效地减少了错误检测。从图3中还可以看出本文的方法对于对比度较弱的目标有更好的检测能力,证明了本文方法对红外掩埋目标的检测性能较好。3结束语本文提出了基于Transformer的红外掩埋目标检测网络,在传统的编码器和解码器组成的架构中引入Transformer结构,通过结合卷积神经网络提取的深层特征和Transformer保留的全局信息的方法,提高红外掩埋目标的检测率。实验证明,(下转第96页)93(上接第93页)本文提出的方法在红外掩埋目标检测的任务上比传统的语义分割方法获得了更好的效果,但仍存在不小的提升空间,值得继续研究。参考文献1高仕博,程咏梅,赵永强,等.基于多时相红外图像探测浅层地下目标J.红外与毫米波学报,2009,28(1):25-302LONG J,SHELHAMER E,DARRELL T.Fully convolutionalnetworks for semantic seg

此文档下载收益归作者所有

下载文档
收起
展开