基于Transformer的红外掩埋目标检测红外探测技术因其非接触式和被动探测的特点受到广泛关注,是当前及未来先进武器系统的核心技术之一,在工业、交通、安保、医疗、天文等民用领域也有着广泛应用需求。红外技术在远距离、大范围、被动探测及非金属探测等方面有独特的优势。红外成像探测地下目标时通过目标与土壤不同的热力学性质来实现,反映在红外图像上是不同的区域具有灰度值差异,且随时间变化[1]。通过对红外图像的处理,便可以实现红外掩埋目标的检测。红外目标探测可以应用在许多领域,如地雷探测、地下工事探测、矿藏分布勘探、地下电缆管道探测及地下考古等,因此已成为计算机视觉领域的一个热门研究课题。通过红外探测技术获得红外图像用于目标检测,会有以下几个难点:①目标特征少。一般来说图像中的目标尺寸小,其辐射能量小于背景,且形状特征也难以获取,且不存在颜色特征,可用于目标检测的特征少。②图像信噪比低。目标与背景的杂波和噪声有着相似的特点,进而容易被淹没和干扰,从而导致目标信号几乎淹没在背景中而难以检测。考虑到红外图像的特点,本文使用基于语义分割的方法来实现掩埋目标的检测。现有的语义分割模型基本都基于FCN[2]。FCN是由编码器和解码器组成的架构,编码器用于特征表示学习,而解码器用于对编码器产生的特征表示进行像素级分类。大多数基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的方法都取得了良好的性能,但卷积层存在几个问题。首先,卷积核与图像的内容无关;其次,由于卷积核通常看作是一个小块,其中获取的特征是局部信息,对于整个图片,通过大量卷积层之后全局信息可能会丢失。而Transformer网络架构[3]最初是用于机器翻译任务的网络结构,后经过一系列研究改良,逐渐被用于图像领域。该网络结构采用完全依赖于注意力机制的结构,有效解决全局信息丢失的问题。在图像领域,VisionTransformer将纯粹的Transformer结构直接应用到一系列图像块上进行分类任务;DETR则是以CNN和Transformer混合的目标检测框架[4]。考虑到基于CNN的方法和Transformer方法各自的优势,本文设计了一个基于Transformer的红外掩埋目标探测网络。采用FCN的编码器-解码器架构,首先通过结合Transformer和ResNet[5]的编码器网络获取目标特征,然后使用解码器来恢复原始图像分辨率。1方法SETR[6]将语义分割视为序列到序列的预测任务通过一个纯粹的Transformer来替代传统的卷积神经网络,不进行卷积和分...