Convolutional Neural Network Based on Feature Decomposition for Target Detection in SAR Images
-
摘要: 真实场景的高分辨率合成孔径雷达(SAR)图像大多是复杂的,对于地物场景来说,其背景中存在草地、树木、道路和建筑物等杂波,这些复杂背景杂波使得传统SAR图像目标检测算法的结果包含大量虚警和漏警,严重影响了SAR目标检测性能。该文提出一种基于特征分解卷积神经网络(CNN)的SAR图像目标检测方法,该方法在特征提取模块对输入图像提取特征后,通过特征分解模块分解出鉴别特征和干扰特征,最后将鉴别特征输入到多尺度检测模块进行目标检测。特征分解后去除的干扰特征是对目标检测不利的部分,其中包括复杂背景杂波,而保留的鉴别特征是对目标检测有利的部分,其中包括感兴趣目标,从而有效降低虚警和漏警,提高SAR目标检测性能。该文所提方法在MiniSAR实测数据集和SAR飞机检测实测数据集(SADD)上的F1-score值分别为0.9357和0.9211,与不加特征分解模块的单步多框检测器相比,所提方法的F1-score值分别提升了0.0613和0.0639。基于实测数据集的实验结果证明了所提方法对复杂场景SAR图像进行目标检测的有效性。Abstract: Most high-resolution Synthetic Aperture Radar (SAR) images of real-life scenes are complex due to clutter, such as grass, trees, roads, and buildings, in the background. Traditional target detection algorithms for SAR images contain numerous false and missed alarms due to such clutter, adversely affecting the performance of SAR images target detection. Herein we propose a feature decomposition-based Convolutional Neural Network (CNN) for target detection in SAR images. The feature extraction module first extracts features from the input images, and these features are then decomposed into discriminative and interfering features using the feature decomposition module. Furthermore, only the discriminative features are input into the multiscale detection module for target detection. The interfering features that are removed after feature decomposition are the parts that are unfavorable to target detection, such as complex background clutter, whereas the discriminative features that are retained are the parts that are favorable to target detection, such as the targets of interest. Hence, an effective reduction in the number of false and missed alarms, as well as an improvement in the performance of SAR target detection, is achieved. The F1-score values of the proposed method are 0.9357 and 0.9211 for the MiniSAR dataset and SAR Aircraft Detection Dataset (SADD), respectively. Compared to the single shot multibox detector without the feature extraction module, the F1-score values of the proposed method for the MiniSAR and SADD datasets show an improvement of 0.0613 and 0.0639, respectively. Therefore, the effectiveness of the proposed method for target detection in SAR images of complex scenes was demonstrated through experimental results based on the measured datasets.
-
1. 引言
合成孔径雷达(Synthetic Aperture Radar, SAR)是一种有源微波传感器,其利用脉冲压缩技术提高距离分辨率,同时利用合成孔径技术提高方位分辨率,从而实现二维高分辨率成像。SAR不仅能够全天候、全天时对地观测,并具有一定的地表穿透能力,因此被广泛应用于军事和民用领域。作为SAR图像解译的重要步骤之一,如何从SAR图像中快速并准确地检测出目标,是目前的一个技术研究热点。
作为目前应用最为广泛的SAR图像目标检测方法,双参数CFAR检测算法[1-3]基于背景杂波服从高斯分布的假设,利用背景杂波的统计分布获取自适应的门限,然后通过滑动窗口将像素的灰度值与自适应门限进行比较,得到检测结果。该方法对于目标与背景杂波具有较高对比度的简单场景效果较好,但在处理真实复杂场景SAR图像时会存在大量虚警和漏警。
由于具有卓越的特征学习能力,卷积神经网络(Convolutional Neural Network, CNN)[4-9]受到了广泛关注与研究,并在多个领域取得了卓越性能。在光学图像目标检测领域,可以将现有的深度目标检测网络[10-12]按照网络阶段的构成分为两阶段方法和一阶段方法。两阶段方法将目标检测任务分为候选区域提取和目标分类回归两个阶段。代表性算法Faster Region-CNN (R-CNN)[11]开创性地使用卷积网络来预测候选区域,提出了用来自动获取候选区域的区域提取网络(Region Proposal Network, RPN),从而提升了两阶段方法的检测速度和精度。一阶段方法不需要进行候选区域提取,直接利用网络提取特征来预测目标的类别和位置。代表性算法单步多框检测器(Single Shot multibox Detector, SSD)[12]利用多尺度特征图感知不同尺寸的目标,并用不同的检测器在多尺度特征图上分别进行目标检测,最后利用非极大值抑制(Non-Maximum Suppression, NMS)[13]去除所有检测器中重叠度高的检测结果。由于两阶段方法需要进行候选区域提取,其具有较高检测精度的同时,也具有较慢的检测速度,难以满足部分实际应用场景下的速度需求。而一阶段目标检测器的网络结构较为简单,没有生成候选区域的过程,在检测速度上更具优势。
近年来,在SAR图像目标检测领域,基于深度学习的方法也被广泛研究与应用。王思雨等人[14]提出基于CNN的高分辨率SAR图像飞机目标检测方法,该方法首先采用预检测实现对SAR图像候选飞机目标的快速粗定位,然后利用CNN实现对候选目标的精确检测和鉴别,并提出4种适用于SAR图像的数据增强方法来降低由于SAR数据量有限而导致的过拟合。Wang等人[15]基于SSD目标检测框架,联合采用迁移学习和数据扩充的策略帮助提升SSD在SAR图像上的目标检测性能。李健伟等人[16]提出基于CNN的SAR图像舰船目标检测的新方法,包括特征聚合、迁移学习、损失函数设计和其他应用细节,有效提高了检测准确率和检测速度。Zhang等人[17]提出一种基于区域CNN的舰船检测方法,该方法首先用支持向量机获得可能包含舰船的感兴趣区域,然后使用改进的Faster R-CNN对感兴趣区域进行目标检测,有效提高了舰船检测的性能。陈慧元等人[18]提出一种基于级联CNN的大场景遥感图像舰船目标快速检测方法,该方法由目标预筛选全卷积网络和目标精确检测全卷积网络两个全卷积网络级联而成,在保持检测精度的前提下能显著提高目标检测效率,可实现大场景遥感图像中舰船目标的快速检测。这些研究证明了基于深度学习的方法在SAR图像目标检测领域具有使用价值。
真实场景的高分辨率SAR图像中包含大量复杂的自然杂波和人造杂波,某些人造杂波的雷达回波强度与感兴趣目标的雷达回波强度相当甚至更高,而上述基于深度学习的SAR目标检测方法都没有针对这些复杂背景杂波提出有效手段,因此使用上述方法对复杂场景SAR图像进行目标检测时,得到的结果包含大量的虚警和漏警,严重影响了SAR目标检测性能。为了解决这个问题,Wei等人[19]将注意力模块生成的注意力图与SSD网络得到的多尺度特征图按位置相乘,以期网络能够自动地对图像中的重要区域进行像素值增强。然而该方法仅利用最终的标签约束引导注意力图的生成,缺乏对注意力图的直接约束,难以保证最终的注意力图能够重点关注特征图中目标区域的特征。
为提高复杂场景SAR图像的目标检测性能,本文提出一种基于特征分解CNN的SAR图像目标检测方法,该方法在特征提取模块之后通过构建两条并联支路组成特征分解模块,其中,鉴别特征提取支路受检测损失的约束,以学习对目标检测有利的鉴别特征;而干扰特征提取支路受两条支路间的正交损失和重构损失的约束,以学习对目标检测不利的干扰特征。干扰特征中包括容易造成虚警的复杂背景杂波,经过特征分解模块后将被丢弃。最终,仅将分解后的鉴别特征输入多尺度检测模块实现目标检测。基于实测数据集的实验结果表明,在对复杂场景SAR图像进行目标检测时,本文方法能够显著降低虚警和漏警,提高SAR目标检测性能。
2. 方法介绍
2.1 整体框架
所提方法的算法流程图如图1所示。该方法基于SSD目标检测框架,主要包含3个模块:特征提取模块、特征分解模块、多尺度检测模块。考虑到原SSD网络利用了多尺度特征图进行目标检测,且第1个参与检测的特征图为conv4_3层输出的特征图,而本文方法旨在将输入的特征分解为对检测有利的鉴别特征和对检测不利的干扰特征两部分,且仅利用鉴别特征完成目标检测,从而起到降低虚警和漏警的作用,所以本文方法需要在开始检测之前完成特征分解。另外,特征提取模块需要具有足够的特征提取能力,以学习到具有一定语义信息的特征,因此选择原SSD网络中的conv3_3及之前的卷积层用于初步的特征提取,conv4_1到conv4_3层用于特征分解。
特征提取模块的详细结构如表1所示,其中,k, s, p, n分别表示核尺寸、步长、填充数、核个数。该模块共有7个卷积层,每个卷积层后面接着修正线性单元(Rectified Linear Unit, ReLU)[20]层,在第2, 4, 7个ReLU层后面使用最大池化层对特征进行降维。7个卷积层的卷积核尺寸均为3×3,卷积步长均为1,卷积核个数分别为64, 64, 128, 128, 256, 256, 256,3个最大池化层的池化窗口尺寸均为2×2,池化步长均为2。特征提取模块对输入的SAR图像进行初步的特征提取,以便用于后续的特征分解模块。
表 1 特征提取模块的详细结构Table 1. Detailed structure of feature extraction module层数 操作 超参数 1 卷积,ReLU k = (3,3), s = 1, p = 1, n = 64 2 卷积,ReLU k = (3,3), s = 1, p = 1, n = 64 3 最大池化 k = (2,2), s = 2, p = 0 4 卷积,ReLU k = (3,3), s = 1, p = 1, n = 128 5 卷积,ReLU k = (3,3), s = 1, p = 1, n = 128 6 最大池化 k = (2,2), s = 2, p = 0 7 卷积,ReLU k = (3,3), s = 1, p = 1, n = 256 8 卷积,ReLU k = (3,3), s = 1, p = 1, n = 256 9 卷积,ReLU k = (3,3), s = 1, p = 1, n = 256 10 最大池化 k = (2,2), s = 2, p = 0 注:k, s, p, n分别为核尺寸、步长、填充数、核个数。 特征分解模块对输入的特征进行分解,如图1中被红色虚线框包围的特征分解模块所示,该模块包含两条并行支路,依靠两条支路间的正交约束和重构约束将输入特征分解为干扰特征和鉴别特征。分解得到的干扰特征是对目标检测不利的部分,其中包括复杂背景杂波。而鉴别特征是对目标检测有利的部分,其中包括感兴趣目标。作为特征分解模块的输出,鉴别特征将被输入后续的多尺度检测模块进行检测。特征分解模块的具体结构将在2.2节详细描述。
多尺度检测模块对输入的鉴别特征进行目标检测,其总体结构如图1中被绿色虚线框包围的多尺度检测模块所示。该模块包含13个卷积层,用以从网络的不同层获取不同尺度的卷积特征图,其中第1—4卷积层的卷积核大小均为3×3,第5—13卷积层的卷积核大小分别为1×1, 1×1, 3×3, 1×1, 3×3, 1×1, 3×3, 1×1, 3×3,13个卷积层的卷积核个数分别为512, 512, 512, 1024, 1024, 256, 512, 128, 256, 128, 256, 128, 256。为了更好地检测出目标,除了特征分解模块得到的鉴别特征图,再选择多尺度检测模块中的第5, 7, 9, 11, 13卷积层得到的5个尺度的卷积特征图,这6个特征图的尺寸从39×39到1×1逐渐减小。由于网络中不同层的特征图具有不同大小的感受野,即不同层特征图上每个位置对应于原图上的区域面积不同,其中低层特征图对应的感受野较小,而高层特征图对应的感受野较大,因此不同层的特征图可以用来感知不同尺寸的目标,选取多尺度特征图分别进行目标检测有助于检测出原图中各种尺寸的目标。如图1中被绿色虚线框包围的多尺度检测模块所示,多尺度检测模块还包括多个卷积预测器,每个卷积预测器都包括两个并联的卷积层,分别用于边框回归和分类。将6个不同的卷积预测器分别应用于选中的6个特征图,从而得到不同尺度特征图上的预测结果。在网络的训练阶段,需要从所有尺度特征图的预测结果中挑选一部分用于计算网络的边框回归损失和分类损失,而在网络的测试阶段,直接使用NMS算法去除所有尺度特征图的预测结果中重复的结果,从而得到待测试图像的检测结果。
2.2 特征分解模块
为了展示图1中被红色虚线框包围的特征分解模块的结构细节,将其详细展开如图2所示,该模块的输入为特征提取模块输出的特征图,旨在对输入的特征图进行特征分解,去除对目标检测不利的部分,同时保留对目标检测有利的部分。特征分解模块包含两条并联支路,分别为干扰特征提取支路和鉴别特征提取支路,两条支路具有相同的网络结构,均包含3个卷积层,每个卷积层后面接着ReLU层,3个卷积层的卷积核尺寸均为3×3,卷积步长均为1,卷积核个数均为512。由于两条支路的参数不共享,由此分别承担干扰特征提取和鉴别特征提取。最后将得到的干扰特征和鉴别特征相加并输入解码器进行图像重构。解码器包含5个反卷积层[21],其中前4个反卷积层后面接着ReLU层,5个反卷积层的卷积核尺寸均为3×3,卷积步长分别为1, 2, 2, 2, 1,卷积核个数分别为512, 256, 128, 64, 3。
为了将输入特征分解为对检测不利的干扰特征和对检测有利的鉴别特征两部分,仅将鉴别特征提取支路的输出输入到后续的多尺度检测模块,利用检测损失约束该支路学习对目标检测有利的鉴别特征,同时利用两条支路间的正交损失和重构损失保证干扰特征提取支路学习对检测不利的干扰特征。
为保证两条支路所提特征的差异性,定义两条支路间的正交损失如下:
Ldiff=1NN∑n=1(fTn1×fn2) (1) 其中,N表示每个批次的训练样本数,
fn1 表示将第n个样本分解得到的鉴别特征图拉成的列向量,fn2 表示将第n个样本分解得到的干扰特征图拉成的列向量,(⋅)T 表示向量的转置。为保证两条支路所提特征的完整性,将两条支路各自得到的干扰特征和鉴别特征求和后输入解码器,定义解码器输出的重构图与输入网络的SAR图像之间的重构损失如下:
Lrecon=1NN∑n=1‖ (2) 其中,
{\left\| \cdot \right\|_2} 表示取2范数操作,{{\boldsymbol{x}}_n} 表示第n个样本,{{\hat {\boldsymbol{x}}}_n} 表示将第n个样本经过特征分解模块中的解码器后输出的重构图。整个网络的总损失函数如下:
\mathcal{L} = {\mathcal{L}_{{\rm{loc}}}} + {\mathcal{L}_{{\rm{cls}}}} + \alpha {\mathcal{L}_{{\rm{diff}}}} + \beta {\mathcal{L}_{{\rm{recon}}}} (3) 其中,
{\mathcal{L}_{{\rm{loc}}}} 表示所提网络输出目标框与标记的真实框之间的位置损失,{\mathcal{L}_{{\rm{cls}}}} 表示所提网络输出目标框的类别损失[12],\alpha 表示正交损失函数的权重,\beta 表示重构损失函数的权重。整个网络采用端到端的训练方式,利用随机梯度下降算法,迭代更新网络的权重值,优化网络的总损失函数直至其收敛。
3. 实验结果与分析
本节首先对实验中所使用的数据集、采用的评价准则以及部分相关的实验细节进行介绍;然后将本文所提方法与传统SAR目标检测算法及部分基于深度学习的SAR目标检测算法进行对比分析,证明所提方法的有效性;最后对所提方法的创新点进行了验证,包括消融实验以及对特征图的展示及分析。实验所用平台为Ubuntu系统,代码基于Pytorch编写。
3.1 实验数据集介绍
3.1.1 MiniSAR数据集
MiniSAR实测数据集[22]是美国Sandia国家实验室在2006年公开的SAR图像数据集。该数据集中的SAR图像为复杂的地面场景,图像尺寸为1638像素×2510像素,图像分辨率为0.1 m×0.1 m。该数据集的SAR图像中包含车辆、飞机、建筑物、道路、草地、树木等。本文实验将车辆作为感兴趣目标,其他物体作为复杂的背景杂波。其中,飞机、建筑物和道路为人造杂波,而草地和树木为自然杂波。本文从MiniSAR数据集中选取了7幅SAR图像作为训练数据,另外选取2幅SAR图像作为测试数据。图3给出了MiniSAR数据集中两幅图像的示例。
3.1.2 SADD数据集
SADD实测数据集[23]是华中科技大学多光谱信息处理技术国家重点实验室在2022年公开的SAR飞机检测数据集。该数据集是由德国TerraSAR-X卫星收集的,工作波段为x波段,极化模式为HH极化,图像分辨率范围为0.5~3.0 m。数据集中共包含2966张224×224的切片,所有切片中共有7835个飞机目标。SADD数据集中包含多种尺寸的飞机目标,且目标背景相对复杂,包括各种场景,如机场跑道、机场停机坪、民航机场等。数据集中的负样本主要是在机场周围,包括空地和森林。图4展示了SADD中的样本图像,图4(a)为TerraSAR-X卫星获取的真实SAR飞机图像,图4(b)为TerraSAR-X卫星获取的干扰目标图像。本文采用文献[23]的设置方式,将SADD中的图像按照5:1的比例随机划分为训练集和测试集,其中训练集包含796个正样本和1666个负样本,测试集包含88个正样本和416个负样本。
3.2 评价准则和实验细节
为了验证本文方法的有效性,本文采用Precision, Recall和F1-score来衡量检测性能,具体计算公式如下:
{{\rm{Precision}}} = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}} (4) \quad {{\rm{Recall}}} = \frac{{{\text{TP}}}}{{{\text{TP + FN}}}}\qquad\; (5) \quad {\text{F1-score}} = \frac{{2 \times {{\rm{Precision}}} \times {{\rm{Recall}}} }}{{{{\rm{Precision}}} + {{\rm{Recall}}} }} (6) 其中,Precision是检测精度,Recall是召回率,TP是正确检测的目标个数,FP是错误检测的目标个数,即虚警数,FN是未检测到的目标个数,即漏警数。Precision越高,代表虚警越少,Recall越高,代表漏警越少,由式(6)可以看出,F1-score综合了Precision和Recall这两个指标,能够更全面地反映检测结果的优劣,所以本文实验采用这3个指标综合衡量各目标检测算法的性能。
为了适应网络对输入尺寸的要求,在训练过程中,对于实验中使用的MiniSAR实测数据,需要先将原始的SAR图像裁剪为300像素×300像素的子图像,然后将所有子图像输入网络进行训练。而在测试过程中,需要先通过滑窗方式将待测试SAR图像裁剪为300像素×300像素固定大小的子图像,然后对所有待测试的SAR子图像进行检测,最后将所有子图像的检测结果恢复到原始SAR图像中,并利用NMS去除重复的检测结果,从而得到待测试SAR图像的检测结果。
实验中,每个批次的训练样本数设置为10,初始学习率设置为0.0001,最大迭代次数设置为120000次,迭代到80000次和100000次时,分别将学习率变为之前的0.1。由于网络的各部分损失值存在量级差异,考虑到过大的损失值会导致网络无法收敛,且各损失值差距较大也会造成损失失衡,所以我们加入不同的权重调整各项损失值,将
\alpha 设置为1,\beta 设置为0.001,保证网络能较快收敛。3.3 与其他目标检测方法的对比
3.3.1 基于MiniSAR数据集的实验结果
为了验证所提方法的性能,表2对比了不同目标检测方法在MiniSAR数据集上的实验结果,对比方法包括传统的目标检测方法如Gaussian-CFAR[1],和基于深度神经网络的目标检测方法如Faster R-CNN[11], FPN[24], SSD[12],文献[25]提出的基于矩形不变可旋转卷积的SAR车辆目标检测网络和文献[26]提出的结合强化学习自适应候选框挑选的SAR目标检测方法。
表 2 不同目标检测方法在MiniSAR数据集上的实验结果Table 2. Experimental results of different target detection methods based on the MiniSAR dataset从表2可以看出,在对MiniSAR数据集进行目标检测时,Gaussian-CFAR的检测性能非常差,其检测精度很低,表示检测结果中虚警很多,且召回率也不够高,表示检测结果中漏警也较多;Faster R-CNN虽然具有较高的召回率,即该方法能将实验数据中的大部分目标检测出来,但是其检测精度较低,意味着该方法存在较多虚警;FPN和SSD的检测精度和召回率相当,能将大部分目标检测出来,但也同样存在较多虚警和漏警;文献[25]和文献[26]的方法都具有较高的召回率,即两种方法都能将实验数据中的大部分目标检测出来。但文献[26]方法的检测精度较低,即存在较多虚警,且文献[25]方法的检测精度依旧低于本文方法。综合来看,本文方法的检测精度、召回率和F1-score都较高,相比其他方法有较大优势。具体来说,与表格中的6种对比方法相比,本文方法的F1-score值分别提升了0.4222, 0.0634, 0.0602, 0.0613, 0.0077和0.0351,且本文方法的检测精度和召回率分别为0.9206和0.9512,这表示检测结果中的虚警和漏警都较少。表2的实验结果证明了在对复杂场景SAR图像进行目标检测时,本文方法能够显著降低虚警和漏警,提高SAR目标检测性能。
为了直观地对比分析不同方法的性能,图5和图6分别展示了7种不同方法在MiniSAR数据集的两幅测试图像上的可视化检测结果。图5和图6中绿色框表示所使用的目标检测算法正确检测出的目标;红色框表示错误检测的目标,即虚警;蓝色框表示未被该算法检测到的目标,即漏警。由可视化结果可以看出,在建筑物、树木和其他军事目标的区域中,Gaussian-CFAR的虚警非常多,与之相比,Faster R-CNN, FPN, SSD、文献[25]的方法和文献[26]的方法的虚警均大大减少,而在所有方法的检测结果中,本文方法的虚警最少;除此之外,在车辆密集的区域,Gaussian-CFAR存在较多漏警,与之相比,Faster R-CNN, FPN, SSD、文献[25]的方法和文献[26]的方法的漏警均有所减少,而在所有方法的检测结果中,本文方法的漏警最少,可以将大部分目标检测出来。综上,可视化检测结果证明了在对复杂场景SAR图像进行目标检测时,本文方法拥有更少的虚警和漏警,检测性能更好。
本文方法的性能优于其他方法的原因主要来自特征分解模块。本文设计的特征分解模块能够将输入的特征分解为鉴别特征和干扰特征,其中干扰特征是对目标检测不利的部分,包括复杂背景杂波,而鉴别特征是对目标检测有利的部分,包括感兴趣目标。经过特征分解模块后,仅将鉴别特征输入到多尺度检测模块进行目标检测,而干扰特征将被丢弃,从而有效降低虚警和漏警,提高SAR目标检测性能。
3.3.2 基于SADD数据集的实验结果
为了进一步验证所提方法的普适性和有效性,表3对比了不同目标检测方法在SADD数据集上的实验结果。由于文献[25]的方法是基于矩形不变可旋转卷积的SAR目标检测网络,该方法仅适用于矩形目标检测,而飞机并不是矩形目标,所以该方法并不适用于SADD数据集,因此表3并不包含文献[25]方法的实验结果。
表 3 不同目标检测方法在SADD数据集上的实验结果Table 3. Experimental results of different target detection methods based on the SADD方法 Precision Recall F1-score Gaussian-CFAR 0.4610 0.5272 0.4919 Faster R-CNN 0.9036 0.8086 0.8535 FPN 0.8550 0.8703 0.8626 SSD 0.8464 0.8682 0.8572 文献[26]的方法 0.9014 0.8797 0.8904 本文方法 0.8788 0.9676 0.9211 从表3可以看出,相较于MiniSAR数据集的实验结果,各方法在SADD数据集上的检测性能都有所下降,这是因为,虽然SADD数据集与MiniSAR数据集都是复杂场景实测数据集,但是与MiniSAR数据集相比,SADD数据集中不仅包含更多种尺寸的目标,而且其图像分辨率更低,这些原因增加了对该数据集进行目标检测的难度,从而导致了各方法在SADD数据集上检测性能的下降。然而,即便SADD数据集的检测难度更高,本文方法依然比所有对比方法的检测性能更好。从表3可以看出,本文方法拥有最高的召回率,即本文方法具有最少的漏警,可以将绝大部分目标正确检测出来。虽然Faster R-CNN和文献[26]方法的检测精度略高于本文方法,但其召回率都明显低于本文方法,存在很多的漏警。在真实战场环境中,以增加少许虚警为代价,降低一些漏警是更有意义的,这有助于发现较难检测到的目标,而且本文方法的F1-score最高,也说明本文方法的综合检测性能最好。综上,表3的实验结果证明,即便面对检测难度更高的SADD数据集,本文方法依然能够具有更好的检测性能,该组实验结果更好地验证了本文方法的普适性和有效性。
图7展示了不同方法在SADD数据集中部分测试切片上的可视化检测结果。图7中绿色框表示所使用的目标检测算法正确检测出的目标;红色框表示错误检测的目标,即虚警;蓝色框表示未被该算法检测到的目标,即漏警。从图7可以看出,本文方法具有最少的漏警,可以将绝大部分目标正确检测出来。相较于其他对比方法,本文方法具有更大优势。
3.4 模型分析
3.4.1 消融实验
本文所提特征分解模块同时使用了正交损失和重构损失,为了验证这两个损失的有效性,表4给出了在MiniSAR数据集上的消融实验结果。
表 4 消融实验结果Table 4. Experimental results of ablation experiments实验编号 损失 定量评价 正交损失 重构损失 Precision Recall F1-score 1 × × 0.8629 0.8862 0.8744 2 √ × 0.9091 0.9268 0.9179 3 × √ 0.8926 0.9024 0.8975 4 √ √ 0.9206 0.9512 0.9357 如表4所示,实验1是不加特征分解模块的结果,即原始SSD网络在MiniSAR数据集上的检测结果;实验2是特征分解模块仅使用正交损失的结果;实验3是特征分解模块仅使用重构损失的结果;实验4是特征分解模块同时使用正交损失和重构损失的结果,即所提方法在MiniSAR数据集上的实验结果。从表4的结果可以看出,特征分解模块的加入有助于提升目标检测性能,其中正交损失能够保证两条支路所提特征的差异性,重构损失能够保证所提特征的完整性,两种损失均有助于特征的学习。由于我们希望的是将输入网络的SAR图像中对检测不利的特征分解到干扰特征中,如果不加重构约束,只用正交约束,就无法限制干扰特征的范围,会导致分解到的干扰特征不可控。而如果不加正交约束,只用重构约束,则无法保证鉴别特征和干扰特征的差异性,无法实现特征分解的作用。因此,仅使用单一的损失无法保证将输入特征完整地分解为互不相同的两部分,只有同时使用两种损失,才能保证特征分解模块将输入特征完整地分解为对检测不利的干扰特征和对检测有利的鉴别特征两部分,从而进一步提升目标检测性能。
3.4.2 特征图展示及分析
为了验证所提特征分解模块符合预期,我们基于MiniSAR数据集,将特征分解模块中鉴别特征提取支路得到的鉴别特征图、干扰特征提取支路得到的干扰特征图以及解码器得到的重构图进行可视化展示,如图8所示。
图8(a)是输入网络的SAR子图像,尺寸为300×300,其经由图2所示的特征分解模块可以得到图2中的干扰特征和鉴别特征,这两种特征的维度分别为512×38×38,其中512为特征图通道数,38×38为每张特征图的尺寸。将鉴别特征沿通道维取平均即可得到图8(b)的特征图,其尺寸为38×38;同理,将干扰特征沿通道维取平均即可得到图8(c)的特征图,其尺寸也为38×38。图8(d)为将干扰特征和鉴别特征求和后输入图2所示的解码器得到的重构图,其尺寸为300×300。特征图中的白色区域表示该区域的元素值较高,黑色区域表示该区域元素值较低。对比图8(a)—图8(c)可以发现,不同SAR子图像经过特征分解模块后,感兴趣目标,即车辆,被完整地保留在鉴别特征图中,而对于背景杂波,其大部分都被分到了干扰特征图中。不过,也有部分杂波边缘仍被保留在鉴别特征图中,如建筑物边缘、树木边缘以及道路边缘。这是因为杂波边缘是SAR图像上两种类型的杂波区域交界的地方,在杂波边缘处像素点的强度变化较大,本文方法并不能完全将这类强杂波边缘去除。但从图8(b)的鉴别特征图中可以看出,虽然鉴别特征图中保留了部分强杂波的边缘部分,但边缘部分与目标的形状差别很大,相较于完整的杂波区域来说,并不容易造成虚警。此外,对于车辆目标所处的地面背景,本文方法可以将其全部分到干扰特征图中,从而实现了凸显目标的作用。因此,仅利用特征分解模块得到的鉴别特征图进行多尺度目标检测,可以有效降低虚警和漏警,提高目标检测性能。最后,对比图8(a)和图8(d)可以看出,将干扰特征和鉴别特征求和后输入图2所示的解码器,能够很好地重构出输入网络的SAR子图像,这保证了干扰特征和鉴别特征的完整性。
4. 结语
本文研究了基于特征分解CNN的SAR图像目标检测方法,解决了现有方法在对复杂场景SAR图像进行目标检测时存在大量虚警和漏警的问题。本文通过构建特征分解模块,将输入的特征分解为对目标检测有利的鉴别特征和对目标检测不利的干扰特征两部分,其中,干扰特征中包含容易造成虚警的复杂背景杂波,而鉴别特征中包含感兴趣目标,最终仅利用鉴别特征进行多尺度目标检测。本文提出的特征分解模块不依赖于具体的目标检测算法,可以适用于任何基于CNN的目标检测器。基于实测数据集的实验结果表明,在对复杂场景SAR图像进行目标检测时,本文方法能够显著降低虚警和漏警,提高SAR目标检测性能。
-
表 1 特征提取模块的详细结构
Table 1. Detailed structure of feature extraction module
层数 操作 超参数 1 卷积,ReLU k = (3,3), s = 1, p = 1, n = 64 2 卷积,ReLU k = (3,3), s = 1, p = 1, n = 64 3 最大池化 k = (2,2), s = 2, p = 0 4 卷积,ReLU k = (3,3), s = 1, p = 1, n = 128 5 卷积,ReLU k = (3,3), s = 1, p = 1, n = 128 6 最大池化 k = (2,2), s = 2, p = 0 7 卷积,ReLU k = (3,3), s = 1, p = 1, n = 256 8 卷积,ReLU k = (3,3), s = 1, p = 1, n = 256 9 卷积,ReLU k = (3,3), s = 1, p = 1, n = 256 10 最大池化 k = (2,2), s = 2, p = 0 注:k, s, p, n分别为核尺寸、步长、填充数、核个数。 表 2 不同目标检测方法在MiniSAR数据集上的实验结果
Table 2. Experimental results of different target detection methods based on the MiniSAR dataset
表 3 不同目标检测方法在SADD数据集上的实验结果
Table 3. Experimental results of different target detection methods based on the SADD
方法 Precision Recall F1-score Gaussian-CFAR 0.4610 0.5272 0.4919 Faster R-CNN 0.9036 0.8086 0.8535 FPN 0.8550 0.8703 0.8626 SSD 0.8464 0.8682 0.8572 文献[26]的方法 0.9014 0.8797 0.8904 本文方法 0.8788 0.9676 0.9211 表 4 消融实验结果
Table 4. Experimental results of ablation experiments
实验编号 损失 定量评价 正交损失 重构损失 Precision Recall F1-score 1 × × 0.8629 0.8862 0.8744 2 √ × 0.9091 0.9268 0.9179 3 × √ 0.8926 0.9024 0.8975 4 √ √ 0.9206 0.9512 0.9357 -
[1] NOVAK L M, BURL M C, and IRVING W W. Optimal polarimetric processing for enhanced target detection[J]. IEEE Transactions on Aerospace and Electronic Systems, 1993, 29(1): 234–244. doi: 10.1109/7.249129 [2] XING Xiangwei, CHEN Zhenlin, ZOU Huanxin, et al. A fast algorithm based on two-stage CFAR for detecting ships in SAR images[C]. The 2nd Asian-Pacific Conference on Synthetic Aperture Radar, Xi’an, China, 2009: 506–509. [3] LENG Xiangguang, JI Kefeng, YANG Kai, et al. A bilateral CFAR algorithm for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(7): 1536–1540. doi: 10.1109/LGRS.2015.2412174 [4] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. doi: 10.1109/5.726791 [5] HINTON G E and SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. doi: 10.1126/science.1127647 [6] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[C]. The 25th International Conference on Neural Information Processing Systems, Lake Tahoe, USA, 2012: 1097–1105. [7] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. 3rd International Conference on Learning Representations, San Diego, USA, 2015. [8] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 1–9. [9] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. [10] GIRSHICK R. Fast R-CNN[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1440–1448. [11] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]. The 28th International Conference on Neural Information Processing Systems, Montréal, Canada, 2015: 91–99. [12] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]. 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 21–37. [13] NEUBECK A and VAN GOOL L. Efficient non-maximum suppression[C]. The 18th International Conference on Pattern Recognition, Hong Kong, China, 2006: 850–855. [14] 王思雨, 高鑫, 孙皓, 等. 基于卷积神经网络的高分辨率SAR图像飞机目标检测方法[J]. 雷达学报, 2017, 6(2): 195–203. doi: 10.12000/JR17009WANG Siyu, GAO Xin, SUN Hao, et al. An aircraft detection method based on convolutional neural networks in high-resolution SAR images[J]. Journal of Radars, 2017, 6(2): 195–203. doi: 10.12000/JR17009 [15] WANG Zhaocheng, DU Lan, MAO Jiashun, et al. SAR target detection based on SSD with data augmentation and transfer learning[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(1): 150–154. doi: 10.1109/LGRS.2018.2867242 [16] 李健伟, 曲长文, 彭书娟, 等. 基于卷积神经网络的SAR图像舰船目标检测[J]. 系统工程与电子技术, 2018, 40(9): 1953–1959. doi: 10.3969/j.issn.1001-506X.2018.09.09LI Jianwei, QU Changwen, PENG Shujuan, et al. Ship detection in SAR images based on convolutional neural network[J]. Systems Engineering and Electronics, 2018, 40(9): 1953–1959. doi: 10.3969/j.issn.1001-506X.2018.09.09 [17] ZHANG Shaoming, WU Ruize, XU Kunyuan, et al. R-CNN-based ship detection from high resolution remote sensing imagery[J]. Remote Sensing, 2019, 11(6): 631. doi: 10.3390/rs11060631 [18] 陈慧元, 刘泽宇, 郭炜炜, 等. 基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法[J]. 雷达学报, 2019, 8(3): 413–424. doi: 10.12000/JR19041CHEN Huiyuan, LIU Zeyu, GUO Weiwei, et al. Fast detection of ship targets for large-scale remote sensing image based on a cascade convolutional neural network[J]. Journal of Radars, 2019, 8(3): 413–424. doi: 10.12000/JR19041 [19] WEI Di, DU Yuang, DU Lan, et al. Target detection network for SAR images based on semi-supervised learning and attention mechanism[J]. Remote Sensing, 2021, 13(14): 2686. doi: 10.3390/RS13142686 [20] GLOROT X, BORDES A, and BENGIO Y. Deep sparse rectifier neural networks[C]. The 14th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, USA, 2011: 315–323. [21] LONG J, SHELHAMER E, and DARRELL T. Fully convolutional networks for semantic segmentation[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 3431–3440. [22] GUTIERREZ D. MiniSAR: A review of 4-inch and 1-foot resolution Ku-band imagery[EB/OL]. https://www.sandia.gov/radar/Web/images/SAND2005-3706P-miniSAR-flight-SAR-images.pdf, 2005. [23] ZHANG Peng, XU Hao, TIAN Tian, et al. SEFEPNet: Scale expansion and feature enhancement pyramid network for SAR aircraft detection with small sample dataset[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 3365–3375. doi: 10.1109/JSTARS.2022.3169339 [24] LIN Tsungyi, DOLLÁR Piotr, GIRSHICK Ross, et al. Feature pyramid networks for object detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 936–944. [25] LI Lu, DU Yuang, and DU Lan. Vehicle target detection network in SAR images based on rectangle-invariant rotatable convolution[J]. Remote Sensing, 2022, 14(13): 3086. doi: 10.3390/rs14133086 [26] 杜兰, 王梓霖, 郭昱辰, 等. 结合强化学习自适应候选框挑选的SAR目标检测方法[J]. 雷达学报, 2022, 11(5): 884–896. doi: 10.12000/JR22121DU Lan, WANG Zilin, GUO Yuchen, et al. Adaptive region proposal selection for SAR target detection using reinforcement learning[J]. Journal of Radars, 2022, 11(5): 884–896. doi: 10.12000/JR22121 期刊类型引用(3)
1. 陈小龙,何肖阳,邓振华,关键,杜晓林,薛伟,苏宁远,王金豪. 雷达微弱目标智能化处理技术与应用. 雷达学报. 2024(03): 501-524 . 本站查看
2. 赵志成,蒋攀,王福田,肖云,李成龙,汤进. 基于深度学习的SAR弱小目标检测研究进展. 计算机系统应用. 2024(06): 1-15 . 百度学术
3. 许京新,王金伟,宋富骏,王杰坤,赵博. 融合自适应卷积神经网络的SAR图像舰船目标检测方法. 信号处理. 2024(09): 1696-1708 . 百度学术
其他类型引用(3)
-