-
摘要: 深度监督学习在合成孔径雷达自动目标识别任务中的成功依赖于大量标签样本。但是,在大规模数据集中经常存在错误(噪声)标签,很大程度降低网络训练效果。该文提出一种基于损失曲线拟合的标签噪声不确定性建模和基于噪声不确定度的纠正方法:以损失曲线作为判别特征,应用无监督模糊聚类算法获得聚类中心和类别隶属度以建模各样本标签噪声不确定度;根据样本标签噪声不确定度将样本集划分为噪声标签样本集、正确标签样本集和模糊标签样本集,以加权训练损失方法分组处理训练集,指导分类网络训练实现纠正噪声标签。在MSTAR数据集上的实验证明,该文所提方法可处理数据集中混有不同比例标签噪声情况下的网络训练问题,有效纠正标签噪声。当训练数据集中标签噪声比例较小(40%)时,该文所提方法可纠正98.6%的标签噪声,并训练网络达到98.7%的分类精度。即使标签噪声比例很大(80%)时,该文方法仍可纠正87.8%的标签噪声,并训练网络达到82.3%的分类精度。
-
关键词:
- 合成孔径雷达 /
- 标签噪声 /
- 标签噪声纠正 /
- 标签噪声不确定性建模 /
- 模糊聚类算法
Abstract: The success of deep supervised learning in Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) relies on a large number of labeled samples. However, label noise often exists in large-scale datasets, which highly influence network training. This study proposes loss curve fitting-based label noise uncertainty modeling and a noise uncertainty-based correction method. The loss curve is a discriminative feature to model label noise uncertainty using an unsupervised fuzzy clustering algorithm. Then, according to this uncertainty, the sample set is divided into different subsets: the noisy-label set, clean-label set, and fuzzy-label set, which are further used in training loss with different weights to correct label noise. Experiments on the Moving and Stationary Target Acquisition and Recognition (MSTAR) dataset prove that our method can deal with varying ratios of label noise during network training and correct label noise effectively. When the training dataset contains a small ratio of label noise (40%), the proposed method corrects 98.6% of these labels and trains the network with 98.7% classification accuracy. Even when the proportion of label noise is large (80%), the proposed method corrects 87.8% of label noise and trains the network with 82.3% classification accuracy. -
1. 引言
近年来,深度学习方法在合成孔径雷达(Synthetic Aperture Radar, SAR)自动目标识别(Automatic Target Recognition, ATR)方面取得巨大成功[1−5]。然而,在许多SAR应用中,很难完全正确标注大规模图像数据[6]。由于SAR图像中的目标对人眼判别并不友好,这使得人工标注更加困难;另一方面,在处理大规模数据集时,人类容易在标注过程中犯错,这给数据集带来错误标签。文献[7]中提到,在处理大规模遥感数据集时,发现一些错误标记样本。
SAR目标分类是SAR图像解译的基本步骤。对于SAR ATR任务中的数据集,也常存在错误标注的样本(即标签噪声),且人工纠错难以处理大规模数据集。因此,如何在数据中含标签噪声情况下为SAR ATR任务训练一个基于深度监督学习的神经网络成为一个重要的问题。
标签噪声的存在会严重影响分类网络训练性能。图1绘制了经过300次迭代之后,以混有80%标签噪声的数据集训练ResNet分类网络[8]得到的损失曲线(损失曲线指单个样本的损失函数随迭代次数的变化)。其中,绿色曲线代表单个正确标签样本的损失曲线,橙色曲线代表单个噪声标签样本的损失曲线。从图1中看出,随着训练过程迭代,噪声标签和正确标签样本对应的损失值都趋于收敛。这表明,无论训练集标签是否正确,基于深度监督学习的分类网络可拟合所有训练样本。因此,噪声标签样本的存在将影响深度网络监督学习训练效果。
为了处理标签噪声影响深度分类网络训练的问题,本文提出一种新的方法,可识别并纠正噪声标签,并用纠正后的标签有效训练SAR目标分类网络。本文提出的方法基于一个简单观察:卷积神经网络(Convolutional Neural Network, CNN)因其强大的拟合能力亦可拟合标签噪声,使噪声标签样本的损失值降低;当数据集中混有正确标签和噪声标签目标时,网络倾向先拟合正确标签样本[9]。故在网络训练前期,正确标签样本损失比噪声标签样本损失下降速度快,可作为特征区分噪声标签样本与正确标签样本。
基于上述观察本文提出一种基于损失曲线拟合的标签噪声不确定性建模和基于噪声不确定度的纠正方法,包含两个阶段——标签噪声不确定性建模阶段以及基于噪声不确定度的数据划分和分组加权训练纠正阶段。首先,本文利用混有正确标签和噪声标签的数据集训练分类网络,并将训练过程中得到的损失曲线视为判别特征。在标签噪声不确定性建模阶段,应用无监督模糊聚类算法获得聚类中心和类别隶属度以确立各样本标签噪声不确定度。在基于标签噪声不确定度纠正阶段,根据样本标签噪声不确定度划分训练样本集,为不同组训练集在损失函数中分配不同权重,以指导分类网络训练实现纠正噪声标签。
在the Moving and Stationary Target Acquisition and Recognition (MSTAR)数据集上的实验证明,本文提出的方法可处理数据集中不同标签噪声比例训练网络时的情况,并有效纠正标签噪声。当训练数据集中标签噪声比例较小(40%)时,本文所提方法可纠正98.6%的标签噪声,并训练网络达到98.7%的分类精度。即使标签噪声比例很大(80%)时,本文方法仍可纠正87.8%的标签噪声,并训练网络达到82.3%的分类精度。
2. 相关工作
标注人员可能缺乏正确标注所需专业知识,这使得标签噪声成为图像分类中一个普遍存在的问题。文献[9]指出深度监督学习中标签噪声对网络训练的负面影响。如表1所示,当分别使用仅20%正确标签的样本集、混合20%正确标签和80%噪声标签的样本集以及100%正确标签的样本集训练网络时,网络分类精度具有很大差异。使用混有噪声和正确标签的数据集训练网络分类准确率为27.46%,远远低于使用仅20%正确标签或100%正确标签的数据集训练网络。CNN因其具有突出的特征表示和拟合能力,在分类任务中取得良好性能。然而,CNN突出的拟合能力导致网络也会拟合标签噪声[10]。
表 1 标签噪声数据集训练分类网络模型精度(%)Table 1. Classification accuracy of the models trained with noisy labels and clean labels (%)训练网络模型 分类精度 20%的正确标签 92.13 混合20%的正确标签 & 80%的噪声标签 27.46 100%的正确标签 98.30 针对标签噪声引起深度神经网络训练问题,研究人员提出多种方法来缓解标签噪声对深度网络训练的影响[11]。一系列方法基于少量正确标注样本训练模型,并使用模型进行预测,以重新标记噪声样本[12,13]。然而,正确标签样本并不总是易于获得,从而限制了该系列方法的适用性。
更多工作旨在处理噪声和正确标签混合时产生的网络训练问题。文献[11]指出,在监督学习领域,噪声标签学习的主要方法包括鲁棒损失、正则化方法和样本选择等。鲁棒损失函数旨在设计对噪声标签不敏感的损失函数;正则化方法旨在防止深度神经网络过拟合噪声标签样本;样本选择方法通过特征选择样本进行训练,可有效减轻噪声标签对模型性能的负面影响。
2.1 鲁棒损失与正则化方法
基于鲁棒损失的标签噪声纠正方法试图通过设计损失函数处理标签噪声问题[14−17]。文献[14]提出一种处理标签噪声的通用方法——自举损失。其核心思想是利用一致性增强预测目标,以补偿噪声样本错误引导。为实现这一目标,需给当前网络预测分配适当损失权重。文献[15]提出一个联合神经嵌入网络,该网络根据图像与标签的相关性,在损失函数中为图像样本分配权重,以指导分类网络训练。文献[16]从理论角度出发提出一种综合平均绝对误差和分类交叉熵的鲁棒噪声损失函数,在处理大量的标签噪声时表现出良好性能。文献[17]研究了基于深度度量学习的遥感图像在存在标签噪声情况下的表征,并提出鲁棒归一化损失,以降低噪声图像对相应类别原型学习的贡献权重。
正则化方法也可防止深度网络过度拟合标签噪声[11],如dropout[18]、对抗学习[19]、mixup[20]、标签平滑[21,22]等都是广泛使用的技术。mixup是一种提高深度监督分类网络性能的数据增强方法,通过mixup生成的组合样本和相应的标签,为网络训练施加线性约束,从而提高存在标签噪声情况下训练的分类网络性能。文献[23]用先验知识对标签相关性进行编码,并使用标签相关性对噪声网络预测进行正则化,以处理多标签情况下的标签噪声。该方法的性能优于直接从标签噪声中学习的方法。文献[24]通过集成部分标签学习和负样本学习提出标签噪声学习方法并应用一致性正则化项改善特征提取和模型预测。
2.2 样本选择方法
样本选择方法根据是否直接区分噪声与正确标签样本可分为标签噪声建模方法以及其他样本选择方法。标签噪声建模方法从特征出发,让网络学习到正确样本和噪声样本之间的差异并选择正确标签样本训练网络。文献[9]提出一种基于Beta混合模型(Beta Mixture Model, BMM)的标签噪声建模和纠正方法。基于引言中的观察,作者提出基于BMM方法拟合损失函数值以对标签噪声进行建模,同时设计自举损失函数纠正噪声标签。文献[25]提出一种用于标签噪声分布的鲁棒标签校正算法,使用预测和给定标签的插值对样本标签进行建模,以区分正确标签、分布内噪声和分布外噪声;并对分布内样本标签进行纠正,同时提出分布外样本动态软化策略以降低标签噪声危害。文献[26]提出CoLafier方法解决标签噪声问题,该方法基于局部内部维数(Local Intrinsic Dimensionality, LID)实现标签噪声识别,双子网络的专用分类器可通过设计训练方案和计算LID分数有效判别标签是否正确;双子网络协同作用,结合LID分数和预测差异,可引导噪声标签更新决策,从而提高存在噪声标签情况下的网络性能。
其他样本选择方法从原始数据集中筛选出具有特定特征或属性的高置信度的样本子集训练网络。文献[27]提出利用网络在不同训练时期的输出预测,形成整个训练数据集的运行平均预测值,通过对平均预测值过滤噪声标签样本,实现在训练过程中逐步提高任务性能,减少噪声对模型学习的影响。文献[28]提出JoCoR是一种基于Co-training[29]思想的代表性方法:在训练过程中保持两个网络,每个网络计算损失并选择一定数量小损失样本送入另一个网络进一步训练。该方法以小损失作为高置信度特征,筛选此类样本进行训练以避免标签噪声的负面影响。文献[30]提出Prune4ReL,通过最大化所有训练示例的邻域内预测置信度的总和寻找一个最优子集,以提高噪声标签下训练模型的准确性和泛化性。
2.3 SAR领域中标签噪声问题
已有实验证明标签噪声会影响分类器的分类性能,因此,在SAR图像处理中也需考虑标签噪声。文献[31]提出一种概率转移CNN,通过概率转移模型将真实标签的概率分布转换为含噪声标签的概率分布,旨在应对含标签噪声的斑块级SAR图像地面覆盖分类任务。文献[32]提出一种使用区域平滑和标签纠正的SAR图像分割方法,其中类标签纠正方法被用来纠正图像中错误分类像素。当把迁移学习应用于大规模高分辨率SAR地面覆盖图像分类问题时,文献[33]引入一个具有成本敏感参数的top-2平滑损失函数来解决标签噪声,从而缓解标签噪声引起的过拟合问题。文献[34]采用多分类结合方法实现一致性采样和噪声标签样本剔除。文献[35]提出使用图像相似性和K-最近邻算法来消除伪标签噪声。文献[36]提出LNMC算法旨在通过建模噪声标签区别正确噪声标签样本和噪声标签样本,以提高含噪条件下分类网络性能。
SAR图像中的标签噪声问题已经引起研究人员的广泛关注。然而,目前的研究集中在图像分割和地面覆盖分类中像素分类标签噪声,对图像分类任务存在的标签噪声问题研究不足。目前在SAR ATR研究中,大多数工作集中在网络设计[4]、训练策略[2,3]、减少斑点噪声[5]等研究以提高SAR目标分类准确性,标签噪声问题还没有得到广泛的研究。因此,本文研究了SAR ATR中的标签噪声问题。
3. 本文方法
3.1 基于损失曲线拟合的标签噪声不确定性建模
相关工作中,文献[9]是基于损失函数值进行BMM拟合,其中对样本标签是否正确的估计,取决于当前迭代轮次的损失大小。因此,基于损失点拟合方法的有效性依赖于选择适合迭代轮次进行拟合。本文认为,使用任何迭代轮次中样本损失值进行标签噪声不确定性建模,其鲁棒性都不如使用反映每个样本随迭代变化的损失曲线进行标签噪声不确定性建模强。
在本文所提出的基于损失曲线拟合的标签噪声不确定性建模方法中,首先以混有噪声和正确标签的数据集训练网络,得到用于标签噪声不确定性建模的损失曲线,如图2所示;然后在标签噪声不确定性建模阶段,使用损失曲线模糊聚类方法来识别样本标签是正确的或噪声的。本文将每个样本随迭代变化的损失曲线视为无监督聚类的判别特征,以区分样本标签是否正确。令T1代表第1阶段迭代数,对于任何样本xi,经T1次迭代训练后的损失曲线被表示为li∈RT1。本文将标签噪声不确定性建模聚类损失函数定义为
Lc=C∑k=1N∑i=1μmi(k)‖ (1) 其中,N为训练样本的数量;C为聚类类别数,C设为2即将样本标签分为两类(正确标签或噪声标签);m为模糊指数,在本文中设为2;||·||表示欧氏距离;{\boldsymbol{c}}(k)代表第k个类别聚类中心,k取1或2,即正确或噪声标签对应的平均损失函数曲线。{\mu _i}(k)为隶属度函数,代表损失函数曲线 {{\boldsymbol{l}}_i} 属于第k类的程度。通过聚类中心{\boldsymbol{c}}(k)和隶属度函数{\mu _i}(k)可得到样本标签噪声不确定性程度,进而依据噪声不确定度筛选噪声标签样本。
找到最优聚类中心和最优隶属度函数可通过最小化损失函数实现,具体通过以下交替优化过程实现:首先初始化聚类中心{\boldsymbol{c}}(k),之后利用式(2)和式(3)交替更新{\boldsymbol{c}}(k)和{\mu _i}(k)。
\qquad {{\boldsymbol{c}}}(k)=\frac{{\displaystyle \sum _{i=1}^{N}{\mu }_{i}^{m}(k){{\boldsymbol{l}}}_{i}}}{{\displaystyle \sum _{i=1}^{N}{\mu }_{i}^{m}(k)}} (2) \qquad {\mu }_{i}(k)=\frac{1}{{\displaystyle \sum _{j=1}^{C}{\left(\frac{\Vert {\boldsymbol{l}}_{i}-{{\boldsymbol{c}}}(k)\Vert }{\Vert {\boldsymbol{l}}_{i}-{{\boldsymbol{c}}}(j)\Vert }\right)}^{\textstyle\frac{2}{m-1}}}} (3) 当上述交替迭代优化过程结束后,可获得最优聚类中心{{\boldsymbol{c}}^ * }(k)以及各样本聚类类别隶属度函数 \mu _i^ * (k) 。图2展示正确标签和噪声标签聚类中心。基于前述观察,认定平均损失值更小的聚类中心损失函数曲线对应正确标签。 \mu _i^ * (2) 描述任意损失函数曲线 {{\boldsymbol{l}}_i} 对应样本标签属于噪声标签的隶属度; \mu _i^ * (2) 值越大,反映其属于噪声标签的概率越高,其噪声不确定性程度越低。
3.2 基于噪声不确定度的数据划分和分组加权训练纠正
通过上述标签噪声建模与不确定性建模得到各样本聚类中心和类别隶属度后,可对数据进行划分,实现分组加权训练纠正。对于任意样本{{\boldsymbol{x}}_i},根据样本噪声不确定性程度按不同分组阈值 {\tau _1},{\tau _2} 划分处理。若 \mu _i^ * (2) > {\tau _1} ,则认定对应样本标签 {{\boldsymbol{y}}_i} 属于噪声标签,标记为噪声标签样本;若 \mu _i^ * (2) < {\tau _2} ,则认定对应样本标签 {{\boldsymbol{y}}_i} 属于正确标签,标记为正确标签样本;若 {\tau _2} \le \mu _i^ * (2) \le {\tau _1} ,则认定对应样本标签 {{\boldsymbol{y}}_i} 属于部分置信标签,标记为模糊标签样本。在完成对所有样本划分后,原训练集被分为3组:噪声标签样本集 {D_{\mathrm{n}}} 、正确标签样本集 {D_{\mathrm{c}}} 和模糊标签样本集 {D_{\mathrm{f}}} 。
依据样本噪声不确定度,3组不同样本集在训练损失中,被赋予不同权重来指导模型训练过程。分组加权损失函数定义为
{{\mathcal{L}}}_{\text{cls}}=-\sum _{{{\boldsymbol{x}}_i}\in {D}_{\text{c}}}^{}{{\boldsymbol{y}}_i^{{\mathrm{T}}}}\mathrm{ln}(p({{\boldsymbol{x}}_i}))-\sum _{{{\boldsymbol{x}}_i}\in {D}_{\text{f}}}^{}{\omega }_{i}{{\boldsymbol{y}}_i^{{\mathrm{T}}}}\mathrm{ln}(p({{\boldsymbol{x}}_i})) (4) 其中, {\omega _i} = 1 - \mu _i^ * (2) ,(·)T表示矩阵的转置。
对于正确和模糊标签样本,可针对性调整模型的训练策略,让模型专注于学习正确标签隶属度高的样本,从而提高模型训练的准确性。模糊标签样本集有望对模型的泛化能力做出贡献。对于正确标签数据集中样本 ({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i}) \in {D_{\text{c}}} ,保留最大训练权重(即权重为1);对于模糊数据集中样本 ({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i}) \in {D_{\mathrm{f}}} ,利用标签噪声建模不确定度赋予不同样本不同训练权值,其中属于正确标签隶属度越高对应训练权重越高;对于噪声标签样本集,本文直接从训练集中将其去除以减少噪声对模型的负面影响。
进一步,为提升训练网络泛化能力,本文引入mixup[20]数据增强方法扩充训练集。样本和相应的标签 ({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i}) \in {D_{\text{c}}} , ({{\boldsymbol{x}}_j},{{\boldsymbol{y}}_j}) \in {D_{\text{c}}} \cup {D_{\mathrm{f}}} 经mixup后的增强样本和训练目标为
\mathop {\boldsymbol{x}}\nolimits_{{\text{mix}}} = \frac{{\mu _i^ * (1)}}{{\mu _i^ * (1) + \mu _j^ * (1)}}{{\boldsymbol{x}}_i} + \frac{{\mu _j^ * (1)}}{{\mu _i^ * (1) + \mu _j^ * (1)}}{{\boldsymbol{x}}_j} (5) \mathop {\boldsymbol{y}}\nolimits_{{\text{mix}}} = \frac{{\mu _i^ * (1)}}{{\mu _i^ * (1) + \mu _j^ * (1)}}{{\boldsymbol{y}}_i} + \frac{{\mu _j^ * (1)}}{{\mu _i^ * (1) + \mu _j^ * (1)}}{{\boldsymbol{y}}_j} (6) 其中, \mu _i^ * (1) 代表样本{{\boldsymbol{x}}_i}隶属于正确标签样本的程度。
本文将增强的数据集{D_{{\text{aug}}}} = \left\{ {\left( {{{\boldsymbol{x}}_{{\mathrm{mix}}}},{{\boldsymbol{y}}_{{\mathrm{mix}}}}} \right)} \right\}与正确标签数据集 {D_{\mathrm{c}}} 、模糊标签样本集 {D_{\mathrm{f}}} 一起视为训练网络的训练样本。值得说明的是,噪声标签样本集可视为无标签样本,以半监督学习的方式参与训练。本文关注标签噪声不确定性建模以及基于噪声不确定度的分组加权训练纠正,针对噪声标签样本集的半监督训练可作为未来工作。
3.3 总体算法
基于标签噪声不确定性建模和基于噪声不确定度的纠正方法包括两个阶段,即标签噪声不确定性建模阶段以及基于噪声不确定度的数据划分和分组加权训练纠正阶段。算法1总结了标签噪声不确定性建模阶段以及数据划分实现分组加权训练纠正阶段的总体算法。算法输入为混有正确和噪声标签数据集{D_{{\mathrm{train}}}}以及一个分类网络,其中,{D_{{\mathrm{train}}}}中包括图像样本集X和相应的标签{Y_{\mathrm{n}}},输出为纠正标签数据集和纠正训练后的网络权重。
1 含噪标签数据集训练分类网络1. Train a classification network with noisy labels输入:X:训练集中的图像样本。 {Y_{\mathrm{n}}}:训练集中的样本标签(包括噪声标签)。 f\left( { \cdot ;\theta } \right) :一个分类网络(本文中为CNN)。 输出:CNN训练权重 {\theta ^{{T_2}}} 步骤1:混有噪声和正确标签数据集(X,{Y_{\mathrm{n}}})训练网络{T_1}次 获得 f\left( { \cdot ;{\theta ^{{T_1}}}} \right) 和\left\{ {{{\boldsymbol{l}}}_i^{{T_1}}} \right\}_{i = 1}^N。 步骤2:标签噪声不确定性建模 初始化c; for i in \left[1,T_c\right] iterations: do 根据式(2)计算{\boldsymbol{c}}(k) 根据式(3)计算{\mu _i}(k) end for 获得{{\boldsymbol{c}}^ * }(k)和 \mu _i^ * (k) 步骤3:基于噪声不确定度的数据划分 获得噪声样本集 {D_{\mathrm{n}}} 、正确样本集 {D_{\mathrm{c}}} 、模糊样本集 {D_{\mathrm{f}}} {D_{\text{n}}} = \left\{ {({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i})|\mu _i^ * (2) > {\tau _1}} \right\}_{i = 1}^N {D_{\mathrm{c}}} = \left\{ {({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i})|\mu _i^ * (2) < {\tau _2}} \right\}_{i = 1}^N {D_{\mathrm{f}}} = \left\{ {({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i})|{\tau _2} \le \mu _i^ * (2) \le {\tau _1}} \right\}_{i = 1}^N 通过mixup数据增强获得 {D_{{\text{aug}}}} 根据式(5)计算{{\boldsymbol{x}}_{{\mathrm{mix}}}} 根据式(6)计算{{\boldsymbol{y}}_{{\mathrm{mix}}}} {D_{{\text{aug}}}} = \left\{ {\left( {{{\boldsymbol{x}}_{{\text{mix}}}},{{\boldsymbol{y}}_{{\text{mix}}}}} \right)} \right\} {D_{\mathrm{m}}} = {D_{\text{c}}} \cup {D_{\mathrm{f}}} \cup {D_{{\mathrm{aug}}}} 步骤4:使用{D_{\mathrm{m}}}分组加权纠正训练网络{T_2}次 在标签噪声不确定性建模阶段,目标为获得样本标签噪声不确定度。首先,使用混有正确和噪声标签数据集来训练网络,在历经{T_1}次迭代后获得所有样本的损失曲线。然后,所有损失曲线都通过无监督模糊聚类方法进行分类。在经{T_c}次聚类优化过程迭代,获得样本聚类中心{{\boldsymbol{c}}^ * }(k)和聚类类别隶属度 \mu _i^ * (k) ,其中,聚类中心平均损失较低的一类对应于正确标签,聚类中心平均损失较高的一类对应于噪声标签。
在基于噪声不确定度的数据划分和分组加权训练纠正阶段,基于前一阶段得到的标签噪声不确定度和分组阈值 {\tau _1},{\tau _2} 划分样本集,选择 \mu _i^ * (2) < {\tau _2} 的样本构成正确训练数据集 {D_{\mathrm{c}}} ,选择 {\tau _2} \le \mu _i^ * (2) \le {\tau _1} 的样本构成模糊训练数据集 {D_{\mathrm{f}}} 。对于 {D_{\text{c}}} \cup {D_{\mathrm{f}}} 中的样本进行mixup数据增强,以获得增强的数据集 {D_{{\text{aug}}}} 。最后,用正确、模糊和增强的数据集构成总训练集{D_{\mathrm{m}}}对训练网络迭代{T_2}次。
4. 实验
4.1 数据集
本文在实验中使用MSTAR[37]数据集验证方法的有效性。MSTAR数据集由10类地面目标图像组成,并被分为两个子数据集:训练数据集和测试数据集。10类地面目标图像分别为2S1, BMP2, BRDM2, BTR60, BTR70, D7, T62, T72, ZIL131和ZSU234。训练数据集中图像在17°获得,测试数据集中图像在15°获得,并在表2中列举所有类别的数据集数量。
表 2 MSTAR数据集中训练和测试数据集中的目标数量Table 2. Number of targets in the training and testing datasets of the MSTAR dataset地面目标图像 训练数据集 测试数据集 总数据集 2S1 299 274 573 BMP2 233 195 428 BRDM2 298 274 572 BTR60 256 195 451 BTR70 233 196 429 D7 299 274 573 T62 299 273 572 T72 232 196 428 ZIL131 299 274 573 ZSU234 299 274 573 4.2 实验设置
输入图像大小设为128像素×128像素,分类网络基于ResNet[8]实现。为进行公平对比实验,本文在实验中使用与基于BMM方法[9]相同的ResNet18。在训练分类网络时,本文使用图像裁剪和图像翻转作为mixup数据增强方法,且每个批次会对所有训练样本进行mixup,故增强后样本数量为原训练样本数量的两倍。
在实验的训练数据集中,分别选择40%, 60%和80%比例样本标签设置为噪声标签。在制作标签噪声时,选择不同比例样本并随机地重新标注其标签,实验数据集中0~9共10类目标,每个类别目标都有可能被误分类成其他类别,且各类别之间的误分类概率相等。需要注意,其中一些样本标签可能被随机重新标注为正确标签,因此,实际噪声比例略低于设置比例。训练集图像总数为
2747 张,当噪声标签比例分别为40%, 60%, 80%时噪声标签图像数为1000 张、1484 张、1992张。为了评估训练有效性,本文使用原始测试数据集进行评估。训练中批量大小设为16,总迭代次数为600。第1阶段网络训练迭代300次,第2阶段网络训练迭代300次。学习率初始设为
0.0125 ,在两个阶段的第76次迭代后下降至原有学习率的10%,并在第156次迭代后再降低至当前学习率的10%。训练阶段采用了动量优化器[38],并且动量设为0.9,权重衰减设为0.0001 。本文测试和评估基于以下配置:CPU为Intel Core i7-12700K(3.60 GHz),GPU为 GeForce RTX3090(内存24 GB),计算机内存为64 GB。实验基于开源的Pytorch框架[39]实现。
实验使用纠正精度和分类精度评估算法在标签噪声建模和训练分类网络上的表现。纠正精度衡量的是在标签噪声建模纠正后,训练集中标签噪声样本被成功纠正的比例;分类精度衡量的是测试集中被正确分类样本的比例。
4.3 标签噪声建模、纠正结果与分析
本节分析基于损失曲线拟合方法在标签噪声建模和纠正方面的表现。图3表示在含80%标签噪声实验中,经标签噪声建模和纠正后的训练集噪声样本。其中,绿色表示被成功识别并纠正的噪声标签样本;红色表示未被正确识别纠正的噪声标签样本。从图3明显看出,标签纠正阶段之后,大部分噪声标签都被纠正为正确标签。
为了进一步分析本文方法对于噪声标签的纠正性能,本节与两种标签噪声建模方法—BMM方法和LNMC算法进行对比。表3显示数据集中含不同比例标签噪声时不同方法对应的纠正精度。从表3中可以看出,当标签噪声比例较低时,本文方法与基于BMM方法、LNMC算法的纠正精度基本一致,而当标签噪声比例增加(特别是对于标签噪声比例极大时,如80%),本文方法与基于BMM方法、LNMC算法相比纠正精度更优。这证明了本文方法对不同比例标签噪声具有鲁棒性,较BMM方法、LNMC算法纠正精度提升更为显著。
表 3 不同比例标签噪声下的纠正精度(%)Table 3. The correction accuracy with different noise ratio (%)算法 40 (36.4) 60 (54.0) 80 (72.5) BMM-based 98.7 84.8 61.1 LNMC 97.9 92.2 78.1 本文方法 98.6 97.2 87.8 注:由于制作标签噪声时一些样本标签可能被随机重新标注为正确标签,实际噪声比例略低于设置比例,括号内为实验中真实标签噪声比例。加粗项表示最优结果。 图4绘制了在标签噪声纠正阶段噪声标签和正确标签样本的损失曲线。图4前100个迭代轮次不包含纠正标签噪声的正常训练过程;第100~300个迭代轮次是使用本文纠正方法的训练过程。从图4中可以得出,在纠正后,正确标签样本损失值进一步减少,而噪声标签样本损失值反而升高。这表明本文提出的方法可有效对标签噪声进行建模,避免网络拟合噪声标签样本,并帮助网络用正确标签样本进行训练。
4.4 纠正后网络性能分析
本节分析标签噪声纠正后训练网络的分类精度。图5绘制了用含80%标签噪声的数据集在不同迭代次数时训练网络的分类准确率。其中,前100个迭代轮次(以灰色绘制)的准确率曲线是未纠正标签噪声情况下得出;第100~300个迭代轮次(以蓝色绘制)的准确率曲线是基于本文方法纠正后训练网络得出,第100~300个迭代轮次(以橙色绘制)的准确率曲线是基于BMM方法训练网络得出的。从图5中可以看到,在标签纠正之前,分类精度保持在一个较低水平,并在训练迭代中振荡。而在标签纠正后,分类网络的准确率有所提升。与基于BMM方法相比,本文方法在标签纠正后的网络分类精度有明显提升,并在后面迭代中保持稳定。
此外,本文与另外5种标签噪声处理方法进行性能对比——不同比例噪声标签下训练网络分类精度如表4所示。需要说明的是,mixup[20]、RNSL[17]和Prune4ReL[30]方法不对标签噪声进行建模,因此在表3中未比较这3种方法。从表4中得出,同对比方法相比,本文方法在不同噪声比例下均可获得最优分类精度,精度相比次优算法平均高3.97%。其中,当标签噪声比例非常大时(如80%),相比对比方法性能下降明显,本文方法仍可获得鲁棒分类性能——相比次优方法分类精度提升2.7%。
表 4 不同比例标签噪声下的网络分类精度(%)Table 4. The classification accuracy with different noise ratio (%)4.5 讨论
4.5.1 不确定性阈值 {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} 的影响
本节验证不同不确定性阈值 {\tau _1},{\tau _2} 对网络分类精度影响,实验中分别选择不同参数取值,分别在训练集中含噪声标签比例80%, 40%下进行实验,实验数据集和其余实验设置与4.2节保持一致。
表5、表6分别为80%, 40%噪声比例下的网络分类精度。可以看出,9组不同阈值参数下,噪声比80%下的网络平均分类精度为81.89±0.24,噪声比40%下的网络平均分类精度为97.36±0.5,证明本文所提方法对于阈值的选择具备一定的鲁棒性。
表 5 噪声比80%下 {{\boldsymbol{\tau}} _1},{\boldsymbol{{\tau}} _2} 不同取值时的网络分类精度Table 5. The classification accuracy with different {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} values under 80% noise ratio{\tau _1} {\tau _2} 分类精度(%) 0.7 0.1 80.8 0.8 0.1 80.9 0.9 0.1 80.9 0.7 0.2 82.7 0.8 0.2 82.3 0.9 0.2 82.5 0.7 0.3 82.2 0.8 0.3 82.3 0.9 0.3 82.3 表 6 噪声比40%下 {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} 不同取值时的网络分类精度Table 6. The classification accuracy with different {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} values under 40% noise ratio{\tau _1} {\tau _2} 分类精度(%) 0.7 0.1 96.4 0.8 0.1 96.8 0.9 0.1 96.6 0.7 0.2 97.6 0.8 0.2 98.7 0.9 0.2 97.5 0.7 0.3 97.6 0.8 0.3 97.6 0.9 0.3 97.4 需要说明的是,实际问题中数据集包含噪声标签数据,因此无法获取设置交叉验证集(无法获取标签正确的验证数据集合)来讨论最优超参数。本节讨论表明本文方法对不确定性阈值具备一定鲁棒性,因此可根据经验设置不确定性阈值。
4.5.2 Mixup消融实验
为验证基于不确定度的mixup数据增强方法对本文方法影响,现设计消融实验,实验训练集中含噪声标签比例为80%,实验数据集和其余实验设置与4.2节保持一致。
mixup消融实验结果如表7所示。从表7可以看出,无论噪声比例如何,使用mixup方法都能够显著提升噪声标签纠正阶段所训练网络的分类精度。尤其是当噪声比例越高时,mixup的效果越明显。
表 7 Mixup方法消融实验(%)Table 7. Ablation study on mixup method (%)是否使用mixup 40 (36.4) 60 (54.0) 80 (72.5) 否 94.7 90.3 73.2 是 98.7 94.9 82.3 注:由于制作标签噪声时一些样本标签可能被随机重新标注为正确标签,实际噪声比例略低于设置比例,括号内为实验中真实标签噪声比例。 5. 结语
本文提出一种基于损失曲线拟合的标签噪声不确定性建模和基于噪声不确定度的纠正方法,该方法可识别并纠正标签噪声,在训练数据包含噪声标签的情形下有效训练分类网络。基于损失曲线拟合的标签噪声不确定性建模和基于噪声不确定度的纠正方法包括两个阶段——标签噪声不确定性建模阶段以及基于噪声不确定度的数据划分和分组加权训练纠正阶段。通过对损失曲线进行模糊聚类实现标签噪声不确定性建模,根据聚类结果获得样本不确定度;基于标签噪声不确定度划分训练集并构建正确标签隶属度高的样本集训练网络,从而实现标签噪声纠正。实验证明,该方法可有效处理数据集中含不同比例标签噪声情况下训练分类网络的问题。(在高噪声比例(80%)的情况下,本文所提方法在应对标签噪声时具有较高的鲁棒性和准确性,能够更有效地纠正噪声标签并提高分类性能)
-
表 1 标签噪声数据集训练分类网络模型精度(%)
Table 1. Classification accuracy of the models trained with noisy labels and clean labels (%)
训练网络模型 分类精度 20%的正确标签 92.13 混合20%的正确标签 & 80%的噪声标签 27.46 100%的正确标签 98.30 1 含噪标签数据集训练分类网络
1. Train a classification network with noisy labels
输入:X:训练集中的图像样本。 {Y_{\mathrm{n}}}:训练集中的样本标签(包括噪声标签)。 f\left( { \cdot ;\theta } \right) :一个分类网络(本文中为CNN)。 输出:CNN训练权重 {\theta ^{{T_2}}} 步骤1:混有噪声和正确标签数据集(X,{Y_{\mathrm{n}}})训练网络{T_1}次 获得 f\left( { \cdot ;{\theta ^{{T_1}}}} \right) 和\left\{ {{{\boldsymbol{l}}}_i^{{T_1}}} \right\}_{i = 1}^N。 步骤2:标签噪声不确定性建模 初始化c; for i in \left[1,T_c\right] iterations: do 根据式(2)计算{\boldsymbol{c}}(k) 根据式(3)计算{\mu _i}(k) end for 获得{{\boldsymbol{c}}^ * }(k)和 \mu _i^ * (k) 步骤3:基于噪声不确定度的数据划分 获得噪声样本集 {D_{\mathrm{n}}} 、正确样本集 {D_{\mathrm{c}}} 、模糊样本集 {D_{\mathrm{f}}} {D_{\text{n}}} = \left\{ {({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i})|\mu _i^ * (2) > {\tau _1}} \right\}_{i = 1}^N {D_{\mathrm{c}}} = \left\{ {({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i})|\mu _i^ * (2) < {\tau _2}} \right\}_{i = 1}^N {D_{\mathrm{f}}} = \left\{ {({{\boldsymbol{x}}_i},{{\boldsymbol{y}}_i})|{\tau _2} \le \mu _i^ * (2) \le {\tau _1}} \right\}_{i = 1}^N 通过mixup数据增强获得 {D_{{\text{aug}}}} 根据式(5)计算{{\boldsymbol{x}}_{{\mathrm{mix}}}} 根据式(6)计算{{\boldsymbol{y}}_{{\mathrm{mix}}}} {D_{{\text{aug}}}} = \left\{ {\left( {{{\boldsymbol{x}}_{{\text{mix}}}},{{\boldsymbol{y}}_{{\text{mix}}}}} \right)} \right\} {D_{\mathrm{m}}} = {D_{\text{c}}} \cup {D_{\mathrm{f}}} \cup {D_{{\mathrm{aug}}}} 步骤4:使用{D_{\mathrm{m}}}分组加权纠正训练网络{T_2}次 表 2 MSTAR数据集中训练和测试数据集中的目标数量
Table 2. Number of targets in the training and testing datasets of the MSTAR dataset
地面目标图像 训练数据集 测试数据集 总数据集 2S1 299 274 573 BMP2 233 195 428 BRDM2 298 274 572 BTR60 256 195 451 BTR70 233 196 429 D7 299 274 573 T62 299 273 572 T72 232 196 428 ZIL131 299 274 573 ZSU234 299 274 573 表 3 不同比例标签噪声下的纠正精度(%)
Table 3. The correction accuracy with different noise ratio (%)
算法 40 (36.4) 60 (54.0) 80 (72.5) BMM-based 98.7 84.8 61.1 LNMC 97.9 92.2 78.1 本文方法 98.6 97.2 87.8 注:由于制作标签噪声时一些样本标签可能被随机重新标注为正确标签,实际噪声比例略低于设置比例,括号内为实验中真实标签噪声比例。加粗项表示最优结果。 表 4 不同比例标签噪声下的网络分类精度(%)
Table 4. The classification accuracy with different noise ratio (%)
表 5 噪声比80%下 {{\boldsymbol{\tau}} _1},{\boldsymbol{{\tau}} _2} 不同取值时的网络分类精度
Table 5. The classification accuracy with different {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} values under 80% noise ratio
{\tau _1} {\tau _2} 分类精度(%) 0.7 0.1 80.8 0.8 0.1 80.9 0.9 0.1 80.9 0.7 0.2 82.7 0.8 0.2 82.3 0.9 0.2 82.5 0.7 0.3 82.2 0.8 0.3 82.3 0.9 0.3 82.3 表 6 噪声比40%下 {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} 不同取值时的网络分类精度
Table 6. The classification accuracy with different {{\boldsymbol{\tau}} _1},{{\boldsymbol{\tau}} _2} values under 40% noise ratio
{\tau _1} {\tau _2} 分类精度(%) 0.7 0.1 96.4 0.8 0.1 96.8 0.9 0.1 96.6 0.7 0.2 97.6 0.8 0.2 98.7 0.9 0.2 97.5 0.7 0.3 97.6 0.8 0.3 97.6 0.9 0.3 97.4 表 7 Mixup方法消融实验(%)
Table 7. Ablation study on mixup method (%)
是否使用mixup 40 (36.4) 60 (54.0) 80 (72.5) 否 94.7 90.3 73.2 是 98.7 94.9 82.3 注:由于制作标签噪声时一些样本标签可能被随机重新标注为正确标签,实际噪声比例略低于设置比例,括号内为实验中真实标签噪声比例。 -
[1] CUI Zongyong, TANG Cui, CAO Zongjie, et al. SAR unlabeled target recognition based on updating CNN with assistant decision[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(10): 1585–1589. doi: 10.1109/LGRS.2018.2851600. [2] PEI Jifang, HUANG Yulin, HUO Weibo, et al. SAR automatic target recognition based on multiview deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(4): 2196–2210. doi: 10.1109/TGRS.2017.2776357. [3] WANG Chen, SHI Jun, ZHOU Yuanyuan, et al. Semisupervised learning-based SAR ATR via self-consistent augmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(6): 4862–4873. doi: 10.1109/TGRS.2020.3013968. [4] BAI Xueru, XUE Ruihang, WANG Li, et al. Sequence SAR image classification based on bidirectional convolution-recurrent network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 9223–9235. doi: 10.1109/TGRS.2019.2925636. [5] AMRANI M, JIANG Feng, XU Yunzhong, et al. SAR-oriented visual saliency model and directed acyclic graph support vector metric based target classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(10): 3794–3810. doi: 10.1109/JSTARS.2018.2866684. [6] ZHOU Yuanyuan, SHI Jun, WANG Chen, et al. SAR ground moving target refocusing by combining mRe³ network and TVβ-LSTM[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5200814. doi: 10.1109/TGRS.2020.3033656. [7] WANG Chen, SHI Jun, YANG Xiaqing, et al. Geospatial object detection via deconvolutional region proposal network[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(8): 3014–3027. doi: 10.1109/JSTARS.2019.2919382. [8] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90. [9] ARAZO E, ORTEGO D, ALBERT P, et al. Unsupervised label noise modeling and loss correction[C]. The 36th International Conference on Machine Learning, Long Beach, USA, 2019: 312–321. [10] ZHANG Chiyuan, BENGIO S, HARDT M, et al. Understanding deep learning (still) requires rethinking generalization[J]. Communications of the ACM, 2021, 64(3): 107–115. doi: 10.1145/3446776. [11] SONG H, KIM M, PARK D, et al. Learning from noisy labels with deep neural networks: A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(11): 8135–8153. doi: 10.1109/TNNLS.2022.3152527. [12] VEIT A, ALLDRIN N, CHECHIK G, et al. Learning from noisy large-scale datasets with minimal supervision[C]. The 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 839–847. doi: 10.1109/CVPR.2017.696. [13] VAHDAT A. Toward robustness against label noise in training deep discriminative neural networks[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 5601–5610. [14] REED S, LEE H, ANGUELOV D, et al. Training deep neural networks on noisy labels with bootstrapping[C]. The 3rd International Conference on Learning Representations, San Diego, USA, 2015. [15] LEE K H, HE Xiaodong, ZHANG Lei, et al. CleanNet: Transfer learning for scalable image classifier training with label noise[C]. The 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 5447–5456. doi: 10.1109/CVPR.2018.00571. [16] ZHANG Zhilu and SABUNCU M R. Generalized cross entropy loss for training deep neural networks with noisy labels[C]. The 32nd International Conference on Neural Information Processing Systems, Montréal, Canada, 2018: 8792–8802. [17] KANG Jian, FERNANDEZ-BELTRAN R, DUAN Puhong, et al. Robust normalized softmax loss for deep metric learning-based characterization of remote sensing images with label noise[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(10): 8798–8811. doi: 10.1109/TGRS.2020.3042607. [18] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929–1958. [19] GOODFELLOW I J, SHLENS J, and SZEGEDY C. Explaining and harnessing adversarial examples[C]. The 3rd International Conference on Learning Representations, San Diego, USA, 2015. [20] ZHANG Hongyi, CISSÉ M, DAUPHIN Y N, et al. Mixup: Beyond empirical risk minimization[C]. The 6th International Conference on Learning Representations, Vancouver, Canada, 2018. [21] PEREYRA G, TUCKER G, CHOROWSKI J, et al. Regularizing neural networks by penalizing confident output distributions[C]. The 5th International Conference on Learning Representations, Toulon, France, 2017. [22] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2818–2826. doi: 10.1109/CVPR.2016.308. [23] HUA Yuansheng, LOBRY S, MOU Lichao, et al. Learning multi-label aerial image classification under label noise: A regularization approach using word embeddings[C]. The 2020 IEEE International Geoscience and Remote Sensing Symposium, Waikoloa, USA, 2020: 525–528. doi: 10.1109/IGARSS39084.2020.9324069. [24] SHENG Mengmeng, SUN Zeren, CAI Zhenhuang, et al. Adaptive integration of partial label learning and negative learning for enhanced noisy label learning[C]. The 38th AAAI Conference on Artificial Intelligence, Vancouver, Canada, 2024. doi: 10.1609/aaai.v38i5.28284. [25] ALBERT P, ORTEGO D, ARAZO E, et al. Addressing out-of-distribution label noise in webly-labelled data[C]. The 2022 IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, USA, 2022: 392–401. doi: 10.1109/WACV51458.2022.00245. [26] ZHANG Dongyu, HU Ruofan, and RUNDENSTEINER E A. CoLafier: Collaborative noisy label purifier with local intrinsic dimensionality guidance[C]. The 2024 SIAM International Conference on Data Mining, Houston, USA, 2024: 82–90. [27] NGUYEN D T, MUMMADI C K, NGO T P N, et al. SELF: Learning to filter noisy labels with self-ensembling[C]. The 8th International Conference on Learning Representations, Addis Ababa, Ethiopia, 2020. [28] WEI Hongxin, FENG Lei, CHEN Xiangyu, et al. Combating noisy labels by agreement: A joint training method with co-regularization[C]. The 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 13726–13735. doi: 10.1109/CVPR42600.2020.01374. [29] HAN Bo, YAO Quanming, YU Xingrui, et al. Co-teaching: Robust training of deep neural networks with extremely noisy labels[C]. The 32nd International Conference on Neural Information Processing Systems, Montréal, Canada, 2018: 8536–8546. [30] PARK D, CHOI S, KIM D, et al. Robust data pruning under label noise via maximizing re-labeling accuracy[C]. The 37th International Conference on Neural Information Processing Systems, New Orleans, USA, 2024: 3257. [31] 赵娟萍, 郭炜炜, 柳彬, 等. 基于概率转移卷积神经网络的含噪标记SAR图像分类[J]. 雷达学报, 2017, 6(5): 514–523. doi: 10.12000/JR16140.ZHAO Juanping, GUO Weiwei, LIU Bin, et al. Convolutional neural network-based SAR image classification with noisy labels[J]. Journal of Radars, 2017, 6(5): 514–523. doi: 10.12000/JR16140. [32] SHANG Ronghua, LIN Junkai, JIAO Licheng, et al. SAR image segmentation using region smoothing and label correction[J]. Remote Sensing, 2020, 12(5): 803. doi: 10.3390/rs12050803. [33] HUANG Zhongling, DUMITRU C O, PAN Zongxu, et al. Classification of large-scale high-resolution SAR images with deep transfer learning[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(1): 107–111. doi: 10.1109/LGRS.2020.2965558. [34] 滑文强, 王爽, 侯彪. 基于半监督学习的SVM-Wishart极化SAR图像分类方法[J]. 雷达学报, 2015, 4(1): 93–98. doi: 10.12000/JR14138.HUA Wenqiang, WANG Shuang, and HOU Biao. Semi-supervised learning for classification of polarimetric SAR images based on SVM-wishart[J]. Journal of Radars, 2015, 4(1): 93–98. doi: 10.12000/JR14138. [35] SUN Yuanshuang, WANG Yinghua, LIU Hongwei, et al. Gradual domain adaptation with pseudo-label denoising for SAR target recognition when using only synthetic data for training[J]. Remote Sensing, 2023, 15(3): 708. doi: 10.3390/rs15030708. [36] WANG Chen, SHI Jun, ZHOU Yuanyuan, et al. Label noise modeling and correction via loss curve fitting for SAR ATR[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5216210. doi: 10.1109/TGRS.2021.3121397. [37] KEYDEL E R, LEE S W, and MOORE J T. MSTAR extended operating conditions: A tutorial[C]. The SPIE 2757, Algorithms for Synthetic Aperture Radar Imagery III, Orlando, USA, 1996: 228–242. doi: 10.1117/12.242059. [38] SUTSKEVER I, MARTENS J, DAHL G, et al. On the importance of initialization and momentum in deep learning[C]. The 30th International Conference on Machine Learning, Atlanta, USA, 2013: 1139–1147. [39] PASZKE A, GROSS S, MASSA F, et al. PyTorch: An imperative style, high-performance deep learning library[C]. The 33rd Conference on Neural Information Processing Systems, Vancouver, Canada, 2019: 8026–8037. -