-
摘要: 以机器学习为主的雷达目标识别模型性能由模型与数据共同决定。当前雷达目标识别评估依赖于准确性评估指标,缺乏数据质量对识别性能影响的评估指标。数据可分性描述了属于不同类别样本的混合程度。数据可分性指标独立于模型识别过程,将其引入识别评估过程,可以量化数据识别难度,预先为识别结果提供评判基准。因此该文基于率失真理论提出一种数据可分性度量,通过仿真数据验证所提度量能够衡量多维高斯分布数据的可分性优劣。进一步结合高斯混合模型,设计的度量方法能够突破率失真函数的局限性,捕捉数据局部特性,提高对数据整体可分性的评估精度。接着将所提度量应用于实测数据识别难度评估中,验证了其与平均识别率的强相关性。而在卷积神经网络模块效能评估实验中,首先在测试阶段量化分析了各卷积模块提取特征的可分性变化趋势,进一步在训练阶段将所提度量作为特征可分性损失参与网络优化过程,引导网络提取更可分的特征,该文从特征可分性角度为神经网络识别性能的评估与提升提供新思路。Abstract: The performance of machine learning-based radar target recognition models is determined by the respective model and data to be analyzed. Currently, radar target recognition performance evaluation is based on accuracy metrics, but this method does not include the evaluation metrics regarding the impact of data quality on recognition performance. Data separability describes the degree of mixture of samples from different categories. Furthermore, the data separability metric is independent of the model recognition process. By incorporating it into the recognition evaluation process, recognition difficulty can be quantified, and a benchmark for recognition results can be provided in advance. Therefore, in this paper, we propose a data separability metric based on the rate-distortion theory. Extensive experiments on multiple simulated datasets demonstrated that the proposed metric can compare the separability of multivariate Gaussian datasets. Furthermore, by combining it with the Gaussian mixture model, the designed metric method could overcome the limitation of the rate-distortion function, capture the data’s local separable characteristics, and improve the evaluation accuracy of the overall data separability. Subsequently, we applied the proposed metric to evaluate the recognition difficulty in real datasets, the results of which validated its strong correlation with average recognition accuracy. In the experiments on evaluating the effectiveness of convolutional neural network modules, we first quantified and analyzed the separability trend of the feature extracted by each module during the testing phase. Further, we incorporated the proposed metric as a feature separability loss during the training phase to participate in the network optimization process, guiding the network to extract a more separable feature. This paper provides a new perspective for evaluating and improving the neural network recognition performance in terms of feature separability.
-
1. 引言
测试和评估是目标识别模型中重要的组成部分,是衡量模型性能的重要手段[1],识别评估方法相对识别模型的研究滞后[2],这在一定程度上限制了目标识别模型实用化发展。目前在评估阶段,研究学者更倾向于在特定数据集上给出识别准确性指标来评价所提模型的性能优势[3]。该方法仅从识别率一个方面评价了模型性能,无法反映在输入数据发生变化时识别模型的泛化能力[4,5]。其原因是面向模型的准确性评估指标无差别地对待了每一个数据集,忽略了数据集可分性对识别性能造成的影响[6]。识别性能与数据可分性密切相关,识别性能的评估应当结合对数据特性的评估,以满足对模型泛化性能的评估需求。考虑到真实雷达目标识别场景的多样复杂与动态变化特性,要求实用化的目标识别模型应当具备一定的泛化能力。因此针对某个特定的识别任务,如基于雷达散射截面积 (Radar Cross Section, RCS)、基于高分辨距离像 (High-Resolution Range Profile, HRRP)或基于逆合成孔径雷达 (Inverse Synthetic Aperture Radar, ISAR)像的目标识别任务,需要在不同观测条件的数据上测试模型以评估其应对复杂目标识别环境的泛化性能。而评估模型泛化性能离不开对识别场景的描述,因此提出数据可分性度量量化模型所处识别条件。
数据可分性是在给定标签条件下,描述数据中属于不同类别的样本间混合程度的一种固有属性[7]。在已知数据标签条件下,可以以具体的识别任务为导向,确定样本依其类别在特征空间的分布,数据整体分布的扩展率与类别子空间类内分布的压缩率共同构成数据可分性的衡量指标。可分性较好的数据具有较大的整体分布散度与较小的类内分布散度,表明类间样本相关性弱而类内样本相关性强。精确描述数据可分性有利于探究模型识别性能边界,能够预先为识别结果提供参考基准,为模型性能评估与改进提供支撑。
数据可分性度量为建立具有一定难度梯度的标准测试数据库提供依据,为实现层次化、轻量级的模型泛化性能评估过程打下基础。雷达目标识别数据集的可分特性受到目标所处环境、传感器状态等因素的影响,待识别的任务是在不同信噪比、不同信杂比、不同分辨率、不同观测角或不同频段下的目标散射特性信息集合。若将模型同时测试在上述所有状态的数据集上,不仅耗费时间成本,并且无法得出指导性的评估结论,因此考虑一种更为轻量高效的层级式模型性能测试方法。如图1,层级式模型识别性能评估中,模型由易到难每次测试在一个难度级别的数据集上,通过设置一定的识别率门限作为模型通过某层数据集测试的条件,模型在最终未通过测试的数据层所表现出的识别率代表了模型的性能上限,而模型通过测试的各数据层则体现模型性能的泛化范围。上述测试方法的实施建立在对大规模数据按照其识别的难易程度进行分层的整理和归纳的基础上,量化的数据可分性数值标定了数据的识别难度,为数据分层提供科学的依据。
数据复杂度标定了识别任务难度[8],决定了模型识别性能上限[9,10]。文献[11]将数据空间的结构与特性分析列为人工智能的重大数理基础问题之一。文献[12]研究表明可分性因素的分析有利于辅助预测识别模型的性能。文献[13]认为可分性度量可以应用于识别模型选择、特征挑选算法、聚类算法、生成对抗网络性能的评估,以评估挑选的特征、新聚类的数据及新生成样本的可分性。文献[14]依据分类复杂度设计了动态多分类器决策方法。文献[15]将可分性度量结合到自编码器网络损失函数的迭代过程中,实现了对数据更可分低维特征的提取,将提取的隐藏层特征应用在下游识别任务中,提升了识别性能,并在评估阶段将特征可分性作为网络性能评估的指标之一。因此将数据可分性度量结合进雷达目标识别评估过程,对解释、指导模型性能改进具有重要实际应用意义。
现有数据可分性度量方法大都基于对数据简单统计特性或对样本间距离的分析。文献[16]从数据可分性角度总结了现有分类复杂度的度量方法,该文献将数据复杂性度量归为6类。其中,基于统计特征的分析方法仅利用了数据的均值和方差特性;线性度量方法主要依赖于线性分类器的识别结果;近邻度量方法更侧重于分析数据的局部距离信息;网图度量方法主要衡量样本点依据一定准则所构成的图结构密度;样本数与维度数指标主要用于描述类不平衡性及降维复杂度。上述方法仅反映了数据的局部特性,其有效性大多基于数据的线性可分假设,无法区分具备非线性划分结构的特征族可分性差异[17]。文献[13]验证了基于统计特征、线性分类器、样本数与维度数的度量方法无法有效衡量数据可分性;而基于邻域和网图的距离度量方法则具有较大的计算量,并且在衡量类间重叠度的实验中不再适用。
为解决上述度量失效问题,本文考虑从概率论的角度解释数据可分性。根据贝叶斯准则,假设每个类别出现的概率相等,则样本分类的结果取决于每个类别相对应的似然函数大小[18]。此时各类别的似然函数差距越大,数据就越容易划分开。然而由于高维数据的复杂性,似然函数建模比较困难。文献[19]表明最小化数据编码率的过程等价于求解似然函数的最优解,即数据编码速率和参数估计性能具有强一致性[20]。这意味着如果按类别编码后的数据可以用更好的概率分布模型拟合,则该数据在给定失真率下具有较小的编码量。文献[21]认为,率失真函数为实值混合数据的分割优度提供了一种自然的衡量标准。在最近的研究中,率失真理论被用于解释神经网络模型[22]、优化特征学习方法[23,24]等。
本文的主要贡献在于基于率失真理论量化数据整体分布散度与类内分布散度,通过构造两种分布散度的比例关系提出了一个新的数据可分性度量,该度量综合了数据经奇异值分解后各个正交特征维度上的可分性信息,能够评估多维高斯分布数据的可分性优劣;结合高斯混合模型,该度量能够衡量非高斯分布数据的类间重叠度,度量效果相对现有方法具有明显优势。在仿真数据上对所提方法进行了测试,结果表明由所提方法计算的可分性度量值在二维数据上与特征散点图可分性的直观判定结果对应,并且能够衡量加噪数据的可分性优劣;在高维实测数据[25]上的识别难度评估实验表明所提度量与模型统计得到的平均识别率具有强相关性,其能够以独立于识别过程的方式量化数据识别难度,预先为识别结果提供评判基准;最后本文将所提度量应用在识别网络特征质量评估中,在测试阶段量化分析了网络提取特征的可分性变化趋势,在训练阶段将特征可分性作为损失函数的一部分来同时优化特征质量,从特征可分性的角度为网络识别性能的评估与提升提供新思路。
2. 相关工作
本节总结本文所用到的对比方法,其特点是利用样本间的距离信息构造可分性度量。文献[26]总结了一系列近邻方法,如描述类内距与类间距相对比值的方法(Ratio of Intra/Extra Class Nearest Neighbor Distance, N2)以及一种统计局部近邻数量的方法[27](Local Set Average Cardinality, LSC);基于网图的方法如网图平均密度法(Average Density of the Network, Density)[28]主要描述依据一定距离判决准则所构造的网图邻接边数量;此外文献[13]提出基于距离的可分性度量指标(Distance-based Separability Index, DSI),其主要利用类内距与类间距分布之间的差异信息。下面介绍上述度量方法的计算原理及特性。
(1) N2
N2度量方法设数据
X=[x1,x2,⋯,xm]∈Rn×m 由具有n维特征的m个样本构成,计算样本xi 到其最近邻同类样本NN(xi) 距离d(xi,NN(xi)) 及xi 到其最近邻异类样本NE(xi) 的距离d(xi,NE(xi)) ,取m个样本的d(xi,NN(xi)) 之和与d(xi,NE(xi)) 之和的比值即为度量N2。由于N2的数值范围取N2∈[0,∞) ,因此通过数值转换将其规范到0~1之间,且值越大,表明数据越不可分,如式(1)N2=m∑i=1d(xi,NN(xi))m∑i=1d(xi,NE(xi)), N2←1−11+N2 (1) 式(1)表明度量N2利用的是样本与其近邻样本的距离信息,关注的是样本周围的可分性,每个样本的可分性都仅与距离其最近的样本相关,因此该度量只能反映数据的局部结构特性,对于距离各个类别较远的离群样本,度量N2将无法刻画其可分性。
(2) LSC
LSC度量方法设样本
xi 与xj 的距离为d(xi,xj)(i≠j) ,xi 到其最近邻异类样本NE(xi) 的距离为d(xi,NE(xi)) ,则|LS(xi)| 定义为满足条件d(xi,xj)<d(xi,NE(xi)) 的样本xj 的数量,LSC表示为LSC=1−1m2m∑i=1|LS(xi)| (2) 式(2)表明LSC赋予距离异类样本更近的样本更大的值,意味着其认为处于异类样本分布中或处于决策边界附近的样本点导致可分性的恶化,因此更适用于度量决策边界的复杂度。虽然LSC相对N2更多考虑了同类样本距离信息,但对于异类样本距离信息的利用仅限于最近邻的异类样本,异类样本距离信息的缺失使得LSC度量仅是对数据可分结构的局部表征量。
(3) Density
Density度量方法首先将数据表示成网图
G=(V,E) 的形式,网图G中的V表示样本,有节点数|V|=m ,E表示样本连接边数,满足0≤|E|≤m(m−1)/m(m−1)22 ,同类样本xi 与xj 两两连接的条件是二者的距离小于给定阈值t,即d(xi,xj)<t ,Density表示为Density = 1−2|E|m(m−1) (3) 式(3)表明Density数值取决于网图G中保留的边数
|E| ,值越大表明数据越不可分。|E| 的大小受到设定阈值t的影响,过大的t会产生近乎全连接结构的网图,过小的t将产生稀疏结构的网图,二者都将导致数据可分性判定的模糊。此外度量Density只利用了同类样本的距离信息,其表示同类样本紧密度,忽略了异类样本距离对数据可分性的影响,因而对异类样本距离变化不敏感。(4) DSI
DSI度量方法设数据
X=[X1,X2,⋯,Xk] 由k类目标构成,则同类样本距离集合表示为{dXc}(c=1,2,⋯,k) ,异类样本距离集合表示为{dXc,Xˉc}(c≠ˉc) ,{dXc} 与{dXc,Xˉc} 之间的Kolmogorov-Smirnov距离构成度量DSI,通过数值转换使得DSI值越大表示数据越不可分,如式(4)DSI=1kk∑c=1KS({dXc},{dXc,Xˉc}), DSI←1−DSI (4) 式(4)表明度量DSI充分利用了同类及异类样本的距离信息,其对数据可分结构的描述更加全面,但文献[13]的实验表明该度量无法衡量决策边界的复杂度。
上述方法存在统一的缺陷,即其都基于对样本距离的计算,因此度量性能将会受到所选择的距离函数的影响[29]。例如欧氏距离不适用于衡量高维数据的距离,这将导致基于欧氏距离计算的度量值无法比较具备不同维度的数据集可分性优劣。最后需要说明的是为了方便比较,各度量经数值转换后的取值范围都在0~1之间,且数值越小,表明数据的可分度越高。
3. 率失真函数
率失真函数源于信息论中的编码理论,它描述了在限定编码误差下对数据的最小编码率[19]。当编码误差服从高斯分布时,零均值数据的最小编码率具有易于计算的表达式[20]。率失真函数为
R(X)=m2log2det(I+nmε2XXT) (5) 其中,数据
X=[x1,x2,⋯,xm]∈Rn×m 由具有n维特征的m个样本构成;ε 为给定的编码误差量;最小编码率R(X) 是关于数据X的率失真函数,具体表现为与X的协方差阵有关的对数行列式log2det(⋅) 的形式,n阶单位阵In×n 的引入保证了方阵满秩,其行列式不为零。log2det(⋅) 的凹函数性质使得R(X) 具有良好的优化特性。此外,式(5)同时具有较好的几何可解释性,可以作为数据所在特征空间的紧性度量。原始数据X在其特征空间的容量
vol(X) ,正比于其正交的奇异向量组[σ1e1,σ2e2,⋯,σnen] 所张成空间的体积,在数值上转化为数据奇异值σj 的乘积,又等价于其协方差阵XXT 的特征值λj 的开方的乘积,如式(6)vol(X)∝n∏j=1‖ (6) 式(6)表明编码数据
{\boldsymbol{\hat X}} = [{{\boldsymbol{\hat x}}_1},{{\boldsymbol{\hat x}}_2},\cdots,{{\boldsymbol{\hat x}}_m}] \in {{\bf{R}}^{n \times m}} 的容量{\text{vol(}}{\boldsymbol{\hat X}}{\text{)}} \propto \sqrt {\det ({\boldsymbol{\hat X}}{{{\boldsymbol{\hat X}}}^{\text{T}}})} 。而在给定编码误差{\boldsymbol{W}} = \left[ {{{\boldsymbol{w}}_1},{{\boldsymbol{w}}_2},\cdots,{{\boldsymbol{w}}_m}} \right] \in {{\bf{R}}^{n \times m}} 服从高斯分布,即{{\boldsymbol{w}}_i}\mathop {{\text{~}}}\limits^{{\text{i}}{\text{.i}}{\text{.d}}} \mathcal{N}(0,{\varepsilon ^2}{\boldsymbol{I}}/n) ,且{{\boldsymbol{x}}_i} 与{{\boldsymbol{w}}_i} 相互独立的条件下,{\boldsymbol{\hat X}} 的协方差{\boldsymbol{\hat \varSigma }} \in {{\bf{R}}^{n \times n}} 表示为\begin{split} {\boldsymbol{\hat \varSigma }} = &\mathbb{E}\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{{{\boldsymbol{\hat x}}}_i}{\boldsymbol{\hat x}}_i^{\text{T}}} } \right] \\ =& \mathbb{E}\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {\left( {{{\boldsymbol{x}}_i} + {{\boldsymbol{w}}_i}} \right){{\left( {{{\boldsymbol{x}}_i} + {{\boldsymbol{w}}_i}} \right)}^{\text{T}}}} } \right] \\ =& \frac{{{\varepsilon ^2}}}{n}{\boldsymbol{I}} + \frac{1}{m}{\boldsymbol{X}}{{\boldsymbol{X}}^{\text{T}}} \end{split} (7) 同理一个编码单元
{{\boldsymbol{w}}_i} 的容量为{\text{vol}}\left( {\boldsymbol{w}} \right) = \sqrt {\det ({\varepsilon ^2}{\boldsymbol{I}}/n)} 。因此由{{\boldsymbol{w}}_i} 表征的X的编码量的二进制表示R\left( {\boldsymbol{X}} \right) = m{\log _2}\left( {{{{\text{vol}}\left( {{\boldsymbol{\hat X}}} \right)} \mathord{\left/ {\vphantom {{{\text{vol}}\left( {{\boldsymbol{\hat X}}} \right)} {{\text{vol}}\left( {\boldsymbol{w}} \right)}}} \right. } {{\text{vol}}\left( {\boldsymbol{w}} \right)}}} \right) (8) 式(8)反映了率失真函数的几何意义,即数据的奇异向量所张成空间的体积可以由多维高斯分布单元填充的数量表示,二维数据的率失真编码示意图如图2所示,其中高斯分布单元的半径应当小于数据的最短主轴,有
\varepsilon /\sqrt n \le {\sigma _{\min }}({\boldsymbol{\hat X}}) 。图2中,编码数据
{\boldsymbol{\hat X}} 的两个正交奇异向量{\hat \sigma _1}{{\boldsymbol{e}}_1} ,{\hat \sigma _2}{{\boldsymbol{e}}_2} 所张成空间由互不重叠且紧密相连的二维高斯单元填充,{{\boldsymbol{x}}_i} 指示了样本所属标签,虚线圆为高斯编码单元,实线椭圆则反映了数据分布的边界,由编码比特数确定。可以预见,在同一标度的编码单元下,数据的编码量越小,表明数据分布越紧密,反之则越分散。率失真函数的几何特性为量化目标识别数据整体的分布散度与类内的分布散度提供了思路。4. 基于率失真理论的数据可分性度量构建方法
4.1 单一维度的数据可分性分析过程
从数据特征的单个维度分析,率失真编码过程相当于对编码数据
{\boldsymbol{\hat X}} 的n个奇异向量{\hat \sigma _j}{{\boldsymbol{e}}_j} 所在维度以{{\boldsymbol{w}}_i}\mathop {\text{~}}\limits^{{\text{i}}{\text{.i}}{\text{.d}}} \mathcal{N}(0,{\varepsilon ^2}{\boldsymbol{I}}/n) 为拟合单元进行拟合,经拟合得到的特征分布仍为高斯分布,其方差为\hat \sigma _j^2 ,最终编码结果{\boldsymbol{\hat X}} 为n维零均值高斯分布p({\boldsymbol{\hat x}}) 为\left. \begin{aligned} &p({\boldsymbol{\hat x}}) = \frac{1}{{{{\left( {2{\pi}} \right)}^{\textstyle\frac{n}{2}}}\sqrt {\det {\boldsymbol{\hat \varSigma }}} }}\exp \left\{ { - \frac{1}{2}{{{\boldsymbol{\hat x}}}^{\text{T}}}{{{\boldsymbol{\hat \varSigma }}}^{ - 1}}{\boldsymbol{\hat x}}} \right\}{\text{ }}\\ &{{\boldsymbol{\hat \varSigma }}_{n \times n}} = \left[ {\begin{array}{*{20}{c}} {\hat \sigma _1^2}&0&0 \\ 0& \ddots &0 \\ 0&0&{\hat \sigma _n^2} \end{array}} \right] \end{aligned}\right\} (9) 因此本文考虑首先从编码数据的单一维度出发,分析高斯分布数据的可分性度量过程。当假设一个包含两类目标的数据集
{\boldsymbol{X}} = [{{\boldsymbol{X}}^1},{{\boldsymbol{X}}^2}] ({{\boldsymbol{X}}^1} \in {{\bf{R}}^{n \times {m^1}}},{{\boldsymbol{X}}^2} \in {{\bf{R}}^{n \times {m^2}}}) ,数据经零均值化由高斯分布单元编码后,在第j个特征维度上{\boldsymbol{\hat X}} ,{{\boldsymbol{\hat X}}^1} ,{{\boldsymbol{\hat X}}^2} 的奇异值分别为{\hat \sigma _j} ,\hat \sigma _j^1 ,\hat \sigma _j^2 ,此时数据在各奇异值变化下不同程度的可分性表现如图3所示。图3中,
{\hat \sigma _j} 表征了类间分散度,\hat \sigma _j^1 ,\hat \sigma _j^2 表征了类内紧密度,三者的大小关系表现为\hat \sigma _j^1 + \hat \sigma _j^2 \le 2{\hat \sigma _j} 。由图3(a)→图3(b)→图3(c)或由图3(d)→图3(e)→图3(f),横向对比过程反映了当两类目标数据的方差保持不变,而中心距逐渐减小时,数据可分性的变化规律。此时对应有\hat \sigma _j^1 ,\hat \sigma _j^2 不变,{\hat \sigma _j} 减小,{{(\hat \sigma _j^1 + \hat \sigma _j^2)} \mathord{\left/ {\vphantom {{(\hat \sigma _j^1 + \hat \sigma _j^2)} {2{{\hat \sigma }_j}}}} \right. } {2{{\hat \sigma }_j}}} 增大,即数据的类内紧密度保持恒定,而类间分散度减小,数据由较为可分向完全不可分过渡,这说明{\hat \sigma _j} 中包含有数据的中心距信息。而纵向对比过程反映了当两类目标数据的中心距保持不变,而方差增大时,数据可分性的变化规律。此时有{\hat \sigma _j} ,\hat \sigma _j^1 ,\hat \sigma _j^2 均增大,特别地,对于图3(c)→图3(f),由于{{(\hat \sigma _j^1 + \hat \sigma _j^2)} \mathord{\left/ {\vphantom {{(\hat \sigma _j^1 + \hat \sigma _j^2)} {2{{\hat \sigma }_j}}}} \right. } {2{{\hat \sigma }_j}}} = 1 ,对应数据处于完全不可分的状态;而对于图3(a)→图3(d)及图3(b)→图3(e),{{(\hat \sigma _j^1 + \hat \sigma _j^2)} \mathord{\left/ {\vphantom {{(\hat \sigma _j^1 + \hat \sigma _j^2)} {2{{\hat \sigma }_j}}}} \right. } {2{{\hat \sigma }_j}}} 减小,数据可分性变差,这说明\hat \sigma _j^1 + \hat \sigma _j^2 与2{\hat \sigma _j} 的相对大小关系影响了数据可分性的变化趋势。考虑到类别不平衡问题,对于包含k类目标的数据,本文以各类别样本数{m^c} \left( {c = 1,2,\cdots,k} \right) 作为上述奇异值的加权因子,有{\boldsymbol{\sigma }} = m\left[ {{{\hat \sigma }_1},{{\hat \sigma }_2},\cdots,{{\hat \sigma }_n}} \right] ,{{\boldsymbol{\sigma }}^c} = {m^c}\left[ {\hat \sigma _1^c,\hat \sigma _2^c,\cdots,\hat \sigma _n^c} \right] ,此时单一维度上数据可分程度{M_j} 的判别式如式(10)所示。{M_j} 越趋近于1,数据在该维度上越不可分。{M_j} = {{\sum\limits_{c = 1}^k {{m^c}\hat \sigma _j^c} } \Biggr/ {m{{\hat \sigma }_j}}},{\text{ }}0 < {M_j} \le 1 (10) 4.2 高维数据可分性度量构建方法
将单一维度的数据可分性分析判别式向原始多维数据扩展,一个简单的思路就是将各个维度的可分性分析过程级联,由于数据的奇异向量相互正交,因此各个维度的可分性信息互不串扰,多维正交基下的数据可分性度量构建流程如图4所示。
图4中,原始数据X首先经整体和按类别局部中心化后得到
{\boldsymbol{\bar X}} ,{{\boldsymbol{\bar X}}^c}\left( {c = 1,2,\cdots,k} \right) ,{\boldsymbol{\mu }},{{\boldsymbol{\mu }}^c} \in {{\bf{R}}^{n \times 1}} 分别是{\boldsymbol{\bar X}} ,{{\boldsymbol{\bar X}}^c} 的均值项;接着{\boldsymbol{\bar X}} ,{{\boldsymbol{\bar X}}^c} 经过率失真编码得到数据整体和局部的奇异值集合{\boldsymbol{\hat \sigma }}' ,{{\hat {\boldsymbol{\sigma}} }}^c{'} ,数值上等于编码后协方差阵的特征值的开方,其中{{\rm{eig}}} \left( \cdot \right) 为求特征值的运算符;之后将{\boldsymbol{\hat \sigma }}' ,{{\boldsymbol{\hat \sigma }}^c}{'} 经重排统一到各自正交的奇异向量维度上,由样本量m,{m^c} 作为加权因子得到{\boldsymbol{\hat \sigma }} ,{{\boldsymbol{\hat \sigma }}^c} ;最后级联单一维度的数据可分性分析过程即可得到构建的数据可分性度量M = \displaystyle\prod\nolimits_{j = 1}^n {{M_j}} 。其中{M_j} 具有明确的物理含义,它描述了标准正交投影后的数据在每个特征维度上的分类不确定性,因此所提度量M综合考虑了数据各个维度的可分性信息,能够从整体上把握数据的可分性情况。由上述分析,从数据编码量的角度,度量的二进制表示式为\begin{split} {M_{\log }} & = {\log _2}\frac{1}{M} \\ & = {\log _2}\frac{{\det \left( {m{\boldsymbol{I}} + \dfrac{n}{{{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{{\boldsymbol{\bar X}}}^{\text{T}}}} \right)}}{{\det \left( {\displaystyle\sum\limits_{c = 1}^k {{m^c}{\boldsymbol{I}} + \frac{n}{{{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} } \right)}} \end{split} (11) 由
\log \det \left( \cdot \right) 的凹函数特性,可以证明度量M的取值边界,其达到上界的充要条件为各类别的中心化数据\{ {{\boldsymbol{\bar X}}^c}\} _{c = 1}^k 具有完全相同的协方差阵,有定理1。定理1 对于任意
\{ {{\boldsymbol{\bar X}}^c} \in {{\bf{R}}^{n \times {m^c}}}\} _{c = 1}^k ,且\varepsilon > 0 ,令{\boldsymbol{\bar X}} = [{{\boldsymbol{\bar X}}^1},{{\boldsymbol{\bar X}}^2},\cdots,{{\boldsymbol{\bar X}}^k}] \in {{\bf{R}}^{n \times m}} ,m = \displaystyle\sum\nolimits_{c = 1}^k {{m^c}} ,有\begin{split} & {\log _2}\det \left( {m{\boldsymbol{I}} + \frac{n}{{{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{{\boldsymbol{\bar X}}}^{\text{T}}}} \right) \\ & \quad\ge {\log _2}\det \left( {\sum\limits_{c = 1}^k {{m^c}{\boldsymbol{I}} + \frac{n}{{{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} } \right) \end{split} (12) 等号成立当且仅当
{{{{{\boldsymbol{\bar X}}}^1}{{\left( {{{{\boldsymbol{\bar X}}}^1}} \right)}^{\text{T}}}} \Bigr/ {{m^1}}} = {{{{\boldsymbol{\bar X}}}^2}{{\left( {{{{\boldsymbol{\bar X}}}^2}} \right)}^{\text{T}}}} \Bigr/ {{m^2}} = \cdots = {{{{{\boldsymbol{\bar X}}}^k}{{\left( {{{{\boldsymbol{\bar X}}}^k}} \right)}^{\text{T}}}} \Bigr/ {{m^k}}} 。证明 由于
\log \det \left( \cdot \right) 是严格凹函数,因此对于任意的系数项\{ {\beta ^c} > 0\} _{c = 1}^k 且\displaystyle\sum\nolimits_{c = 1}^k {{\beta ^c} = 1} ,和n阶正定矩阵\{ {{\boldsymbol{S}}^c} \in {\boldsymbol{S}}_{ + + }^n\} _{c = 1}^k ,满足杰森不等式{\log _2}\det (\displaystyle\sum\nolimits_{c = 1}^k {{\beta ^c}{{\boldsymbol{S}}^c}} ) \ge \displaystyle\sum\nolimits_{c = 1}^k {{\beta ^c}{{\log }_2}\det ({{\boldsymbol{S}}^c})} ,杰森不等式等号成立当且仅当{{\boldsymbol{S}}^1} = {{\boldsymbol{S}}^2} = \cdots = {{\boldsymbol{S}}^k} 。对于式(12),有\begin{split} & {\log _2}\det \left( {m{\boldsymbol{I}} + \frac{n}{{{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{{\boldsymbol{\bar X}}}^{\text{T}}}} \right) \\ & ={\log _2}\det \left( {\sum\limits_{c = 1}^k {{m^c}} \left( {{\boldsymbol{I}} + \frac{n}{{m{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{{\boldsymbol{\bar X}}}^{\text{T}}}} \right)} \right) \\ & ={\log _2}\det \left( {\sum\limits_{c = 1}^k {{m^c}} \left( {\sum\limits_{c = 1}^k {\frac{{{m^c}}}{m}} {\boldsymbol{I}} + \frac{{{m^c}}}{m}\frac{n}{{{m^c}{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} \right)} \right) \\ \end{split} (13) 对式(13)运用杰森不等式,令
{\beta ^c} = {{{m^c}} \mathord{\left/ {\vphantom {{{m^c}} m}} \right. } m} ,{{\boldsymbol{S}}^c} = {\boldsymbol{I}} + {n \mathord{\left/ {\vphantom {n {{m^c}{\varepsilon ^2}}}} \right. } ({{m^c}{\varepsilon ^2}}}){{\boldsymbol{\bar X}}^c}{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)^{\text{T}}} ,有\begin{split} & {\log _2}\det \left( {\sum\limits_{c = 1}^k {{m^c}} \left( {\sum\limits_{c = 1}^k {\frac{{{m^c}}}{m}} {\boldsymbol{I}} + \frac{{{m^c}}}{m}\frac{n}{{{m^c}{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} \right)} \right) \\ & \ge \sum\limits_{c = 1}^k {\frac{{{m^c}}}{m}} {\log _2}\det \left( {\sum\limits_{c = 1}^k {{m^c}} \left( {{\boldsymbol{I}} + \frac{n}{{{m^c}{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} \right)} \right) \\ \end{split} (14) 又
\displaystyle\sum\nolimits_{c = 1}^k {{{{m^c}} \mathord{\left/ {\vphantom {{{m^c}} m}} \right. } m}} = 1 ,整理式(14)即有式(8)成立,等号取到当且仅当{{{{{\boldsymbol{\bar X}}}^1}{{\left( {{{{\boldsymbol{\bar X}}}^1}} \right)}^{\text{T}}}} \Bigr/ {{m^1}}} = {{{{\boldsymbol{\bar X}}}^2}{{\left( {{{{\boldsymbol{\bar X}}}^2}} \right)}^{\text{T}}}} \Bigr/ {{m^2}} = \cdots = {{{{{\boldsymbol{\bar X}}}^k}{{\left( {{{{\boldsymbol{\bar X}}}^k}} \right)}^{\text{T}}}} \Bigr/ {{m^k}}} ,定理1得证。由于
{\log _2}\left( \cdot \right) 为递增函数,由命题1得\det (m{\boldsymbol{I}} + {n \mathord{\left/ {\vphantom {n {{\varepsilon ^2}}}} \right. } {{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{\boldsymbol{\bar X}}^{\text{T}}}) \ge \det (\displaystyle\sum\nolimits_{c = 1}^k {{m^c}{\boldsymbol{I}} + {n \mathord{\left/ {\vphantom {n {{\varepsilon ^2}}}} \right. } {{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} ) ,所以可分性度量M = \frac{{\det \left( {\displaystyle\sum\limits_{c = 1}^k {{m^c}{\boldsymbol{I}} + \frac{n}{{{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} } \right)}}{{\det \left( {m{\boldsymbol{I}} + \dfrac{n}{{{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{{\boldsymbol{\bar X}}}^{\text{T}}}} \right)}} \le 1 对于零均值多维高斯分布数据,当且仅当各类别协方差阵相等时,此时各类别数据具有完全相同的分布,数据处于完全不可分的状态,度量M越趋近于1,数据越不可分。
4.3 非高斯分布数据可分性度量方法
由4.1节及4.2节,定义数据可分性度量的数学模型
\begin{split} M\left( {{\boldsymbol{\bar X}},{{{\boldsymbol{\bar X}}}^c}} \right) & = \frac{{{M_{{\text{num}}}}\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}}{{{M_{{\text{den}}}}\left( {{\boldsymbol{\bar X}}} \right)}} \\ & = \frac{{\det \left( {\displaystyle\sum\limits_{c = 1}^k {{m^c}{\boldsymbol{I}} + \frac{n}{{{\varepsilon ^2}}}{{{\boldsymbol{\bar X}}}^c}{{\left( {{{{\boldsymbol{\bar X}}}^c}} \right)}^{\text{T}}}} } \right)}}{{\det \left( {m{\boldsymbol{I}} + \dfrac{n}{{{\varepsilon ^2}}}{\boldsymbol{\bar X}}{{{\boldsymbol{\bar X}}}^{\text{T}}}} \right)}} \end{split} (15) 其中,度量M分子
{M_{{\text{num}}}} 表示类内分布散度,分母{M_{{\text{den}}}} 表示数据整体分布散度,{\boldsymbol{\bar X}} = \{ {{\boldsymbol{\bar X}}^c} \in {{\boldsymbol{R}}^{{m^c} \times n}}\} _{c = 1}^k 是原始数据{\boldsymbol{X}} \in {{\boldsymbol{R}}^{m \times n}} 经零均值化处理后的结果,{m^c} 为第c类目标{{\boldsymbol{\bar X}}^c} 的样本量,m为数据总的样本量,\varepsilon 为给定的编码误差量。度量模型M\left( {{\boldsymbol{\bar X}}} \right) 对数据X可分性的精确估计基于类内样本数据{{\boldsymbol{X}}^c} 服从多维高斯分布的假设,而对于实际的目标识别数据集,则可能由于观测角度或环境噪声的差异,使得属于同一个类别的样本在特征空间的分布不再聚集,无法表示成同属于1个高斯块的形式,此时数据实际分布与模型假设的差异将导致类内数据的编码量计算出现较大的偏差,因此本节针对非高斯分布数据设计度量方法。文献[30]在运用主动学习方法识别合成孔径雷达目标数据集时,首先给出了如图5原始数据X所示的样例。原始数据X中,目标
{{\boldsymbol{X}}^1} 与{{\boldsymbol{X}}^2} 在总的特征分布上具有较高的相似性,对于仅能产生线性超平面的分类器,该数据是完全不可分的数据集,运用上述度量也将相应得出M \approx 1 的结论。但数据X中,不同类样本间的特征互不交叠且具有清晰的分隔边界,这意味着数据是局部可分的,对于能产生非线性分隔平面的分类器,该数据是完全可分的数据集,因此数据的局部可分特性影响了非线性分类器的识别性能上限。本文提出非高斯分布数据可分性度量方法,考虑了数据局部可分特性,能够真实地反映数据特征的重叠度,图5为在仿真样例的可分性度量模型构建示意图。图5中,原始数据X包含两类目标
{{\boldsymbol{X}}^1} 与{{\boldsymbol{X}}^2} ,基于任意分布都可以由高阶混合高斯分布表征的理论依据,运用高斯混合模型(Gaussian Mixture Model, GMM)确定目标{{\boldsymbol{X}}^1} 及{{\boldsymbol{X}}^2} 高斯聚类形式,得到目标子类及其对应的聚类标签{{\boldsymbol{X}}^1} = \{ {{\boldsymbol{X}}^{1{c^1}}} \in {{\bf{R}}^{{m^{1{c^{{1}}}}} \times n}}\} _{{c^1} = 1}^{{k^1}} ,{{\boldsymbol{X}}^2} = \{ {{\boldsymbol{X}}^{2{c^2}}} \in {{\bf{R}}^{{m^{2{c^{{2}}}}} \times n}}\} _{{c^2} = 1}^{{k^2}} ,其中子类数{k^1} ,{k^2} 是可调整的参数,也可依据贝叶斯信息准则(Bayesian Information Criterion, BIC)确定。此时{{\boldsymbol{X}}^{1{c^1}}} 与{{\boldsymbol{X}}^{2{c^2}}} 的两两组合即可运用式(15)所示的度量模型,有{M_{{c^1}{c^2}}}({{\boldsymbol{X}}^{1{c^1}}},{{\boldsymbol{X}}^{2{c^2}}}) ,表示目标{{\boldsymbol{X}}^1} 中的第{c^1} 个高斯族与目标{{\boldsymbol{X}}^2} 中的第{c^2} 个高斯族的可分性度量值。最终从平均的意义上,数据X的可分性数值\bar M\left( {\boldsymbol{X}} \right) 为各可分性度量分量{M_{{c^1}{c^2}}}({{\boldsymbol{X}}^{1{c^1}}},{{\boldsymbol{X}}^{2{c^2}}}) 依其样本量{N_{{c^1}{c^2}}} = {m^{1{c^1}}} + {m^{2{c^2}}} 占总样本量比例的加权求和,如式(16)。\bar M\left( {\boldsymbol{X}} \right) = \frac{{\displaystyle\sum\limits_{{c^1} = 1}^{{k^1}} {\displaystyle\sum\limits_{{c^2} = 1}^{{k^2}} {{N_{{c^1}{c^2}}}{M_{{c^1}{c^2}}}} } }}{{\displaystyle\sum\limits_{{c^1} = 1}^{{k^1}} {\displaystyle\sum\limits_{{c^2} = 1}^{{k^2}} {{N_{{c^1}{c^2}}}} } }} (16) 对于具有任意类别数的数据集可分性度量过程总结如算法1所示。特别地,当高斯聚类数
{{k}} = {{1}} 时,算法的子过程退化为典型二分类高斯分布数据的可分性分析情形,此时多分类数据的可分性度量值为各二分类度量模型的加权求和,类似于机器学习分类器的一对一(One vs One, OvO)模型,本节所提度量更关注数据中属于不同类别的样本间的局部可分特性。1 平均意义下的数据可分性度量计算过程1. Average data separability measure computing1. 输入: 数据{\boldsymbol{X}} = \left\{ {{{\boldsymbol{X}}^c}} \right\}_{c = 1}^k,聚类数{\boldsymbol{k}} = \left\{ {{k^c}} \right\}_{c = 1}^k 2. for c = 1:k执行 3. {\text{GMM}}\left( {{{\boldsymbol{X}}^c},{k^c}} \right)得到高斯子类,
\left\{ {{{\boldsymbol{X}}^{1{c^1}}}} \right\}_{{c^1} = 1}^{{k^1}},\left\{ {{{\boldsymbol{X}}^{2{c^2}}}} \right\}_{{c^2} = 1}^{{k^2}},···,\left\{ {{{\boldsymbol{X}}^{k{c^k}}}} \right\}_{{c^k} = 1}^{{k^k}};4. end for 5. for c = 1:k - 1执行 6. for t = c + 1:k执行 7. for i = 1:{k^c}执行 8. for j = 1:{k^t}执行 9. 计算{M_{{\rm{citj}}} } = M\left( { { {\boldsymbol{X} }^{ci} },{ {\boldsymbol{X} }^{tj} } } \right) (根据式(15)); 10. 计算{N_{{\rm{citj}}} } = \left| { { {\boldsymbol{X} }^{ci} } } \right| + \left| { { {\boldsymbol{X} }^{tj} } } \right| (\left| {\boldsymbol{X}} \right|表示集合X的样本量); 11. end for 12. end for 13. end for 14. end for 15. 计算\bar M = { { {\text{sum} }\left( { {M_{{\rm{citj}}} }{N_{{\rm{citj}}} } } \right)} \mathord{\left/ {\vphantom { { {\text{sum} }\left( { {M_{citj} }{N_{citj} } } \right)} { {\text{sum} }\left( { {N_{citj} } } \right)} } } \right. } { {\text{sum} }\left( { {N_{{\rm{citj}}} } } \right)} } (根据式(16)); 16. 输出: \bar M 5. 实验验证
为验证所提度量的有效性,本文首先在二维仿真数据集上开展实验,二维数据可分性的特点在于其能够通过绘制特征散点图的方式直观地判定,因此当可分性度量值与直观判定的可分性优劣相当时,认为度量有效衡量了数据可分性;此外,加噪数据可分性可以由仿真设置的信噪比预先判定,因此当可分性度量值的变化趋势随信噪比增大逐渐减小时,认为度量有效衡量了加噪数据可分性。接着在实测高维数据上开展实验,由于高维数据可分性是非直观的,因此通过分析度量与不同模型统计得到的平均识别率之间的相关性来验证度量有效性,该实验的目的在于运用可分性度量量化数据识别难度,为评估识别模型在批量数据集上的识别能力提供评判基准。最后运用可分性度量量化分析了卷积神经网络各模块提取特征可分性变化趋势,进一步将所提度量作为特征可分性损失参与网络训练过程,达到优化特征质量的目的。上述实验中,现有可分性度量DSI, N2, LSC和Density方法作为对比方法体现所提度量的优势。
5.1 可分性度量有效性验证实验
由可分性度量方法评定的数据可分性优劣首先应当与现实可观察的数据可分程度吻合,因此该节实验主要验证可分性度量在已知可分性优劣的二维仿真数据与加噪数据上的有效性。二维数据可分性可以通过可视化其特征散点图的方式直观地判定,因此本文构造了不同可分性优劣的数据集,其特征散点图如图6、图7、图8所示。图6所示数据理想的决策边界复杂度由图6(a)—图6(f)依次递增,对应可分性依次递减;图7、图8所示数据的类间重叠度由图7(a)—图7(d)、图7(e)—图7(h)、图8(a)—图8(d)依次递增,对应可分性依次递减。图7与图8的区别在于类内样本是否能够用同一个高斯分布表示,以检验度量方法对非高斯分布数据的适用性。加噪数据可分性可以由仿真设置的信噪比预先判定,设置信噪比范围为
- 5\;{\text{dB}} 到15\;{\text{dB}} 。5.1.1 决策边界复杂性度量验证实验
具体地,依据图6所示特征散点图,可以观察到数据图6(a)可以由一个简单的线性超平面正确划分开,数据图6(b)—图6(f)的理想划分面则需要更多线性超平面拟合得到,其不规则程度相对线性超平面而言依次递增,因此各数据集的识别复杂度是由图6(a)—图6(f)依次递增的。当可分性度量值由数据图6(a)—图6(f)顺序递增时,认为度量能够有效衡量各数据集的可分性优劣。依次设置高斯聚类数
{k^1} = {k^2} = [1,3,5,8] ,则所提度量\bar M 及对比方法在图6所示数据的度量值总结如表1所示。表 1 典型特征图可分性度量结果Table 1. Separability measure results of typical feature度量方法 双簇形 双月形 环形 异或形 螺旋形 混合形 DSI 0.0008 0.6459 0.5532 0.7775 0.9420 0.9941 N2 0.0110 0.0246 0.0461 0.0598 0.0569 0.4928 Density 0.5379 0.8322 0.8661 0.8857 0.8703 0.9282 LSC 0.5012 0.8362 0.9134 0.9148 0.9727 0.9994 \bar M({k^1} = {k^2} = 1) 0.0371 0.3305 0.9999 0.9995 0.9669 0.9990 \bar M({k^1} = {k^2} = 3) 0.0175 0.0592 0.1748 0.2216 0.5601 0.4823 \bar M({k^1} = {k^2} = 5) 0.0114 0.0262 0.0633 0.1449 0.3388 0.3461 \bar M({k^1} = {k^2} = 8) 0.0087 0.0164 0.0334 0.0911 0.2044 0.2482 表1中,标灰的度量值表示对应行的度量方法无法有效衡量对应列数据的可分性。具体地,对于图6所示的数据集,度量DSI无法区分数据图6(b)与图6(c),这是由于其对决策边界复杂度不敏感[12];度量N2及Density则无法区分数据图6(d)与图6(e),这是由于从样本局部可分性的角度,度量N2认为图6(d)中包含有更多与异类样本更接近的样本,度量Density则认为图6(e)中同类样本分布更加紧密,从而得出了与判定决策边界复杂度相反的结论;所提度量
\bar M 在k = 1 时主要衡量数据线性可分度,表明图6(c)—图6(f)均为线性不可分数据,在k = 3 时利用数据局部线性可分度信息还不够充分,因此仍无法区分螺旋形与混合形数据,上述表明仅利用样本局部可分性的度量方法对数据整体可分结构的描述还不准确。实验表明仅度量LSC与\bar M (k > 3 )能够有效对比图6数据集的可分性优劣,这是由于度量LSC更关注决策边界附近的样本,而随着聚类数k的增加,所提度量\bar M 对各数据集可分性优劣对比结果趋于稳定,其通过数据高斯分块的方式,结合基于率失真理论构造的可分性度量M,统计局部线性可分度,实现对数据全局非线性可分度的评估。需要说明的是在相同的实验设置条件下,所提度量
\bar M 衡量各数据可分性相对优劣。随着k的增加,对于同一数据\bar M 值虽有不同程度的下降,但不同数据之间非线性可分性差异逐渐被区分开,可分性对比结果趋于稳定,稳定结果对应的k值即为能够比较各数据决策边界复杂度的有效聚类个数。以{k^1} = {k^2} = 8 为例,虽然此时数据图6(f)度量值较低为0.2482,但其数值是完全可分的数据图6(a)度量值0.0087的28倍左右。如果将图6(a)作为可分数据的基准,则图6(f)相对图6(a)有明显的可分性下降趋势。如果将图6(a)中k = 8 时度量值0.0087与k = 1 度量值0.0371的比值作为k = 8 时图6(f)度量值的校正因子,则校正后的图6(f)度量为0.2483 \times (0.0371/ 0.0087) = 1.0588 ,数值接近1,即可判定为不可分的数据集。反观LSC方法,图6(a)度量值为0.5012,图6(f)为0.9994,仅为图6(a)数据的2倍左右,对可分性优劣的区分效果不够明显。5.1.2 类间重叠度度量验证实验
制约分类器识别性能的因素之一是数据类间重叠度。图7、图8展示了不同类间重叠度的二分类数据集,每个数据由几族高斯分布采样2000个样本得到,类间重叠度则通过设置标准差
\sigma 或类中心距离\mu 调节,共同构成待评估数据集合。图7的数据集类内样本服从典型高斯分布,图8数据集的类内样本则呈现混合高斯分布的形式。对高斯分布数据设置两组实验,分别设置标准差\sigma \in \left[ {1:1:9} \right] 与类中心距\mu \in \left[ {0:0.5:4} \right] ;对非高斯分布数据,设置\sigma \in \left[ {0.1:0.1:0.9} \right] 。运用度量M,\bar M({k^1} = {k^2} = 4) 及现有对比方法,度量结果如图9(a)、图9(b)、图9(c)所示。图9(a)中,各可分性度量值均随着类间距的增加逐渐下降,变化趋势均符合观察到的事实:类中心距越远(
\mu 越大),类间重叠度越小,数据越可分。但各方法在该测试样例上的动态变化范围各不相同,可以看到当两类目标完全重叠(\mu = 0 )时,度量M, DSI, N2, LSC均等于1,达到其上界,代表数据最不可分的情况,而Density等于0.765,取值无法反映最不可分数据集的可分性。当\mu 由0增加到1.5时,类间重叠度显然减小,对应到LSC上却没有明显的变化趋势,而N2在\mu 由0增加到0.5时出现了陡然的下降趋势,但此时类间重叠度变化是微小的。图9(b)中,LSC在\sigma = 6 时取值为1达到其上界,但由图7(g)数据此时还不是完全不可分的;其余可分性度量值均随着类内分散度的增加而逐渐上升,变化趋势均符合图7观察到的事实:同类样本越分散(\sigma 越大),类间重叠度越大,数据越不可分。在图9(a)、图9(b)实验中,仅M与DSI在两类目标由完全重叠到完全分离过程中,表现出最大动态变化范围,且变化趋势更加平滑。图9(c)中,仅M, DSI, N2随\sigma 增加而逐渐增大,但DSI将未交叠非高斯数据(图8(a))判定为可分性很差的数据集,度量值为0.75,但事实上对于K近邻等能产生非线性决策边界的识别器而言,该数据集是完全可分的。在上述3个实验中,LSC无法区分类间重叠度已经达到一定量级的数据可分性;Density更多衡量同类样本紧密度,因此在图9(c)中由于同类样本随
\sigma 增加逐渐靠近,从而在数值上表现出可分性渐好的趋势;仅M, DSI, N2随着不同类样本交叠量的增加均表现出正确的变化趋势;但DSI无法衡量具有非线性划分结构数据的可分性;所提度量M具有更大的动态变化范围,且相对N2更加平滑(图9(a)),能够有效衡量高斯或非高斯数据的类间重叠度。为进一步解释所提度量M的工作机理,图10给出图7实验场景中作为M分子的类内分布散度
{M_{{\text{num}}}} 和作为分母的整体分布散度{M_{{\text{den}}}} 的变化趋势。图10(a)表明当\mu 变化时,{M_{{\text{num}}}} 保持恒定,{M_{{\text{den}}}} 起到主要的可分性度量作用,说明整体分布散度中包含数据的均值差异信息;图10(b)中随着\sigma 的增加,{M_{{\text{num}}}} 与{M_{{\text{den}}}} 同时上升,{M_{{\text{den}}}} 逐渐逼近{M_{{\text{num}}}} ,对应类间重叠度增加,表明{M_{{\text{num}}}} 与{M_{{\text{den}}}} 的相对数值能够有效衡量数据类间重叠度。5.1.3 加噪数据可分性度量验证实验
本节实验模拟真实目标识别噪声环境,通过将模型训练在原始数据测试在批量加噪数据上以评估其性能,同时验证度量在加噪数据上的有效性。理想的识别模型是其在所有加噪数据上的识别率都一致高于其他模型,但在实际性能比对实验中,更一般的现象是模型在不同加噪数据上的识别率各有高低,这导致性能评估模糊问题。以表2中数据WDBC为例,构造信噪比
- 5\;{\text{dB}} 到15\;{\text{dB}} 的加噪数据,SVM(RBF), KNN, LSVM, LR的识别率结果反映了上述问题,如图11。表 2 识别模型识别率结果Table 2. Recognition accuracy results of recognition models数据集 样本数(正例/负例) 特征数 SVM(RBF) KNN LSVM LR 平均识别率(\overline {{\text{Acc}}} ) Banknote 1372(762/610) 5 1.0000 1.0000 0.9879× 0.9879× 0.9939 Wisconsin 683(444/239) 9 0.9512× 0.9561 0.9561 0.9854√ 0.9622 WDBC 569(357/212) 30 0.9356 0.9591√ 0.9591√ 0.9181× 0.9430 Fire 244(138/106) 10 0.9189× 0.9190 0.9730√ 0.9190 0.9324 Ionosphere 351(225/126) 33 0.9623√ 0.8585× 0.8773 0.8773 0.8939 Spambase 4601(2788/1813) 57 0.6799 0.7820 0.8639√ 0.6618× 0.7469 Sonar 208(111/97) 60 0.8254 0.8413√ 0.8095 0.6984× 0.7936 Risk 776(486/290) 17 0.7425 0.8412 0.9184√ 0.6867× 0.7972 Mammographic 830(427/403) 5 0.7590 0.8032√ 0.7349× 0.7389 0.7590 Magic 19020(12332/6688) 10 0.8274√ 0.8098 0.6972 0.6008× 0.7338 Hill valley 606(305/301) 100 0.4780× 0.5385 0.9670√ 0.4780× 0.6154 Blood 748(570/178) 4 0.7378√ 0.7022 0.7333 0.6000× 0.6933 ILPD 583(416/167) 10 0.7314 0.6971 0.7428√ 0.6343× 0.7014 Haberman 306(225/81) 6 0.7174 0.7826√ 0.7065× 0.7391 0.7364 注:“√”表示其在对应行数据上识别率最高;“×”表示最低 图11中KNN在各信噪比数据上的识别率一致地高于LR,而LR又一致地高于LSVM,可以得出三者抗噪性能的对比结论:
{\text{KNN > LR > LSVM}} 。但由该图无法得出SVM(RBF)的性能评估结论,SVM(RBF)在信噪比高于3 dB时一致地优于其他模型,信噪比低于- 2\;{\text{dB}} 时性能最差。虽然可以通过对比各信噪比数据上的平均识别率来判定模型性能优劣,但平均识别率忽略了各数据集的识别难度差异,直观上更难识别的任务应当被赋予更大的权重,因此通过可分性度量量化识别难度,为识别率赋权提供依据,加噪数据可分性度量结果如图12。图12中仅Density数值随信噪比上升存在微弱的起伏,说明其度量精度较差。DSI虽具有最大动态变化范围,但图11中大部分模型的识别率变化趋势缓慢,说明各任务间识别难度差异并不十分显著,且当信噪比为
15\;{\text{dB}} 时模型识别率与表2中在原始数据的测试结果还存在一定差距,说明此时可分性数值也仍存在一定差距,但DSI数值已经接近对原始数据可分性度量结果0.5833。所提度量M具有合适的动态变化范围,且信噪比为15\;{\text{dB}} 时值为0.4352,与原始数据度量值0.2497还存在一定差距,综合表3的实验结果所提度量M更能真实地反映数据可分性。表 3 实测数据集可分性度量结果Table 3. Separability measure results of real data数据集 样本数(正例/负例) N2 LSC Density DSI M 平均错误率(1 - \overline {{\text{Acc}}} ) Banknote 1372(762/610) 0.0883 0.9022 0.8027 0.7649 0.1355 0.0061 Wisconsin 683(444/239) 0.2491 0.6636 0.6203 0.3157 0.1567 0.0378 WDBC 569(357/212) 0.1380 0.9140 0.5630 0.5833 0.2497 0.0570 Fire 244(138/106) 0.2766 0.9103 0.7150 0.7058 0.2887 0.0676 Ionosphere 351(225/126) 0.3884 0.9118 0.8553 0.7177 0.3807 0.1061 Spambase 4601(2788/1813) 0.2553 0.9967 0.4780 0.8296 0.4402 0.2531 Sonar 208(111/97) 0.4079 0.9754 0.9333 0.9457 0.4497 0.2064 Risk 776(486/290) 0.2082 0.9471 0.7140 0.7894 0.5023 0.2028 Mammographic 830(427/403) 0.2681 0.9947 0.8045 0.8807 0.5813 0.2410 Magic 19020(12332/6688) – – – – 0.6742 0.2662 Hill valley 606(305/301) 0.4857 0.9981 0.6260 0.9727 0.7408 0.3846 Blood 748(570/178) 0.4379 0.9945 0.6235 0.9286 0.8678 0.3067 ILPD 583(416/167) 0.2988 0.9910 0.6732 0.8016 0.8800 0.2986 Haberman 306(225/81) 0.4428 0.9886 0.8279 0.9482 0.9102 0.2636 5.2 基于可分性度量的数据识别难度评估实验
在数据集发布与构建相关的文献[31,32]中,通常运用公开通用的识别模型如支持向量机、经典深度神经网络架构等检验构建数据集的适用性,用识别结果分析数据可分性。然而使用的识别模型不同,识别结果存在明显差异,无法描述数据固有可分特性,因此本节基于可分性度量评估数据识别难度。此外数据识别难度评估的需求还源于目标识别评估中的具体问题:如何从在各个识别任务上识别率各有高低的众多识别器中选出识别性能最优的模型。为直观展现上述问题,本节选择4种识别器:运用径向基核函数(Radial Basis Function, RBF)的支持向量机(Support Vector Machine, SVM)、K近邻(K-Nearest Neighbors, KNN)、线性SVM和逻辑回归方法(Logistic Regression, LR),在表2所示的14个二分类实测数据集上[25]测试模型,测试过程中训练集与测试集按照7/3的比例划分。表2给出数据集样本总数、相应的正负例数及特征数,各模型在各数据上的识别率,“√”表示其在对应行数据上识别率最高,“×”表示最低,平均识别率为4种识别器在同一数据上识别率的平均值,文献[6]表明其可以作为侧面反映识别难度的参考值。
表2首先可以直观地反映以下问题:(1)同一种模型在不同数据上的识别率各不相同,变化的识别率无法作为衡量模型识别能力的固有属性。(2)不同模型在同一数据上的识别率各不相同,且有时会出现较大差距,如 LSVM在Hill valley上的识别率为0.9670,而SVM(RBF)为0.4780,变化的识别率无法作为衡量数据识别难度的固有属性。(3)平均识别率在一定程度上可以反映数据识别难度,但其有效性基于运用大量识别器开展统计实验,并且无法客观描述样本数分布不均的数据集如Blood, ILPD, Haberman的识别难度。(4)在不同数据上模型识别率高低对比结果各不相同,如SVM(RBF)在Banknote, Ionosphere, Magic, Blood上识别率最高,而在Wisconsin, Fire, Hill valley上识别率最低,导致无法得出统一的性能优劣评估结论。
为解决依赖识别率评估产生的性能比对模糊问题,考虑到数据固有可分特性对识别性能的影响,本节利用可分性度量方法评估数据识别难度,由量化的识别难度为识别任务标定基准,进一步可以考虑构建以识别难度为参数的识别率到模型识别能力的函数映射模型,得到表示模型固有识别性能的固定表征量。本文工作重点在于验证所提度量方法的有效性,14个数据集可分性度量结果如表3所示,其中平均错误率作为参照指标之一,各指标值越大表示数据越不可分。在排除样本数分布不均的数据集Blood, ILPD, Haberman后,平均错误率作为不同模型对同一数据识别结果的统计量对可分性的衡量具有一定的参照意义,因此通过分析各度量值与平均错误率之间的相关性验证度量有效性,绘制各度量值与平均错误率之间的皮尔逊相关系数如图13,同时绘制度量与平均错误率曲线图如图14。
相关系数的取值在–1到1之间,取值为正表示变量之间是正相关,为负表示负相关,其绝对值越大表示变量之间的线性相关性越强。图13中,所提度量M与平均错误率的相关系数为
0.96 ,具有最大的线性正相关性,表明随着M逐渐增大,数据变得越来越不可分,对大多数识别器而言识别性能下降,错误率随之提升。表现最差的度量为Density,其与错误率的相关系数为- 0.12 ,说明同类样本紧密度并不足以衡量可分性。LSC, N2, DSI与平均错误率仍具有一定的正相关性,相关系数值分别为0.66, 0.67, 0.73 ,说明其也具备一定衡量可分性的效能,因此对于样本数分布不均的数据,则可以通过比对M与N2, DSI的判定结果来分析M是否有效。例如表3中样本分布不均的Haberman数据,平均错误率已不能客观反映其与Mammographic的可分性差异,但通过与LSC, N2, DSI对照,表明M仍能够正确地判定Haberman为可分性较差的数据集。图14中,所提度量M数值与平均错误率基本对应,越小的M代表识别难度越小,对应低平均错误率;对比方法均存在较大的振荡幅度,而M仅在数据Spambase和Sonar之间出现微小的振荡,说明二者的识别难度相当,而平均识别率的统计误差导致了这一现象。相较于依赖大量模型统计识别结果的错误率指标,所提度量M独立于模型识别过程,对数据固有可分特性描述更加本原,度量值更加客观。此外在计算量上M相较对比方法也具备突出的优势,对于具有m个样本的n维数据,M的计算量在于两次协方差阵行列式的计算,协方差阵的规模为
n \times n ,当m > > n 时如表3数据Magic,对比方法则需要建立19020 \times 19020 的距离矩阵而带来巨大的存储负担,且导致运算效率低下,M则只需要计算两次10 \times 10 规模矩阵的行列式,在存储空间和运行时间上都大大优于对比方法。5.3 基于可分性度量的识别网络特征质量评估实验
深度学习识别模型具有提取数据高维可分特征的能力,本节实验首先探究深层卷积神经网络中,随着网络层次的加深及训练轮次的迭代,各卷积层所提取特征可分性与模型识别率相对应的变化趋势特点,从特征可分性角度定量化解释神经网络有效工作的原因。进一步地,本节将所提可分性度量作为网络损失函数的一部分,优化网络学习到的特征质量,探究特征可分性对提升网络识别性能的实质性作用。
本节采用合成孔径雷达(Synthetic Aperture Radar, SAR)图像数据集,包含标准工作条件下的MSTAR数据集[33]和复旦大学发布的FUSAR数据集[32]。其中本文构造的三分类FUSAR数据集包含样本量较多的货船、渔船和其余船只目标,3类船只包含相同的训练集样本量,以保证训练过程的类平衡性。表4总结了SAR数据集相关参数。
表 4 SAR图像数据集Table 4. SAR image datasets数据集 类别 训练集 测试集 数据集 类别 训练集 测试集 MSTAR BMP2 233 195 FUSAR 其余类别 200 275 BTR70 233 196 T72 232 196 BTR60 256 195 2S1 299 274 渔船 200 119 BRDM2 298 274 D7 299 274 T62 299 273 货船 200 156 ZIL131 299 274 ZSU234 299 274 本节首先在MSTAR数据集上评估文献[34]提出的卷积神经网络模型,网络结构及可分性分析模块如图15所示。其中原始SAR图像经过4个卷积模块映射到可分的特征空间,为了减小可分性分析的计算量,在张量展开步骤之前对映射特征统一采用了
2 \times 2 的自适应平均池化操作,最终各层得到的特征维度分别是64, 128, 256及512维 。网络在MSTAR测试数据集上的识别率acc如图16所示,经卷积模块所提取特征的可分性度量结果分别如图17所示,图17由左至右分别是模块1至模块4提取特征可分性分析结果和各层可分性对比结果,由上至下分别对应Density, DSI, LSC, N2, M度量方法。由图16仅能得出网络在MSTAR测试数据上以较少的训练轮次就达到了较高的识别率,但无法从中解释神经网络有效工作的具体原因,因此将各模块提取特征可分性评估引入识别评估过程。图17可以得出模型之所以在输出端表现出优异的识别性能是由于组成神经网络的各个模块都提取到了逐渐可分的目标潜在特征,在实验现象上表现为随着网络深度的增加,所提取特征均呈现越来越可分的趋势,数值上有
{M_{{\text{L1}}}} > {M_{{\text{L2}}}} > {M_{{\text{L3}}}} > {M_{{\text{L4}}}} ,并且随着迭代轮次的增加,特征可分性渐高,预示着识别率的提升;特征可分性收敛,预示着识别率的饱和。图17同时比对了本文所提方法与对比方法对特征可分性的度量结果。Density的度量性能最差,随着训练轮次的增加,各层度量值呈现发散的趋势,且无法区分第2~4层特征可分性优劣;其余方法均能够区分各层特征可分性的优劣,数值上表现为{\text{DS}}{{\text{I}}_{{\text{L1}}}} > {\text{DS}}{{\text{I}}_{{\text{L2}}}} > {\text{DS}}{{\text{I}}_{{\text{L3}}}} > {\text{DS}}{{\text{I}}_{{\text{L4}}}} ,{\text{LS}}{{\text{C}}_{{\text{L1}}}} > {\text{LS}}{{\text{C}}_{{\text{L2}}}}> {\text{LS}}{{\text{C}}_{{\text{L3}}}} > {\text{LS}}{{\text{C}}_{{\text{L4}}}} ,{\text{N}}{{\text{2}}_{{\text{L1}}}} > {\text{N}}{{\text{2}}_{{\text{L2}}}} > {\text{N}}{{\text{2}}_{{\text{L3}}}} > {\text{N}}{{\text{2}}_{{\text{L4}}}} ,可以体现越深层网络提取的特征越可分,但所提度量M相比对比方法具有更加平滑的收敛趋势,且各层可分性度量值的数量级差距更大,说明M对特征可分性的变化更为敏感。从模型性能优化的角度,将M作为损失函数的一部分,迭代过程中同时优化特征可分性,能够快速引导模型学习到更加可分的特征,从而提高模型识别性能。进一步地,本节在文献[35]提出的骨干网络中加入特征可分性度量损失,在FUSAR数据集上探究所提可分性度量对网络识别性能提升的实质性作用。带有特征可分性度量约束的卷积神经网络组成如图18,其中包含用于特征提取的卷积模块、卷积注意力模块(Convolutional Block Attention Module, CBAM)、全连接模块,用于特征融合的平均特征融合模块,以及用于评估特征质量的特征可分性评估模块。网络损失函数由评估预测标签与真实标签差距的交叉熵损失和评估特征质量的可分性损失构成。考虑到识别性能与网络各层特征及融合层特征都密切相关,故损失函数L有式(17)与式(18)两种方案。
\qquad\quad L = {L_{{\text{Label}}}} - \frac{\alpha }{5}\sum\limits_{i = 1}^5 {{M_{{f_i}}}} (17) \qquad\quad L = {L_{{\rm{Label}}}} - \beta {M_{{f_{{\text{avg}}}}}} (18) 其中,
{L_{{\text{Label}}}} 表示交叉熵损失,{M_{{f_i}}} ,{M_{{f_{{\text{avg}}}}}} 的形式如式(11),分别表示第i个特征提取模块的特征{f_i} 与平均特征{f_{{\text{avg}}}} 的可分性度量,{f_{{\text{avg}}}} 为{f_i}(i = 1,2,\cdots,5) 的平均值,\alpha ,\beta 为可调比例系数。式(17)与式(18)两种训练方案在训练集上交叉熵损失表现如图19,在测试集上的识别率表现如图20。图19中,
\alpha = \beta = 0 表示训练时不加特征可分性约束的基准网络在训练集上的损失函数表现,可以看到随着可分性比例系数\alpha 或\beta 逐渐增加,训练集上的交叉熵损失以更快的速度收敛到了更低的值,增强了对训练数据预测标签与真实标签之间的拟合效果。此外对比方案1与方案2的性能,当\alpha 或\beta 均较小时,二者性能相当,交叉熵损失曲线基本重合;随着\alpha 与\beta 逐渐增加,相同比例系数的方案2相较方案1对训练集具有更好的拟合效果。图20展现了两种方案在测试集上的识别率表现,可以看到当\alpha 或\beta 取0.01, 0.10或0.25时,识别率曲线在训练初期(10~30轮次)能够相较基准网络达到更高的识别率,且\alpha 或\beta 越大,提升效果越明显。当\alpha 或\beta 取0.50时,识别率曲线出现了明显的振荡,但在整个训练过程中最高识别率相对基准网络仍有明显的提升。此外对比两种方案的性能,方案1在\alpha = 0.50 时,第37轮达到了82.36%的识别率,方案2在\alpha = 0.25 及\alpha = 0.50 时分别在第37轮及第98轮达到了80%的识别率。而在训练的收敛阶段(60~100轮次),方案1相较方案2在\alpha = \beta = 0.50 时能够相较基准网络有明显的识别率提升。上述表明方案1在测试集上的泛化性能优于方案2,将网络各层特征可分性度量作为损失函数的一部分对特征可分性加以约束,能够优化网络训练过程,并且改善网络在测试集上最终的识别率表现。表5给出不同\alpha 与\beta 数值下的两种方案在测试集上最优识别率表现,对应给出训练集上的识别率。其中随着\alpha 或\beta 的增加,训练集识别率均有不同程度的提升,方案1在训练集上拟合性能虽稍劣于方案2,但其在测试集上泛化性能明显优于方案2,具体表现在方案2\beta = 0.50 的测试识别率相对基准网络约有0.91%的提升,方案1\alpha = 0.50 时则有3.27%的提升。表 5 不同可分性系数下最优识别率表现(%)Table 5. Optimal accuracy performance with different separability factors (%)系数 训练集识别率 测试集识别率 \alpha = \beta = 0(基准网络) 94.00 79.09 \beta = 0.01 94.00 78.90 \beta = 0.10 98.67 79.64 \beta = 0.25 99.67 80.00 \beta = 0.50 100.00 80.00 \alpha = 0.01 93.83 79.45 \alpha = 0.10 91.50 79.63 \alpha = 0.25 98.17 82.18 \alpha = 0.50 99.83 82.36 此外可分性度量对网络识别性能的提升不仅体现在识别率上,还体现在其能够引导网络提取到更可分的特征。从可视化的角度分析特征可分性,本节采用样本间余弦相似度矩阵及t分布随机近邻嵌入(t-distributed Stochastic Neighbor Embedding, t-SNE),其中余弦相似度矩阵图的行列表示样本索引,已按照样本所属类别排序,两个样本余弦相似度越大表示二者越相似。图21与图22分别给出表5中基准网络与
\alpha = 0.50 的可分性约束网络最终层提取特征的样本间余弦相似度矩阵及t-SNE图。可以看到相对基准网络,\alpha = 0.50 时训练集和测试集上类内样本余弦相似度都有显著的提升,而类间样本余弦相似度虽然在第37轮迭代中没有理想的下降趋势,但在图21(b)的训练集中其数值显著小于类内相似度,相较图21(a),类间与类内相似度比值存在下降趋势,从而提升了特征可分性。而图21(d)测试集上的可分性改善还在一定程度上受其与训练集模板相似度的影响,因此对特征可分性优化效果不如图21(b)显著。由于t-SNE降维方法倾向于聚合相似度较高的样本,图21也表明加入可分性损失后,类内样本相似度普遍高于类间样本,因此在图22(b)与图22(d)中更为相似的类内样本优先被聚合,从而表现出更高的类内聚集形式以及更加清晰的理想决策边界。通过本实验表明所提度量能够有效地衡量网络提取特征变化趋势,将特征可分性度量作为网络损失函数的一部分进行优化,能够快速引导网络学习到更可分的特征,从而提升识别性能。6. 结论与展望
数据可分性度量为分析和评估识别模型性能提供了一种基准,在赋予了数据可分性的条件下,更能客观地评价识别模型性能。本文基于率失真理论构建可分性度量模型,其描述了数据整体分布散度与类内分布散度的相对关系,综合了样本分布在各个正交特征维度的可分性信息。实验表明,设计的度量方法通过结合高斯混合模型能够衡量非高斯数据可分度;所提度量可以比较具备不同维度的数据集可分性优劣,其数值与经不同模型统计得到的平均识别率有强相关性,能够作为数据识别难度的量化值,为识别结果预先提供评判基准;并且能够评估神经网络各卷积模块提取可分特征的贡献度,在测试阶段作为网络提取可分特征的评估指标,在训练阶段作为网络提取可分特征的优化指标。
本文是对数据可分性研究的初步探索,仍有许多值得进一步深入开展的研究工作,包括针对具体识别任务特性与考虑数据更多分布特性的可分性度量设计,探究可分性度量与识别性能上限的对应关系,解释识别网络各层特征可分性之间的关联等。总的来说,数据可分性度量作为直接面向数据的评估指标,与面向模型的准确性指标相结合,为雷达目标识别评估提供了一个新的评估视角,对识别模型实用化改进具有指导性意义。
-
1 平均意义下的数据可分性度量计算过程
1. Average data separability measure computing
1. 输入: 数据{\boldsymbol{X}} = \left\{ {{{\boldsymbol{X}}^c}} \right\}_{c = 1}^k,聚类数{\boldsymbol{k}} = \left\{ {{k^c}} \right\}_{c = 1}^k 2. for c = 1:k执行 3. {\text{GMM}}\left( {{{\boldsymbol{X}}^c},{k^c}} \right)得到高斯子类,
\left\{ {{{\boldsymbol{X}}^{1{c^1}}}} \right\}_{{c^1} = 1}^{{k^1}},\left\{ {{{\boldsymbol{X}}^{2{c^2}}}} \right\}_{{c^2} = 1}^{{k^2}},···,\left\{ {{{\boldsymbol{X}}^{k{c^k}}}} \right\}_{{c^k} = 1}^{{k^k}};4. end for 5. for c = 1:k - 1执行 6. for t = c + 1:k执行 7. for i = 1:{k^c}执行 8. for j = 1:{k^t}执行 9. 计算{M_{{\rm{citj}}} } = M\left( { { {\boldsymbol{X} }^{ci} },{ {\boldsymbol{X} }^{tj} } } \right) (根据式(15)); 10. 计算{N_{{\rm{citj}}} } = \left| { { {\boldsymbol{X} }^{ci} } } \right| + \left| { { {\boldsymbol{X} }^{tj} } } \right| (\left| {\boldsymbol{X}} \right|表示集合X的样本量); 11. end for 12. end for 13. end for 14. end for 15. 计算\bar M = { { {\text{sum} }\left( { {M_{{\rm{citj}}} }{N_{{\rm{citj}}} } } \right)} \mathord{\left/ {\vphantom { { {\text{sum} }\left( { {M_{citj} }{N_{citj} } } \right)} { {\text{sum} }\left( { {N_{citj} } } \right)} } } \right. } { {\text{sum} }\left( { {N_{{\rm{citj}}} } } \right)} } (根据式(16)); 16. 输出: \bar M 表 1 典型特征图可分性度量结果
Table 1. Separability measure results of typical feature
度量方法 双簇形 双月形 环形 异或形 螺旋形 混合形 DSI 0.0008 0.6459 0.5532 0.7775 0.9420 0.9941 N2 0.0110 0.0246 0.0461 0.0598 0.0569 0.4928 Density 0.5379 0.8322 0.8661 0.8857 0.8703 0.9282 LSC 0.5012 0.8362 0.9134 0.9148 0.9727 0.9994 \bar M({k^1} = {k^2} = 1) 0.0371 0.3305 0.9999 0.9995 0.9669 0.9990 \bar M({k^1} = {k^2} = 3) 0.0175 0.0592 0.1748 0.2216 0.5601 0.4823 \bar M({k^1} = {k^2} = 5) 0.0114 0.0262 0.0633 0.1449 0.3388 0.3461 \bar M({k^1} = {k^2} = 8) 0.0087 0.0164 0.0334 0.0911 0.2044 0.2482 表 2 识别模型识别率结果
Table 2. Recognition accuracy results of recognition models
数据集 样本数(正例/负例) 特征数 SVM(RBF) KNN LSVM LR 平均识别率(\overline {{\text{Acc}}} ) Banknote 1372(762/610) 5 1.0000 1.0000 0.9879× 0.9879× 0.9939 Wisconsin 683(444/239) 9 0.9512× 0.9561 0.9561 0.9854√ 0.9622 WDBC 569(357/212) 30 0.9356 0.9591√ 0.9591√ 0.9181× 0.9430 Fire 244(138/106) 10 0.9189× 0.9190 0.9730√ 0.9190 0.9324 Ionosphere 351(225/126) 33 0.9623√ 0.8585× 0.8773 0.8773 0.8939 Spambase 4601(2788/1813) 57 0.6799 0.7820 0.8639√ 0.6618× 0.7469 Sonar 208(111/97) 60 0.8254 0.8413√ 0.8095 0.6984× 0.7936 Risk 776(486/290) 17 0.7425 0.8412 0.9184√ 0.6867× 0.7972 Mammographic 830(427/403) 5 0.7590 0.8032√ 0.7349× 0.7389 0.7590 Magic 19020(12332/6688) 10 0.8274√ 0.8098 0.6972 0.6008× 0.7338 Hill valley 606(305/301) 100 0.4780× 0.5385 0.9670√ 0.4780× 0.6154 Blood 748(570/178) 4 0.7378√ 0.7022 0.7333 0.6000× 0.6933 ILPD 583(416/167) 10 0.7314 0.6971 0.7428√ 0.6343× 0.7014 Haberman 306(225/81) 6 0.7174 0.7826√ 0.7065× 0.7391 0.7364 注:“√”表示其在对应行数据上识别率最高;“×”表示最低 表 3 实测数据集可分性度量结果
Table 3. Separability measure results of real data
数据集 样本数(正例/负例) N2 LSC Density DSI M 平均错误率(1 - \overline {{\text{Acc}}} ) Banknote 1372(762/610) 0.0883 0.9022 0.8027 0.7649 0.1355 0.0061 Wisconsin 683(444/239) 0.2491 0.6636 0.6203 0.3157 0.1567 0.0378 WDBC 569(357/212) 0.1380 0.9140 0.5630 0.5833 0.2497 0.0570 Fire 244(138/106) 0.2766 0.9103 0.7150 0.7058 0.2887 0.0676 Ionosphere 351(225/126) 0.3884 0.9118 0.8553 0.7177 0.3807 0.1061 Spambase 4601(2788/1813) 0.2553 0.9967 0.4780 0.8296 0.4402 0.2531 Sonar 208(111/97) 0.4079 0.9754 0.9333 0.9457 0.4497 0.2064 Risk 776(486/290) 0.2082 0.9471 0.7140 0.7894 0.5023 0.2028 Mammographic 830(427/403) 0.2681 0.9947 0.8045 0.8807 0.5813 0.2410 Magic 19020(12332/6688) – – – – 0.6742 0.2662 Hill valley 606(305/301) 0.4857 0.9981 0.6260 0.9727 0.7408 0.3846 Blood 748(570/178) 0.4379 0.9945 0.6235 0.9286 0.8678 0.3067 ILPD 583(416/167) 0.2988 0.9910 0.6732 0.8016 0.8800 0.2986 Haberman 306(225/81) 0.4428 0.9886 0.8279 0.9482 0.9102 0.2636 表 4 SAR图像数据集
Table 4. SAR image datasets
数据集 类别 训练集 测试集 数据集 类别 训练集 测试集 MSTAR BMP2 233 195 FUSAR 其余类别 200 275 BTR70 233 196 T72 232 196 BTR60 256 195 2S1 299 274 渔船 200 119 BRDM2 298 274 D7 299 274 T62 299 273 货船 200 156 ZIL131 299 274 ZSU234 299 274 表 5 不同可分性系数下最优识别率表现(%)
Table 5. Optimal accuracy performance with different separability factors (%)
系数 训练集识别率 测试集识别率 \alpha = \beta = 0(基准网络) 94.00 79.09 \beta = 0.01 94.00 78.90 \beta = 0.10 98.67 79.64 \beta = 0.25 99.67 80.00 \beta = 0.50 100.00 80.00 \alpha = 0.01 93.83 79.45 \alpha = 0.10 91.50 79.63 \alpha = 0.25 98.17 82.18 \alpha = 0.50 99.83 82.36 -
[1] 付强, 何峻. 自动目标识别评估方法及应用[M]. 北京, 科学出版社, 2013: 16–19.FU Qiang and HE Jun. Automatic Target Recognition Evaluation Method and its Application[M]. Beijing, Science Press, 2013: 16–19. [2] 郁文贤. 自动目标识别的工程视角述评[J]. 雷达学报, 2022, 11(5): 737–752. doi: 10.12000/JR22178YU Wenxian. Automatic target recognition from an engineering perspective[J]. Journal of Radars, 2022, 11(5): 737–752. doi: 10.12000/JR22178 [3] HOSSIN M and SULAIMAN M N. A review on evaluation metrics for data classification evaluations[J]. International Journal of Data Mining & Knowledge Management Process (IJDKP), 2015, 5(2): 1–11. doi: 10.5281/zenodo.3557376 [4] ZHANG Chiyuan, BENGIO S, HARDT M, et al. Understanding deep learning (still) requires rethinking generalization[J]. Communications of the ACM, 2021, 64(3): 107–115. doi: 10.1145/3446776 [5] OPREA M. A general framework and guidelines for benchmarking computational intelligence algorithms applied to forecasting problems derived from an application domain-oriented survey[J]. Applied Soft Computing, 2020, 89: 106103. doi: 10.1016/J.ASOC.2020.106103 [6] YU Shuang, LI Xiongfei, FENG Yuncong, et al. An instance-oriented performance measure for classification[J]. Information Sciences, 2021, 580: 598–619. doi: 10.1016/J.INS.2021.08.094 [7] FERNÁNDEZ A, GARCÍA S, GALAR M, et al. Learning from Imbalanced Data Sets[M]. Cham: Springer, 2018: 253–277. [8] BELLO M, NÁPOLES G, VANHOOF K, et al. Data quality measures based on granular computing for multi-label classification[J]. Information Sciences, 2021, 560: 51–57. doi: 10.1016/J.INS.2021.01.027 [9] CANO J R. Analysis of data complexity measures for classification[J]. Expert Systems with Applications, 2013, 40(12): 4820–4831. doi: 10.1016/J.ESWA.2013.02.025 [10] METZNER C, SCHILLING A, TRAXDORF M, et al. Classification at the accuracy limit: Facing the problem of data ambiguity[J]. Scientific Reports, 2022, 12(1): 22121. doi: 10.1038/S41598-022-26498-Z [11] 徐宗本. 人工智能的10个重大数理基础问题[J]. 中国科学: 信息科学, 2021, 51(12): 1967–1978. doi: 10.1360/SSI-2021-0254XU Zongben. Ten fundamental problems for artificial intelligence: Mathematical and physical aspects[J]. SCIENTIA SINICA Informationis, 2021, 51(12): 1967–1978. doi: 10.1360/SSI-2021-0254 [12] MISHRA A K. Separability indices and their use in radar signal based target recognition[J]. IEICE Electronics Express, 2009, 6(14): 1000–1005. doi: 10.1587/ELEX.6.1000 [13] GUAN Shuyue and LOEW M. A novel intrinsic measure of data separability[J]. Applied Intelligence, 2022, 52(15): 17734–17750. doi: 10.1007/S10489-022-03395-6 [14] BRUN A L, BRITTO A S JR, OLIVEIRA L S, et al. A framework for dynamic classifier selection oriented by the classification problem difficulty[J]. Pattern Recognition, 2018, 76: 175–190. doi: 10.1016/J.PATCOG.2017.10.038 [15] CHARTE D, CHARTE F, and HERRERA F. Reducing data complexity using autoencoders with class-informed loss functions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 9549–9560. doi: 10.1109/TPAMI.2021.3127698 [16] LORENA A C, GARCIA L P F, LEHMANN J, et al. How complex is your classification problem?: A survey on measuring classification complexity[J]. ACM Computing Surveys, 2020, 52(5): 107. doi: 10.1145/3347711 [17] FERRARO M B and GIORDANI P. A review and proposal of (fuzzy) clustering for nonlinearly separable data[J]. International Journal of Approximate Reasoning, 2019, 115: 13–31. doi: 10.1016/J.IJAR.2019.09.004 [18] SHANNON C E. A mathematical theory of communication[J]. The Bell System Technical Journal, 1948, 27(3): 379–423. doi: 10.1002/J.1538-7305.1948.TB01338.X [19] COVER T M and THOMAS J A. Elements of Information Theory[M]. New York: Wiley, 1991: 301–332. [20] MADIMAN M, HARRISON M, and KONTOYIANNIS I. Minimum description length vs. maximum likelihood in lossy data compression[C]. 2004 International Symposium on Information Theory, Chicago, USA, 2004: 461. [21] MA Yi, DERKSEN H, HONG Wei, et al. Segmentation of multivariate mixed data via lossy data coding and compression[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(9): 1546–1562. doi: 10.1109/TPAMI.2007.1085 [22] MACDONALD J, WÄLDCHEN S, HAUCH S, et al. A rate-distortion framework for explaining neural network decisions[J]. arXiv: 1905.11092, 2019. [23] HAN Xiaotian, JIANG Zhimeng, LIU Ninghao, et al. Geometric graph representation learning via maximizing rate reduction[C]. ACM Web Conference, Lyon, France, 2022: 1226–1237. [24] CHOWDHURY S B R and CHATURVEDI S. Learning fair representations via rate-distortion maximization[J]. Transactions of the Association for Computational Linguistics, 2022, 10: 1159–1174. doi: 10.1162/TACL_A_00512 [25] LICHMAN M E A. Uci machine learning reposit[EB/OL]. https://archive.ics.uci.edu/datasets, 2023. [26] HO T K and BASU M. Complexity measures of supervised classification problems[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(3): 289–300. doi: 10.1109/34.990132 [27] LEYVA E, GONZÁLEZ A, and PÉREZ R. A set of complexity measures designed for applying meta-learning to instance selection[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(2): 354–367. doi: 10.1109/TKDE.2014.2327034 [28] GARCIA L P F, DE CARVALHO A C P L F, and LORENA A C. Effect of label noise in the complexity of classification problems[J]. Neurocomputing, 2015, 160: 108–119. doi: 10.1016/J.NEUCOM.2014.10.085 [29] AGGARWAL C C, HINNEBURG A, and KEIM D A. On the surprising behavior of distance metrics in high dimensional space[C]. 8th International Conference on Database Theory, London, UK, 2001: 420–434. [30] MILLER K, MAURO J, SETIADI J, et al. Graph-based active learning for semi-supervised classification of SAR data[C]. SPIE 12095, Algorithms for Synthetic Aperture Radar Imagery XXIX, Orlando, United States, 2022: 120950C. [31] 雷禹, 冷祥光, 孙忠镇, 等. 宽幅SAR海上大型运动舰船目标数据集构建及识别性能分析[J]. 雷达学报, 2022, 11(3): 347–362. doi: 10.12000/JR21173LEI Yu, LENG Xiangguang, SUN Zhongzhen, et al. Construction and recognition performance analysis of wide-swath SAR maritime large moving ships dataset[J]. Journal of Radars, 2022, 11(3): 347–362. doi: 10.12000/JR21173 [32] HOU Xiyue, AO Wei, SONG Qian, et al. FUSAR-Ship: Building a high-resolution SAR-AIS matchup dataset of Gaofen-3 for ship detection and recognition[J]. Science China Information Sciences, 2020, 63(4): 140303. doi: 10.1007/s11432-019-2772-5 [33] KEYDEL E R, LEE S W, and MOORE J T. MSTAR extended operating conditions: A tutorial[C]. SPIE 2757, Algorithms for Synthetic Aperture Radar Imagery III, Orlando, USA, 1996: 228–242. [34] CHEN Sizhe, WANG Haipeng, XU Feng, et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8): 4806–4817. doi: 10.1109/TGRS.2016.2551720 [35] ZHANG Tianwen, ZHANG Xiaoling, KE Xiao, et al. HOG-ShipCLSNet: A novel deep learning network with HOG feature fusion for SAR ship classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5210322. doi: 10.1109/TGRS.2021.3082759 期刊类型引用(2)
1. 付雨欣,黄洁,王建涛,党同心,李一鸣,孙震宇. 多功能相控阵雷达行为辨识综述. 电讯技术. 2024(04): 643-654 . 百度学术
2. 赵春雷,姚嘉嵘,李京效,戚张行,魏汇赞. 地基雷达空中目标识别方法研究综述. 空天预警研究学报. 2023(05): 313-320+334 . 百度学术
其他类型引用(1)
-