MPOLSAR-1.0: Multidimensional SAR Multiband Fully Polarized Fine Classification Dataset
-
摘要: 地物精细分类是合成孔径雷达(SAR)的主要应用方向之一。在多波段全极化SAR工作模式下,可充分获取目标不同波段信息和极化响应特征,有望提高目标分类精度。然而国内外现有的数据集仅有个别波段、少数地区、少量样本的低分辨率全极化分类数据。为推动多波段全极化SAR分类应用的发展,在高分航空观测系统应用校飞与验证项目支持下,利用多维度SAR在海南的校飞数据构建了一个样本量充分大、地物类别较为丰富、分类可靠性较高的多波段全极化精细分类数据集。该文概述了该数据集的构成,给出了发布数据(MPOLSAR-1.0)的信息描述方式、数据集制作流程和方法,并分别基于极化特征分类方法和经典机器学习分类方法给出了初步的分类实验结果,为该数据集的共享和应用提供支撑。Abstract: Fine terrain classification is one of the main applications of Synthetic Aperture Radar (SAR). In the multiband fully polarized SAR operating mode, obtaining information on different frequency bands of the target and polarization response characteristics of a target is possible, which can improve target classification accuracy. However, the existing datasets at home and abroad only have low-resolution fully polarized classification data for individual bands, limited regions, and small samples. Thus, a multidimensional SAR dataset from Hainan is used to construct a multiband fully polarized fine classification dataset with ample sample size, diverse land cover categories, and high classification reliability. This dataset will promote the development of multiband fully polarized SAR classification applications, supported by the high-resolution aerial observation system application calibration and verification project. This paper provides an overview of the composition of the dataset, and describes the information and dataset production methods for the first batch of published data (MPOLSAR-1.0). Furthermore, this study presents the preliminary classification experimental results based on the polarization feature classification and classical machine learning classification methods, providing support for the sharing and application of the dataset.
-
1. 引言
在对杂波环境信息感知的基础上,认知雷达可通过主动发射波形的方式,充分挖掘目标与杂波信息之间的差异性,并通过优化配置波形参数扩大该差异,提高杂波抑制和目标检测性能。相较于传统雷达,认知雷达具有更高的自由度和灵活度,现已成为雷达杂波抑制的主要技术途径之一。
现有认知雷达波形设计主要利用精确完整的杂波先验数据,形成两大类准则的设计方法。一是最大化输出信杂噪比(Signal to Clutter plus Noise Ratio, SCNR)准则,如Tang等人[1,2]利用精细化的杂波先验数据,基于松弛方法解决了杂波环境下MIMO (Multiple Inputs Multiple Outputs)雷达波形与滤波器联合设计中的非凸优化问题。为了高效求解上述非凸性难题,Yu等人[3]提出了基于ADMM (Alternating Direction Method of Multipliers)的MIMO雷达波形多约束优化快速实现方法。在此基础上,Wu等人[4]研究了基于MM (Majorization-Minimization)的加速算法,有效提升了发射波形与接收滤波器权联合设计的杂波抑制性能。此外,O’Rourke等人[5]采用二次优化和半正定松弛方法提升了收发联合设计的目标检测性能。然而上述方法所采用的先验数据需要精确已知各个杂波块的幅相特征,当杂波先验数据存在缺失时,所构建的杂波模型会严重失配,进而影响雷达对杂波的抑制能力。二是基于信息量的优化准则,通过从回波信号中最大化提取目标信息量,提升目标检测性能。如Tang等人[6]研究了杂波环境下基于信息相关熵的MIMO雷达波形设计方法;何子述团队[7,8]针对机载雷达杂波环境,依据最大化互信息量(Mutual Information, MI)准则,提出了多约束条件下的波形与STAP (Space-Time Adaptive Processing)滤波器联合设计方法。但该类方法仍然依赖于精确完整的先验杂波协方差矩阵,在数据缺失条件下难以设计出优效的雷达波形。
从上述研究动态可以看出,现有波形优化方法往往需要精细到每个杂波片的幅频相信息[9,10]。因此,在数据信息不完整/缺失条件下,上述方法存在模型失配效应,会严重削弱雷达的杂波抑制性能。
信息缺失在雷达信号处理中为常见现象[11-13],主要原因包括:
(1) 当可用通道数小于阵列个数时,雷达通常采用切换器切换数据接收通道。一般情况下,该切换机制是随机选取的,从数学角度上看,这无异于将完整数据“穿孔”,得到一个尺寸缩小的不完整向量[11]。
(2) 先验数据信息在采集时,易受到气候、采集设备和其他电磁频谱设备等干扰的影响,导致采集到的数据与真实数据之间存在偏差;用户在使用时需将干扰数据剔除掉,而剔除过程会造成信息的缺失。
(3) 故障传感器通道内的噪声脉冲、模数转换器故障等导致部分阵列达到饱和状态,从而造成数据缺失[14];雷达材料、环境、机械故障等情况亦有可能引起数据的失效[15]。
现有针对数据缺失的雷达信号处理方法主要集中于协方差矩阵估计、波束形成、目标检测等领域[16-18]。针对数据不完整条件下高维参数的优化问题,主要有两种解决途径:一种是补全雷达数据缺失部分[19],该类方法在补全过程中通过添加专家的合理性判断,在一定程度上保证其可信性。如Aubry等人[11]基于杂波协方差矩阵的结构信息,采用Expectation-Maximization算法设计了数据缺失条件下的参数估计方法;Pavez等人[13]针对数据缺失分布的不同机制,提出了一种无偏协方差估计器,获得不同缺失条件下的估计误差界限;Liu等人[20]针对单调数据缺失模式研究了基于最大似然和正则化鲁棒的估计器,提高了算法的收敛速度和估计精度;此外,刘宏伟团队[21]基于迁移学习算法,完成了对步进频雷达不完整波形数据的补全。另一种解决途径是通过与复杂环境的交互训练,直接得到雷达参数的优化策略,即端到端的波形训练方法[21,22]。例如Jiang等人[23]在多约束条件下,研究了基于端到端的波形与检测器权值联合优化方法,然而该训练过程依赖于大量完整的数据样本,尚未考虑数据缺失条件下的优化问题。综上所述,现有工作多集中在数据缺失参数估计问题上,鲜有涉及数据缺失条件下波形设计方法的研究。
因此,本文主要针对完全随机缺失机制下的杂波数据,基于强化学习对未知环境的高效探索和学习能力,提出优先级填充-强化学习级联优化的雷达波形训练方法。该方法将缺失数据恢复与波形设计有机结合,通过智能体与杂波环境的不断交互,寻求波形参数的最优配置。其难点主要体现为:一是数据缺失条件下的波形设计建模方法;二是雷达波形设计中非凸问题的求解。针对上述难点,本文主要工作与创新点体现在以下几个方面:
(1) 本文建立了数据缺失条件下的波形设计问题模型,提出了基于优先级填充-强化学习两级级联的波形优化求解方法;该方法通过强化学习与填充算法所构建的环境交互训练,决策输出最大信杂噪比下的波形参数;
(2) 本文考虑了完全随机缺失机制,即数据的缺失与否与数据自身值无关,并通过仿真分别验证了点状缺失与块状缺失场景下(类比文献[11]中的缺失场景)所提算法杂波抑制能力;
(3) 本文所提算法可实现恒模、相似性约束下的波形优化。
下面分别从杂波数据缺失条件下波形设计模型、雷达波形级联优化算法,以及算法仿真等方面展开介绍。
2. 杂波数据缺失条件下的波形设计问题模型
本节首先根据完全随机缺失机制的定义,设置两种常见的先验数据缺失场景,建立恒模与相似性约束下的雷达波形设计问题模型;然后将波形设计过程与状态-动作-奖励的动态规划结合,进一步构建杂波环境下波形设计的马尔可夫决策模型,为雷达波形的优化设计提供模型基础。
2.1 杂波数据缺失模型
不失一般性,本文考虑单输入单输出的雷达系统,在一个时间相参积累间隔(Coherent Processing Interval, CPI)内发射N个脉冲信号。假设发射端发射窄带信号,在时间维度对信号进行离散采样,可得在某一包含目标距离环上的雷达回波信号为
y(m)=αwHs+wHcm+wHn (1) 其中,
α 表示发射信号的幅度,s∈CN×1 表示离散发射波形矢量,cm∈CN×1 表示第m个距离环的杂波矢量,n∈CN×1 表示零均值方差为σ2n 的高斯白噪声矢量,w∈CN×1 表示滤波权矢量,(⋅)H 为向量/矩阵共轭转置运算符,m为杂波距离环编号或先验杂波样本编号。本文重点考虑构造杂波先验协方差矩阵中样本数据的缺失,假设
C=[c1 c2 ⋯ cM]∈CN×M 为数据完整的杂波样本矩阵,M为样本数。设置缺失矩阵ΔN×M ,Δ 中仅有两个元素NaN 和1,其中NaN 表示对应位置数据缺失,1表示该数据正常,则杂波缺失矩阵˜C 可表示为[˜C]m=[C⊙Δ]m (2) 其中,
[⋅]m 为矩阵的第m列,⊙ 为Hadamard乘积。由于气候、采集设备故障等导致的数据缺失完全随机且不可控,因此本文引入完全随机缺失机制。在该机制下,无法获取数据的分布参数,如均值和方差,且数据的缺失位置与数据的先验分布相对独立。类比文献[11]中的缺失场景,本文考虑点状缺失和块状缺失两种杂波先验数据缺失场景,构造缺失矩阵
Δ 的方式分别如下:场景1:点状缺失。设置点状缺失概率
p∈(0,1) ,生成N×M 个服从[0,1]均匀分布的随机数构成矩阵Δ ,若Δ(i,j)>p ,则Δ(i,j)=1 ,反之Δ(i,j)=NaN ,其中i=1,2,⋯,N ,j=1,2,⋯,M ;场景2:块状缺失。同场景1,设置块状缺失概率
p′∈(0,1) ,在Δ 中随机生成n个缺失块并赋值为NaN ,其余数据皆令为1。缺失块行数和列数分别为rl 和cl ,l=1,2,⋯,n 。为保证场景设置的公平性,两种场景下的缺失概率应满足:p′=n∑l=1rlclNM=p (3) 点状缺失和块状缺失示意图分别如图1(a)、图1(b)所示,其中,白色代表缺失数据(取值为
NaN ),黑色代表正常数据(取值为1)。2.2 波形设计问题模型
通常情况下,为了提高雷达的目标检测性能,需要在滤波处理输出后获取最大的SCNR。因此,本文采用最佳滤波权矢量,即
w=R−1s ,其中R=E[(c+n)(c+n)H] 为杂波+噪声协方差矩阵。进一步,考虑恒模约束和相似性约束,可将雷达波形优化问题表示为maxs sHR−1ss.t. |sn|=1 ,n=1,2,⋯,N‖ (4) 其中,
{\boldsymbol{R}} = {{\boldsymbol{R}}_c} + \sigma _{\text{n}}^2{\boldsymbol{I}} ,{{\boldsymbol{R}}_c} 为杂波协方差矩阵,I为单位矩阵;{(\cdot)}^{-1} 表示矩阵求逆运算;\left| {{s_n}} \right| = 1 表示恒模约束,{s_n} 表示向量s的第n个元素;{\left\| {{\boldsymbol{s}} - {{\boldsymbol{s}}_0}} \right\|^2} < \varepsilon 为波形相似性约束,\varepsilon 为相似度约束,{{\boldsymbol{s}}_0} 为参考波形。当杂波先验协方差矩阵
{{\boldsymbol{R}}_c} 完全已知时,已有众多学者针对相关波形优化问题展开研究,如Li等人[24]提出的SWORD (Signal Waveform’s Optimal-under-Restriction Design)方法等。然而,{{\boldsymbol{R}}_c} 估值的高准确度依赖于大量完整的样本数据。在杂波先验数据缺失的情况下,样本信息不够精确,协方差矩阵的估计误差增大,难以保证优越的杂波抑制性能。因此,本文考虑样本数据缺失情况下的波形设计问题,并在式(4)中引入协方差矩阵约束{{\boldsymbol{R}}_c} = h ( {\tilde {\boldsymbol{C}}} ) ,用于表征该杂波协方差矩阵由数据缺失样本构成,其中函数h(\cdot) 映射了该构成过程。2.3 波形优化马尔可夫过程模型
由于强化学习强调智能体在未知环境中以不断试错的方式学习得到最优策略,故本节将上述先验数据缺失条件下波形优化问题刻画为马尔可夫过程。
将雷达视为智能体,在t 时刻,智能体根据当前时刻的状态
{s_t} 以及策略\pi ({a_t}{\text{|}}{s_t}) 向环境中发射动作{a_t} ,其中策略是从状态到动作概率分布的函数映射。然后,状态{s_t} 根据状态转移函数p({s_{t + 1}}{\text{|}}{s_t},{a_t}) 转换到{s_{t + 1}} ,并获得相应的反馈奖励{r_{t + 1}} 。假设t时刻的状态仅与上一时刻的状态有关,则整个学习过程可以描述为一个马尔可夫决策过程(Markov Decision Process, MDP)[25],用4元组表示为\left\{ {S,A,P,R} \right\} (5) 其中,S为状态集合
{s_t} \in S ,A为动作集合{a_t} \in A ,P为状态转移函数集合{p_t} \in P ,R为奖励集合{r_t} \in R 。本文假设雷达发射机发射功率不变且载波频率恒定,波形参数仅与发射相位有关,故将t时刻的离散相位值以及信杂噪比作为雷达在环境中的状态表征;若考虑相似性约束,则添加相似度衡量当前波形与参考波形的偏差,以期快速获得良好的性能参数。相似度定义为
\varsigma = \left\| {{{\boldsymbol{s}}_t} - {{\boldsymbol{s}}_0}} \right\| (6) 其中,
{{\boldsymbol{s}}_t} 表示t 时刻的发射波形。综上,t 时刻的状态可表示为
{s_t} = \left\{ {{\theta _{t1}},{\theta _{t2}}{\text{,}} \cdots {\text{,}}\;{\theta _{tN}}{\text{,}}\;{\varsigma _t},\;{\text{SCN}}{{\text{R}}_t}} \right\} (7) 其中,
{\theta _{ti}} 表示t 时刻的离散相位值,i = 1,2, \cdots ,N 。将雷达的动作设计为“指令”操作,即
{a_t} = \left\{ {{a_{t1}}{\text{,}}\;{a_{t2}}{\text{,}}\; \cdots {\text{,}}\;{a_{tN}}} \right\} ,其中,{a_{ti}} 有3种可能取值:0,1和2,不同取值对应不同的操作:\left. \begin{aligned} & {{\theta _{ti}}{\text{ }} = {\text{ }}{\theta _{ti}} - \sigma ,{\text{ }}{a_{ti}} = 0} \\ &{{\theta _{ti}}{\text{ }} = {\text{ }}{\theta _{ti}},{\text{ }}{a_{ti}} = 1} \\ & {{\theta _{ti}}{\text{ }} = {\text{ }}{\theta _{ti}} + \sigma ,{\text{ }}{a_{ti}} = 2} \end{aligned} \right\} (8) 其中,
\sigma 表示雷达执行一次动作对应相位值的变化量。\sigma 的设置与相位的分辨率息息相关,\sigma 越小,雷达发射波形精确度越高;但当\sigma 过小时,雷达需要耗费更多的时间去学习最佳波形,导致算法收敛速度变慢。需要注意的是,由于相位的周期性,在整个决策过程中需保证{\theta _{ti}} 的值始终位于[0,{\text{ }}2{\pi}] 内。奖励函数是强化学习算法设计的核心,其作用是针对上一时刻的动作向强化学习模型提供即时反馈。因此,合理的奖励设计方式有利于智能体最优执行策略的学习。由于目标SCNR是影响检测性能的关键因素,因此本文以雷达滤波处理后的SCNR作为t 时刻动作所获得的奖励:
{r_t} = {\text{SCN}}{{\text{R}}_t} = {{\boldsymbol{s}}^{\text{H}}}{({{\boldsymbol{R}}_c} + \sigma _{\text{n}}^2{\boldsymbol{I}})^{{{ - }}1}}{\boldsymbol{s}} (9) 3. 基于级联优化的波形设计算法
针对上述波形设计问题,本文提出一种基于优先级填充-强化学习级联优化的波形设计方法。该级联算法包含缺失数据填充和波形优化两个部分,分别用函数
f(\cdot) 和g(\cdot) 表示。如图2所示,输入数据缺失条件下的先验数据矩阵X,根据缺失值判断数据缺失区域并将其作为缺失规则输入杂波环境中。通过优先级填充算法得到数据完整的杂波数据矩阵\hat {\boldsymbol{C}} ,进一步估计杂波协方差矩阵{\hat {\boldsymbol{R}}_c} ,即{\hat {\boldsymbol{R}}_c} = \mathbb{E}[{\hat {\boldsymbol{C}}^{\rm{H}}}\hat {\boldsymbol{C}}] = f\left( {\boldsymbol{X}} \right) 。强化学习波形设计的目的是通过雷达与杂波环境交互,训练生成最大SCNR的发射波形,即{\boldsymbol{s}} = g ( {{{\hat {\boldsymbol{R}}}_c}} ) ,其中,将优先级填充算法输出结果作为智能体与之交互的杂波环境。本文所提的级联架构亦是指以估计杂波协方差矩阵为基础的强化学习波形设计框架,通过优先级填充-强化学习级联的迭代过程,最终获得先验数据缺失条件下的优化波形。3.1 基于优先级填充算法的杂波数据缺失估计方法
根据级联优化算法整体架构,本节首先介绍基于优先级的填充算法。将杂波缺失矩阵
\tilde {\boldsymbol{C}} 以及缺失区域输入到杂波环境中,通过优先级填充算法的映射关系f(\cdot) ,完成对杂波缺失数据的修复,估计输出杂波协方差矩阵{\hat {\boldsymbol{R}}_c} 。如图3所示,该修复过程为:首先,通过判断杂波数据与缺失值是否匹配,将其分为目标区域{\boldsymbol{\varOmega}} 和源区域{\boldsymbol{\varPhi}} 。目标区域对应数据缺失部分,其轮廓用{\boldsymbol{\delta }}{\boldsymbol{\varOmega }} 表示;剩余部分为源区域。然后在目标区域轮廓{\boldsymbol{\delta}} {\boldsymbol{\varOmega}} 上选定点p,以p为中心点确定一待修复的正方形滑窗{{\boldsymbol{\varPsi}} _p} ,在源区域内搜索最佳匹配数据{{\boldsymbol{\varPsi}} _q} ,令{{\boldsymbol{\varPsi}} _p} = {{\boldsymbol{\varPsi}} _q} ,完成对{{\boldsymbol{\varPsi }}_p} 的填充。最后,随着填充进度的推进,不断更新{\boldsymbol{\delta}} {\boldsymbol{\varOmega}} 直至所有目标区域{\boldsymbol{\varOmega }} 填充完成。填充顺序是数据修复质量的关键性因素之一。传统标准同心层填充算法以逆时针顺序将同心层块逐渐填入目标区域,可能导致目标轮廓附近源区域内的完整数据被意外重构,使得目标轮廓区域的填充效果变差。因此,为了确定最佳样本填充顺序,本节引入样本填充优先级的计算[26]。针对上述目标轮廓区域填充效果不明显的问题,优先级的计算偏向于数据差异大的强边缘区域和高置信度的目标区域。
给定中心点p以及目标填充样本
{{\boldsymbol{\varPsi}} _p} ,将优先级函数P(p) 表示为P(p) = C(p)D(p) (10) 其中,
C(p) 为置信度项,D(p) 为数据项。置信度C(p) 表征中心点p附近可靠数据的度量,即优先填充目标区域轮廓周围的样本并不断向内填充;数据项D(p) 体现{\boldsymbol{\delta}} {\boldsymbol{\varOmega}} 两边数据信息的差异大小,优先填充差异较大的样本。计算公式分别为C(p) = \frac{{\displaystyle\sum\limits_{p \in {{\boldsymbol{\varPsi}} _p} \cap {\boldsymbol{\varPhi}} } {C(p)} }}{{\left| {{{\boldsymbol{\varPsi}} _p}} \right|}} (11) D(p) = \frac{{\left| {\nabla {\boldsymbol{I}}_p^ \bot \cdot {{\boldsymbol{J}}_p}} \right|}}{\kappa }\qquad\; (12) 其中,
\left| {{{\boldsymbol{\varPsi}} _p}} \right| 表示{{\boldsymbol{\varPsi}} _p} 的面积,\kappa 是归一化因子,\nabla {{\boldsymbol{I}}_p} 为{{\boldsymbol{\varPsi}} _p} \cap {\boldsymbol{I}} 区间内的最大梯度值,{{\boldsymbol{J}}_p} 表示p点处正交于目标区域轮廓{\boldsymbol{\delta \varOmega}} 的单位向量。\bot 表示正交。初始化时,设置置信度函数C(p) 为\left. \begin{aligned} & {C(p) = 0,{\text{ }}\forall p \in {\boldsymbol{\varOmega}} } \\ & {C(p) = 1,{\text{ }}\forall p \in {\boldsymbol{\varPhi}} } \end{aligned} \right\} (13) 获得目标区域内所有待填充样本的优先级后,按照优先级递减的方向从源区域内搜寻最相似样本进行填充。上述过程可通过最小化平方差之和算法实现:
{{\boldsymbol{\varPsi}} _{\hat q}} = \mathop {\arg \min }\limits_{{{\boldsymbol{\varPsi}} _q} \subset {\boldsymbol{\varPhi}} } {\text{d}}({{\boldsymbol{\varPsi}} _{\hat p}},{{\boldsymbol{\varPsi}} _q}) (14) 其中,
{\text{d}}({{\boldsymbol{\varPsi}} _a},{{\boldsymbol{\varPsi}} _b}) 表示样本{{\boldsymbol{\varPsi}} _a} 和{{\boldsymbol{\varPsi}} _b} 中数据的平方差之和。将最相似样本
{{\boldsymbol{\varPsi}} _{\hat q}} 内的数据复制到{{\boldsymbol{\varPsi}} _{\hat p}} 内,更新置信度C(p) :C(p) = C(\hat p),\quad \forall p \in {{\boldsymbol{\varPsi}} _{\hat p}} \cap {\boldsymbol{\varOmega}} (15) 此时杂波数据矩阵的目标区域轮廓
{\boldsymbol{\delta \varOmega}} 发生相应变化,重复优先级的计算,逐层更新直至目标区域填充完成,即通过f(\cdot) 的映射关系,实现从杂波缺失矩阵\tilde {\boldsymbol{C}} 到协方差矩阵{\hat {\boldsymbol{R}}_c} 的估计过程。算法步骤的伪代码见表1。表 1 优先级填充算法Table 1. Priority filling algorithm输入:杂波缺失矩阵 \tilde {\boldsymbol C} ,滑窗维度M 输出:杂波修复矩阵\hat {\boldsymbol{C}} 1:将杂波缺失矩阵 \tilde {\boldsymbol C} 分为目标区域{\boldsymbol{\varOmega}}和源区域{\boldsymbol{\varPhi}} 2:根据式(13)初始化置信度C(p) 3:识别目标区域轮廓{\boldsymbol{\delta \varOmega}} 4:根据式(10)计算优先级P(p), \forall p \in {\boldsymbol{\delta \varOmega}} 5:找到优先级最高的待填充样本 {{\boldsymbol{\varPsi}} _{\hat p}} \in {\mathbb{C}^{M \times M}} ,即
\hat p = \arg \mathop {\max }\limits_{p \in {\boldsymbol{\delta \varOmega } } }P(p)6:根据式(14)得到最相似样本 {{\boldsymbol{\varPsi}} _{\hat q}} 7:将最相似样本 {{\boldsymbol{\varPsi}} _{\hat q}} 内的数据信息复制到 {{\boldsymbol{\varPsi}} _{\hat p}} 内 8:根据式(15)更新置信度C(p) 9:判断{\boldsymbol{\varOmega}}是否为空集,如果是,算法结束;否则跳转3 3.2 基于强化学习算法的波形设计方法
由3.1节可知,将优先级填充算法补偿后的杂波矩阵作为强化学习优化算法中智能体的交互环境。雷达发射波形作用到杂波环境中并获取反馈奖励,通过最大化累积奖励和的方式决策出最优波形相位。整个过程基于端到端的学习方式,用函数
g(\cdot) 表示,即{\boldsymbol{s}} = g\left( {{{\hat {\boldsymbol{R}}}_c}} \right) 。本文采用DDPG (Deep Deterministic Policy Gradient)算法实现函数g(\cdot) 的映射过程。DDPG算法是一种基于Actor-critic框架的深度确定性策略梯度算法[27],由DPG (Deterministic Policy Gradient)算法改进而来,得益于其在连续动作空间中的有效决策性能,广泛用于解决各领域中复杂连续的决策问题。在波形优化设计问题中,由于动作空间和状态空间的高维连续性,使用DDPG算法可以更好地输出最佳动作策略。Actor-critic框架由Actor网络和Critic网络构成。Actor网络输入状态
{s_t} ,输出唯一确定性动作{a_t} 与环境交互,返回下一时刻的状态{s_{t + 1}} 和奖励{r_{t + 1}} ,其网络权重参数用\theta 表示;Critic网络输入状态{s_t} 和动作{a_t} ,通过价值函数评估动作{a_t} 的优劣性,其网络权重参数用\omega 表示。为了避免网络输出的震荡导致不稳定的学习行为,增强算法的稳定性,DDPG分别复制Actor网络和Critic网络生成相对应的目标网络,其网络权重参数分别用{\theta '} 和{\omega'} 表示。在DDPG算法中,为了增加学习过程的随机性,提高智能体对环境的探索概率,针对Actor网络决策机制引入随机噪声,设计输出动作为
{\mu '}({s_t}) = \mu ({s_t}\left| \theta \right.) + \mathcal{N} (16) 其中,
\mu ({s_t}\left| \theta \right.) 表示Actor网络在状态{s_t} 时的输出动作,\mathcal{N} 表示随机噪声过程。Actor网络采用off-police的训练方法,用于生成动作的行为策略和评估策略不同。引入策略梯度下降法更新其网络参数:
{\nabla _\theta }{J_\theta } \approx \frac{1}{K}\sum\limits_i {{\nabla _a}} Q(s,a\left| \omega \right.)\left| {_{{s = {s_i},a = {\mu '}({s_i})}}} \right.{\nabla _\theta }{\mu '}({s_i}\left| \theta \right.) (17) 其中,K表示从经验池中采样的样本数。更新Critic网络时,采用均方误差计算其损失函数:
\mathcal{L} = \frac{1}{K}{\sum\limits_i {({r_i} + \gamma {Q '}({s_{i + 1}},{\mu '}({s_{i + 1}}\left| {{\theta '}} \right.)\left| {{\omega '}} \right.) - Q({s_i},{a_i}\left| \omega \right.))} ^2} (18) 其中,
\gamma 表示奖励衰减因子。通过软更新的方式分别更新Actor网络和Critic网络的目标网络参数:
\left.\begin{split} & {\theta '} \leftarrow \tau \theta + (1 - \tau ){\theta '} \\ & {\omega '} \leftarrow \tau \omega + (1 - \tau ){\omega '} \end{split}\right\} (19) 其中,
\tau 表示软更新系数,用于控制迭代中每一步更新的幅度,一般取\tau = 0.01 。结合前文分析,智能体通过Actor网络输出波形相位,将当前所处状态和动作矢量信息输入到Critic网络中;Critic网络输出评估状态-动作对的Q值。利用梯度下降法和均方误差分别计算Actor网络和Critic网络的损失函数,结合软更新的方式,实现策略网络、评估网络以及对应目标网络参数的更新。DDPG伪代码如表2所示,算法结构框图如图4所示。
表 2 基于DDPG的波形优化算法Table 2. Algorithm for waveform optimization based on DDPG输入:Actor策略网络及其目标网络,Critic评估网络及其目标网络,网络参数分别为\theta ,{\theta '},\omega ,{\omega'},奖励衰减因子\gamma ,软更新系数\tau ,最大迭
代次数T,经验回放池{ \rm{R} },采样样本数K输出:最佳Actor策略网络{\pi _*}(a|s) 1:随机初始化Actor策略网络参数\theta 和Critic评估网络参数\omega 2:初始化目标网络参数{\theta'} = \theta, {\omega'} = \omega 3:初始化经验回放池{ \rm{R} } 4:for 回合e \in \{ 1,2, \cdots ,T\} do 5: 初始化随机噪声 \mathcal{N} ,初始化状态s 6: 根据式(16)得到Actor网络的输出动作{a_t} 7: 执行动作{a_t},获得下一时刻状态{s_{t + 1}},反馈奖励{r_t} 8: 将\left\{ {{s_t},{a_t},{r_t},{s_{t + 1}}} \right\}存入经验回放池{ \rm{R} } 9: 从经验回放池中随机采样K个经验样本\left\{ {{s_i},{a_i},{r_i},{s_{i + 1}}} \right\}, i = 1,2, \cdots ,K 10: 根据式(17)和式(18)更新Actor策略网络和Critic评估网络 11: 根据式(19)更新目标网络参数{\theta '}和{\omega '} 12: 判断{s_{t + 1}}是否为终止状态,如果是,迭代完毕,否则跳转步骤5 4. 仿真分析
为了分析雷达杂波先验数据缺失对发射波形优化过程的影响,验证本文所提级联优化算法的有效性,本节针对杂波先验数据点状与块状缺失场景进行仿真试验。
杂波数据缺失模型参数设置如下:
N = 16 ,M = 2000 ,数据缺失概率p = 0.1 。为方便观察数据修复效果,将杂波数据矩阵可视化,如图5所示,为杂波参考矩阵C 的俯视图。据2.1节所述,设置点状缺失和块状缺失如图6所示,其中,黄色部分表示数据缺失。由于修复完成的杂波矩阵将进一步计算杂波协方差矩阵{\hat {\boldsymbol{R}}_c} ,为提高数据缺失的代表性,将大多数缺失数据集中设置于N个脉冲编码内(图6中第41行到第56行内),保证{\hat {\boldsymbol{R}}_c} 内耦合更多缺失数据信息。根据样本优先级填充算法,对杂波数据缺失矩阵目标区域进行修复。考虑到杂波数据缺失对后续波形优化的影响,将杂波缺失矩阵
{{\tilde {\boldsymbol{C}}}} 中的{\text{NaN}} 值设为500,并采用KNN填充算法作为对比算法进行仿真试验,结果如图7、图8所示(黑色方框表示杂波数据缺失矩阵的目标区域轮廓)。由图7可看出,针对完全随机缺失机制,杂波数据缺失部分在一定程度上得到了修复,然而点状缺失数据分布比较分散,无法得出明显的效果图;由图8可看出,在块状缺失场景下,优先级填充算法结合了优先级排序和样本相似度的计算,修复效果明显优于KNN填充算法,与参考矩阵C差异较小。由此可得出初步结论:优先级填充算法考虑了缺失点周围数据的关联性,可以从源区域内全局搜索出最相似样本块进行填充,并取得良好的修复效果。为进一步验证上述优先级填充算法对缺失数据修复的有效性,设置不同的缺失概率,将修复后的杂波矩阵与参考杂波矩阵的均方根误差(Root Mean Square Error, RMSE)作为衡量指标,定量分析算法的优劣性。如图9所示,RMSE随着缺失概率p的增加不断增大。在点状缺失场景下,优先级填充算法修复误差明显低于KNN填充算法;在块状缺失场景下,当缺失概率
p < 0.3 时,优先级填充算法略优,随着p继续增加,其算法误差亦快速增大,填充性能下降且劣于KNN填充算法。对比不同的缺失场景,根据缺失数据分布的均匀性可知,块状缺失的数据相较于点状缺失更为集中,故点状缺失的修复性能更佳,误差更小。通过上述仿真实现
{{\boldsymbol{\hat R}}_c} = f\left( {\boldsymbol{X}} \right) 的估计过程,进一步通过强化学习算法对雷达发射端波形相位动作进行决策,实现发射波形的最优化,提高信杂噪比。本文采用DDPG的强化学习决策算法,相关参数如表3所示。表 3 强化学习参数表Table 3. Reinforcement learning parameters table参数 数值 经验池大小 200000 训练批次大小 64 训练总次数 100000 回合训练次数 1000 学习率 0.001 惩罚因子 0.98 Actor, Critic网络层节点数 [400, 300] 设置相位初始状态为
{{\boldsymbol{0}}_{1 \times 16}} ,运行步骤step=1000,单个回合结束。训练曲线如图10所示,图10(a)、图10(b)分别表示点状缺失和块状缺失两种杂波缺失场景下的强化学习奖励曲线图。由图10可以看出,奖励曲线皆由初始的负奖励值快速上升至400左右,然后逐渐收敛并趋于稳定,对应最大信噪比可达16 dB。说明在杂波先验数据缺失的条件下,雷达发射机通过Critic网络对动作策略的评估及奖励反馈,成功学习到较优的波形相位动作。对比两种缺失场景,由于块状缺失场景下缺失块中心填充误差较大,奖励曲线收敛速度相对较慢。为验证完全随机缺失机制下基于优先级填充算法-强化学习级联优化的训练效果,以雷达接收信号的SCNR作为参考指标进行仿真分析。如图11所示,横坐标表示输入信杂噪比
{\alpha ^2}/{\text{tr}}({{\boldsymbol{R}}_c} + {\sigma ^2}) ,其中{\alpha ^2} 表示信号的能量,{\sigma ^2} 为噪声方差,依据不同输入条件设计噪声能量值。在仿真中,设置缺失概率为0.1和0.3,将协方差矩阵无缺失条件下SWORD算法所得结果作为性能上限,将数据缺失条件下SWORD算法以及KNN填充后的SWORD算法与本文所提算法进行仿真对比。由图11可知,针对完全随机缺失机制下的缺失场景,随着杂噪比值的变化,所提算法能够较好地逼近无缺失条件的波形设计性能,且优于KNN补偿算法。其中,随着缺失概率p的增大,杂波有效先验数据信息减少,输出性能略有下降。对比不同缺失场景,点状缺失场景下的优化性能相较于块状缺失场景更优,但本文所提算法的优势在块状缺失场景中更为明显。为验证不同约束对算法输出性能的影响,在雷达波形优化方程中添加相似性约束,并根据式(7)在强化学习t 时刻的状态中添加相似度参数
\varsigma 。仿真结果如图12和图13所示。从图12可以看出,不同场景下的奖励曲线有明显的提升和收敛表现;相较于无相似性约束下的仿真结果,由于具备参考波形的引导,Actor网络能在相似度的衡量指标下迅速逼近最佳输出动作,算法收敛速度加快且奖励值小幅提升。从图13可以看出,本文所提算法在恒模与相似性约束条件下,仍然具有较优的杂波抑制性能。由于对比实验均考虑了相同的波形相似性约束,虽然在输出性能曲线上不同算法的仿真结果差异变小,但本文所提算法与无缺失条件下SWORD算法的性能表现更为接近,且依然优于KNN算法补偿后的传统优化算法。5. 结语
针对杂波先验数据缺失条件下的波形优化问题,本文提出了一种优先级填充-强化学习级联优化的波形设计算法。为求解恒模约束和相似性约束下的非凸非线性优化问题,本文首先根据缺失数据的优先度在源区域内搜索最佳匹配数据进行填充,实现随机缺失机制下的数据修复,再结合DDPG强化学习决策算法,通过Actor-Critic网络架构训练决策出雷达最佳相位选择策略,实现最大信杂噪比下的波形优化。最后,本文针对杂波先验数据不同缺失场景,采用数值仿真对比KNN算法填充后的SWORD优化算法,分析结果表明:(1)级联算法无需考虑先验数据的分布函数,对杂波数据的完全随机缺失具有较好的修复效果;(2)针对点状缺失和块状缺失场景,本文所提算法均可获得优越的杂波抑制性能,进一步提升雷达的探测能力。
-
表 1 多维度SAR各波段雷达参数
Table 1. Multi-dimensional SAR radar parameters in various bands
波段 带宽(MHz) PRF (Hz) 分辨率(m) X 500 250 0.5 C 560 250 0.5 S 300 500 0.5 L 200 250 1.0 P 200 125 1.0 表 2 多维度SAR多波段全极化精细分类数据集1.0构成
Table 2. Composition of MPOLSAR-1.0
序号 内容 文件命名和后缀 说明 1 P波段L1B图像 ID_Band_PQ_L1B.jpg 图像尺寸在1024×1024~4096×4096之间;Uint16量化 2 P波段SLC数据 ID_Band_PQ_L1A.dat 与L1B.jpg严格对应,float32量化,IQIQIQ交替存储 3 P波段数据的元文件 ID_Band_PQ_meta.xml 包括采样率、带宽等一些必要的信息,以及四角点经纬度等 4 P波段Mask图 ID_Band_Mask.jpg Uint8量化,不同的值表示不同的类,详见下文说明 5 P波段标注文件 ID_Band_Label.json 每个切片各一个JSON文件,详见下文说明 6 L波段L1B图像 ID_Band_PQ_L1B.jpg 图像尺寸在1024×1024~4096×4096之间;Uint16量化 7 L波段SLC数据 ID_Band_PQ_L1A.dat 与L1B.jpg严格对应,float32量化,IQIQIQ交替存储 8 L波段数据的元文件 ID_Band_PQ_meta.xml 包括采样率、带宽等一些必要的信息,以及四角点经纬度等 9 L波段Mask图 ID_Band_Mask.jpg Uint8量化,不同的值表示不同的类,详见下文说明 10 L波段标注文件 ID_Band_Label.json 每个切片各一个JSON文件,详见下文说明 11 C波段L1B图像 ID_Band_PQ_L1B.jpg 图像尺寸在1024×1024~4096×4096之间;Uint16量化 12 C波段SLC数据 ID_Band_PQ_L1A.dat 与L1B.jpg严格对应,float32量化,IQIQIQ交替存储 13 C波段数据的元文件 ID_Band_PQ_meta.xml 包括采样率、带宽等一些必要的信息,以及四角点经纬度等 14 C波段Mask图 ID_Band_Mask.jpg Uint8量化,不同的值表示不同的类,详见下文说明 15 C波段标注文件 ID_Band_Label.json 每个切片各一个JSON文件,详见下文说明 16 X波段L1B图像 ID_Band_PQ_L1B.jpg 图像尺寸在1024×1024~4096×4096之间;Uint16量化 17 X波段SLC数据 ID_Band_PQ_L1A.dat 与L1B.jpg严格对应,float32量化,IQIQIQ交替存储 18 X波段数据的元文件 ID_Band_PQ_meta.xml 包括采样率、带宽等一些必要的信息,以及四角点经纬度等 19 X波段Mask图 ID_Band_Mask.jpg Uint8量化,不同的值表示不同的类,详见下文说明 20 X波段标注文件 ID_Band_Label.json 每个切片各一个JSON文件,详见下文说明 21 每个波段与参考波段的像素对应关系文件 relationship.txt 以C波段作为参考波段 22 总体的标注文件 ID_Overall_Label.json 这个文件是之前各个波段JSON文件的综合,一个实例会对应不同的image_id的不同范围 注:ID是这个切片的唯一编号;Band: P, L, S, C等,表示波段;PQ: HH, HV, VH, VV等,表示极化方式。 表 3 多波段极化通道间的像素偏移检测结果
Table 3. Detection results of pixel migration between multiband SAR polarization channels
波段 方向 HH-HV(像素) HH-VH(像素) HH-VV(像素) P 距离向 –0.1 0 0 方位向 0 0 –0.2 L 距离向 –0.1 1.0 –0.2 方位向 0.2 0.1 –0.3 S 距离向 0 0.2 0.1 方位向 0.1 0.4 0.2 C 距离向 1.2 0.1 1.3 方位向 –0.1 –0.1 –0.3 X 距离向 0.5 –0.9 –0.6 方位向 0 –0.1 –0.1 表 4 多波段极化失真参数估计结果
Table 4. Estimation results of multiband SAR polarization distortion parameters
波段 发射端幅度不平衡(dB) 发射端相位不平衡(°) 接收端幅度不平衡(dB) 接收端相位不平衡(°) 极化隔离度(dB) P –3.51 –44.16 –1.16 –40.83 27.79 L 1.64 –72.72 2.22 5.55 24.48 S 4.75 107.91 –2.27 21.06 25.16 C 2.18 0.48 2.95 90.51 31.26 X –1.54 33.86 0.99 6.44 26.18 表 5 分类参数
Table 5. Parameters used for classification
参数 获取方法 Alpha, H, A, (1–H)(1–A) H-alpha-A分解 Y4_Odd, Y4_Dbl, Y4_Vol, Y4_Hlx Yamaguchi分解 SPAN, T11, T22, T33 T矩阵 表 6 模型1分类结果混淆矩阵和召回率
Table 6. Model 1 classification result confusion matrix and recall rate
真值 预测 1 2 3 4 5 Recall 1 276607 27878 1057 14577 87 0.8638 2 83245 95333 3223 11422 951 0.4910 3 2301 6846 71840 1385 0 0.8721 4 73156 3924 273 127090 3691 0.6106 5 4670 1350 0 2967 268945 0.9677 表 7 模型2分类结果混淆矩阵和召回率
Table 7. Model 2 classification result confusion matrix and recall rate
真值 预测 1 2 3 4 5 Recall 1 276238 22265 9627 12008 68 0.8627 2 144229 31880 6756 10927 382 0.1642 3 9053 2030 68807 2482 0 0.8353 4 114212 6329 4703 80838 2052 0.3884 5 10613 304 510 6780 259725 0.9345 表 8 模型3分类结果混淆矩阵和召回率
Table 8. Model 3 classification result confusion matrix and recall rate
真值 预测 1 2 3 4 5 Recall 1 264998 27494 11779 15721 214 0.8276 2 143599 28563 9246 12036 730 0.1471 3 4035 4230 72380 1726 1 0.8787 4 89643 7335 5098 100168 5890 0.4813 5 12677 230 72 5000 259953 0.9353 表 9 模型4分类结果混淆矩阵和召回率
Table 9. Model 4 classification result confusion matrix and recall rate
真值 预测 1 2 3 4 5 Recall 1 278463 20239 6438 14955 111 0.8696 2 149579 20500 8838 14053 1204 0.1056 3 4655 5676 70645 1396 0 0.8576 4 95297 11409 4501 90199 6728 0.4334 5 6418 1145 563 8288 261518 0.9409 表 10 模型5分类结果混淆矩阵和召回率
Table 10. Model 5 classification result confusion matrix and recall rate
真值 预测 1 2 3 4 5 Recall 1 278361 16519 9412 12555 3359 0.8693 2 130637 23062 14786 14016 11673 0.1188 3 24496 10469 45519 1685 203 0.5526 4 162640 12980 4677 26304 1533 0.1264 5 44108 28618 3508 6964 194734 0.7007 表 11 模型6分类结果混淆矩阵和召回率
Table 11. Model 6 classification result confusion matrix and recall rate
真值 预测 1 2 3 4 5 Recall 1 274014 18665 6258 12666 8603 0.8557 2 98518 44169 28736 4580 18171 0.2275 3 8163 10326 57887 756 5240 0.7028 4 169684 8344 1744 26559 1803 0.1276 5 37395 10402 7306 29010 193819 0.6974 -
[1] 亓宁轩, 罗征宇, 李彬. 基于多波段全极化SAR影像的湿地分类[J]. 测绘与空间地理信息, 2017, 40(1): 171–174. doi: 10.3969/j.issn.1672-5867.2017.01.051.QI Ningxuan, LUO Zhengyu, and LI Bin. Multi-band polarization SAR wetlands classification[J]. Geomatics & Spatial Information Technology, 2017, 40(1): 171–174. doi: 10.3969/j.issn.1672-5867.2017.01.051. [2] 丁赤飚, 仇晓兰, 吴一戎. 全息合成孔径雷达的概念、体制和方法[J]. 雷达学报, 2020, 9(3): 399–408. doi: 10.12000/JR20063.DING Chibiao, QIU Xiaolan, and WU Yirong. Concept, system, and method of holographic synthetic aperture radar[J]. Journal of Radars, 2020, 9(3): 399–412. doi: 10.12000/JR20063. [3] YIN Junjun and YANG Jian. A modified level set approach for segmentation of multiband polarimetric SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(11): 7222–7232. doi: 10.1109/TGRS.2014.2309725. [4] 廖静娟, 郭华东, 邵芸. 多波段多极化成像雷达图象识别森林类型效果分析[J]. 中国图象图形学报, 2000, 5(1): 30–33. doi: 10.3969/j.issn.1006-8961.2000.01.007.LIAO Jingjuan, GUO Huadong, and SHAO Yun. Effect of forest types discrimination using multifrequency and multipolarization imaging radar images[J]. Journal of Image and Graphics, 2000, 5(1): 30–33. doi: 10.3969/j.issn.1006-8961.2000.01.007. [5] 王之禹, 朱敏慧, 白有天. 基于最优状态的多波段全极化SAR数据ML分类方法[J]. 电子与信息学报, 2001, 23(5): 507–511.WANG Zhiyu, ZHU Minhui, and BAI Youtian. Optimal state based ml classification method for multi-band and full-polarization SAR data[J]. Journal of Electronics & Information Technology, 2001, 23(5): 507–511. [6] 丁赤飚, 仇晓兰, 徐丰, 等. 合成孔径雷达三维成像—从层析、阵列到微波视觉[J]. 雷达学报, 2019, 8(6): 693–709. doi: 10.12000/JR19090.DING Chibiao, QIU Xiaolan, XU Feng, et al. Synthetic aperture radar three-dimensional imaging—from TomoSAR and array InSAR to microwave vision[J]. Journal of Radars, 2019, 8(6): 693–709. doi: 10.12000/JR19090. [7] VILLANO M. SNR and noise variance estimation in polarimetric SAR data[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(1): 278–282. doi: 10.1109/LGRS.2013.2255860. [8] JIANG Sha, QIU Xiaolan, HAN Bing, et al. A quality assessment method based on common distributed targets for GF-3 polarimetric SAR data[J]. Sensors, 2018, 18(3): 807. doi: 10.3390/s18030807. [9] CLOUDE S R and POTTIER E. A review of target decomposition theorems in radar polarimetry[J]. IEEE Transactions on Geoscience and Remote Sensing, 1996, 34(2): 498–518. doi: 10.1109/36.485127. [10] 曹芳. 基于Cloude-Pottier分解的全极化SAR数据非监督分类的算法和实验研究[D]. 北京: 中国科学院研究生院(电子学研究所), 2007.CAO Fang. The unsupervised classification based on the Cloude-Pottier decomposition for fully polarimetric SAR data[D]. Bejing: Institute of Electronics, Chinese Academy of Science, 2007. [11] 徐乔, 张霄, 余绍淮, 等. 综合多特征的极化SAR图像随机森林分类算法[J]. 遥感学报, 2019, 23(4): 685–694. doi: 10.11834/jrs.20197475.XU Qiao, ZHANG Xiao, YU Shaohuai, et al. Multi-feature-based classification method using random forest and superpixels for polarimetric SAR images[J]. Journal of Remote Sensing, 2019, 23(4): 685–694. doi: 10.11834/jrs.20197475. -