双基SAR空时自适应ANM-ADMM-Net杂波抑制技术

李中余; 皮浩卓; 李俊奥; 杨青; 武俊杰; 杨建宇

doi:10.12000/JR24032

双基SAR空时自适应ANM-ADMM-Net杂波抑制技术

DOI: 10.12000/JR24032

电子科技大学信息与通信工程学院成都 611731

基金项目: 国家自然科学基金(62171084)，衢州市财政资助科研项目(2022D014)

详细信息

作者简介:
李中余，博士，教授，主要研究方向为双/多基雷达舰船目标检测与成像技术、新体制雷达探测与成像技术等

皮浩卓，硕士生，主要研究方向为双基SAR杂波抑制方向

李俊奥，博士生，主要研究方向为合成孔径雷达与动目标成像

杨　青，博士生，主要研究方向为双基合成孔径雷达舰船目标检测与成像技术

武俊杰，博士，教授，主要研究方向为前视SAR成像技术、双/多基合成孔径雷达、雷达信号处理等

杨建宇，博士，教授，主要研究方向为新体制雷达成像技术、雷达信号处理、合成孔径雷达成像等

通讯作者:
李中余 zhongyu_li@uestc.edu.cn

皮浩卓 pihaozhuo_uestc@163.com

责任主编：朱岱寅 Corresponding Editor: ZHU Daiyin
中图分类号: TN951
计量
- 文章访问数: 384
- HTML全文浏览量: 158
- PDF下载量: 178
- 被引次数: 5
出版历程
- 收稿日期: 2024-02-29
- 修回日期: 2024-05-23
- 网络出版日期: 2024-06-26

Clutter Suppression Technology Based Space-time Adaptive ANM-ADMM-Net for Bistatic SAR

School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China

Funds: The National Natural Science Foundation of China (62171084), The Municipal Government of Quzhou (2022D014)

More Information

Corresponding author: LI Zhongyu, zhongyu_li@uestc.edu.cn; PI Haozhuo, pihaozhuo_uestc@163.com

摘要

摘要: 双基合成孔径雷达(BiSAR)在实现对地面运动目标检测和成像时，需要抑制地面背景杂波。然而由于双基SAR收发分置的空间构型，会导致主瓣杂波出现严重的空时非平稳问题，从而恶化杂波抑制性能。基于稀疏恢复空时自适应处理方法(SR-STAP)虽然可以通过降低样本数量减少非平稳的影响，但是在处理过程中会出现字典离网问题，从而导致空时谱估计效果下降。并且大部分现有的典型SR-STAP方法虽然具有明确的数学关系和可解释性，但在针对复杂、多变场景时，也存在参数设置不恰当、运算复杂等问题。为解决上述一系列问题，该文提出了一种适用于双基SAR空时自适应杂波抑制处理的基于交替方向乘子法(ADMM)的复值神经网络ANM-ADMM-Net。首先，基于原子范数最小化(ANM)构建双基SAR连续空时域下杂波谱的稀疏恢复模型，克服传统离散字典模型下的离网问题；其次，采取ADMM对该双基SAR杂波谱稀疏恢复模型进行快速迭代求解；然后，根据迭代流程和数据流图进行网络化处理，将人工超参数迭代过程转换为网络可学习的ANM-ADMM-Net；再次，设置归一化均方根误差网络损失函数，并利用获取的数据集对网络模型进行训练；最后，利用训练后的ANM-ADMM-Net网络架构对双基SAR回波数据进行快速迭代处理，从而完成双基SAR杂波空时谱的精确估计和高效抑制。该文通过仿真试验和实测数据处理，表明该方法具有更好的杂波抑制性能和更加高效的运算效率。
- 双基合成孔径雷达(BiSAR) /
- 稀疏恢复 /
- 空时处理 /
- 杂波抑制 /
- 复值神经网络
Abstract: Bistatic Synthetic Aperture Radar (BiSAR) needs to suppress ground background clutter when detecting and imaging ground moving targets. However, due to the spatial configuration of BiSAR, the clutter poses a serious space-time nonstationary problem, which deteriorates the clutter suppression performance. Although Space-Time Adaptive Processing based on Sparse Recovery (SR-STAP) can reduce the nonstationary problem by reducing the number of samples, the off-grid dictionary problem will occur during processing, resulting in a decrease in the space-time spectrum estimation effect. Although most of the typical SR-STAP methods have clear mathematical relations and interpretability, they also have some problems, such as improper parameter setting and complicated operation in complex and changeable scenes. To solve the aforementioned problems, a complex neural network based on the Alternating Direction Multiplier Method (ADMM), is proposed for BiSAR space-time adaptive clutter suppression. First, a sparse recovery model of the continuous clutter space-time domain of BiSAR is constructed based on the Atomic Norm Minimization (ANM) to overcome the off-grid problem associated with the traditional discrete dictionary model. Second, ADMM is used to rapidly and iteratively solve the BiSAR clutter spectral sparse recovery model. Third according to the iterative and data flow diagrams, the artificial hyperparameter iterative process is transformed into ANM-ADMM-Net. Then, the normalized root-mean-square-error network loss function is set up and the network model is trained with the obtained data set. Finally, the trained ANM-ADMM-Net architecture is used to quickly process BiSAR echo data, and the space-time spectrum of BiSAR clutter is accurately estimated and efficiently restrained. The effectiveness of this approach is validated through simulations and airborne BiSAR clutter suppression experiments.
- Bistatic Synthetic Aperture Radar (BiSAR) /
- Sparse recovery /
- Space-time processing /
- Clutter Suppression /
- Complex-valued neural network

HTML全文

1. 引言

在现代战争中，敌方为了获取电磁频谱优势与战场主动权，通常会发射各种有源干扰破坏雷达作战性能，从而掩护目标完成预定的作战任务^[1]。雷达为了应对各种干扰，相应的抗干扰技术在对抗中不断升级^[2]。一般来说，抗干扰技术按照雷达处理阶段的不同可以分为主动抗干扰和被动抗干扰^[3]。在雷达发射信号阶段，主动抗干扰技术可以通过雷达波形设计降低敌方干扰机对雷达信号的截获概率或识别概率，从而降低干扰机的干扰效能^[4−6]。如果雷达已经接收到了干扰信号，被动抗干扰技术可以通过空、时、频等多个处理域完成目标与干扰的分离，达到对干扰抑制的目的^[7−9]。

随着雷达抗干扰研究的不断深入，被动抗干扰手段日益丰富。然而，挂载在掩护目标上的自卫式干扰机通过发射大功率瞄准干扰，使干扰与目标回波在多处理域重叠，难以分离。频率捷变雷达通过使用自主调节发射信号载频的主动抗干扰手段，使得干扰机难以截获和干扰，为对抗自卫式压制干扰提供了可能^[10]。其抗干扰性能主要取决于跳频策略，传统随机跳频策略已经被证明不是最佳选择^[11]。如何精准预测干扰机下一时刻将要发射的干扰频点，从而指导雷达信号的频点选择，是频率捷变雷达在与干扰机博弈中取胜的主要难点。

相比针对静态优化问题设计的启发式搜索算法，强化学习可以让智能体与环境不断交互，获得反馈，从而指导智能体在动态环境下进行决策^[12]。基于深度学习模型强大的数据表征能力而衍生出的深度强化学习，能够处理高维数据并完成非线性映射，弥补了传统强化学习算法的不足^[13]，在认知电子战方面已经得到了一定的研究。如果将干扰信息看作环境状态，抗干扰措施看作雷达动作，抗干扰效能看作即时回报，那么认知抗干扰决策问题可以通过强化学习技术解决。文献[14]针对干扰类型和参数固定的复合干扰场景，分别使用Q学习和SARSA (State-Action-Reward-State-Action)探索了抗干扰措施组合选取问题。文献[15]使用改进的DDPG (Deep Deterministic Policy Gradient)算法对12种抗干扰措施进行选择，以实施抗干扰措施前后干扰威胁度变化作为反馈。文献[16]使用DDPG-MADDPG (Deep Deterministic Policy Gradient and the Multi-Agent Deep Deterministic Policy Gradient)对包含复合干扰在内的12种干扰类型，以抗干扰改善因子作为反馈，进行多处理域抗干扰措施自适应选取。

在频点决策方面，强化学习主要围绕瞄频或扫频干扰的频率捷变波形设计展开研究^[17]。文献[18]首次对雷达脉冲级跳频策略展开研究，分别对比了随机频点选择、Q学习、深度Q网络(Deep Q-Network, DQN)等3种策略，证明了DQN在决策方面具备更好的性能。并在文献[19]中继续深化研究内容，将检测概率作为奖励值，而不是之前论文中的信干噪比，同时优化了DQN模型。文献[20]在文献[18]和文献[19]工作的基础上，考虑了一种具备侦收功能的干扰机，以及子脉冲频率捷变雷达，并基于近端策略优化(Proximal Policy Optimization, PPO)算法完成智能决策。文献[21]考虑了网络化无人机雷达工作系统，使用雷达信息表示理论作为奖励函数，基于双贪婪的改进Q学习算法优化系统抗干扰性能。文献[22]假定干扰机也具备马尔科夫性质，在预测得到干扰策略的基础上选择雷达频点与之对抗。文献[23]考虑了跳频速率会影响相干积分性能和多普勒分辨率，使用Q学习自适应调整雷达发射波形的脉宽和频点以对抗扫频干扰。

总体来说，上述研究均基于雷达不同的性能指标设计奖励函数，以此优化频点等雷达参数。虽然在对抗成功率方面超过随机频点决策方法，然而缺少对抗干扰策略收敛速度的讨论。应当指出，在现代电子战中，干扰机可能具备多种策略，并根据某种规则在不同策略间切换。因此雷达在进行抗干扰策略学习时，应当尽快收敛到最优策略，从而保持对抗先机。如果雷达还未收敛到最优策略时，干扰机改变策略，那么雷达将陷入被动地位。因此，网络收敛时间或是所需样本量是评价一个智能化算法能够应用于实际作战场景的重要衡量指标。

受上述研究启发，考虑到现代干扰机具备侦收-瞄准-干扰的基本策略，本文针对频率捷变雷达，设计了一种基于强化学习的雷达子脉冲跳频抗干扰策略。将当前时刻感知到的干扰频点以及上一时刻的雷达频点作为状态，将当前时刻的雷达频点选择策略作为动作，以目标检测结果和信干噪比作为即时奖励函数设计强化学习关键要素，基于DQN完成子脉冲频点选取策略的学习。仿真针对两种不同侦收策略的干扰机，证明了所提方法的有效性以及较高的收敛效率。

与文献[20]不同的是，本文的主要贡献在于如何通过对强化学习关键要素的设计，从而达到快速收敛到最优解的目的，而不是在于网络设计与修改。具体包括4点：(1)虽然干扰机具备侦干周期，但是我们通过状态空间的合理设计，仅使用单个时间步即可学习到干扰周期性策略，同时不需要使用长短期记忆网络(Long Short-Term Memory, LSTM)等时间记忆网络即可完成最优策略学习，显著降低了收敛时间。(2)在动作设计方面，我们设计了一种子脉冲频点可重复选取的特殊波形，增大了动作空间选取范围。(3)在动作选取方面，我们通过 $\varepsilon$ -贪婪原则，实现了搜索和利用的有效平衡。在训练初期，以随机搜索为主，减小了收敛到局部最优解的概率。随着训练过程的进行，随机搜索概率逐渐降低，选择网络输出动作的概率逐渐增加，便于收敛。(4)在奖励设计方面，围绕目标检测性能，在单次目标检测结果的基础上，引入了更具差异性的信干噪比指标，缓解了因为采样不充分可能收敛到局部最优解的情况。

2. 背景

2.1 子脉冲频率捷变波形设计

由于现代干扰机可以对接收到的雷达信号进行快速测频与频率引导，对传统雷达具备较大威胁。而频率捷变雷达可以实现子脉冲级的频率调制，为与其对抗提供了可能。作为常用的雷达传输信号波形，基于线性调频(Linear Frequency Modulation, LFM)信号的子脉冲频率捷变波形如图1(a)所示，其时域表达式如下：

图 1 频率捷变波形示意图

Figure 1. Schematic diagram of the frequency agility waveform

下载: 全尺寸图片幻灯片

$\begin{split} {s_t}\left( t \right) = \,&\sum\limits_{n = 1}^N {\text{rect}}\left[ {{{\left( {t - {\tau _n}} \right)} \mathord{\left/ {\vphantom {{\left( {t - {\tau _n}} \right)} {{T_{{\mathrm{sub}}}}}}} \right. } {{T_{{\mathrm{sub}}}}}}} \right]\exp \left[ {{\text{j}}2\pi {f_n}\left( {t - {\tau _n}} \right)} \right]\\ & \cdot \exp \left[ {{\text{j}}\pi {K_n}{{\left( {t - {\tau _n}} \right)}^2}} \right]\\[-1pt] \end{split}$

(1)

其中， $\text{rect}(\cdot)$ 表示矩形窗函数，N表示子脉冲个数， ${T_{{\mathrm{sub}}}}$ 表示子脉冲脉宽； ${\tau _n}$ 表示第n个子脉冲的延时， ${f_n}$ 表示子脉冲频点， ${K_n}$ 表示第n个子脉冲的调频斜率。频率捷变雷达各可选频点应当去相关从而达到频率抗干扰的目的，即保证 ${s_i}\left( \omega \right){s_j}\left( \omega \right) = 0$ ，其中， ${s_i}\left( \omega \right)$ 表示子脉冲 i 的频谱， ${s_j}\left( \omega \right)$ 表示子脉冲 j的频谱。

式(1)所定义的传统频率捷变雷达在进行子脉冲频点选取时，通常会选择不同的雷达频点。为扩充频点选取自由度，增大波形复杂度，本文设计了一种子脉冲频点可重复选取的雷达发射波形，如图1(b)所示。当相邻子脉冲选取重复频点时，则将其合成一个宽脉冲，其脉宽为 ${T_{{\mathrm{com}}}} = {N_{{\mathrm{rep}}}}{T_{{\mathrm{sub}}}}$ ，其中 ${N_{{\mathrm{rep}}}}$ 表示选取相同频点的相邻子脉冲数量。同时保证合成后的宽脉冲带宽不变，即 ${B_{{\mathrm{com}}}} = {B_{{\mathrm{sub}}}}$ 。合成后的脉冲数用 ${N_{{\mathrm{com}}}}$ 表示。

2.2 强化学习与Q学习算法原理

强化学习可以由马尔科夫决策过程(Markov Decision Process, MDP)描述，满足马尔科夫性质。强化学习的优化目标为最大化累计回报，定义为

${G_t} = {r_t} + \gamma {r_{t + 1}} + {\gamma ^2}{r_{t + 2}} + \cdots = \sum\limits_{k = 0}^\infty {{\gamma ^k}{r_{t + k}}}$

(2)

其中， ${r_t}$ 表示智能体在状态 ${s_t}$ 下执行动作 ${a_t}$ 并转移到 ${s_{t + 1}}$ 后得到的回报； $\gamma$ 为折扣因子，是 ${s_{t + 1}}$ 及其之后的奖励权重，取值范围为0～1，表示对未来奖励的重视程度。

由于MDP是一种随机过程，其随机独立性导致累计回报 ${G_t}$ 是一个随机变量，无法定量描述，如图2所示。因此可对累计回报取期望，获得状态值函数 ${V_{\pi} }\left( s \right)$ 和动作状态值函数 ${Q_{\pi} }\left( {s,a} \right)$ ，将优化问题变成找到一种最优策略 $\pi$ ，使任意一个状态的 ${V_{\pi} }\left( s \right)$ 或 ${Q_{\pi }}\left( {s,a} \right)$ 为最大。而Q学习的优化目标是针对 ${Q_{\pi} }\left( {s,a} \right)$ ，其贝尔曼方程及最优动作状态值函数 ${Q_*}\left( {s,a} \right)$ 定义如下：

图 2 MDP的随机独立性与强化学习的优化目标

Figure 2. The random independence of MDP and the optimization objectives of reinforcement learning

下载: 全尺寸图片幻灯片

$\begin{split} {Q_{\pi} }\left( {s,a} \right) =\,& \sum\limits_{{s'} \in {\boldsymbol{S}}} {p\left( {{s'}\left| {s,a} \right.} \right)} \Biggr[ r\left( {s,a,{s'}} \right) \\ & + \gamma \sum\limits_{{a'} \in {\boldsymbol A}} {\pi \left( {{a'}\left| {{s'}} \right.} \right){Q_{\pi} }\left( {{s'},{a'}} \right)} \Biggr] \end{split}$

(3)

$\begin{split} {Q_*}\left( {s,a} \right) = \,& \sum\limits_{{s'} \in {\boldsymbol{S}}} {p\left( {{s'}\left| {s,a} \right.} \right)} \Biggr[ r\left( {s,a,{s'}} \right) \quad\\ & + \gamma \mathop {\max }\limits_{{a'}} {Q_*}\left( {{s'},{a'}} \right) \Biggr] \end{split}$

(4)

其中， ${r_t} = r\left( {s,a} \right) = \displaystyle\sum\nolimits_a {p\left( {{s'}\left| {s,a} \right.} \right)} r\left( {s,a,{s'}} \right)$ 。 $p\left( {{s'}\left| {s,a} \right.} \right)$ 为某状态s执行动作a后，转移到下一状态 ${s'}$ 的概率。

由于在实际场景中，我们可能不知道环境先验信息 $p\left( {{s'}\left| {s,a} \right.} \right)$ ，因此无法获得值函数的解析表示。而Q学习可以通过多次取平均的方式，近似估计得到Q。具体来说，从任意状态开始与环境1个时间步长，利用t时刻的即时回报 ${r_t}$ 和下一时刻最大的状态动作值函数 $Q\left( {{s_{t + 1}},{a_{t + 1}'}} \right)$ 对当前时刻动作状态值函数 $Q\left( {{s_t},{a_t}} \right)$ 进行估计，最后重复上述动作多次取平均。值函数的更新公式为

$\begin{split} &Q\left( {{s_t},{a_t}} \right) = Q\left( {{s_t},{a_t}} \right) \\ & \quad + \alpha \left[ {{r_t} + \gamma \mathop {\max }\limits_{a'} Q\left( {{s_{t + 1}},a_{t + 1}'} \right) - Q\left( {{s_t},{a_t}} \right)} \right] \end{split}$

(5)

其中， $\alpha$ 为学习率，表示更新的步长。

Q学习通过不断与环境进行交互来获取并更新Q值，并将Q值存入到由状态和动作组成的Q表中。待智能体学习完成后，根据当前状态的Q值来选取能够获取最大收益的动作。

3. 基于深度Q网络的自适应频点决策

3.1 基于深度Q网络的子脉冲频点决策模型

雷达子脉冲级频点决策往往对应于指数级增长的动作空间，而传统Q学习基于Q表存储和查找Q值，维护难度巨大。而DQN利用神经网络拟合值函数，替换了传统Q表的存储方式，有效解决了高维状态和动作空间的寻优问题。

DQN与Q学习的主要区别在于网络部分，其采用目标值网络和估计值网络组成的双网络。估计值Q网络输出 $Q\left( {{s_t},{a_t};\theta } \right)$ ，用来评估当前状态动作对的未来累计回报期望。目标值 ${{\hat {\mathrm{Q}}}}$ 网络输出 $\hat Q\left( {s_{t + 1}}, a_{t + 1}';{\theta ^ - } \right)$ ，并根据贝尔曼最优方程，使用 $y = {r_t} + \gamma \max \hat Q\left( {{s_{t + 1}},a_{t + 1}';{\theta ^ - }} \right)$ 表示 ${{Q}}$ 函数的优化目标。其网络训练过程如图3所示。

图 3 DQN网络参数的更新过程

Figure 3. The network parameter update process of DQN

下载: 全尺寸图片幻灯片

输入当前状态 ${s_t}$ ，通过估计值网络预测得到当前状态 ${s_t}$ 对应的不同动作 ${a_t}$ 的Q值，然后通过 $\varepsilon$ -贪婪原则选择 ${a_t}$ 并转至下一状态 ${s_{t + 1}}$ ，同时获得 ${r_t}$ 。通过目标值网络计算下一状态 ${s_{t + 1}}$ 的最大 $\hat Q$ 值，将其与估计值作差更新估计值网络参数 $\theta$ ，表示为

$L = \left[ {{r_t} + \gamma \mathop {\max }\limits_{a'} \hat Q\left( {{s_{t + 1}},a_{t + 1}';{\theta ^ - }} \right) - Q\left( {{s_t},{a_t};\theta } \right)} \right]$

(6)

其中， $\varepsilon$ -贪婪原则以概率 $1 - \varepsilon$ 选择估计值网络输出的具有最大Q值的频点，以概率 $\varepsilon$ 随机选择频点，并随着训练步数的增加减小 $\varepsilon$ ，从而达到搜索和利用的充分结合。

上述流程经过一定次数后，基于软更新来更新目标值网络参数 ${\theta ^ - }$ ：

${\theta ^ - } = \tau \theta + \left( {1 - \tau } \right){\theta ^ - }$

(7)

其中， $0 < \tau \ll 1$ 表示软间隔更新系数。由于在一段时间内目标值具有一定稳定性，这能在一定程度上降低估计值 ${\text{Q}}$ 网络和目标值 ${{\hat {\mathrm{Q}}}}$ 网络之间的耦合性，提升了网络的收敛性和稳定性。

训练完成后，测试时直接输入当前时刻状态至训练好的模型中，即可获取最优动作。

3.2 强化学习关键要素设计

上述提及的状态、动作和奖励是强化学习的关键要素，其中状态和奖励是算法的输入，动作是算法的输出。设置如下：

(1) 状态空间：假设雷达能够通过干扰感知等手段获取干扰频点信息，则状态空间由雷达子脉冲频点和干扰频点组成。

$\begin{split} {\boldsymbol{S}} \;& = \left[ {{f_{{\mathrm{R}},t - 1}},{f_{{\mathrm{J}},t}}} \right] \\ & = \left[ {{f_{{\mathrm{sub1}},t - 1}},{f_{{\mathrm{sub2}},t - 1}}, \cdots ,{f_{{\mathrm{sub}}N,t - 1}},{f_{{\mathrm{J}},t}}} \right] \end{split}$

(8)

其中， ${f_{{\mathrm{R}},t - 1}} = \left[ {{f_{{\mathrm{sub1}},t - 1}},{f_{{\mathrm{sub2}},t - 1}}, \cdots ,{f_{{\mathrm{sub}}N,t - 1}}} \right]$ 和 ${f_{{\mathrm{J}},t}}$ 分别表示 $t - 1$ 时刻雷达N个子脉冲的频点选择以及t时刻干扰瞄准频点。 ${f_{{\mathrm{J}},t}}$ 取值范围为 $1 {\text{～}} \left( {N + 1} \right)$ ， $1 {\text{～}} N$ 表示干扰机发射窄带瞄频干扰的瞄准频点， $\left( {N + 1} \right)$ 表示干扰机发射宽带阻塞干扰。 ${f_{{\mathrm{sub}}n,t}}\left( {1 \le n \le N} \right)$ 的取值范围为 $1 {\text{～}} N$ ，表示第n个子脉冲的频点。

(2) 动作空间：t时刻雷达N个子脉冲频点选择：

${\boldsymbol{A}} = {f_{{\mathrm{R}},t}} = \left[ {{f_{{\mathrm{sub1}},t}},{f_{{\mathrm{sub2}},t}}, \cdots ,{f_{{\mathrm{sub}}N,t}}} \right]$

(9)

(3) 奖励函数：奖励函数应当围绕雷达作战任务设置，本文以预警雷达为例，采用目标检测结果 ${F_{\mathrm{d}}}$ 和信干噪比(Signal-to-Jamming-plus-Noise Ratio, SJNR)作为评价指标。前者直接反映了目标检测能力，而后者的存在加快了最优解的收敛速度，降低收敛到局部最优解的可能，从而最大化目标检测性能。定义如下：

$R = \sum\limits_{n = 1}^{{N_{{\mathrm{com}}}}} {\left( {{N_{{\mathrm{rep}},n}}{F_{{\mathrm{d}},n}} - {{{{\mathrm{SJNR}}_n}} \mathord{\left/ {\vphantom {{SJN{R_n}} {{N_{com}}}}} \right. } {{N_{{\mathrm{com}}}}}}} \right)}$

(10)

${{\mathrm{SJNR}}}_{n}=\left\{\begin{aligned} & \left({{{P}}}_{{\mathrm{T}},n}-{\bar{P}}_{{\mathrm{JN}},n}\right)/\eta ,\; {F}_{{\mathrm{d}},n}=1\\ &0,\qquad\qquad\qquad\quad\;\; {F}_{{\mathrm{d}},n}=-1\end{aligned}\right.$

(11)

其中，对于目标检测结果 ${F_{\mathrm{d}}}$ ，我们可以根据提前获取的战场态势信息预估目标距离波门，在子脉冲脉压后基于单元平均恒虚警率(Cell Average-Constant False Alarm Rate, CA-CFAR)检测判断目标能否被检测到^[24]。如果第n个子脉冲检测到目标则 ${F_{{\mathrm{d}},n}} = 1$ ，反之则 ${F_{{\mathrm{d}},n}} = - 1$ 。同时可以获取目标平均功率 ${P_{{\mathrm{T}},n}}$ 和干扰噪声平均功率 ${\bar P_{{\mathrm{JN}},n}}$ 。 $\eta$ 为归一化系数，用来将信干噪比限制在0～1之间，从而提高训练稳定性。

结合状态、动作和奖励的定义，基于深度Q网络的雷达子脉冲频点决策流程如算法1所示。

1 基于深度Q网络的雷达子脉冲频点决策

1. Radar sub-pulse frequency decision based on Deep Q-Network (DQN)

Step 1：初始化：
Step 1-1：使用随机参数 $\theta$ 初始化估计值 ${\text{Q}}$ 网络
Step 1-2：使用参数 ${\theta ^ - }{\text{=}}\theta$ 初始化目标值 ${{\hat {\rm Q}}}$ 网络
Step 1-3：初始化经验池D
Step 1-4：初始化干扰策略，雷达子脉冲数量及频点，折扣因　　子 $\gamma$ ，学习率 $\alpha$ ，贪婪因子 $\varepsilon$ ，软间隔更新系数 $\tau$ 等参数
Step 2：每幕：
Step 2-1：设置初始状态 ${s_1} = \left[ {{f_{{\mathrm{R}},0}},{f_{{\mathrm{J}},1}}} \right]$
Step 2-2：每个时间步：
Step 2-2-1：使用 $\varepsilon$ -贪婪原则依据估计值网络的输出结果选择　　各子脉冲频点 ${a_t} = {f_{{\mathrm{R}},t}} = \left[ {{f_{{\mathrm{sub}}1,t}},{f_{{\mathrm{sub}}2,t}}, \cdots ,{f_{{\mathrm{sub}}N,t}}} \right]$ ，即以　　 $1 - \varepsilon$ 概率选择估计值网络输出的最佳的频点或者以 $\varepsilon$ 概率随　　机选择频点
Step 2-2-2：雷达发射子脉冲频率捷变波形，接收到回波后，感　　知得到下一时刻状态 ${s_{t + 1}}$ 并根据目标检测结果和脉压后的信　　干噪比评估当前时刻奖励 ${r_t}$
Step 2-2-3：将 $\left( {{s_t},{a_t},{r_t},s{}_{t + 1}} \right)$ 存储到经验池D中，如果经验池　　中的样本数超出预定数量，则删除早期训练样本数据，以便存　　储并使用最新样本数据
Step 2-2-4：如果经验池D中保存数量超过起始值，则从D中选　　择批大小(batchsize)个样本作为训练集输入到估计值和目标值　　网络中，分别计算得到 $Q\left( {{s_t},{a_t};\theta } \right)$ 和 $y = {r_t} + \gamma \max \hat Q ( {s_{t + 1}},$ 　　 $a_{t + 1}';{\theta ^ - } )$ ，并反向梯度求导使误差函数 $L\left( \theta \right) = \left[ y - Q\left( {s_t},{a_t}; \right.\right.$ 　　 $\left. \left.\theta \right) \right]^2$ 趋近0，更新估计值网络参数 $\theta$
Step 2-2-5：每隔一定的时间步软更新目标值网络参数 ${\theta ^ - }$
Step 2-3：结束该时间步
Step 2-4：降低贪婪概率 $\varepsilon$
Step 3：结束该幕

下载: 导出CSV

| 显示表格

4. 仿真与分析

4.1 场景设置

4.1.1 仿真参数设置

本文以3个子脉冲和3个可选频点为例，讨论DQN应用于子脉冲频点自适应选取的可行性。为避免子脉冲脉压后出现虚假目标，非相邻子脉冲不能选取重复频点，因此动作总数为 ${3^3} - 6 = 21$ 。频率捷变信号、干扰、DQN的仿真参数分别如表1—表3所示。其中，每幕表示1个相参处理间隔(Coherent Processing Interval, CPI)，时间步t表示某个CPI中的第t个脉冲重复周期。

表 1 频率捷变信号参数设置

Table 1. The parameter settings of frequency agile signal

参数	数值
子脉冲调制类型	LFM
子脉冲个数	3
子脉冲频点	[10 MHz, 30 MHz, 50 MHz]
子脉冲脉宽	5 μs
子脉冲带宽	5 MHz
信噪比	0 dB

下载: 导出CSV

| 显示表格

表 2 干扰参数设置

Table 2. The parameter settings of jamming

干扰类型	参数	数值
窄带瞄频	瞄准频点	[10 MHz, 30 MHz, 50 MHz]
	带宽	10 MHz
	干噪比	35 dB
宽带阻塞	带宽	120 MHz
宽带阻塞	干噪比	30 dB

下载: 导出CSV

| 显示表格

表 3 DQN参数设置

Table 3. The parameter settings of DQN

参数	数值
批大小	64
学习率	0.001
折扣因子	0.99
缓冲区大小	10000
起始训练样本量	64
贪婪因子衰减系数	0.2
幕	32个时间步
目标值网络更新周期	4个时间步
目标值网络软间隔更新系数	0.01
隐藏层数量	2
隐藏层神经元个数	64
归一化系数	80

下载: 导出CSV

| 显示表格

很重要的一个技巧是，本文在基于贪婪原则随机选取动作时，只考虑所有子脉冲选择相同频点的情况，即脉内不跳频。该处理旨在尽可能提高相参处理增益以及使干扰机侦收到单频信号并诱导其发射窄带瞄频干扰，从而加快最优策略学习。同样出于加速收敛的目的，输入到神经网络的奖励按照子脉冲个数进行了归一化。

估计值网络和目标值网络的结构相同，均使用4层全连接神经网络，分别为输入层、2个隐藏层和输出层。其中，隐藏层的神经元个数均为64，并使用ReLU作为激活函数，如图4所示。

图 4 全连接神经网络结构示意图

Figure 4. The schematic diagram of fully connected neural network structure

下载: 全尺寸图片幻灯片

4.1.2 干扰策略设置

考虑一个具备侦收功能的干扰机，并根据侦-干时间长短分别设置了脉内侦干和脉间侦干等两种固定干扰策略，分别如图5、图6所示。由于切片转发干扰的对抗效果受限于切片宽度、转发次数等参数，灵活的参数变化可能会导致对抗失效，因此本文考虑的干扰类型为压制干扰，包括窄带瞄频和宽带阻塞。其中，窄带瞄频干扰的带宽为雷达子脉冲带宽的2倍，更宽的带宽会使得全部状态的奖励值发生整体偏移，但在归一化后会消除该影响。

图 5 脉内侦干策略

Figure 5. The intra-pulse interception-jamming strategy

下载: 全尺寸图片幻灯片

图 6 脉间侦干策略

Figure 6. The pulse-to-pulse interception-jamming strategy

下载: 全尺寸图片幻灯片

对于脉内侦干策略，假设干扰机侦收到雷达脉冲上升沿及下降沿，立即对其测频，转发对应频点的窄带瞄频干扰。值得注意的是，干扰时长设置略小于1个脉冲重复周期(Pulse Repetition Time, PRT)，从而使得在当前PRT会同时受到上一时刻以及当前时刻的干扰。因此，雷达在该干扰策略下的一种较为合适的选择为后续子脉冲发射不同于子脉冲1的雷达频点，并且每个PRT均保持相同的发射策略。由于干扰所在频点在滤波后可能会在邻近频点上存在干扰功率残留，因此最优策略为雷达后续子脉冲跳频到距离子脉冲1所选频点的最远频点上。即雷达最优频点选择为 $\left[ {1,N,N} \right]$ 或 $\left[ {N,1,1} \right]$ 。

对于脉间侦干策略，假设干扰机从侦收到第1个子脉冲开始持续侦收一段时间，直至没有检测到子脉冲时侦收结束。根据侦收结果发射一段时间长度的干扰，干扰时长在3～4个PRT之间。相比脉内侦干策略，后者不会在某个PRT同时受到两部分干扰。在侦收阶段若只侦收到1个频点，则发射对应频点的窄带瞄频干扰，反之则发射宽带阻塞干扰。雷达需要尽量避免干扰机发射宽带阻塞干扰，为此雷达需要在干扰机侦收阶段时只发射单频信号，而在干扰阶段时选择其余频点。类似地，考虑到滤波引起的干扰功率残留，在干扰机侦收时雷达最优策略为 $\left[ {1,1,1} \right]$ 或 $\left[ {N,N,N} \right]$ ，对应的干扰时雷达最优策略为 $\left[ {N,N,N} \right]$ 或 $\left[ {1,1,1} \right]$ 。

值得注意的是，脉间侦干策略虽然具备周期性，但当前时刻的干扰动作不完全取决于上一时刻的状态，而是按照固定的时序执行侦收和干扰，因此不具备马尔科夫性。脉间侦干策略寻求的是由4个PRT组成的侦干周期的最大奖励，满足式(5)所示的贝尔曼最优方程的价值迭代原理，因此可以使用强化学习解决。

4.2 脉内侦干策略

此时干扰机侦收到1个子脉冲的上升沿与下降沿后，完成测频并立刻发射干扰，雷达频点对抗的训练结果如图7所示。得分曲线在第4个CPI左右即可收敛，在36分附近波动，如图7(a)所示。图7(b)展示了文献[20]提出的基于PPO与LSTM相结合的频点决策算法，其至少需要30幕的时间才能提升到32分附近震荡，因此策略学习耗时且鲁棒性较差。其本质原因在于PPO为on-policy算法，只能利用神经网络进行动作搜索，导致探索性不足，所以存在收敛速度慢、可能会收敛到局部最优解、得分无法保持等诸多问题。

图 7 脉内侦干策略的子脉冲频点决策训练结果

Figure 7. The training results of sub-pulse frequency decision for the intra-pulse interception-jamming strategy

下载: 全尺寸图片幻灯片

根据图7(a)的收敛情况，保存前10个CPI的训练模型，每个模型对抗100幕，对抗成功率如图8所示。根据4.1.2节对脉内侦干策略的分析，雷达应将未被侦收到的子脉冲频点设置为距离侦收频点的最远频点。因此，PRT对抗成功定义为 $\left\{ {f_{\mathrm{R}}} = \left[ {1,3,3} \right]\& \;{f_{\mathrm{J}}} = 1 \right\}$ 或 $\left\{ {{f_{\mathrm{R}}} = \left[ {3,1,1} \right]\&\; {f_{\mathrm{J}}} = 3} \right\}$ ，即21个动作中只有2个动作为最优，占比9.5%。CPI对抗成功的判决依据是当前CPI内所有PRT均对抗成功。

图 8 训练用CPI数量对脉内侦干策略下对抗成功率的影响

Figure 8. The impact of the number of CPI used for training on the success rate of confrontation for the intra-pulse interception-jamming strategy

下载: 全尺寸图片幻灯片

发现训练所用CPI数量对对抗成功率的影响与收敛情况基本对应，从第3个CPI开始，对抗成功率即可达到100%。

表4展示了随机频点、PPO-LSTM和DQN的单次对抗(PRT)成功率，单幕(CPI)对抗成功率。随机频点决策的成功率与最优动作占比，即理论值大致相同。基于PPO的频点决策虽然在第2个和第3个子脉冲避开了干扰频点，但是由于其搜索力度不够，有一定概率选取到次优策略。而基于DQN的频点决策算法由于使用了 $\varepsilon$ -贪婪算法，大大扩展了动作搜索空间，更容易收敛到最优策略。

表 4 脉内侦干策略的对抗成功率(%)

Table 4. The success rate of confrontation for the intra-pulse interception-jamming strategy (%)

策略	PRT对抗成功率	CPI对抗成功率
随机频点	9.7	0
PPO	94	9
DQN	100	100

下载: 导出CSV

| 显示表格

PPO算法由于可以处理连续动作空间问题，并且可以学习到随机策略，因此是强化学习中受众面最广的基线方法。然而在本文研究的频点决策场景中，不涉及连续动作空间，最优策略也可以由随机策略退化到确定性策略，因此PPO算法优势没有得到充分利用。更为重要的是，由于每幕对抗中次优策略不低于最优策略得分的10%，大大提高了仅依靠神经网络参数进行动作搜索的最优策略收敛难度。

图9(a)展示了雷达和干扰在4个PRT下的频点选取情况。对于第1个PRT，由于初始状态的随机性，雷达选取频点[1,2,3]，干扰瞄准频点1。由于单个子脉冲的信噪比增益有限，因此除被干扰的子脉冲外，另有1个子脉冲未能检测到目标，奖励为负值，如图9(b)所示。在第2, 3, 4个PRT，基于训练好的模型，雷达的第2个和第3个子脉冲均选择离干扰频点1最远的频点3，降低了干扰剩余能量的同时，合成了宽脉冲，提高了信噪比增益。

图 9 雷达与干扰对抗4个PRT的策略及对抗奖励

Figure 9. The strategies and rewards for radar anti-jamming during four PRT periods

下载: 全尺寸图片幻灯片

最优动作的时频图及一维距离像如图10所示。当前PRT会同时收到瞄准上一时刻第1个子脉冲以及瞄准当前时刻第1个子脉冲的窄带瞄频干扰，后者会在瞄准后立即发射。因此，第1个子脉冲脉压后，目标尖峰出现在当前时刻产生的大功率噪声干扰边缘，导致漏检。第2个子脉冲由于跳频策略与干扰频域正交，因此脉压后能够检测到目标尖峰，具有较高的信干噪比。

图 10 雷达执行最优策略的时频图及一维距离像

Figure 10. The time-frequency map and the one-dimensional High-Resolution Range Profile (HRRP) for radar executing optimal strategy

下载: 全尺寸图片幻灯片

本文围绕目标检测性能，基于单个PRT能否检测到目标以及脉压后的信干噪比两方面评价跳频抗干扰效能。表5展示了蒙特卡洛1000次下，雷达的几个典型频点选取策略的目标检测率、脉压后的信干噪比以及平均得分。为便于分析，假设当前时刻和上一时刻均干扰相同的频点，频点[3,1,1]和[1,3,3]为本文所提模型的策略。可以看出：

表 5 脉内侦干策略下各种雷达策略对抗1000次结果(f_J=f_sub1)

Table 5. The results of 1000 confrontations with various radar strategies for the intra-pulse interception-jamming strategy (f_J=f_sub1)

雷达频点选择	目标检测率(%)	信干噪比(dB)	平均得分
[1,1,1]	0	—	–3.00
[1,1,2]	0	11.09	–1.12
[1,1,3]	0	12.25	–0.96
[1,2,2]	97.6	15.20	1.09
[1,2,3]	81.7	12.78	0.78
[1,3,3]	99.7	16.06	1.19
[2,1,1]	98.3	15.35	1.12
[2,1,3]	75.6	12.47	0.64
[2,3,3]	97.7	15.19	1.10
[3,1,1]	99.6	16.07	1.18
注：综合考虑噪声随机性引起的得分波动情况，加粗项为最优策略

下载: 导出CSV

| 显示表格

(1) 由于在当前PRT能同时受到上一时刻和当前时刻的干扰，因此至少有一个雷达频点会被干扰到。根据式(10)所示的奖励函数计算方式，最大得分始终小于2；

(2) 当子脉冲2和子脉冲3跳频成功时，两个子脉冲均选择离干扰频点的最远频点时，平均得分最高，为最优策略，即[1,3,3]和[3,1,1]；

(3) 诸如[1,2,3]和[2,1,3]等传统频点选取策略，由于脉压增益有限，导致目标检测率较低；而[1,2,2]和[2,1,1]等选择了干扰频点相邻频点的动作，由于滤波后的干扰能量残余，从而降低了信干噪比，非最优策略；

(4) 次优策略和最优策略的单次对抗得分仅差0.06，网络能够捕获到细微差异，收敛到最优解。

4.3 脉间侦干策略

针对脉间侦干策略，DQN和PPO的训练曲线如图11所示。DQN在第15幕(CPI)左右即可收敛，得分在37分附近。而PPO的训练过程虽然整体呈现上升-平稳，但是其波动始终较为剧烈，且至少需要400幕左右才能趋于平稳。

图 11 脉间侦干策略的子脉冲频点决策训练结果

Figure 11. The training results of sub-pulse frequency decision for the pulse-to-pulse interception-jamming strategy

下载: 全尺寸图片幻灯片

图12展示了训练所用CPI数量对对抗成功率的影响，蒙特卡洛次数为100幕。由于雷达初始频点随机选取，不参与决策，因此去除包含初始状态在内的第1个干扰侦干周期。从第2个周期开始统计，即每幕(CPI)对抗28次。根据4.1.2节对脉间侦干策略的分析，雷达应始终发射单频信号，并在干扰机对当前脉冲侦收干扰后的下个脉冲跳到另一频点，从而诱导干扰机在后续干扰周期内发射窄带瞄频干扰，避免发射宽带阻塞干扰导致跳频手段失效。由于干扰机可以在侦收后立即发射对应频点的干扰，所以每个侦干周期内，无论采取何种手段，至少会存在1个PRT抗干扰失败。因此可以仅针对剩余PRT计算抗干扰成功率，将PRT对抗成功定义为干扰机处于发射干扰阶段时雷达选取到最优策略，即 $\left\{ {{f_{\mathrm{J}}} = 3\;\&\; {f_{\mathrm{R}}} = \left[ {1,1,1} \right]} \right\}$ 或 $\left\{ {{f_{\mathrm{J}}} = 1\;\&\; {f_{\mathrm{R}}} = \left[ {3,3,3} \right]} \right\}$ ；CPI对抗成功的判决依据是当前CPI内所有PRT均对抗成功。

图 12 训练用CPI数量对脉间侦干策略对抗成功率的影响

Figure 12. The impact of the number of CPI used for training on the success rate of confrontation for the pulse-to-pulse interception-jamming strategy

下载: 全尺寸图片幻灯片

可以发现，在前20个CPI的训练过程中模型学习到的策略不是一直向好，而是波动变化。在第13个PRT策略出现了明显恶化，这与图11(a)的训练结果相一致。此时模型尚未稳定学习到干扰机的侦干策略，因此仍主要处于试错探索阶段。从第15～20个CPI，模型探索到干扰机策略，并学习到有效对抗策略，保持稳定。

100次蒙特卡洛仿真下的随机频点、PPO和DQN决策的单次对抗(PRT)成功率，单幕(CPI)对抗成功率如表6所示。由于对抗成功率隐含雷达在干扰机侦-干PRT和干扰PRT均发射不同的单频信号，因此随机频点选择的成功概率极低，仅有0.7%。相比PPO，DQN动作搜索更加充分，使对抗成功率得到有效提高，达到100%。

表 6 脉间侦干策略的对抗成功率(%)

Table 6. The success rate of confrontation for the pulse-to-pulse interception-jamming strategy (%)

策略	PRT对抗成功率	CPI对抗成功率
随机频点	0.7	0
PPO	93.6	31
DQN	100	100

下载: 导出CSV

| 显示表格

图13(a)展示了干扰机的3个侦干周期下的雷达子脉冲频点选取和干扰瞄准频点。在第1个侦干周期中，由于雷达初始状态的随机性，3个子脉冲分别选取不同频点，导致干扰机在接下来的3个PRT中发射宽带阻塞干扰，此时无论雷达如何跳频，目标均未被检测到，奖励为负值，如图13(b)所示。在第2个侦干周期的第1次对抗中，雷达3个子脉冲均选择频点1，干扰机侦收到并立刻发射对应频点的干扰，因此第1个PRT的奖励为负值。接下来的3个PRT，干扰机继续发射频点1，而雷达选择离频点1最远的频点3。至此第2个侦干周期结束，雷达频点选取成功。在第3个侦干周期中，雷达和干扰的频点选取对调，雷达仍然能够通过频点决策选择受到干扰最小的频点。

图 13 对抗3个侦干周期的雷达策略及对抗奖励

Figure 13. The strategies and rewards for radar anti-jamming during three interception-jamming periods

下载: 全尺寸图片幻灯片

以干扰瞄准频点1为例，蒙特卡洛1000次，统计各种策略对抗的目标检测率、脉压后的信干噪比以及平均得分，如表7所示，其中频点[3,3,3]为本文所提模型的策略。可以看出：

表 7 脉间侦干策略下各种雷达策略对抗1000次的结果(f_J=1)

Table 7. The results of 1000 confrontations with various radar strategies for the pulse-to-pulse interception-jamming strategy (f_J=1)

雷达频点选择	目标检测率(%)	信干噪比(dB)	平均得分
[1,1,1]	0	—	–3.00
[1,2,3]	81.3	12.74	0.76
[2,2,2]	99.7	17.08	3.17
[3,3,3]	100	17.58	3.22
注：加粗项表示最优策略

下载: 导出CSV

| 显示表格

(1) 对于传统雷达跳频策略[1,2,3]，有1个子脉冲会被干扰到，此时奖励虽然为正值，但是较低；

(2) 对于[2,2,2]，虽然从频点数值上看确实跳频成功，但此时瞄准频点1的干扰功率可能未被全部滤掉，有很少一部分的功率会溢出到频点2，使得其信干噪比略低于频点3；

(3) 当雷达所有子脉冲均选择频点3时，接收到的干扰平均功率达到最小值，平均得分最高，为最优策略。

5. 结语

针对瞄准式压制干扰，本文面向频率捷变雷达，提出了一种基于深度强化学习的频点自适应快速选取方法。根据当前时刻干扰状态，以及上一时刻雷达动作，依靠神经网络自适应选取当前时刻最优雷达频点，并基于目标检测结果以及脉压后的信干噪比作为奖励反馈，迭代改进策略。仿真部分考虑了具备侦收-瞄准-干扰功能的干扰机，证明了通过关键要素设计可以以单个时间步长作为输入学习到干扰策略的时序性。同时，所用DQN算法配合贪婪准则实现了搜索-利用的平衡，配合信干噪比的反馈加速最优抗干扰策略收敛，相比PPO算法收敛速度提升至少10倍。考虑到实际场景中，干扰频点在滤波后可能在邻近频点存在能量残余的情况，所提频率捷变波形设计方法允许子脉冲多次重复选取距离干扰频点最远的雷达频点，有效降低了回波中的干扰剩余能量，提高了信干噪比。同时扩展了动作空间，提供了最优动作选取的基础。

通过本文研究发现，当子脉冲数或脉冲数较多时，增大了网络的搜索和决策空间，使得收敛时间进一步增加，并且提高了最优策略的收敛难度。但这不会影响强化学习的关键要素设计，因此所提方法仍能根据交互数据的反馈结果进行策略优化。另外，考虑到子脉冲间、脉冲间的相位不一致，在积累时会带来一定程度上的增益损失。因此在未来的研究中，考虑将子脉冲以及脉冲间的积累情况纳入到奖励函数中，从而指导策略选取。

图 1 双基SAR几何构型

Figure 1. Geometry configuration of Bistatic SAR

下载: 全尺寸图片幻灯片

图 2 单/双基SAR杂波空时特性对比

Figure 2. Comparison of clutter characteristics in monostatic/bistatic SAR

下载: 全尺寸图片幻灯片

图 3 双基SAR空时谱

Figure 3. Bistatic SAR space-time clutter power spectrum

下载: 全尺寸图片幻灯片

图 4 离散空时域估计

Figure 4. Discrete space-time time domain estimation

下载: 全尺寸图片幻灯片

图 5 ANM-ADMM-Net数据流图

Figure 5. Data flow graph of ANM-ADMM-Net

下载: 全尺寸图片幻灯片

图 6 数据重构层

Figure 6. Data reconstruction layer

下载: 全尺寸图片幻灯片

图 7 非线性变换层

Figure 7. Nonlinear transform layer

下载: 全尺寸图片幻灯片

图 8 训练样本选取

Figure 8. Training sample selection

下载: 全尺寸图片幻灯片

图 9 计算复杂度分析

Figure 9. Computational complexity analysis

下载: 全尺寸图片幻灯片

图 10 不同算法空时谱估计结果

Figure 10. Monostatic/Bistatic SAR space-time clutter power spectrum

下载: 全尺寸图片幻灯片

图 11 不同算法SCNR损失

Figure 11. comparison of SCNR loss of different algorithms

下载: 全尺寸图片幻灯片

图 12 杂波抑制前数据结果

Figure 12. Data results before clutter suppression

下载: 全尺寸图片幻灯片

图 13 回波域杂波抑制结果

Figure 13. Clutter suppression results in echo domain

下载: 全尺寸图片幻灯片

图 14 图像域杂波抑制结果

Figure 14. Clutter suppression results in image domain

下载: 全尺寸图片幻灯片

图 15 不同方法杂波抑制对比

Figure 15. Results of suppression by different methods

下载: 全尺寸图片幻灯片

图 16 机载双基前视SAR飞行示意图

Figure 16. Airborne forward looking BiSAR flight diagram

下载: 全尺寸图片幻灯片

图 17 飞行实验处理结果

Figure 17. Airborne forward looking BiSAR flight diagram

下载: 全尺寸图片幻灯片

图 18 图像域杂波抑制结果

Figure 18. Clutter suppression results in image domain

下载: 全尺寸图片幻灯片

表 1 不同算法的计算复杂度

Table 1. Computational complexity of different algorithms

算法	计算复杂度
ANM-CVX-STAP	$O({({L^2} + (2M - 1)(2N - 1) + MNL)^2}{(L + MN)^{2.5}})$
FOUCSS-STAP	$O(NM{N_{\text{s}}}{M_{\text{d}}} + {(NM)^3} + 2{(NM)^2}{N_{\text{s}}}{M_{\text{d}}} + NM{({N_{\text{s}}}{M_{\text{d}}})^2})$
SBL-STAP	$O(NM{N_{\text{s}}}{M_{\text{d}}} + {(NM)^3} + 3{(NM)^2}{N_{\text{s}}}{M_{\text{d}}} + 2NM{({N_{\text{s}}}{M_{\text{d}}})^2})$
ANM-ADMM	$O({(MN + L)^3} + {(MN)^2} + 6MN + {L^2} + L)$

下载: 导出CSV

表 2 算法运行时间对比(s)

Table 2. Run time of different algorithms (s)

算法	平均运行时间
ANM-CVX-STAP	32.7150
FOUCSS-STAP	5.3151
SBL-STAP	10.9429
ANM-ADMM	1.9462

下载: 导出CSV

表 3 双基SAR仿真参数

Table 3. Simulation parameters of BiSAR

参数	数值
载频	10 GHz
信号带宽	150 MHz
脉冲重复频率	1000 Hz
天线通道数	5
相干脉冲数	10
发射机初始位置	(–5000, –3000, 4000) m
接收机初始位置	(0, –5000, 3000) m
发射机速度矢量	(0, 150, 0) m/s
接收机速度矢量	(0, 150, 0) m/s
运动目标初始位置	(0, 0, 0) m
运动目标速度矢量	(–4, 4, 0) m/s

下载: 导出CSV

参考文献(32)

[1]	ROBINSON P N. Synthetic array radar[J]. IEEE Potentials, 1997, 16(1): 8–11. doi: 10.1109/45.565604.
[2]	杨建宇. 双基地合成孔径雷达技术[J]. 电子科技大学学报, 2016, 45(4): 482–501. doi: 10.3969/j.issn.1001-0548.2016.04.001. YANG Jianyu. Bistatic synthetic aperture radar technology[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 482–501. doi: 10.3969/j.issn.1001-0548.2016.04.001.
[3]	WILDEN H and BRENNER A R. The SAR/GMTI airborne radar PAMIR: Technology and performance[C]. IEEE MTT-S International Microwave Symposium, Anaheim, USA, 2010: 534–537. doi: 10.1109/MWSYM.2010.5518080.
[4]	LI Zhongyu, WU Junjie, HUANG Yulin, et al. Ground-moving target imaging and velocity estimation based on mismatched compression for bistatic forward-looking SAR[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(6): 3277–3291. doi: 10.1109/TGRS.2016.2514494.
[5]	LI Junao, LI Zhongyu, YANG Qing, et al. Joint clutter suppression and moving target indication in 2-D azimuth rotated time domain for single-channel bistatic SAR[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5202516. doi: 10.1109/TGRS.2023.3237553.
[6]	LI Zhongyu, WU Junjie, YANG Jianyu, et al. Bistatic SAR Clutter Suppression[M]. Singapore: Springer, 2022: 8–19. doi: 10.1007/978-981-19-0159-1.
[7]	李中余. 双基地合成孔径雷达动目标检测与成像技术研究[D]. [博士论文], 电子科技大学, 2017: 11–59. LI Zhongyu. Research on bistatic SAR moving target detection and imaging technology[D]. [Ph.D. dissertation], University of Electronic Science and Technology of China, 2017: 11–59.
[8]	CHEN H C and MCGILLEM C D. Target motion compensation by spectrum shifting in synthetic aperture radar[J]. IEEE Transactions on Aerospace and Electronic Systems, 1992, 28(3): 895–901. doi: 10.1109/7.256313.
[9]	FIENUP J R. Detecting moving targets in SAR imagery by focusing[J]. IEEE Transactions on Aerospace and Electronic Systems, 2001, 37(3): 794–809. doi: 10.1109/7.953237.
[10]	MOREIRA J R and KEYDEL W. A new MTI-SAR approach using the reflectivity displacement method[J]. IEEE Transactions on Geoscience and Remote Sensing, 1995, 33(5): 1238–1244. doi: 10.1109/36.469488.
[11]	LIGHTSTONE L, FAUBERT D, and REMPEL G. Multiple phase centre DPCA for airborne radar[C]. IEEE National Radar Conference, Los Angeles, USA, 1991: 36–40. doi: 10.1109/NRC.1991.114720.
[12]	LI Zhongyu, LI Shanchuan, LIU Zhutian, et al. Bistatic forward-looking SAR MP-DPCA method for space–time extension clutter suppression[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(9): 6565–6579. doi: 10.1109/TGRS.2020.2977982.
[13]	谢文冲, 段克清, 王永良. 机载雷达空时自适应处理技术研究综述[J]. 雷达学报, 2017, 6(6): 575–586. doi: 10.12000/JR17073. XIE Wenchong, DUAN Keqing, and WANG Yongliang. Space time adaptive processing technique for airborne radar: An overview of its development and prospects[J]. Journal of Radars, 2017, 6(6): 575–586. doi: 10.12000/JR17073.
[14]	REED I S, MALLETT J D, and BRENNAN L E. Rapid convergence rate in adaptive arrays[J]. IEEE Transactions on Aerospace and Electronic Systems, 1974, AES-10(6): 853–863. doi: 10.1109/TAES.1974.307893.
[15]	KLEMM R. Comparison between monostatic and bistatic antenna configurations for STAP[J]. IEEE Transactions on Aerospace and Electronic Systems, 2000, 36(2): 596–608. doi: 10.1109/7.845248.
[16]	LIU Zhutian, YU Huaiqin, LI Zhongyu, et al. Non-stationary clutter suppression approach based on cascading cancellation for bistatic forward-looking SAR[C]. 2019 IEEE Radar Conference, Boston, USA, 2019: 1–5. doi: 10.1109/RADAR.2019.8835707.
[17]	LI Junao, LI Zhongyu, YANG Qing, et al. Efficient matrix sparse recovery STAP method based on Kronecker transform for BiSAR sea clutter suppression[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5103218. doi: 10.1109/TGRS.2024.3362844.
[18]	马泽强, 王希勤, 刘一民, 等. 基于稀疏恢复的空时二维自适应处理技术研究现状[J]. 雷达学报, 2014, 3(2): 217–228. doi: 10.3724/SP.J.1300.2014.14002. MA Zeqiang, WANG Xiqin, LIU Yimin, et al. An overview on sparse recovery-based STAP[J]. Journal of Radars, 2014, 3(2): 217–228. doi: 10.3724/SP.J.1300.2014.14002.
[19]	SUN Ke, ZHANG Hao, LI Gang, et al. A novel STAP algorithm using sparse recovery technique[C]. 2009 IEEE International Geoscience and Remote Sensing Symposium, Cape Town, South Africa, 2009: V-336–V-339. doi: 10.1109/IGARSS.2009.5417664.
[20]	TANG Gongguo, BHASKAR B N, SHAH P, et al. Compressed sensing off the grid[J]. IEEE Transactions on Information Theory, 2013, 59(11): 7465–7490. doi: 10.1109/TIT.2013.2277451.
[21]	YE Hongda, LI Zhongyu, LIU Zhutian, et al. Clutter-ridge matched SR-STAP technique for non-stationary clutter suppression[C]. 2020 IEEE Radar Conference, Florence, Italy, 2020: 1–4. doi: 10.1109/RadarConf2043947.2020.9266628.
[22]	DUAN Keqing, LIU Weijian, DUAN Guangqing, et al. Off-grid effects mitigation exploiting knowledge of the clutter ridge for sparse recovery STAP[J]. IET Radar, Sonar & Navigation, 2018, 12(5): 557–564. doi: 10.1049/iet-rsn.2017.0425.
[23]	LI Zhihui, ZHANG Yongshun, GE Qichao, et al. Off-grid STAP algorithm based on reduced-dimension local search orthogonal matching pursuit[C]. 2019 IEEE 4th International Conference on Signal and Image Processing, Wuxi, China, 2019: 187–191. doi: 10.1109/SIPROCESS.2019.8868509.
[24]	段克清, 王泽涛, 谢文冲, 等. 一种基于联合稀疏恢复的空时自适应处理方法[J]. 雷达学报, 2014, 3(2): 229–234. doi: 10.3724/SP.J.1300.2014.13149. DUAN Keqing, WANG Zetao, XIE Wenchong, et al. A space-time adaptive processing algorithm based on joint sparse recovery[J]. Journal of Radars, 2014, 3(2): 229–234. doi: 10.3724/SP.J.1300.2014.13149.
[25]	HE Pengyuan, HE Shun, YANG Zhiwei, et al. An off-grid STAP algorithm based on local mesh splitting with bistatic radar system[J]. IEEE Signal Processing Letters, 2020, 27: 1355–1359. doi: 10.1109/LSP.2020.3010161.
[26]	LI Zhongyu, YE Hongda, LIU Zhutian, et al. Bistatic SAR clutter-ridge matched STAP method for nonstationary clutter suppression[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5216914. doi: 10.1109/TGRS.2021.3125043.
[27]	FENG Weike, GUO Yiduo, ZHANG Yongshun, et al. Airborne radar space time adaptive processing based on atomic norm minimization[J]. Signal Processing, 2018, 148: 31–40. doi: 10.1016/j.sigpro.2018.02.008.
[28]	LI Zhongyue and WANG Tong. ADMM-based low-complexity off-grid space-time adaptive processing methods[J]. IEEE Access, 2020, 8: 206646–206658. doi: 10.1109/ACCESS.2020.3037652.
[29]	ZOU Bo, WANG Xin, FENG Weike, et al. DU-CG-STAP method based on sparse recovery and unsupervised learning for airborne radar clutter suppression[J]. Remote Sensing, 2022, 14(14): 3472. doi: 10.3390/rs14143472.
[30]	SU Hanning, BAO Qinglong, and CHEN Zengping. ADMM–net: A deep learning approach for parameter estimation of chirp signals under sub-nyquist sampling[J]. IEEE Access, 2020, 8: 75714–75727. doi: 10.1109/ACCESS.2020.2989507.
[31]	RICHARDS M A. The keystone transformation for correcting range migration in range-doppler processing[J]. Pulse, 2014, 1000(1).
[32]	LIU Zhutian, LI Zhongyu, YU Huaiqin, et al. Bistatic forward-looking SAR moving target detection method based on joint clutter cancellation in echo-image domain with three receiving channels[J]. Sensors, 2018, 18(11): 3835. doi: 10.3390/s18113835.

施引文献

期刊类型引用(1)
1. 王兴家，王彬，刘岳巍，晏学成，丁峰. 基于元知识转移的认知雷达波形设计. 雷达科学与技术. 2024(04): 443-453 . 百度学术
其他类型引用(4)

资源附件(0)

访问统计

图(18) / 表(3)

计量

文章访问数: 384
HTML全文浏览量: 158
PDF下载量: 178
被引次数: 5

1. 引言
2. 背景
2.1 子脉冲频率捷变波形设计
2.2 强化学习与Q学习算法原理
3. 基于深度Q网络的自适应频点决策
3.1 基于深度Q网络的子脉冲频点决策模型
3.2 强化学习关键要素设计
4. 仿真与分析
4.1 场景设置
4.2 脉内侦干策略
4.3 脉间侦干策略
5. 结语

1. 引言
2. 背景
2.1 子脉冲频率捷变波形设计
2.2 强化学习与Q学习算法原理
3. 基于深度Q网络的自适应频点决策
3.1 基于深度Q网络的子脉冲频点决策模型
3.2 强化学习关键要素设计
4. 仿真与分析
4.1 场景设置
4.2 脉内侦干策略
4.3 脉间侦干策略
5. 结语

参考文献(32)

施引文献

资源附件(0)

访问统计

双基SAR空时自适应ANM-ADMM-Net杂波抑制技术

DOI: 10.12000/JR24032

通讯作者:
李中余 zhongyu_li@uestc.edu.cn

皮浩卓 pihaozhuo_uestc@163.com

计量

Clutter Suppression Technology Based Space-time Adaptive ANM-ADMM-Net for Bistatic SAR

Corresponding author: LI Zhongyu, zhongyu_li@uestc.edu.cn; PI Haozhuo, pihaozhuo_uestc@163.com

1. 引言

2. 背景

2.1 子脉冲频率捷变波形设计

2.2 强化学习与Q学习算法原理

3. 基于深度Q网络的自适应频点决策

3.1 基于深度Q网络的子脉冲频点决策模型

3.2 强化学习关键要素设计

4. 仿真与分析

4.1 场景设置

4.1.1 仿真参数设置

4.1.2 干扰策略设置

4.2 脉内侦干策略

4.3 脉间侦干策略

5. 结语

期刊类型引用(1)

其他类型引用(4)

计量

目录

1. 引言

2. 背景

2.1 子脉冲频率捷变波形设计

2.2 强化学习与Q学习算法原理

3. 基于深度Q网络的自适应频点决策

3.1 基于深度Q网络的子脉冲频点决策模型

3.2 强化学习关键要素设计

4. 仿真与分析

4.1 场景设置

4.2 脉内侦干策略

4.3 脉间侦干策略

5. 结语

期刊介绍

联系我们

双基SAR空时自适应ANM-ADMM-Net杂波抑制技术

DOI: 10.12000/JR24032

通讯作者: 李中余 zhongyu_li@uestc.edu.cn 皮浩卓 pihaozhuo_uestc@163.com

计量

出版历程

Clutter Suppression Technology Based Space-time Adaptive ANM-ADMM-Net for Bistatic SAR

Corresponding author: LI Zhongyu, zhongyu_li@uestc.edu.cn; PI Haozhuo, pihaozhuo_uestc@163.com

1. 引言

2. 背景

2.1 子脉冲频率捷变波形设计

2.2 强化学习与Q学习算法原理

3. 基于深度Q网络的自适应频点决策

3.1 基于深度Q网络的子脉冲频点决策模型

3.2 强化学习关键要素设计

4. 仿真与分析

4.1 场景设置

4.1.1 仿真参数设置

4.1.2 干扰策略设置

4.2 脉内侦干策略

4.3 脉间侦干策略

5. 结语

期刊类型引用(1)

其他类型引用(4)

计量

出版历程

目录

1. 引言

2. 背景

2.1 子脉冲频率捷变波形设计

2.2 强化学习与Q学习算法原理

3. 基于深度Q网络的自适应频点决策

3.1 基于深度Q网络的子脉冲频点决策模型

3.2 强化学习关键要素设计

4. 仿真与分析

4.1 场景设置

4.2 脉内侦干策略

4.3 脉间侦干策略

5. 结语

期刊介绍

联系我们

通讯作者:
李中余 zhongyu_li@uestc.edu.cn

皮浩卓 pihaozhuo_uestc@163.com