Loading [MathJax]/jax/output/SVG/jax.js

一种基于深度强化学习的频率捷变雷达智能频点决策方法

张嘉翔 张凯翔 梁振楠 陈新亮 刘泉华

陈帅霖, 罗丰, 张林让, 胡冲, 陈世超. 基于动态规划的机动目标加权自适应相参积累方法[J]. 雷达学报, 2017, 6(3): 309-315. doi: 10.12000/JR17002
引用本文: 张嘉翔, 张凯翔, 梁振楠, 等. 一种基于深度强化学习的频率捷变雷达智能频点决策方法[J]. 雷达学报(中英文), 2024, 13(1): 227–239. doi: 10.12000/JR23197
Chen Shuailin, Luo Feng, Zhang Linrang, Hu Chong, Chen Shichao. Weighted Adaptive Step Coherent Integration Method for Maneuvering Target Based on Dynamic Programming[J]. Journal of Radars, 2017, 6(3): 309-315. doi: 10.12000/JR17002
Citation: ZHANG Jiaxiang, ZHANG Kaixiang, LIANG Zhennan, et al. An intelligent frequency decision method for a frequency agile radar based on deep reinforcement learning[J]. Journal of Radars, 2024, 13(1): 227–239. doi: 10.12000/JR23197

一种基于深度强化学习的频率捷变雷达智能频点决策方法

DOI: 10.12000/JR23197
基金项目: 国家自然科学基金(62201048)
详细信息
    作者简介:

    张嘉翔,博士生,主要研究方向为智能干扰感知与抗干扰决策

    张凯翔,博士生,主要研究方向为分布式雷达和抗干扰

    梁振楠,博士,副研究员,硕士生导师,主要研究方向为数字阵列雷达系统和宽带雷达信号处理

    陈新亮,博士,讲师,硕士生导师,主要研究方向为目标检测跟踪和软件化雷达

    刘泉华,博士,教授,博士生导师,主要研究方向为高分辨雷达系统及信号处理

    通讯作者:

    梁振楠 liangzhennan@bit.edu.cn

  • 责任主编:全英汇 Corresponding Editor: QUAN Yinghui
  • 中图分类号: TN958

An Intelligent Frequency Decision Method for a Frequency Agile Radar Based on Deep Reinforcement Learning

Funds: The National Natural Science Foundation of China (62201048)
More Information
  • 摘要: 自卫式干扰机发射的瞄准干扰使多种基于信号处理的被动干扰抑制方法失效,对现代雷达产生了严重威胁,频率捷变作为一种主动对抗方式为对抗瞄准干扰提供了可能。针对传统随机跳频抗干扰性能不稳定、频点选取自由度有限、策略学习所需时间长等问题,该文面向频率捷变雷达,提出了一种快速自适应跳频策略学习方法。首先设计了一种频点可重复选取的频率捷变波形,为最优解提供了更多选择。在此基础上,通过利用雷达与干扰机持续对抗收集到的数据,基于深度强化学习的探索与反馈机制,不断优化频点选取策略。具体来说,通过将上一时刻雷达频点及当前时刻感知到的干扰频点作为强化学习输入,神经网络智能选取当前时刻各子脉冲频点,并根据目标检测结果以及信干噪比两方面评价抗干扰效能,从而优化策略直至最优。从提高最优策略收敛速度出发,设计的输入状态不依赖历史时间步、引入贪婪策略平衡搜索-利用机制、配合信干噪比提高奖励差异。多组仿真实验结果表明,所提方法能够收敛到最优策略且具备较高的收敛效率。

     

  • 相参积累是一种在噪声背景下有效提高雷达目标检测性能的方法。但是高速机动目标复杂的运动特性会使雷达回波不可避免地产生距离徙动,多普勒扩展和多普勒模糊,大大削弱了传统方法的检测性能,甚至会使传统方法失效[1]。这种情况下,文献[2,3]采用霍夫变换方法,沿着目标轨迹对每个目标的回波数据进行带有距离补偿的非相参积累,将目标能量积累到参数空间中的一点,易于在参数空间检测。为了进一步利用目标的相位信息,文献[4]采用Keystone变换(KT)对目标进行距离补偿后的相参积累,更加高效地积累了目标能量,但该方法存在速度模糊的问题。文献[5]将分数阶傅里叶变换与Keystone变换相结合,适用于带有速度模糊的匀加速目标,但该方法的处理流程较为复杂。文献[6]提出的相参霍夫变换(CHT)可以看作是文献[7]提出的Radon-Fourier变换(RFT)的一个特例,这两种方法将距离补偿与相参积累相结合,显著提高了雷达的检测性能,RFT的扩展形式还能有效避免速度模糊。为了检测具有严重多普勒扩展的机动目标。文献[8]采用参数化的方程来描述非匀速直线运动的目标轨迹,通过搜索该方程中的参数,广义RFT方法能够沿着弯曲的目标轨迹进行能量积累。但是,轨迹方程的阶数随着目标机动性的增强而增大,在检测强机动目标时计算复杂度显著增高。文献[9]将RFT方法扩展到空时频多维度联合处理领域中,取得了较为优秀的检测性能,形成了比较系统的理论框架和技术体系。文献[10]将RFT算法应用于双基地雷达系统,解决了该系统中非线性相位回波的目标运动补偿问题,并在频域完成了算法的快速实现。上述基于KT和RFT的算法都需要估计出目标的具体运动参数,再对目标运动带来的距离和多普勒徙动进行补偿。然而,当目标在观测时间内进行机动,即目标的运动参数发生了突变,或目标的运动参数过于复杂,上述运动参数估计与补偿类的算法就会失效。

    检测前跟踪(Track Before Detect, TBD)是一种常用的能量积累方法。基于动态规划的检测前跟踪(Dynamic Programming-TBD, DP-TBD)方法[11]能够对弱机动目标进行检测,许多种改进的DP-TBD方法广泛应用于光学、红外以及雷达领域[12,13]。但是TBD算法通常应用于扫描到扫描的场景,并不适用于长时间积累模式下脉冲到脉冲的场景。此外,DP-TBD类的算法对强机动目标的检测性能较差。

    为了解决上述问题,该文提出了一种基于动态规划的加权自适应步长相参积累方法,所提方法采用动态规划算法的阶段性最优化思想,能够求解出机动目标复杂而不断变化的运动参数,避免了传统方法繁琐的只适用于固定运动方式的运动参数估计;该方法结合了动态规划与加权自适应相参积累,能够避免多普勒模糊,高效的对机动目标的距离徙动与多普勒扩散进行补偿。所提算法的递推特性能够使该方法对任意机动方式的目标进行检测与跟踪。

    假设机动目标相对雷达径向运动,雷达在目标方向发射K个脉冲,重复周期为Tr。信号预处理之后,k时刻的目标基带回波可以表示为:

    sk=Askexp(j2πfd(k)kTr)+nk (1)

    其中,A为幅度, sk为回波信号在快时间上的复包络,fd(k)为目标机动带来的时变瞬时多普勒频率,nk为方差为1的复高斯噪声。假设在较短时间内的观测过程中目标回波没有起伏。

    将所有回波排列在时间-距离的2维空间,分别用脉冲重复周期和雷达距离单元对时间坐标和距离坐标进行归一化。将一个重复周期称为一帧,雷达回波中第k帧第n个距离单元的测量表示为zk,第k帧所有N个距离单元中的测量值表示为 Zk= [z1z2...zN]T

    该模型中机动目标的径向速度是时变的,会带来非线性的位移和多普勒频移。因此,整个观测过程中目标回波的频谱在距离-多普勒平面内形成了一条不规则的曲线。所以传统方法很难对无规律的距离徙动和多普勒扩散进行补偿。

    为了最大程度上地沿着目标轨迹积累能量,采用动态规划[11]的思想对机动目标进行每一帧位置与速度的阶段性最优搜索。此外,充分利用目标回波的幅度与相位信息,同时对距离徙动与多普勒扩散进行补偿。

    雷达记录的K个脉冲的所有观测值构成一个N×K的2维矩阵,如下:

    Z=[Z1Z2···ZK] (2)

    令目标状态为 Xk=(xk,˙xk)T,其中,xk为目标距离, ˙xk为目标速度。定义目标轨迹为第1帧到第K帧的连续状态序列,则观测时间内的目标航迹为:

    XK={X1X2···XK} (3)

    由于目标速度未知,需要对目标所有可能的速度进行搜索。假设目标的最大速度为Vmax,将目标的运动速度范围[–Vmax, Vmax]平均分为M份,则所有搜索速度为:{vm, m=1:M}。每一帧目标的运动速度将通过这M个搜索通道进行估计。M的取值取决于所需的速度估计精度。根据多普勒频率与目标速度和雷达波长 λ的关系 fd=2v/λ,直接使用速度信息进行相位补偿,避免多普勒速度模糊。本文(Dynamic Programing (DP)-based Weigh-ted Adaptive Coherent Integration, DPWACI)算法的流程图如图1所示,具体步骤如下。

    图  1  本文算法流程图
    Figure  1.  Flow chart of this paper algorithm

    对第1帧的所有状态X1

    I(X1)=Z1 (4)
    Ψ(1)=0 (5)

    其中,I(·)为积累值函数,表示动态规划处理后的积累能量,Ψ(·)为转移函数,记录了每一帧的状态转移过程。

    当2≤ kK时,对所有状态Xk,有

    I(Xk)=maxm=1:M[I(Xk1)exp(j4πvmTrλ)]2M+Zk (6)
    Ψ(Xk)=argmaxm=1:M[I(Xk1)exp(j4πvmTrλ)]2M (7)

    其中,max[·]表示求取上一帧最有可能转移到当前帧的状态,上一帧的有效转移状态由速度搜索通道和可能的位置偏移确定。由于脉冲间隔时间很短,第k–1帧到第k帧的位置转移只有3种情况:向前一个距离单元;停留在当前单元;向后一个距离单元。而搜索速度的正负确定了移动方向,所以共有2×M个候选有效转移状态,式(6)和式(7)中max[·]的下标为2M。式(6)中上一帧积累值函数的多普勒频移被补偿到了当前时刻,并与当前观测值进行相参积累。该递推过程无需对目标的具体运动参数进行估计,而是通过动态规划方法分依次搜索并记录。

    式(6)的过程相当于两脉冲相参积累,为了减轻复噪声的影响,并充分利用后续脉冲的相参特性,后L个脉冲被用来进行相参积累。由于运动惯性,短时间内的速度变化较小。为了减轻距离徙动发生时的影响,并保证积累效果,将L设为:

    L=round(ρ/Vmax/Tr/4) (8)

    其中, ρ为距离单元,round(·)表示四舍五入。加入算数平均,并将Zk放入中括号内,有

    I(Xk)=maxm=1:M{I(Xk1)exp(j4πvmTrλ)+1LLl=1Zk+lexp(j4πvmlTrλ)}2M+Zk (9)

    式(9)中,较长的L有利于检测低速目标,但不利于检测高速目标,反之亦然。所以固定的步长L无法同时适用于高速与低速情况。未解决这个问题,根据搜索速度引入自适应步长,有

    Lm=round[min(14ρvmTr,ρVmaxTr)],m=1:M (10)

    其中,min(·)用来限制低速通道下的步长。

    由于惯性,目标的运动速度是连续变化的,所以下一帧目标的可能速度与当前速度越接近概率越高。假设目标在相邻两帧内最大速度变化量为Δυ,当前速度为υ,则下一帧目标速度范围在υ±Δυ之内。下一帧在进行状态转移时,对当前速度相邻的速度通道内的状态赋予较大权值,对间隔较远的通道内的状态赋予较小权值。假设第k帧时,某一状态转移的权系数为Wkn=[wk(1), ···, wk(M)],各速度搜索通道对应的权系数计算方法为:

    {wk(m)=1(|mkm|(M1)/2)Swk(m)|wk(m)<0=0,m=1,···,M (11)

    其中,mk为当前所在状态转移速度通道,S为权系数形状参数,S的取值与预估的目标机动性相关。目标机动性较强时,S取值较大,权系数曲线的波峰较扁平,物理意义为目标转移到相邻速度通道的范围越大,反之亦然。S的具体数值通过最大变化速度Dv覆盖的速度通道数来确定。在目标可能的机动范围内权值较大,在机动范围外,随着搜索速度与当前速度差的增大权系数逐渐减小。为保证算法能够覆盖目标机动范围,我们令偏移当前速度mmax个通道时的权系数wk(mmax)不小于0.95,形状参数S可由式(12)确定。

    Slg(10.95)/lg(10.95)lg(|(M1)/2mmax|(M1)/2)lg(|(M1)/2mmax|(M1)/2)=lg0.05lg(|(M1)/2mmax|)lg(M1)+lg2 (12)

    M=41为例,不同参数的权系数曲线如图2所示。

    图  2  权系数曲线
    Figure  2.  Curve of weight coefficient

    式(11)为某一个状态的权系数计算公式,状态空间中的全部N个状态都需要相似的权系数计算,得到加权矩阵Wk=[Wk1, ···, WkN] T

    经过加权处理以及自适应补偿处理的改进递推公式为:

    I(Xk)=maxm=1:M{WkI(Xk1)exp(j4πvmTrλ)+1Lm[Lml=0Zk+lexp(j4πvmlTrλ)]} (13)

    递归过程在第kLmax帧结束,其中, Lmax= round(ρ/Vmax/Tr)

    在式(13)中,第k –1帧积累值函数和第k+1到第k+Lm帧观测值的多普勒频移同时被补偿到了当前时刻,距离徙动也被动态规划的位置搜索间接补偿。加权和自适应补偿处理进一步提高了搜索和积累效率。该递归过程相当于一个马尔科夫过程,递推的能量积累不受整个观测过程中多普勒扩散的影响。

    k=KLmax:K时,I(Xk)的值保持不变。寻找I(XK)的最大值,当最大值超过门限VT,宣布目标被检测到,并得到最终的目标位置与速度。VT的计算需要I(XK)准确的概率分布函数,不幸的是该分布函数难以计算,这是因为:(a)动态规划中的max[·]运算带来了非线性,非高斯的过程,(b)动态规划中的状态实际上是不独立的,(c)加权与自适应补偿处理带来了额外的复杂性。因此,门限计算由现有的基于极值理论的计算机拟合仿真方法[14]得到。

    状态转移函数 Ψ()记录了整个递推过程中的状态转移过程,如果需要,该机动目标每一帧的位置和速度可以通过如下的回溯过程得到。

    k=K, K–1, ···, 1,对过门限的状态Xk,有

    ˆXk=Ψ(ˆXk+1) (14)

    可得到观测过程中全部K帧的估计航迹 ˆXK= {ˆX1,ˆX2,···,ˆXK}

    本文算法的运算量与目标的速度范围密切相关,在目标初速较高的情况下,传统算法与本文算法都需要在较大的速度范围内进行速度搜索,所以除了距离单元数N,搜索通道数M也是运算量分析的一个重要参数。本文算法的核心递推公式(式(13))的运算量为:

    F=M[NIm+NLIm+(NL+2)Ia]+NmaxC(2M) (15)

    其中,Im为复乘运算,Ia为复加运算,maxC为复最大值运算。式(13)中的实运算相较于复运算为低阶运算,可以省略,自适应步长的运算按照最大步长近似。1次复乘运算相当于6次实运算,1次复加运算相当于2次实运算,1次复最大值运算相当于3次实运算加1次实最大值运算。将上述关系代入式(15),整个递推过程的运算量为:

    F=KF=K[(10+8L)MN+N(3+3/2)2M] (16)

    F中的参量统一由n来代替,则算法的计算复杂度为:

    O(F(n))=O(n[(10+8L)n2+n(3+3/2)2n])=O(n3) (17)

    RFT与MTD算法的计算复杂度分别为O(n3)与O(n2log2n)[7],虽然与本文算法相比运算量相仿或更低,但这两种方法无法对运动参数发生突变的机动目标进行检测。

    假设雷达载频150 MHz,距离分辨力10 m,脉冲重复周期2 ms,观测帧数500,截取距离单元数200。100 km外的目标以初速度v0=27 m/s相向雷达飞行。目标的加速度在观测过程中发生了两次改变,以模拟目标的机动,观测过程中的3个加速度分别为:在前150个脉冲内a1=200 m/s2,在中间150个脉冲内a2=50 m/s2,在最后200个脉冲内a3=300 m/s2。加加速度j0服从均匀分布U(–5, 5) m/s3,模拟额外机动性。设置本文算法中的参数为Vmax=500 m/s, M=40, SNR为–5 dB时,本文算法处理结果如图3所示。

    图  3  DPWACI处理结果
    Figure  3.  Result of DPWACI

    DPWACI估计出的位置为第87个距离单元,速度为220 m/s,与仿真参数相符。该仿真条件下没有速度模糊,但低信噪比下RFT和MTD失效,提高信噪比至10 dB, RFT和MTD的处理结果分别如图4图5所示。由于距离徙动与多普勒扩散,MTD与RFT算法都无法积累出峰值,MTD算法没有距离补偿和多普勒补偿,最终积累的能量分散到了多个距离单元与多普勒通道;RFT算法实现了一部分距离补偿,但无法处理高阶运动分量和参数突变带来的多普勒扩散,最终积累的能量分散到了多个速度通道。这两种算法都无法估计出目标准确的位置与速度。为了避免能量扩散,传统算法只能缩短积累时间,浪费了积累时间之外的目标能量。

    图  4  MTD处理结果
    Figure  4.  Result of MTD
    图  5  RFT处理结果
    Figure  5.  Result of RFT

    为了分析本文算法对任意机动目标的检测性能,将进行5000次蒙特卡洛实验。由–10 dB至4 dB变化SNR,每次实验中v0在[0, 50] m/s中随机选择,a1在[2, 400] m/s2中随机选择,a2在[0, 200] m/s2中随机选择,a3在[400, 600] m/s2中随机选择。此时,目标可能的最大运动速度为470 m/s,已经产生了多普勒模糊,传统方法必须通过解模糊手段来进行速度估计,而本文算法直接采用速度信息进行相位补偿,避免了多普勒模糊。若估计位置与真实位置误差在2个距离单元以内,估计速度通道与真实速度相符,则认为检测正确。将式(9)命名为DPCI,设置固定步长L=0.5Lmax。虚警概率10–6下,DPWACI, DPCI, RFT与解模糊后的MTD算法的检测性能曲线如图6所示。

    图  6  检测性能对比曲线
    Figure  6.  Curves of comparison of detection performances
    图  7  速度估计均方根误差
    Figure  7.  Root mean square error of estimated velocity

    图6所示,虚警概率10–6下,本文DPWACI算法在信噪比–6 dB时达到了90%。相较于传统的MTD与FRT算法,分别得到了约8 dB与6 dB的信噪比增益。相较于没有采用加权搜索和自适应步长的DPCI算法,DPWCI算法进一步将检测所需信噪比降低了约1 dB。如图7所示,在目标信噪比大于–7 dB时速度估计误差已经非常小了,当目标信噪比大于–6 dB后几乎不存在估计误差。

    本文提出了一种适用于任意机动目标的基于动态规划的加权自适应相参积累方法。结合加权动态规划搜索以及自适应补偿相参积累,该方法能够克服距离徙动,多普勒扩展以及多普勒模糊,在目标运动参数发生突变时依然能够沿着目标运动轨迹进行高效能量积累。仿真结果和性能对比展示了该算法相较于传统算法的优越性,误差分析证实了所提算法的估计精确性。

  • 图  1  频率捷变波形示意图

    Figure  1.  Schematic diagram of the frequency agility waveform

    图  2  MDP的随机独立性与强化学习的优化目标

    Figure  2.  The random independence of MDP and the optimization objectives of reinforcement learning

    图  3  DQN网络参数的更新过程

    Figure  3.  The network parameter update process of DQN

    图  4  全连接神经网络结构示意图

    Figure  4.  The schematic diagram of fully connected neural network structure

    图  5  脉内侦干策略

    Figure  5.  The intra-pulse interception-jamming strategy

    图  6  脉间侦干策略

    Figure  6.  The pulse-to-pulse interception-jamming strategy

    图  7  脉内侦干策略的子脉冲频点决策训练结果

    Figure  7.  The training results of sub-pulse frequency decision for the intra-pulse interception-jamming strategy

    图  8  训练用CPI数量对脉内侦干策略下对抗成功率的影响

    Figure  8.  The impact of the number of CPI used for training on the success rate of confrontation for the intra-pulse interception-jamming strategy

    图  9  雷达与干扰对抗4个PRT的策略及对抗奖励

    Figure  9.  The strategies and rewards for radar anti-jamming during four PRT periods

    图  10  雷达执行最优策略的时频图及一维距离像

    Figure  10.  The time-frequency map and the one-dimensional High-Resolution Range Profile (HRRP) for radar executing optimal strategy

    图  11  脉间侦干策略的子脉冲频点决策训练结果

    Figure  11.  The training results of sub-pulse frequency decision for the pulse-to-pulse interception-jamming strategy

    图  12  训练用CPI数量对脉间侦干策略对抗成功率的影响

    Figure  12.  The impact of the number of CPI used for training on the success rate of confrontation for the pulse-to-pulse interception-jamming strategy

    图  13  对抗3个侦干周期的雷达策略及对抗奖励

    Figure  13.  The strategies and rewards for radar anti-jamming during three interception-jamming periods

    1  基于深度Q网络的雷达子脉冲频点决策

    1.   Radar sub-pulse frequency decision based on Deep Q-Network (DQN)

     Step 1:初始化:
      Step 1-1:使用随机参数θ初始化估计值Q网络
      Step 1-2:使用参数θ=θ初始化目标值ˆQ网络
      Step 1-3:初始化经验池D
      Step 1-4:初始化干扰策略,雷达子脉冲数量及频点,折扣因
      子γ,学习率α,贪婪因子ε,软间隔更新系数τ等参数
     Step 2:每幕:
     Step 2-1:设置初始状态s1=[fR,0,fJ,1]
     Step 2-2:每个时间步:
      Step 2-2-1:使用ε-贪婪原则依据估计值网络的输出结果选择
      各子脉冲频点at=fR,t=[fsub1,t,fsub2,t,,fsubN,t],即以
      1ε概率选择估计值网络输出的最佳的频点或者以ε概率随
      机选择频点
      Step 2-2-2:雷达发射子脉冲频率捷变波形,接收到回波后,感
      知得到下一时刻状态st+1并根据目标检测结果和脉压后的信
      干噪比评估当前时刻奖励rt
      Step 2-2-3:将(st,at,rt,st+1)存储到经验池D中,如果经验池
      中的样本数超出预定数量,则删除早期训练样本数据,以便存
      储并使用最新样本数据
      Step 2-2-4:如果经验池D中保存数量超过起始值,则从D中选
      择批大小(batchsize)个样本作为训练集输入到估计值和目标值
      网络中,分别计算得到Q(st,at;θ)y=rt+γmaxˆQ(st+1,
      at+1;θ),并反向梯度求导使误差函数L(θ)=[yQ(st,at;
      θ)]2趋近0,更新估计值网络参数θ
      Step 2-2-5:每隔一定的时间步软更新目标值网络参数θ
     Step 2-3:结束该时间步
     Step 2-4:降低贪婪概率ε
     Step 3:结束该幕
    下载: 导出CSV

    表  1  频率捷变信号参数设置

    Table  1.   The parameter settings of frequency agile signal

    参数 数值
    子脉冲调制类型 LFM
    子脉冲个数 3
    子脉冲频点 [10 MHz, 30 MHz, 50 MHz]
    子脉冲脉宽 5 μs
    子脉冲带宽 5 MHz
    信噪比 0 dB
    下载: 导出CSV

    表  2  干扰参数设置

    Table  2.   The parameter settings of jamming

    干扰类型 参数 数值
    窄带瞄频 瞄准频点 [10 MHz, 30 MHz, 50 MHz]
    带宽 10 MHz
    干噪比 35 dB
    宽带阻塞 带宽 120 MHz
    干噪比 30 dB
    下载: 导出CSV

    表  3  DQN参数设置

    Table  3.   The parameter settings of DQN

    参数 数值
    批大小 64
    学习率 0.001
    折扣因子 0.99
    缓冲区大小 10000
    起始训练样本量 64
    贪婪因子衰减系数 0.2
    32个时间步
    目标值网络更新周期 4个时间步
    目标值网络软间隔更新系数 0.01
    隐藏层数量 2
    隐藏层神经元个数 64
    归一化系数 80
    下载: 导出CSV

    表  4  脉内侦干策略的对抗成功率(%)

    Table  4.   The success rate of confrontation for the intra-pulse interception-jamming strategy (%)

    策略PRT对抗成功率CPI对抗成功率
    随机频点9.70
    PPO949
    DQN100100
    下载: 导出CSV

    表  5  脉内侦干策略下各种雷达策略对抗1000次结果(fJ=fsub1)

    Table  5.   The results of 1000 confrontations with various radar strategies for the intra-pulse interception-jamming strategy (fJ=fsub1)

    雷达频点选择 目标检测率(%) 信干噪比(dB) 平均得分
    [1,1,1] 0 –3.00
    [1,1,2] 0 11.09 –1.12
    [1,1,3] 0 12.25 –0.96
    [1,2,2] 97.6 15.20 1.09
    [1,2,3] 81.7 12.78 0.78
    [1,3,3] 99.7 16.06 1.19
    [2,1,1] 98.3 15.35 1.12
    [2,1,3] 75.6 12.47 0.64
    [2,3,3] 97.7 15.19 1.10
    [3,1,1] 99.6 16.07 1.18
    注:综合考虑噪声随机性引起的得分波动情况,加粗项为最优策略
    下载: 导出CSV

    表  6  脉间侦干策略的对抗成功率(%)

    Table  6.   The success rate of confrontation for the pulse-to-pulse interception-jamming strategy (%)

    策略 PRT对抗成功率 CPI对抗成功率
    随机频点 0.7 0
    PPO 93.6 31
    DQN 100 100
    下载: 导出CSV

    表  7  脉间侦干策略下各种雷达策略对抗1000次的结果(fJ=1)

    Table  7.   The results of 1000 confrontations with various radar strategies for the pulse-to-pulse interception-jamming strategy (fJ=1)

    雷达频点选择 目标检测率(%) 信干噪比(dB) 平均得分
    [1,1,1] 0 –3.00
    [1,2,3] 81.3 12.74 0.76
    [2,2,2] 99.7 17.08 3.17
    [3,3,3] 100 17.58 3.22
    注:加粗项表示最优策略
    下载: 导出CSV
  • [1] 李永祯, 黄大通, 邢世其, 等. 合成孔径雷达干扰技术研究综述[J]. 雷达学报, 2020, 9(5): 753–764. doi: 10.12000/JR20087.

    LI Yongzhen, HUANG Datong, XING Shiqi, et al. A review of synthetic aperture radar jamming technique[J]. Journal of Radars, 2020, 9(5): 753–764. doi: 10.12000/JR20087.
    [2] 崔国龙, 余显祥, 魏文强, 等. 认知智能雷达抗干扰技术综述与展望[J]. 雷达学报, 2022, 11(6): 974–1002. doi: 10.12000/JR22191.

    CUI Guolong, YU Xianxiang, WEI Wenqiang, et al. An overview of antijamming methods and future works on cognitive intelligent radar[J]. Journal of Radars, 2022, 11(6): 974–1002. doi: 10.12000/JR22191.
    [3] 李康. 雷达智能抗干扰策略学习方法研究[D]. [博士论文], 西安电子科技大学, 2021. doi: 10.27389/d.cnki.gxadu.2021.003098.

    LI Kang. Research on radar intelligent antijamming strategy learning method[D]. [Ph.D. dissertation], Xidian University, 2021. doi: 10.27389/d.cnki.gxadu.2021.003098.
    [4] JIANG Wangkui, LI Yan, LIAO Mengmeng, et al. An improved LPI radar waveform recognition framework with LDC-Unet and SSR-Loss[J]. IEEE Signal Processing Letters, 2022, 29: 149–153. doi: 10.1109/LSP.2021.3130797.
    [5] GARMATYUK D S and NARAYANAN R M. ECCM capabilities of an ultrawideband bandlimited random noise imaging radar[J]. IEEE Transactions on Aerospace and Electronic Systems, 2002, 38(4): 1243–1255. doi: 10.1109/TAES.2002.1145747.
    [6] GOVONI M A, LI Hongbin, and KOSINSKI J A. Low probability of interception of an advanced noise radar waveform with linear-FM[J]. IEEE Transactions on Aerospace and Electronic Systems, 2013, 49(2): 1351–1356. doi: 10.1109/TAES.2013.6494419.
    [7] CUI Guolong, JI Hongmin, CAROTENUTO V, et al. An adaptive sequential estimation algorithm for velocity jamming suppression[J]. Signal Processing, 2017, 134: 70–75. doi: 10.1016/j.sigpro.2016.11.012.
    [8] YU K B and MURROW D J. Adaptive digital beamforming for angle estimation in jamming[J]. IEEE Transactions on Aerospace and Electronic Systems, 2001, 37(2): 508–523. doi: 10.1109/7.937465.
    [9] DAI Huanyao, WANG Xuesong, LI Yongzhen, et al. Main-lobe jamming suppression method of using spatial polarization characteristics of antennas[J]. IEEE Transactions on Aerospace and Electronic Systems, 2012, 48(3): 2167–2179. doi: 10.1109/TAES.2012.6237586.
    [10] 鲍秋香. 频率随机捷变雷达抗扫频干扰性能仿真[J]. 舰船电子对抗, 2021, 44(5): 78–81. doi: 10.16426/j.cnki.jcdzdk.2021.05.017.

    BAO Qiuxiang. Simulation of anti-sweep jamming performance of frequency random agility radar[J]. Shipboard Electronic Countermeasure, 2021, 44(5): 78–81. doi: 10.16426/j.cnki.jcdzdk.2021.05.017.
    [11] 全英汇, 方文, 沙明辉, 等. 频率捷变雷达波形对抗技术现状与展望[J]. 系统工程与电子技术, 2021, 43(11): 3126–3136. doi: 10.12305/j.issn.1001-506X.2021.11.11.

    QUAN Yinghui, FANG Wen, SHA Minghui, et al. Present situation and prospects of frequency agility radar wave form countermeasures[J]. Systems Engineering and Electronics, 2021, 43(11): 3126–3136. doi: 10.12305/j.issn.1001-506X.2021.11.11.
    [12] MINSKY M. Steps toward artificial intelligence[J]. Proceedings of the IRE, 1961, 49(1): 8–30. doi: 10.1109/JRPROC.1961.287775.
    [13] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep reinforcement learning: A brief survey[J]. IEEE Signal Processing Magazine, 2017, 34(6): 26–38. doi: 10.1109/MSP.2017.2743240.
    [14] JIANG Wen, REN Yihui, and WANG Yanping. Improving anti-jamming decision-making strategies for cognitive radar via multi-agent deep reinforcement learning[J]. Digital Signal Processing, 2023, 135: 103952. doi: 10.1016/j.dsp.2023.103952.
    [15] JIANG Wen, WANG Yanping, LI Yang, et al. An intelligent anti-jamming decision-making method based on deep reinforcement learning for cognitive radar[C]. 2023 26th International Conference on Computer Supported Cooperative Work in Design (CSCWD), Rio de Janeiro, Brazil, 2023: 1662–1666. doi: 10.1109/CSCWD57460.2023.10152833.
    [16] WEI Jingjing, WEI Yinsheng, YU Lei, et al. Radar anti-jamming decision-making method based on DDPG-MADDPG algorithm[J]. Remote Sensing, 2023, 15(16): 4046. doi: 10.3390/rs15164046.
    [17] AZIZ M M, MAUD A, and HABIB A. Reinforcement learning based techniques for radar anti-jamming[C]. 2021 International Bhurban Conference on Applied Sciences and Technologies (IBCAST), Islamabad, Pakistan, 2021: 1021–1025. doi: 10.1109/IBCAST51254.2021.9393209.
    [18] LI Kang, JIU Bo, LIU Hongwei, et al. Reinforcement learning based anti-jamming frequency hopping strategies design for cognitive radar[C]. 2018 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), Qingdao, China, 2018: 1–5. doi: 10.1109/ICSPCC.2018.8567751.
    [19] LI Kang, JIU Bo, and LIU Hongwei. Deep Q-network based anti-jamming strategy design for frequency agile radar[C]. 2019 International Radar Conference (RADAR), Toulon, France, 2019: 1–5. doi: 10.1109/RADAR41533.2019.171227.
    [20] LI Kang, JIU Bo, WANG Penghui, et al. Radar active antagonism through deep reinforcement learning: A way to address the challenge of mainlobe jamming[J]. Signal Processing, 2021, 186: 108130. doi: 10.1016/j.sigpro.2021.108130.
    [21] WU Qinhao, WANG Hongqiang, LI Xiang, et al. Reinforcement learning-based anti-jamming in networked UAV radar systems[J]. Applied Sciences, 2019, 9(23): 5173. doi: 10.3390/app9235173.
    [22] AK S and BRÜGGENWIRTH S. Avoiding jammers: A reinforcement learning approach[C]. 2020 IEEE International Radar Conference (RADAR), Washington, USA, 2020: 321–326. doi: 10.1109/RADAR42522.2020.9114797.
    [23] AILIYA, YI Wei, and YUAN Ye. Reinforcement learning-based joint adaptive frequency hopping and pulse-width allocation for radar anti-jamming[C]. 2020 IEEE Radar Conference (RadarConf20), Florence, Italy, 2020: 1–6. doi: 10.1109/RadarConf2043947.2020.9266402.
    [24] ZHANG Jiaxiang and ZHOU Chao. Interrupted sampling repeater jamming suppression method based on hybrid modulated radar signal[C]. 2019 IEEE International Conference on Signal, Information and Data Processing (ICSIDP), Chongqing, China, 2019: 1–4. doi: 10.1109/ICSIDP47821.2019.9173093.
  • 期刊类型引用(6)

    1. 艾小锋,吴静,张静克,朱义奇,徐志明,吴其华. 空天目标雷达智能识别仿真系统设计与实现. 现代防御技术. 2024(02): 151-162 . 百度学术
    2. 刘康怡,赵振宇,李俐. SAR数据在土壤盐渍化监测中的应用研究进展. 地球信息科学学报. 2024(08): 1893-1910 . 百度学术
    3. 岳智彬,卢建斌,万露. 基于注意力机制的SRU模型雷达HRRP目标识别. 舰船电子工程. 2023(04): 44-48 . 百度学术
    4. 王再辰,程辉,赵亮. 基于极限学习机的在线参数更新方法及工业应用. 现代电子技术. 2023(22): 126-130 . 百度学术
    5. 郭鹏程,王晶晶,杨龙顺. 雷达地面目标识别技术现状与展望. 航空兵器. 2022(02): 1-12 . 百度学术
    6. 李秀娟,刘永信,黄平平,苏耘. 矢量网络分析仪极化特征参数测量校准方法研究. 电子测量与仪器学报. 2022(10): 26-32 . 百度学术

    其他类型引用(1)

  • 加载中
图(13) / 表(8)
计量
  • 文章访问数: 1046
  • HTML全文浏览量: 306
  • PDF下载量: 324
  • 被引次数: 7
出版历程
  • 收稿日期:  2023-10-10
  • 修回日期:  2024-01-03
  • 网络出版日期:  2024-01-11
  • 刊出日期:  2024-02-28

目录

/

返回文章
返回