基于复数域深度强化学习的多干扰场景雷达抗干扰方法

解烽 刘环宇 胡锡坤 钟平 李君宝

周叶剑, 张磊, 王虹现, 邢孟道. 空间轨道目标的逆合成孔径雷达成像质量分析[J]. 雷达学报, 2017, 6(1): 17-24. doi: 10.12000/JR16136
引用本文: 解烽, 刘环宇, 胡锡坤, 等. 基于复数域深度强化学习的多干扰场景雷达抗干扰方法[J]. 雷达学报, 2023, 12(6): 1290–1304. doi: 10.12000/JR23139
Zhou Yejian, Zhang Lei, Wang Hongxian, Xing Mengdao. Performance Analysis on ISAR Imaging of Space Targets[J]. Journal of Radars, 2017, 6(1): 17-24. doi: 10.12000/JR16136
Citation: XIE Feng, LIU Huanyu, HU Xikun, et al. A radar anti-jamming method under multi-jamming scenarios based on deep reinforcement learning in complex domains[J]. Journal of Radars, 2023, 12(6): 1290–1304. doi: 10.12000/JR23139

基于复数域深度强化学习的多干扰场景雷达抗干扰方法

DOI: 10.12000/JR23139
基金项目: 国家自然科学基金(62271166),哈尔滨工业大学医工理交叉基金(IR2021104)
详细信息
    作者简介:

    解 烽,博士生,主要研究方向为雷达抗干扰技术、深度强化学习

    刘环宇,讲师,主要研究方向为强化学习、目标识别检测和无人机控制

    胡锡坤,助理研究员,主要研究方向为遥感图像处理和深度学习

    钟 平,研究员,主要研究方向为智能目标识别

    李君宝,教授,主要研究方向为机器学习算法、嵌入式智能系统、图像处理

    通讯作者:

    刘环宇 liuhuanyu@hit.edu.cn

  • 责任主编:全英汇 Corresponding Editor: QUAN Yinghui
  • 中图分类号: TN974

A Radar Anti-jamming Method under Multi-jamming Scenarios Based on Deep Reinforcement Learning in Complex Domains

Funds: The National Natural Science Foundation of China (62271166), Interdisciplinary Research Foundation of HIT (IR2021104)
More Information
  • 摘要: 在现代电子战中,雷达面临的干扰环境比以前更加复杂,机载干扰机会根据突袭任务与突袭阶段的不同而改变其干扰方式。近年来,基于强化学习的雷达抗干扰方法在单一干扰对抗场景下取得了一定进展,但在实际复杂多干扰场景下的研究仍有不足。为了解决该问题,本文提出了一种基于复数域深度强化学习的多干扰场景雷达抗干扰方法以优化频率捷变雷达的抗干扰策略。首先,针对突袭任务的阶段性特点建立了噪声瞄准干扰、距离假目标欺骗干扰与密集假目标转发干扰3种干扰模型,并设计了3种干扰顺序策略来模拟实际干扰场景。其次,针对多干扰场景模型,构建了一种融合信干噪比与目标航迹完整性的强化学习奖励函数,并针对干扰信号的复数域特征,提出了一种基于复数域深度强化学习的多干扰场景雷达抗干扰方法。最后,基于3种干扰顺序策略设计了雷达抗干扰仿真实验,结果表明,所提方法能够有效解决雷达面临的时序条件下复杂多干扰场景的主瓣干扰问题,与两种经典深度强化学习算法相比该方法抗干扰决策性能大幅提高,平均决策时间降低至405.3 ms。

     

  • 随着雷达空间探测技术的发展,空间目标的高精度成像处理已成为空间探测任务的重要组成部分。对空间目标的雷达观测成像主要采用地基逆合成孔径雷达(Inverse Synthetic Aperture Radar, ISAR)体制实现,目前,针对低轨目标的成像技术比较完善[14],但从空间目标运动特性上进行ISAR成像体制和信号处理方法设计来提升雷达工作性能的研究偏少,需要直接面对若干问题:(1)根据传统雷达方程可知,由于回波信噪比与雷达目标距离4次方成反比关系,目标轨道高度升高将导致单次回波信噪比急剧下降;(2)传统ISAR成像处理通常将目标认为是“完全”非合作目标,ISAR成像体制与信号处理设计均未能紧密结合目标轨道参数。与空中气动目标和海面舰船目标相比,空间轨道目标的运动相对平稳、可预测性强,而且目标姿态通常严格受控,目标相对雷达视线角变化通常可以根据轨道信息精确解算。此外,与合成孔径雷达(SAR)成像类似,ISAR成像过程也是积累多帧脉冲串相干聚焦实现方位成像,方位相干积累增益可有效地提高成像信噪比质量[5]。针对SAR系统中相干积累对成像质量的分析已较为完善[68],考虑方位相干积累增益后,条带SAR雷达方程中成像信噪比将与作用距离的3次方成反比,因此SAR体制参数设计与传统雷达方程是有明显差异的。从成像原理上来看,ISAR成像相干积累角也能带来明显增益,但其成像几何较SAR不同,不能直接应用SAR雷达方程的若干结论[912]。尤其是在空间目标ISAR成像中,轨道参数对成像质量的影响未有深入分析,大角度成像的方位相干积累增益能否弥补轨道升高带来的回波信噪比降低尚无明确结论。

    类比SAR雷达方程,本文结合目标轨道参数推导针对空间目标ISAR成像雷达方程的一般形式,进而分析轨道高度、目标雷达姿态角变化引起的方位相干积累增益变化及其对目标成像质量的影响,得到较为直观的理论来指导ISAR成像体制中发射功率、波形等参数的优化设计。仿真实验就不同轨道高度成像质量进行比较,探究方位向增益与轨道参数间的变化关系及其对成像质量的改善情况,实验结果验证了推导结论的准确性。

    本文结构如下:第2节结合天线理论推导ISAR系统成像雷达方程;第3.1节从地基雷达观测几何出发对空间目标角速度这一关键因素进行推导,并利用其计算结果得到空间轨道目标ISAR系统成像雷达方程;第3.2节分析第3.1节中观测模型引起计算误差;第3.3节对得到的空间轨道目标ISAR系统成像雷达方程作出一些定性结论;第4节结合目标轨道信息,利用空间轨道目标ISAR系统成像雷达方程指导定分辨率成像仿真,并对轨道参数引起的成像质量变化分析,验证了推导公式和结论的正确性。

    结合天线理论,对收发共天线的雷达系统,单次回波信号功率与雷达参数和作用距离的关系可由传统雷达方程表示:

    S=PG2λ2σTi(4π)3r4η
    (1)

    其中,P为雷达发射机功率,G为天线增益, λ为信号波长, σ为目标的雷达截面积,Ti为相干积累时间,r为雷达作用距离, η为系统损耗。

    区别于一般雷达系统,ISAR成像体制具有2维高分辨率,而空间目标尺寸较大。因此,本文针对成像分辨单元信噪比进行成像质量分析,定义目标分辨单元的等效雷达截面积 σ[13]

    σ=σ0ρrρa
    (2)

    其中, σ0为目标归一化后向散射系数, ρrρa分别为目标ISAR成像纵向和横向分辨率且两者大小相当。一般来说,ISAR成像系统的纵向距离分辨率与斜距r无关而仅和发射信号频率带宽相关[9]

    ρr=c2B
    (3)

    其中,c为光速,B为信号带宽。

    横向高分辨是通过在相干测量时间内对多帧回波进行多普勒分析获得,与目标雷达视线的相干积累转角直接相关。空间目标在观测过程中姿态平稳,可采用2维转台模型描述其与雷达间的相对运动。假定雷达视线转速为w,相干测量时间为Ti,则相干积累转角 Δθ=wTi,横距分辨率 ρa可计算为:

    ρa=λ2Δθ
    (4)

    将式(3)、式(4)带入重写式(1),考虑方位相干积累的ISAR成像目标某分辨单元对应的接收功率可表达为:

    S=PG2λ2σ0ρr(4π)3r4ηλ2w
    (5)

    由式(5)可见,与SAR成像雷达方程类似,雷达视角(Light Of Sight, LOS)变化速度w,即下文所述的目标相对转台中心转角速度,将直接影响分辨单元的回波功率,决定分辨单元信噪比质量。下面将结合空间轨道目标轨道参数对以上公式进行扩展分析。

    本节将从轨道高度变化引起的空间目标转角速度变化出发对上节得到的空间目标ISAR成像方程进行完善。在分析转角速度变化过程中,还将对关键性的雷达斜距变化进行建模分析,得到定分辨率观测下的雷达方程。

    假定空间目标处于近圆轨道,考虑地球自转后,目标的相对平近角点可表示为[14,15]

    n=μ(Re+h)3/2
    (6)

    其中,引力常数 μ=3.986×1014(m3/s2)Re为地球半径,h为目标轨道高度。

    图1(a)观测几何所示,单次脉冲周期Δtm后,目标从p点运动至p′点,其运行绝对距离可由几何计算得:

    pp=(Re+h)nΔtm=μΔtm(Re+h)1/2
    (7)
    图  1  空间观测几何模型及成像模型
    Figure  1.  Observation and imaging model of satellite targets

    在目标轨道平面内,目标对于观测站点的相对运动如图1(b)所示,雷达站点处于转台原点,运动起点p的雷达斜距为r,运动终点p′的雷达斜距为r′,原点与终点连线上有一斜距为rp0,由几何关系可知:

    r=r+Δr
    (8)
    pp0=ωΔtmr
    (9)

    考虑空间目标平近点角远小于地球自转、单帧成像时间在秒级的情况下,短弧段 pp可近似为线段pp′,短弧段 pp0亦可近似为线段pp0, Δpp0p′可近似为直角三角形满足勾股定理:

    (pp0)2+(p0p)2=(pp)2
    (10)

    带入式(7)、式(8)、式(9),可得:

    w=μΔtm2Re+hΔr2rΔtm
    (11)

    r2=0处泰勒展开,可以得到近似解:

    w1rΔtmμΔtm2Re+h(μΔtm2Re+hΔr22)
    (12)

    其中,关于雷达斜距变化Δr的求解问题可以简化为研究位于目标轨道平面外一点与轨道上的目标间距离变化关系,如图2所示。

    图  2  雷达斜距变化Δr求解模型
    Figure  2.  Calculation model of change of radar range

    以地心为坐标轴原点,目标所在轨道平面为xOy平面建立直角坐标系xyz,观测站点SxOy平面内投影为 S(x0,y0,0),目标运动至 p((Re+h) cosθ(t),(Re+h)sinθ(t),0),其中,q(t) = q0+ n(tt0)用以表示目标在轨道上的瞬时位置, θ0为单帧成像中心时刻t0对应的位置参数。对于直角三角形DSSp,由勾股定理知:

    r2=d2+l2
    (13)

    其中,垂直距离d在目标运动过程中视为定值,而水平距离l可由下式计算:

    l2=((Re+h)cosθ(t)x0)2+((Re+h)sinθ(t)y0)2
    (14)

    将式(14)带入式(13)并对等式两边关于时间求导:

    rr=[((Re+h)cosθ(t)x0)(Re+h)sinθ(t)+((Re+h)sinθ(t)y0)(Re+h)cosθ(t)]n=[(Re+h)x0sinθ(t)(Re+h)y0cosθ(t)]n=(Re+h)x02+y02sin(θ(t)φ)n
    (15)

    短时Δtm内, rrΔtm,并将式(15)带入可得:

    Δr=(Re+h)x02+y02sin(θ(t)φ)nΔtmr
    (16)

    其中, φ=arctan(y0x0)

    为进一步简化式(16),当以OS′作为x正半轴,即y0=0, φ=0时,在雷达可视范围内 |θ|θ0,式(16)可写为:

    Δr=(Re+h)x0sinθ(t)nΔtmr
    (17)

    重写式(11)、式(12):

    w=μr(Re+h)((Re+h)x0sinθ(t)nr3)2
    (18)
    wμr(Re+h)12r3μ(Re+h)5/2(x0sinθ(t)n)2
    (19)

    为保证方位向分辨率一定,总转角 Δθ需固定,那么相干时间Ti将随目标高度变化:

    Ti=Δθw
    (20)

    结合式(6)、式(18),重写空间目标ISAR成像雷达方程:

    S=PG2λ3σ0ρr2(4π)3r3ηr2(Re+h)μr2(Re+h)3(x0sinθ(t)n)2
    (21)

    由于地球自转的影响,空间目标相对于雷达站点的运动轨迹并不是一个闭合的圆,如图3(b)所示。本文采用的近似模型将其轨道近似为圆如图3(a)所示,对于短时间观测任务来说,两者误差可控制在一定程度内。这里分别使用不同高度的轨道参数对LOS转角速度w进行求解并与实际值对比,选择库尔勒作为观测站点,结果如图4所示。其中,真实值为通过STK验证后的实际LOS转角速度,理论值为按式(18)计算得到的结果,近似值为按式(19)计算得到的结果。计算结果与实际值间的误差主要由模型简化引起,可由与轨道高度相关的函数补偿。补偿后的雷达作用距离方程可写成:

    S=PG2λ3σ0ρr2(4π)3r3η(μRe+h((Re+h)x0sinθ(t)n)2r2C(h)r)1
    (22)

    其中,C(h)为补偿函数。需要说明的是,补偿函数与目标轨道参数和观测点坐标均有关,且对于本文关于空间目标ISAR成像雷达方程的影响有限,故未进一步讨论。

    图  3  Δr求解近似模型与实际模型
    Figure  3.  Approximate and actual model of Δr
    图  4  不同轨道高度下目标转角速度计算结果
    Figure  4.  Calculation of target′s rotate speed at different heights

    与条带SAR雷达方程类似,式(20)中ISAR系统回波信号的接收功率与横向分辨率 ρa无关,与LOS转角速度w成反比,而w随轨道目标轨道高度升高而降低。轨道高度升高引起转角速度减小进而导致成像所需相干时间增加。这一变化可部分抵消因目标斜距增大引起的回波能量分散效果,也就是说回波信号接收功率因相干增益不再随作用距离增大呈4次方下降,其下降速度应小于作用距离的4次方,具体数值还与目标与雷达间相对位置有关,一般应介于3次方与4次方之间。采用大角度的ISAR成像处理可弥补轨道升高带来的回波接收功率降低,较普通雷达体制有明显的距离优势。

    为验证空间目标ISAR成像雷达方程中,回波信号接收功率下降速度的结论。仿真实验将在成像分辨率固定的情况下,仅改变目标轨道高度引起作用距离变化,对相近姿态下的空间目标进行成像观测,研究得到的RD图像中信号功率的变化以及图像质量的变化。实验中ISAR系统主要参数如表1,目标轨道主要参数倾角为42.8°,升交点赤经(Right Ascension of Ascending Node, RAAN)为34.7°E,观测点分别选取库尔勒、北京、西安,其经纬度信息如表2

    表  1  实验ISAR系统主要参数
    Table  1.  Main parameters of ISAR system
    参数 数值
    载频 16.7 GHz
    带宽 1 GHz
    方位向分辨率 0.18 m
    距离向分辨率 0.15 m
    脉冲重复频率 200 Hz
    下载: 导出CSV 
    | 显示表格
    表  2  实验地基ISAR观测站位置
    Table  2.  Position parameters of radar sites
    地点 经纬度
    库尔勒 41.5°N, 86.8°E
    北京 39.9°N, 116.4°E
    西安 31.1°N, 108.4°E
    下载: 导出CSV 
    | 显示表格

    对于式(21),为简化计算,本实验中选取 θ0=0,也就是目标均处于轨道上与观测点最近位置附近,其转角速度w达到该轨道上的最大值,其回波接收功率为同一轨道最小值。

    目标轨道高度变化将引起目标轨道半径的变化,图5为归一化的回波信号接收功率随目标轨道半径的变化曲线,可以看出对于轨道半径在7400 km以上(作用距离在1400 km以上)的目标,其回波信号接收功率随斜距下降速度介于斜距变化的3次方与4次方之间,具体影响因子与目标与观测点相对位置、观测弧段均有关。在雷达位于西安的观测过程中,低轨道观测甚至出现相干增益超过斜距下降3次方影响的现象,这是由于低轨目标其相干增益与其轨道高度直接相关,而斜距变化与轨道高度变化并不是严格的线性相关,也就说低轨观测中,目标与观测点相对位置以及观测弧段的变化也将较大程度影响回波信号的接收功率。

    图  5  归一化回波信号接收功率随目标轨道半径变化曲线
    Figure  5.  Normalization curve of received power changing in different orbit radii

    结合ISAR体制下目标所具有的孤立散射特点,参考点目标成像质量评价中的积分旁瓣比[16](Integrated SideLobe Ratio, ISLR),本文计算各图像中心单元的目标与背景噪声像素能量比(Target Noise Ratio, TNR)来反映成像质量。理论上来说,孤立散射点成像后对应像素单元与背景噪声的能量比应与脉冲回波信噪比、脉压长度、脉冲积累数等因素均相关。但为直观反映不同轨高下脉冲积累数变化带来的图像信噪比增益变化,本文将所有单脉冲回波信噪比统一设置为10 dB,仅改变脉冲积累数进行实验。

    TNR=EtEb
    (23)

    其中,Et为目标像素能量积分,Eb为背景像素能量积分。

    实验选取西安站观测结果进行成像质量分析,其中方位维、距离维无单位,代表像素点位置,图6为某空间目标在791 km轨道某处成像结果,目标中心单元的距离维、方位维剖面如图6所示。选取相近姿态下,目标在3个不同轨道高度的成像结果作为对比,如图7所示,其量化质量评价结果如表3所示。

    表3可以看出,随轨道高度升高脉冲积累数增加,相干处理后图像TNR也相应增大,这与3.3节中轨道高度对大角度ISAR成像体制影响的结论一致;其脉冲积累数与TNR之比直观反映相干积累对图像质量提升的作用,在脉冲回波信噪比、脉压长度、等因素相同的情况下,可近似为一定值,但可以预见的是在实际中将随着高度升高而增大。

    图  6  目标图像距离、方位剖面图
    Figure  6.  Range and azimuth profiles of target image
    图  7  相近观测视角下,不同轨道高度成像结果对比图
    Figure  7.  Comparison result of target imaging at different heights with similar LOS parameters
    表  3  不同轨道高度图像质量评价
    Table  3.  Comparison result of imaging quality at different heights
    轨道高度(km) 成像时间(s) 脉冲积累数 TNR 脉冲积累数/TNR
    791 9.94 1988 6.82 291.58
    1200 12.40 2484 8.61 288.58
    1800 16.82 3364 11.45 293.80
    下载: 导出CSV 
    | 显示表格

    本节实验应用推导的雷达成像方程从回波功率、成像质量两方面进行定分辨成像分析,可总结以下结论。(1)通过有效结合轨道信息,空间目标ISAR成像处理应采用更接近于合作(或半合作)目标的成像处理方式,进一步根据本文方法估计方位分辨性能可在保证横向分辨率的基础上有效指导成像角域优化选择。(2)总体而言,空间目标ISAR观测的回波信噪比受轨道高度升高而下降,另一方面较大的相干积累角ISAR成像,方位相干积累增益可部分补偿目标轨道高度增加引起的信噪比损失,也就是文中所述的回波接收功率下降量级小于斜距4次方,但大于SAR系统中斜距3次方的关系。(3)目标轨道参数、观测几何模型可有效指导空间轨道目标的成像工作功率、波形参数设计,实现ISAR成像信噪比预估计,同时可利用相干积累角的计算进行成像时间段的优化选择,满足高分辨成像任务。

    本文从基本雷达方程出发,推导空间轨道目标ISAR成像雷达方程的一般形式,分析空间目标轨道参数对目标转角速度以及成像相干积累增益的影响,定性分析了采用相干体制下的大转角ISAR雷达系统进行空间观测的优势,提出较为简便的成像信噪比估计方法。仿真实验验证ISAR成像的方位相干增益可部分弥补目标轨道高度增加引起的ISAR成像质量下降,为空间目标ISAR成像体制和信号处理设计、成像信噪比估计、成像时间段优化选择提供了理论基础。

  • 图  1  频率捷变雷达模型

    Figure  1.  Frequency agile radar model

    图  2  噪声瞄准干扰仿真图

    Figure  2.  Simulation diagram of noise spot jamming

    图  3  距离假目标欺骗干扰仿真图

    Figure  3.  Simulation diagram of distance false-target deception jamming

    图  4  密集假目标转发干扰仿真图

    Figure  4.  Simulation diagram of dense false-target repeater jamming

    图  5  3种干扰策略顺序

    Figure  5.  Order of three jamming strategies

    图  6  FA雷达与干扰机

    Figure  6.  FA radar and target jammer

    图  7  噪声瞄准干扰频域图

    Figure  7.  Frequency domain of noise spot jamming

    图  8  距离假目标欺骗干扰时域图

    Figure  8.  Time domain of distance false-target deception jamming

    图  9  密集假目标转发干扰时域图

    Figure  9.  Time domain of dense false-target repeater jamming

    图  10  基于复数域深度强化学习的多干扰场景雷达抗干扰网络

    Figure  10.  Deep RL based radar anti-jamming network under multi-jamming scenes in complex domain

    图  11  复数域特征提取网络

    Figure  11.  Complex domain feature extraction network

    图  12  深度确定性策略梯度网络

    Figure  12.  Deep deterministic policy gradient network

    图  13  态势预测过程损失值

    Figure  13.  Loss value of situation awareness process

    图  14  态势预测过程准确率

    Figure  14.  Accuracy value of situation awareness process

    图  15  3种干扰类型下不同强化学习算法的决策性能

    Figure  15.  Decision performance of different RL algorithms under three types of interference

    图  16  DRL-ANCD网络对于3种干扰类型的抗干扰行为决策

    Figure  16.  Anti-jamming decisions of DRL-ANCD networks for three interference

    图  17  3种干扰策略下不同强化学习算法的决策性能

    Figure  17.  Decision performance of different RL algorithms under three interference strategies

    图  18  干扰策略Ⅰ下DRL-ANCD网络的抗干扰行为

    Figure  18.  Anti-jamming behaviors of DRL-ANCD networks under interference strategy I

    图  19  干扰策略Ⅱ下DRL-ANCD网络的抗干扰行为

    Figure  19.  Anti-jamming behaviors of DRL-ANCD networks under interference strategy Ⅱ

    图  20  干扰策略Ⅲ下DRL-ANCD网络的抗干扰行为

    Figure  20.  Anti-jamming behaviors of DRL-ANCD networks under interference strategy Ⅲ

    1  深度确定性策略梯度算法

    1.   Deep deterministic policy gradient algorithm

     1. 使用权重 θQθμ随机初始化Q网络参数 Q(s,aθQ)和策略
     网络参数 μ(sθμ)
     2. 使用初始化目标网络
     3. 使用权重 θQθQ, θμθμ初始化目标网络 Qμ
     4. 初始化经验池R
     5. for episode=1, 2, ···, M,执行:
     6.  为行动探索初始化一个随机过程 N
     7.  获得一个初始化观察状态 s1
     8.  for t=1,2,,T,执行:
     9.   根据当前策略与探索噪声选择行动 at
     10.   执行动作 at,获得奖励 rt与新的状态 st+1
     11.   将样本 (st,at,rt,st+1)存储至经验池R
     12.   从R中随机采样出N个样本 (si,ai,ri,si+1)
     13.   设置 yi=ri+γQ(si+1,μ(si+1θμ)θQ)
     14.   使用损失函数L更新Q网络参数
     15.   使用采样样本的策略梯度更新行为策略
     16.   更新目标网络参数:
      θQτθQ+(1τ)θQ
      θμτθμ+(1τ)θμ
     17.   end for
     18. end for
    下载: 导出CSV

    表  1  雷达发射信号仿真参数表

    Table  1.   Radar transmit signal simulation parameters

    参数类型 数值
    信号类型 LFM
    采样频率 fs (MHz) 100
    脉冲宽度 Tp (μs) 10
    脉冲重复周期 Tr (μs) 50
    下变频后的中频频率 fI (MHz) 25
    调频斜率k (Hz/s) 2×1012
    带宽B (MHz) 20
    下载: 导出CSV

    表  2  3种干扰类型下的态势预测性能

    Table  2.   Posture prediction performance under 3 interference types

    干扰类型 总体区间 步进 识别时间(ms) 识别精度(%)
    噪声瞄准干扰 [3~4 GHz] 1 MHz 96 98.6
    距离假目标欺骗干扰 [3~4 GHz] 1 MHz 132 97.4
    密集假目标转发干扰 [1~1000 μs] 1 μs 144 94.4
    下载: 导出CSV

    表  3  算法参数设置

    Table  3.   Algorithm parameters setting

    参数 PPO TD3 DRL-ANCD
    Q网络学习率 10–3 10–3 10–3
    策略网络学习率 10–3 10–3 10–3
    优化器 Adam Adam Adam
    目标网络更新率 10–3 5×10–3 5×10–3
    批输入 128 128 128
    折扣系数 0.99 0.99 0.99
    奖励缩放 1.0 1.0 1.0
    PPO裁剪参数 0.2 None None
    下载: 导出CSV

    表  4  单一干扰类型下3种强化学习算法抗干扰性能

    Table  4.   Performance of 3 RL algorithms for a single jamming type

    干扰类型 算法名称 平均奖励 决策时间(ms)
    噪声瞄准干扰 PPO –215 188
    TD3 –51 333
    DRL-ANCD 53 244
    距离假目标欺骗干扰 PPO –168 168
    TD3 –25 225
    DRL-ANCD 94 203
    密集假目标转发干扰 PPO –156 269
    TD3 –45 340
    DRL-ANCD 24 289
    下载: 导出CSV

    表  5  在线网络参数

    Table  5.   Online net parameters

    网络 网络层 输入 输出 激活
    策略网络 MLP1 State 256 ReLU
    MLP2 256 256 ReLU
    MLP3 256 128 ReLU
    MLP4 128 1 None
    Q网络 MLP1 State+action 256 ReLU
    MLP2 Action+256 256 ReLU
    MLP3 256 128 ReLU
    MLP4 128 1 None
    下载: 导出CSV

    表  6  多干扰策略下3种强化学习算法抗干扰性能

    Table  6.   Performance of 3 RL algorithms for a multi-jamming strategies

    干扰策略 算法名称 对抗奖励 决策时间(ms)
    干扰策略Ⅰ PPO-SL –202 356
    TD3-SL –125 443
    DRL-ANCD 3 402
    干扰策略Ⅱ PPO-SL –221 375
    TD3-SL –122 429
    DRL-ANCD 14 392
    干扰策略Ⅲ PPO-SL –124 386
    TD3-SL 25 463
    DRL-ANCD 107 422
    下载: 导出CSV
  • [1] KOGON S M, HOLDER E J, and WILLIAMS D B. Mainbeam jammer suppression using multipath returns[C]. Conference Record of the Thirty-First Asilomar Conference on Signals, Systems and Computers, Pacific Grove, USA, 1997: 279–283.
    [2] GRECO M, GINI F, and FARINA A. Radar detection and classification of jamming signals belonging to a cone class[J]. IEEE Transactions on Signal Processing, 2008, 56(5): 1984–1993. doi: 10.1109/TSP.2007.909326
    [3] NERI F. Introduction to Electronic Defense Systems[M]. SciTech Publishing, Raleigh, NC, 2006.
    [4] 李宇环, 岳显昌, 张兰. 基于压缩感知的时域抗射频干扰方法[J]. 科学技术与工程, 2020, 20(7): 2767–2772. doi: 10.3969/j.issn.671-1815.2020.07.035

    LI Yuhuan, YUE Xianchang, and ZHANG Lan. Time-domain radio frequency interference suppression method based on compressed sensing[J]. Science Technology and Engineering, 2020, 20(7): 2767–2772. doi: 10.3969/j.issn.671-1815.2020.07.035
    [5] 杜思予, 刘智星, 吴耀君, 等. 基于SVM的捷变频雷达密集转发干扰智能抑制方法[J]. 雷达学报, 2023, 12(1): 173–185. doi: 10.12000/JR22065

    DU Siyu, LIU Zhixing, WU Yaojun, et al. Dense-repeated jamming suppression algorithm based on the support vector machine for frequency agility radar[J]. Journal of Radars, 2023, 12(1): 173–185. doi: 10.12000/JR22065
    [6] 董淑仙, 吴耀君, 方文, 等. 频率捷变雷达联合模糊C均值抗间歇采样干扰[J]. 雷达学报, 2022, 11(2): 289–300. doi: 10.12000/JR21205

    DONG Shuxian, WU Yaojun, FANG Wen, et al. Anti-interrupted sampling repeater jamming method based on frequency-agile radar joint fuzzy C-means[J]. Journal of Radars, 2022, 11(2): 289–300. doi: 10.12000/JR21205
    [7] 施龙飞, 任博, 马佳智, 等. 雷达极化抗干扰技术进展[J]. 现代雷达, 2016, 38(4): 1–7, 29.

    SHI Longfei, REN Bo, MA Jiazhi, et al. Recent developments of radar anti-interference techniques with polarimetry[J]. Modern Radar, 2016, 38(4): 1–7, 29.
    [8] 陈新竹. 多功能数字阵列雷达空域抗有源干扰方法研究[D]. [博士论文], 上海交通大学, 2022.

    CHEN Xinzhu. Research on spatial jamming cancellation in mutifunction digital array radar[D]. [Ph.D. dissertation], Shanghai Jiao Tong University, 2022.
    [9] 刘智星, 杜思予, 吴耀君, 等. 脉间-脉内捷变频雷达抗间歇采样干扰方法[J]. 雷达学报, 2022, 11(2): 301–312. doi: 10.12000/JR22001

    LIU Zhixing, DU Siyu, WU Yaojun, et al. Anti-interrupted sampling repeater jamming method for interpulse and intrapulse frequency-agile radar[J]. Journal of Radars, 2022, 11(2): 301–312. doi: 10.12000/JR22001
    [10] LECUN Y, BENGIO Y, and HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. doi: 10.1038/nature14539
    [11] 李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述[J]. 计算机应用, 2016, 36(9): 2508–2515, 2565.

    LI Yandong, HAO Zongbo, and LEI Hang. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508–2515, 2565.
    [12] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, 2018, 41(1): 1–27. doi: 10.11897/SP.J.1016.2018.00001

    LIU Quan, ZHAI Jianwei, ZHANG Zongzhang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1–27. doi: 10.11897/SP.J.1016.2018.00001
    [13] 刘朝阳, 穆朝絮, 孙长银. 深度强化学习算法与应用研究现状综述[J]. 智能科学与技术学报, 2020, 2(4): 312–326. doi: 10.11959/j.issn.2096-6652.202034

    LIU Zhaoyang, MU Chaoxu, and SUN Changyin. An overview on algorithms and applications of deep reinforcement learning[J]. Chinese Journal of Intelligent Science and Technology, 2020, 2(4): 312–326. doi: 10.11959/j.issn.2096-6652.202034
    [14] DAYAN P and DAW N D. Decision theory, reinforcement learning, and the brain[J]. Cognitive, Affective, & Behavioral Neuroscience, 2008, 8(4): 429–453. doi: 10.3758/CABN.8.4.429
    [15] CAROTENUTO V, DE MAIO A, ORLANDO D, et al. Adaptive radar detection using two sets of training data[J]. IEEE Transactions on Signal Processing, 2018, 66(7): 1791–1801. doi: 10.1109/TSP.2017.2778684
    [16] 汪浩, 王峰. 强化学习算法在雷达智能抗干扰中的应用[J]. 现代雷达, 2020, 42(3): 40–44, 48.

    WANG Hao and WANG Feng. Application of reinforcement learning algorithms in anti-jamming of intelligent radar[J]. Modern Radar, 2020, 42(3): 40–44, 48.
    [17] XING Qiang, ZHU Weigang, and JIA Xin. Research on method of intelligent radar confrontation based on reinforcement learning[C]. 2017 2nd IEEE International Conference on Computational Intelligence and Applications (ICCIA), Beijing, China, 2017: 471–475.
    [18] LI Kang, JIU Bo, LIU Hongwei, et al. Reinforcement learning based anti-jamming frequency hopping strategies design for cognitive radar[C]. 2018 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), Qingdao, China, 2018: 1–5.
    [19] LI Kang, JIU Bo, and LIU Hongwei. Deep Q-network based anti-jamming strategy design for frequency agile radar[C]. 2019 International Radar Conference (RADAR), Toulon, France, 2019: 1–5.
    [20] WANG Shanshan, LIU Zheng, XIE Rong, et al. Reinforcement learning for compressed-sensing based frequency agile radar in the presence of active interference[J]. Remote Sensing, 2022, 14(4): 968. doi: 10.3390/rs14040968
    [21] LI Xinzhi and DONG Shengbo. Research on efficient reinforcement learning for adaptive frequency-agility radar[J]. Sensors, 2021, 21(23): 7931. doi: 10.3390/s21237931
    [22] 崔国龙, 余显祥, 魏文强, 等. 认知智能雷达抗干扰技术综述与展望[J]. 雷达学报, 2022, 11(6): 974–1002. doi: 10.12000/JR22191

    CUI Guolong, YU Xianxiang, WEI Wenqiang, et al. An overview of antijamming methods and future works on cognitive intelligent radar[J]. Journal of Radars, 2022, 11(6): 974–1002. doi: 10.12000/JR22191
    [23] WATERS W M and LINDE G J. Frequency-agile radar signal processing[J]. IEEE Transactions on Aerospace and Electronic Systems, 1979, AES-15(3): 459–464. doi: 10.1109/TAES.1979.308841
    [24] 李尔康. 基于干扰认知的雷达反干扰波形设计与实现[D]. [硕士论文], 电子科技大学, 2022.

    LI Erkang. Design and implementation of radar anti-jamming waveform based on jamming cognition[D]. [Master dissertation], University of Electronic Science and Technology of China, 2022.
    [25] 张昭建, 谢军伟, 杨春晓, 等. 掩护脉冲信号抗转发式欺骗干扰性能分析[J]. 弹箭与制导学报, 2016, 36(4): 149–152, 156.

    ZHANG Zhaojian, XIE Junwei, YANG Chunxiao, et al. Performance analysis of screening pulse signal confronts to deception jamming[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2016, 36(4): 149–152, 156.
    [26] 李研. 雷达抗干扰波形设计及仿真分析[D]. [硕士论文], 西安电子科技大学, 2022.

    LI Yan. Radar anti-jamming waveform design and simulation analysis[D]. [Master dissertation], Xidian University, 2022.
    [27] 温鹏飞. 基于雷达数据的目标航迹识别和聚类研究[D]. [硕士论文], 合肥工业大学, 2020.

    WANG Pengfei. Research on track recognition and clustering based on radar data[D]. [Master dissertation], Hefei University of Technology, 2020.
    [28] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
    [29] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. https://arxiv.org/abs/1707.06347, 2017.
    [30] FUJIMOTO S, HOOF H, and MEGER D. Addressing function approximation error in actor-critic methods[C]. 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 1587–1596.
  • 期刊类型引用(2)

    1. 李高源,王晋宇,张长弓,冯博迪,高宇歌,杨海涛. SAR图像仿真方法研究综述. 计算机工程与应用. 2021(15): 62-72 . 百度学术
    2. 王宇航,种劲松. 天宫二号近天底角交轨干涉SAR的海洋涡旋探测. 遥感学报. 2020(09): 1070-1076 . 百度学术

    其他类型引用(1)

  • 加载中
图(20) / 表(7)
计量
  • 文章访问数: 1149
  • HTML全文浏览量: 820
  • PDF下载量: 440
  • 被引次数: 3
出版历程
  • 收稿日期:  2023-07-31
  • 修回日期:  2023-10-19
  • 网络出版日期:  2023-11-09
  • 刊出日期:  2023-12-28

目录

/

返回文章
返回