基于多臂赌博机的频率捷变雷达在线决策方法

朱鸿宇 何丽丽 刘峥 谢荣 冉磊

张嘉翔, 张凯翔, 梁振楠, 等. 一种基于深度强化学习的频率捷变雷达智能频点决策方法[J]. 雷达学报(中英文), 2024, 13(1): 227–239. doi: 10.12000/JR23197
引用本文: 朱鸿宇, 何丽丽, 刘峥, 等. 基于多臂赌博机的频率捷变雷达在线决策方法[J]. 雷达学报, 2023, 12(6): 1263–1274. doi: 10.12000/JR23206
ZHANG Jiaxiang, ZHANG Kaixiang, LIANG Zhennan, et al. An intelligent frequency decision method for a frequency agile radar based on deep reinforcement learning[J]. Journal of Radars, 2024, 13(1): 227–239. doi: 10.12000/JR23197
Citation: ZHU Hongyu, HE Lili, LIU Zheng, et al. Online decision-making method for frequency-agile radar based on multi-armed bandit[J]. Journal of Radars, 2023, 12(6): 1263–1274. doi: 10.12000/JR23206

基于多臂赌博机的频率捷变雷达在线决策方法

DOI: 10.12000/JR23206
基金项目: 雷达信号处理全国重点实验室支持计划(KGJ202205)
详细信息
    作者简介:

    朱鸿宇,博士生,主要研究方向为雷达抗干扰技术、强化学习等

    何丽丽,硕士,工程师,主要研究方向为弹上探测总体设计、雷达信号处理等

    刘 峥,博士,教授,主要研究方向为雷达信号处理的理论与系统设计、雷达精确制导技术、多传感器信息融合等

    谢 荣,博士,副教授,主要研究方向为雷达信号处理的理论与系统设计、雷达精确制导技术、雷达抗干扰技术等

    冉 磊,博士,副教授,主要研究方向为无人机/弹载雷达成像技术、SAR图像目标检测与识别、雷达信号实时处理系统等

    通讯作者:

    刘峥 lz@xidian.edu.cn

    谢荣 rxie@mail.xidian.edu.cn

  • 责任主编:刘振 Corresponding Editor: LIU Zhen
  • 中图分类号: TN95

Online Decision-making Method for Frequency-agile Radar Based on Multi-Armed Bandit

Funds: The Stabilization Support of National Key Laboratory of Radar Signal Processing (KGJ202205)
More Information
  • 摘要: 频率捷变技术发挥了雷达在电子对抗中主动对抗优势,可以有效提升雷达的抗噪声压制式干扰性能。然而,随着干扰环境的日益复杂,在无法事先了解环境性质的情况下,设计一种具有动态适应能力的频率捷变雷达在线决策方法是一个具有挑战性的问题。该文根据干扰策略的特征,将压制式干扰场景分为3类,并以最大化检测概率为目标,设计了一种基于多臂赌博机(MAB)的频率捷变雷达在线决策方法。该方法是一种在线学习算法,无需干扰环境的先验知识和离线训练过程,在不同干扰场景下均实现了优异的学习性能。理论分析和仿真结果表明,与经典算法和随机捷变策略相比,所提方法具有更强的灵活性,在多种干扰场景下均能够有效提升频率捷变雷达的抗干扰和目标检测性能。

     

  • 在现代战争中,敌方为了获取电磁频谱优势与战场主动权,通常会发射各种有源干扰破坏雷达作战性能,从而掩护目标完成预定的作战任务[1]。雷达为了应对各种干扰,相应的抗干扰技术在对抗中不断升级[2]。一般来说,抗干扰技术按照雷达处理阶段的不同可以分为主动抗干扰和被动抗干扰[3]。在雷达发射信号阶段,主动抗干扰技术可以通过雷达波形设计降低敌方干扰机对雷达信号的截获概率或识别概率,从而降低干扰机的干扰效能[46]。如果雷达已经接收到了干扰信号,被动抗干扰技术可以通过空、时、频等多个处理域完成目标与干扰的分离,达到对干扰抑制的目的[79]

    随着雷达抗干扰研究的不断深入,被动抗干扰手段日益丰富。然而,挂载在掩护目标上的自卫式干扰机通过发射大功率瞄准干扰,使干扰与目标回波在多处理域重叠,难以分离。频率捷变雷达通过使用自主调节发射信号载频的主动抗干扰手段,使得干扰机难以截获和干扰,为对抗自卫式压制干扰提供了可能[10]。其抗干扰性能主要取决于跳频策略,传统随机跳频策略已经被证明不是最佳选择[11]。如何精准预测干扰机下一时刻将要发射的干扰频点,从而指导雷达信号的频点选择,是频率捷变雷达在与干扰机博弈中取胜的主要难点。

    相比针对静态优化问题设计的启发式搜索算法,强化学习可以让智能体与环境不断交互,获得反馈,从而指导智能体在动态环境下进行决策[12]。基于深度学习模型强大的数据表征能力而衍生出的深度强化学习,能够处理高维数据并完成非线性映射,弥补了传统强化学习算法的不足[13],在认知电子战方面已经得到了一定的研究。如果将干扰信息看作环境状态,抗干扰措施看作雷达动作,抗干扰效能看作即时回报,那么认知抗干扰决策问题可以通过强化学习技术解决。文献[14]针对干扰类型和参数固定的复合干扰场景,分别使用Q学习和SARSA (State-Action-Reward-State-Action)探索了抗干扰措施组合选取问题。文献[15]使用改进的DDPG (Deep Deterministic Policy Gradient)算法对12种抗干扰措施进行选择,以实施抗干扰措施前后干扰威胁度变化作为反馈。文献[16]使用DDPG-MADDPG (Deep Deterministic Policy Gradient and the Multi-Agent Deep Deterministic Policy Gradient)对包含复合干扰在内的12种干扰类型,以抗干扰改善因子作为反馈,进行多处理域抗干扰措施自适应选取。

    在频点决策方面,强化学习主要围绕瞄频或扫频干扰的频率捷变波形设计展开研究[17]。文献[18]首次对雷达脉冲级跳频策略展开研究,分别对比了随机频点选择、Q学习、深度Q网络(Deep Q-Network, DQN)等3种策略,证明了DQN在决策方面具备更好的性能。并在文献[19]中继续深化研究内容,将检测概率作为奖励值,而不是之前论文中的信干噪比,同时优化了DQN模型。文献[20]在文献[18]和文献[19]工作的基础上,考虑了一种具备侦收功能的干扰机,以及子脉冲频率捷变雷达,并基于近端策略优化(Proximal Policy Optimization, PPO)算法完成智能决策。文献[21]考虑了网络化无人机雷达工作系统,使用雷达信息表示理论作为奖励函数,基于双贪婪的改进Q学习算法优化系统抗干扰性能。文献[22]假定干扰机也具备马尔科夫性质,在预测得到干扰策略的基础上选择雷达频点与之对抗。文献[23]考虑了跳频速率会影响相干积分性能和多普勒分辨率,使用Q学习自适应调整雷达发射波形的脉宽和频点以对抗扫频干扰。

    总体来说,上述研究均基于雷达不同的性能指标设计奖励函数,以此优化频点等雷达参数。虽然在对抗成功率方面超过随机频点决策方法,然而缺少对抗干扰策略收敛速度的讨论。应当指出,在现代电子战中,干扰机可能具备多种策略,并根据某种规则在不同策略间切换。因此雷达在进行抗干扰策略学习时,应当尽快收敛到最优策略,从而保持对抗先机。如果雷达还未收敛到最优策略时,干扰机改变策略,那么雷达将陷入被动地位。因此,网络收敛时间或是所需样本量是评价一个智能化算法能够应用于实际作战场景的重要衡量指标。

    受上述研究启发,考虑到现代干扰机具备侦收-瞄准-干扰的基本策略,本文针对频率捷变雷达,设计了一种基于强化学习的雷达子脉冲跳频抗干扰策略。将当前时刻感知到的干扰频点以及上一时刻的雷达频点作为状态,将当前时刻的雷达频点选择策略作为动作,以目标检测结果和信干噪比作为即时奖励函数设计强化学习关键要素,基于DQN完成子脉冲频点选取策略的学习。仿真针对两种不同侦收策略的干扰机,证明了所提方法的有效性以及较高的收敛效率。

    与文献[20]不同的是,本文的主要贡献在于如何通过对强化学习关键要素的设计,从而达到快速收敛到最优解的目的,而不是在于网络设计与修改。具体包括4点:(1)虽然干扰机具备侦干周期,但是我们通过状态空间的合理设计,仅使用单个时间步即可学习到干扰周期性策略,同时不需要使用长短期记忆网络(Long Short-Term Memory, LSTM)等时间记忆网络即可完成最优策略学习,显著降低了收敛时间。(2)在动作设计方面,我们设计了一种子脉冲频点可重复选取的特殊波形,增大了动作空间选取范围。(3)在动作选取方面,我们通过ε-贪婪原则,实现了搜索和利用的有效平衡。在训练初期,以随机搜索为主,减小了收敛到局部最优解的概率。随着训练过程的进行,随机搜索概率逐渐降低,选择网络输出动作的概率逐渐增加,便于收敛。(4)在奖励设计方面,围绕目标检测性能,在单次目标检测结果的基础上,引入了更具差异性的信干噪比指标,缓解了因为采样不充分可能收敛到局部最优解的情况。

    由于现代干扰机可以对接收到的雷达信号进行快速测频与频率引导,对传统雷达具备较大威胁。而频率捷变雷达可以实现子脉冲级的频率调制,为与其对抗提供了可能。作为常用的雷达传输信号波形,基于线性调频(Linear Frequency Modulation, LFM)信号的子脉冲频率捷变波形如图1(a)所示,其时域表达式如下:

    图  1  频率捷变波形示意图
    Figure  1.  Schematic diagram of the frequency agility waveform
    st(t)=Nn=1rect[(tτn)/(tτn)TsubTsub]exp[j2πfn(tτn)]exp[jπKn(tτn)2]
    (1)

    其中,rect()表示矩形窗函数,N表示子脉冲个数,Tsub表示子脉冲脉宽;τn表示第n个子脉冲的延时,fn表示子脉冲频点,Kn表示第n个子脉冲的调频斜率。频率捷变雷达各可选频点应当去相关从而达到频率抗干扰的目的,即保证si(ω)sj(ω)=0,其中,si(ω)表示子脉冲 i 的频谱,sj(ω)表示子脉冲 j的频谱。

    式(1)所定义的传统频率捷变雷达在进行子脉冲频点选取时,通常会选择不同的雷达频点。为扩充频点选取自由度,增大波形复杂度,本文设计了一种子脉冲频点可重复选取的雷达发射波形,如图1(b)所示。当相邻子脉冲选取重复频点时,则将其合成一个宽脉冲,其脉宽为Tcom=NrepTsub,其中Nrep表示选取相同频点的相邻子脉冲数量。同时保证合成后的宽脉冲带宽不变,即Bcom=Bsub。合成后的脉冲数用Ncom表示。

    强化学习可以由马尔科夫决策过程(Markov Decision Process, MDP)描述,满足马尔科夫性质。强化学习的优化目标为最大化累计回报,定义为

    Gt=rt+γrt+1+γ2rt+2+=k=0γkrt+k
    (2)

    其中,rt表示智能体在状态st下执行动作at并转移到st+1后得到的回报;γ为折扣因子,是st+1及其之后的奖励权重,取值范围为0~1,表示对未来奖励的重视程度。

    由于MDP是一种随机过程,其随机独立性导致累计回报Gt是一个随机变量,无法定量描述,如图2所示。因此可对累计回报取期望,获得状态值函数Vπ(s)和动作状态值函数Qπ(s,a),将优化问题变成找到一种最优策略π,使任意一个状态的Vπ(s)Qπ(s,a)为最大。而Q学习的优化目标是针对Qπ(s,a),其贝尔曼方程及最优动作状态值函数Q(s,a)定义如下:

    图  2  MDP的随机独立性与强化学习的优化目标
    Figure  2.  The random independence of MDP and the optimization objectives of reinforcement learning
    Qπ(s,a)=sSp(s|s,a)[r(s,a,s)+γaAπ(a|s)Qπ(s,a)]
    (3)
    Q(s,a)=sSp(s|s,a)[r(s,a,s)+γmaxaQ(s,a)]
    (4)

    其中,rt=r(s,a)=ap(s|s,a)r(s,a,s)p(s|s,a)为某状态s执行动作a后,转移到下一状态s的概率。

    由于在实际场景中,我们可能不知道环境先验信息p(s|s,a),因此无法获得值函数的解析表示。而Q学习可以通过多次取平均的方式,近似估计得到Q。具体来说,从任意状态开始与环境1个时间步长,利用t时刻的即时回报rt和下一时刻最大的状态动作值函数Q(st+1,at+1)对当前时刻动作状态值函数Q(st,at)进行估计,最后重复上述动作多次取平均。值函数的更新公式为

    Q(st,at)=Q(st,at)+α[rt+γmaxaQ(st+1,at+1)Q(st,at)]
    (5)

    其中,α为学习率,表示更新的步长。

    Q学习通过不断与环境进行交互来获取并更新Q值,并将Q值存入到由状态和动作组成的Q表中。待智能体学习完成后,根据当前状态的Q值来选取能够获取最大收益的动作。

    雷达子脉冲级频点决策往往对应于指数级增长的动作空间,而传统Q学习基于Q表存储和查找Q值,维护难度巨大。而DQN利用神经网络拟合值函数,替换了传统Q表的存储方式,有效解决了高维状态和动作空间的寻优问题。

    DQN与Q学习的主要区别在于网络部分,其采用目标值网络和估计值网络组成的双网络。估计值Q网络输出Q(st,at;θ),用来评估当前状态动作对的未来累计回报期望。目标值ˆQ网络输出ˆQ(st+1,at+1;θ),并根据贝尔曼最优方程,使用y=rt+γmaxˆQ(st+1,at+1;θ)表示Q函数的优化目标。其网络训练过程如图3所示。

    图  3  DQN网络参数的更新过程
    Figure  3.  The network parameter update process of DQN

    输入当前状态st,通过估计值网络预测得到当前状态st对应的不同动作atQ值,然后通过ε-贪婪原则选择at并转至下一状态st+1,同时获得rt。通过目标值网络计算下一状态st+1的最大ˆQ值,将其与估计值作差更新估计值网络参数θ,表示为

    L=[rt+γmaxaˆQ(st+1,at+1;θ)Q(st,at;θ)]
    (6)

    其中,ε-贪婪原则以概率1ε选择估计值网络输出的具有最大Q值的频点,以概率ε随机选择频点,并随着训练步数的增加减小ε,从而达到搜索和利用的充分结合。

    上述流程经过一定次数后,基于软更新来更新目标值网络参数θ

    θ=τθ+(1τ)θ
    (7)

    其中,0<τ1表示软间隔更新系数。由于在一段时间内目标值具有一定稳定性,这能在一定程度上降低估计值Q网络和目标值ˆQ网络之间的耦合性,提升了网络的收敛性和稳定性。

    训练完成后,测试时直接输入当前时刻状态至训练好的模型中,即可获取最优动作。

    上述提及的状态、动作和奖励是强化学习的关键要素,其中状态和奖励是算法的输入,动作是算法的输出。设置如下:

    (1) 状态空间:假设雷达能够通过干扰感知等手段获取干扰频点信息,则状态空间由雷达子脉冲频点和干扰频点组成。

    S=[fR,t1,fJ,t]=[fsub1,t1,fsub2,t1,,fsubN,t1,fJ,t]
    (8)

    其中,fR,t1=[fsub1,t1,fsub2,t1,,fsubN,t1]fJ,t分别表示t1时刻雷达N个子脉冲的频点选择以及t时刻干扰瞄准频点。fJ,t取值范围为1(N+1)1N表示干扰机发射窄带瞄频干扰的瞄准频点,(N+1)表示干扰机发射宽带阻塞干扰。fsubn,t(1nN)的取值范围为1N,表示第n个子脉冲的频点。

    (2) 动作空间:t时刻雷达N个子脉冲频点选择:

    A=fR,t=[fsub1,t,fsub2,t,,fsubN,t]
    (9)

    (3) 奖励函数:奖励函数应当围绕雷达作战任务设置,本文以预警雷达为例,采用目标检测结果Fd和信干噪比(Signal-to-Jamming-plus-Noise Ratio, SJNR)作为评价指标。前者直接反映了目标检测能力,而后者的存在加快了最优解的收敛速度,降低收敛到局部最优解的可能,从而最大化目标检测性能。定义如下:

    R=Ncomn=1(Nrep,nFd,nSJNRn/SJNRnNcomNcom)
    (10)
    SJNRn={(PT,nˉPJN,n)/η,Fd,n=10,Fd,n=1
    (11)

    其中,对于目标检测结果Fd,我们可以根据提前获取的战场态势信息预估目标距离波门,在子脉冲脉压后基于单元平均恒虚警率(Cell Average-Constant False Alarm Rate, CA-CFAR)检测判断目标能否被检测到[24]。如果第n个子脉冲检测到目标则Fd,n=1,反之则Fd,n=1。同时可以获取目标平均功率PT,n和干扰噪声平均功率ˉPJN,nη为归一化系数,用来将信干噪比限制在0~1之间,从而提高训练稳定性。

    结合状态、动作和奖励的定义,基于深度Q网络的雷达子脉冲频点决策流程如算法1所示。

    1  基于深度Q网络的雷达子脉冲频点决策
    1.  Radar sub-pulse frequency decision based on Deep Q-Network (DQN)
     Step 1:初始化:
      Step 1-1:使用随机参数θ初始化估计值Q网络
      Step 1-2:使用参数θ=θ初始化目标值ˆQ网络
      Step 1-3:初始化经验池D
      Step 1-4:初始化干扰策略,雷达子脉冲数量及频点,折扣因
      子γ,学习率α,贪婪因子ε,软间隔更新系数τ等参数
     Step 2:每幕:
     Step 2-1:设置初始状态s1=[fR,0,fJ,1]
     Step 2-2:每个时间步:
      Step 2-2-1:使用ε-贪婪原则依据估计值网络的输出结果选择
      各子脉冲频点at=fR,t=[fsub1,t,fsub2,t,,fsubN,t],即以
      1ε概率选择估计值网络输出的最佳的频点或者以ε概率随
      机选择频点
      Step 2-2-2:雷达发射子脉冲频率捷变波形,接收到回波后,感
      知得到下一时刻状态st+1并根据目标检测结果和脉压后的信
      干噪比评估当前时刻奖励rt
      Step 2-2-3:将(st,at,rt,st+1)存储到经验池D中,如果经验池
      中的样本数超出预定数量,则删除早期训练样本数据,以便存
      储并使用最新样本数据
      Step 2-2-4:如果经验池D中保存数量超过起始值,则从D中选
      择批大小(batchsize)个样本作为训练集输入到估计值和目标值
      网络中,分别计算得到Q(st,at;θ)y=rt+γmaxˆQ(st+1,
      at+1;θ),并反向梯度求导使误差函数L(θ)=[yQ(st,at;
      θ)]2趋近0,更新估计值网络参数θ
      Step 2-2-5:每隔一定的时间步软更新目标值网络参数θ
     Step 2-3:结束该时间步
     Step 2-4:降低贪婪概率ε
     Step 3:结束该幕
    下载: 导出CSV 
    | 显示表格
    4.1.1   仿真参数设置

    本文以3个子脉冲和3个可选频点为例,讨论DQN应用于子脉冲频点自适应选取的可行性。为避免子脉冲脉压后出现虚假目标,非相邻子脉冲不能选取重复频点,因此动作总数为336=21。频率捷变信号、干扰、DQN的仿真参数分别如表1表3所示。其中,每幕表示1个相参处理间隔(Coherent Processing Interval, CPI),时间步t表示某个CPI中的第t个脉冲重复周期。

    表  1  频率捷变信号参数设置
    Table  1.  The parameter settings of frequency agile signal
    参数 数值
    子脉冲调制类型 LFM
    子脉冲个数 3
    子脉冲频点 [10 MHz, 30 MHz, 50 MHz]
    子脉冲脉宽 5 μs
    子脉冲带宽 5 MHz
    信噪比 0 dB
    下载: 导出CSV 
    | 显示表格
    表  2  干扰参数设置
    Table  2.  The parameter settings of jamming
    干扰类型 参数 数值
    窄带瞄频 瞄准频点 [10 MHz, 30 MHz, 50 MHz]
    带宽 10 MHz
    干噪比 35 dB
    宽带阻塞 带宽 120 MHz
    干噪比 30 dB
    下载: 导出CSV 
    | 显示表格
    表  3  DQN参数设置
    Table  3.  The parameter settings of DQN
    参数 数值
    批大小 64
    学习率 0.001
    折扣因子 0.99
    缓冲区大小 10000
    起始训练样本量 64
    贪婪因子衰减系数 0.2
    32个时间步
    目标值网络更新周期 4个时间步
    目标值网络软间隔更新系数 0.01
    隐藏层数量 2
    隐藏层神经元个数 64
    归一化系数 80
    下载: 导出CSV 
    | 显示表格

    很重要的一个技巧是,本文在基于贪婪原则随机选取动作时,只考虑所有子脉冲选择相同频点的情况,即脉内不跳频。该处理旨在尽可能提高相参处理增益以及使干扰机侦收到单频信号并诱导其发射窄带瞄频干扰,从而加快最优策略学习。同样出于加速收敛的目的,输入到神经网络的奖励按照子脉冲个数进行了归一化。

    估计值网络和目标值网络的结构相同,均使用4层全连接神经网络,分别为输入层、2个隐藏层和输出层。其中,隐藏层的神经元个数均为64,并使用ReLU作为激活函数,如图4所示。

    图  4  全连接神经网络结构示意图
    Figure  4.  The schematic diagram of fully connected neural network structure
    4.1.2   干扰策略设置

    考虑一个具备侦收功能的干扰机,并根据侦-干时间长短分别设置了脉内侦干和脉间侦干等两种固定干扰策略,分别如图5图6所示。由于切片转发干扰的对抗效果受限于切片宽度、转发次数等参数,灵活的参数变化可能会导致对抗失效,因此本文考虑的干扰类型为压制干扰,包括窄带瞄频和宽带阻塞。其中,窄带瞄频干扰的带宽为雷达子脉冲带宽的2倍,更宽的带宽会使得全部状态的奖励值发生整体偏移,但在归一化后会消除该影响。

    图  5  脉内侦干策略
    Figure  5.  The intra-pulse interception-jamming strategy
    图  6  脉间侦干策略
    Figure  6.  The pulse-to-pulse interception-jamming strategy

    对于脉内侦干策略,假设干扰机侦收到雷达脉冲上升沿及下降沿,立即对其测频,转发对应频点的窄带瞄频干扰。值得注意的是,干扰时长设置略小于1个脉冲重复周期(Pulse Repetition Time, PRT),从而使得在当前PRT会同时受到上一时刻以及当前时刻的干扰。因此,雷达在该干扰策略下的一种较为合适的选择为后续子脉冲发射不同于子脉冲1的雷达频点,并且每个PRT均保持相同的发射策略。由于干扰所在频点在滤波后可能会在邻近频点上存在干扰功率残留,因此最优策略为雷达后续子脉冲跳频到距离子脉冲1所选频点的最远频点上。即雷达最优频点选择为[1,N,N][N,1,1]

    对于脉间侦干策略,假设干扰机从侦收到第1个子脉冲开始持续侦收一段时间,直至没有检测到子脉冲时侦收结束。根据侦收结果发射一段时间长度的干扰,干扰时长在3~4个PRT之间。相比脉内侦干策略,后者不会在某个PRT同时受到两部分干扰。在侦收阶段若只侦收到1个频点,则发射对应频点的窄带瞄频干扰,反之则发射宽带阻塞干扰。雷达需要尽量避免干扰机发射宽带阻塞干扰,为此雷达需要在干扰机侦收阶段时只发射单频信号,而在干扰阶段时选择其余频点。类似地,考虑到滤波引起的干扰功率残留,在干扰机侦收时雷达最优策略为[1,1,1][N,N,N],对应的干扰时雷达最优策略为[N,N,N][1,1,1]

    值得注意的是,脉间侦干策略虽然具备周期性,但当前时刻的干扰动作不完全取决于上一时刻的状态,而是按照固定的时序执行侦收和干扰,因此不具备马尔科夫性。脉间侦干策略寻求的是由4个PRT组成的侦干周期的最大奖励,满足式(5)所示的贝尔曼最优方程的价值迭代原理,因此可以使用强化学习解决。

    此时干扰机侦收到1个子脉冲的上升沿与下降沿后,完成测频并立刻发射干扰,雷达频点对抗的训练结果如图7所示。得分曲线在第4个CPI左右即可收敛,在36分附近波动,如图7(a)所示。图7(b)展示了文献[20]提出的基于PPO与LSTM相结合的频点决策算法,其至少需要30幕的时间才能提升到32分附近震荡,因此策略学习耗时且鲁棒性较差。其本质原因在于PPO为on-policy算法,只能利用神经网络进行动作搜索,导致探索性不足,所以存在收敛速度慢、可能会收敛到局部最优解、得分无法保持等诸多问题。

    图  7  脉内侦干策略的子脉冲频点决策训练结果
    Figure  7.  The training results of sub-pulse frequency decision for the intra-pulse interception-jamming strategy

    根据图7(a)的收敛情况,保存前10个CPI的训练模型,每个模型对抗100幕,对抗成功率如图8所示。根据4.1.2节对脉内侦干策略的分析,雷达应将未被侦收到的子脉冲频点设置为距离侦收频点的最远频点。因此,PRT对抗成功定义为{fR=[1,3,3]&fJ=1}{fR=[3,1,1]&fJ=3},即21个动作中只有2个动作为最优,占比9.5%。CPI对抗成功的判决依据是当前CPI内所有PRT均对抗成功。

    图  8  训练用CPI数量对脉内侦干策略下对抗成功率的影响
    Figure  8.  The impact of the number of CPI used for training on the success rate of confrontation for the intra-pulse interception-jamming strategy

    发现训练所用CPI数量对对抗成功率的影响与收敛情况基本对应,从第3个CPI开始,对抗成功率即可达到100%。

    表4展示了随机频点、PPO-LSTM和DQN的单次对抗(PRT)成功率,单幕(CPI)对抗成功率。随机频点决策的成功率与最优动作占比,即理论值大致相同。基于PPO的频点决策虽然在第2个和第3个子脉冲避开了干扰频点,但是由于其搜索力度不够,有一定概率选取到次优策略。而基于DQN的频点决策算法由于使用了ε-贪婪算法,大大扩展了动作搜索空间,更容易收敛到最优策略。

    表  4  脉内侦干策略的对抗成功率(%)
    Table  4.  The success rate of confrontation for the intra-pulse interception-jamming strategy (%)
    策略PRT对抗成功率CPI对抗成功率
    随机频点9.70
    PPO949
    DQN100100
    下载: 导出CSV 
    | 显示表格

    PPO算法由于可以处理连续动作空间问题,并且可以学习到随机策略,因此是强化学习中受众面最广的基线方法。然而在本文研究的频点决策场景中,不涉及连续动作空间,最优策略也可以由随机策略退化到确定性策略,因此PPO算法优势没有得到充分利用。更为重要的是,由于每幕对抗中次优策略不低于最优策略得分的10%,大大提高了仅依靠神经网络参数进行动作搜索的最优策略收敛难度。

    图9(a)展示了雷达和干扰在4个PRT下的频点选取情况。对于第1个PRT,由于初始状态的随机性,雷达选取频点[1,2,3],干扰瞄准频点1。由于单个子脉冲的信噪比增益有限,因此除被干扰的子脉冲外,另有1个子脉冲未能检测到目标,奖励为负值,如图9(b)所示。在第2, 3, 4个PRT,基于训练好的模型,雷达的第2个和第3个子脉冲均选择离干扰频点1最远的频点3,降低了干扰剩余能量的同时,合成了宽脉冲,提高了信噪比增益。

    图  9  雷达与干扰对抗4个PRT的策略及对抗奖励
    Figure  9.  The strategies and rewards for radar anti-jamming during four PRT periods

    最优动作的时频图及一维距离像如图10所示。当前PRT会同时收到瞄准上一时刻第1个子脉冲以及瞄准当前时刻第1个子脉冲的窄带瞄频干扰,后者会在瞄准后立即发射。因此,第1个子脉冲脉压后,目标尖峰出现在当前时刻产生的大功率噪声干扰边缘,导致漏检。第2个子脉冲由于跳频策略与干扰频域正交,因此脉压后能够检测到目标尖峰,具有较高的信干噪比。

    图  10  雷达执行最优策略的时频图及一维距离像
    Figure  10.  The time-frequency map and the one-dimensional High-Resolution Range Profile (HRRP) for radar executing optimal strategy

    本文围绕目标检测性能,基于单个PRT能否检测到目标以及脉压后的信干噪比两方面评价跳频抗干扰效能。表5展示了蒙特卡洛1000次下,雷达的几个典型频点选取策略的目标检测率、脉压后的信干噪比以及平均得分。为便于分析,假设当前时刻和上一时刻均干扰相同的频点,频点[3,1,1]和[1,3,3]为本文所提模型的策略。可以看出:

    表  5  脉内侦干策略下各种雷达策略对抗1000次结果(fJ=fsub1)
    Table  5.  The results of 1000 confrontations with various radar strategies for the intra-pulse interception-jamming strategy (fJ=fsub1)
    雷达频点选择 目标检测率(%) 信干噪比(dB) 平均得分
    [1,1,1] 0 –3.00
    [1,1,2] 0 11.09 –1.12
    [1,1,3] 0 12.25 –0.96
    [1,2,2] 97.6 15.20 1.09
    [1,2,3] 81.7 12.78 0.78
    [1,3,3] 99.7 16.06 1.19
    [2,1,1] 98.3 15.35 1.12
    [2,1,3] 75.6 12.47 0.64
    [2,3,3] 97.7 15.19 1.10
    [3,1,1] 99.6 16.07 1.18
    注:综合考虑噪声随机性引起的得分波动情况,加粗项为最优策略
    下载: 导出CSV 
    | 显示表格

    (1) 由于在当前PRT能同时受到上一时刻和当前时刻的干扰,因此至少有一个雷达频点会被干扰到。根据式(10)所示的奖励函数计算方式,最大得分始终小于2;

    (2) 当子脉冲2和子脉冲3跳频成功时,两个子脉冲均选择离干扰频点的最远频点时,平均得分最高,为最优策略,即[1,3,3]和[3,1,1];

    (3) 诸如[1,2,3]和[2,1,3]等传统频点选取策略,由于脉压增益有限,导致目标检测率较低;而[1,2,2]和[2,1,1]等选择了干扰频点相邻频点的动作,由于滤波后的干扰能量残余,从而降低了信干噪比,非最优策略;

    (4) 次优策略和最优策略的单次对抗得分仅差0.06,网络能够捕获到细微差异,收敛到最优解。

    针对脉间侦干策略,DQN和PPO的训练曲线如图11所示。DQN在第15幕(CPI)左右即可收敛,得分在37分附近。而PPO的训练过程虽然整体呈现上升-平稳,但是其波动始终较为剧烈,且至少需要400幕左右才能趋于平稳。

    图  11  脉间侦干策略的子脉冲频点决策训练结果
    Figure  11.  The training results of sub-pulse frequency decision for the pulse-to-pulse interception-jamming strategy

    图12展示了训练所用CPI数量对对抗成功率的影响,蒙特卡洛次数为100幕。由于雷达初始频点随机选取,不参与决策,因此去除包含初始状态在内的第1个干扰侦干周期。从第2个周期开始统计,即每幕(CPI)对抗28次。根据4.1.2节对脉间侦干策略的分析,雷达应始终发射单频信号,并在干扰机对当前脉冲侦收干扰后的下个脉冲跳到另一频点,从而诱导干扰机在后续干扰周期内发射窄带瞄频干扰,避免发射宽带阻塞干扰导致跳频手段失效。由于干扰机可以在侦收后立即发射对应频点的干扰,所以每个侦干周期内,无论采取何种手段,至少会存在1个PRT抗干扰失败。因此可以仅针对剩余PRT计算抗干扰成功率,将PRT对抗成功定义为干扰机处于发射干扰阶段时雷达选取到最优策略,即{fJ=3&fR=[1,1,1]}{fJ=1&fR=[3,3,3]};CPI对抗成功的判决依据是当前CPI内所有PRT均对抗成功。

    图  12  训练用CPI数量对脉间侦干策略对抗成功率的影响
    Figure  12.  The impact of the number of CPI used for training on the success rate of confrontation for the pulse-to-pulse interception-jamming strategy

    可以发现,在前20个CPI的训练过程中模型学习到的策略不是一直向好,而是波动变化。在第13个PRT策略出现了明显恶化,这与图11(a)的训练结果相一致。此时模型尚未稳定学习到干扰机的侦干策略,因此仍主要处于试错探索阶段。从第15~20个CPI,模型探索到干扰机策略,并学习到有效对抗策略,保持稳定。

    100次蒙特卡洛仿真下的随机频点、PPO和DQN决策的单次对抗(PRT)成功率,单幕(CPI)对抗成功率如表6所示。由于对抗成功率隐含雷达在干扰机侦-干PRT和干扰PRT均发射不同的单频信号,因此随机频点选择的成功概率极低,仅有0.7%。相比PPO,DQN动作搜索更加充分,使对抗成功率得到有效提高,达到100%。

    表  6  脉间侦干策略的对抗成功率(%)
    Table  6.  The success rate of confrontation for the pulse-to-pulse interception-jamming strategy (%)
    策略 PRT对抗成功率 CPI对抗成功率
    随机频点 0.7 0
    PPO 93.6 31
    DQN 100 100
    下载: 导出CSV 
    | 显示表格

    图13(a)展示了干扰机的3个侦干周期下的雷达子脉冲频点选取和干扰瞄准频点。在第1个侦干周期中,由于雷达初始状态的随机性,3个子脉冲分别选取不同频点,导致干扰机在接下来的3个PRT中发射宽带阻塞干扰,此时无论雷达如何跳频,目标均未被检测到,奖励为负值,如图13(b)所示。在第2个侦干周期的第1次对抗中,雷达3个子脉冲均选择频点1,干扰机侦收到并立刻发射对应频点的干扰,因此第1个PRT的奖励为负值。接下来的3个PRT,干扰机继续发射频点1,而雷达选择离频点1最远的频点3。至此第2个侦干周期结束,雷达频点选取成功。在第3个侦干周期中,雷达和干扰的频点选取对调,雷达仍然能够通过频点决策选择受到干扰最小的频点。

    图  13  对抗3个侦干周期的雷达策略及对抗奖励
    Figure  13.  The strategies and rewards for radar anti-jamming during three interception-jamming periods

    以干扰瞄准频点1为例,蒙特卡洛1000次,统计各种策略对抗的目标检测率、脉压后的信干噪比以及平均得分,如表7所示,其中频点[3,3,3]为本文所提模型的策略。可以看出:

    表  7  脉间侦干策略下各种雷达策略对抗1000次的结果(fJ=1)
    Table  7.  The results of 1000 confrontations with various radar strategies for the pulse-to-pulse interception-jamming strategy (fJ=1)
    雷达频点选择 目标检测率(%) 信干噪比(dB) 平均得分
    [1,1,1] 0 –3.00
    [1,2,3] 81.3 12.74 0.76
    [2,2,2] 99.7 17.08 3.17
    [3,3,3] 100 17.58 3.22
    注:加粗项表示最优策略
    下载: 导出CSV 
    | 显示表格

    (1) 对于传统雷达跳频策略[1,2,3],有1个子脉冲会被干扰到,此时奖励虽然为正值,但是较低;

    (2) 对于[2,2,2],虽然从频点数值上看确实跳频成功,但此时瞄准频点1的干扰功率可能未被全部滤掉,有很少一部分的功率会溢出到频点2,使得其信干噪比略低于频点3;

    (3) 当雷达所有子脉冲均选择频点3时,接收到的干扰平均功率达到最小值,平均得分最高,为最优策略。

    针对瞄准式压制干扰,本文面向频率捷变雷达,提出了一种基于深度强化学习的频点自适应快速选取方法。根据当前时刻干扰状态,以及上一时刻雷达动作,依靠神经网络自适应选取当前时刻最优雷达频点,并基于目标检测结果以及脉压后的信干噪比作为奖励反馈,迭代改进策略。仿真部分考虑了具备侦收-瞄准-干扰功能的干扰机,证明了通过关键要素设计可以以单个时间步长作为输入学习到干扰策略的时序性。同时,所用DQN算法配合贪婪准则实现了搜索-利用的平衡,配合信干噪比的反馈加速最优抗干扰策略收敛,相比PPO算法收敛速度提升至少10倍。考虑到实际场景中,干扰频点在滤波后可能在邻近频点存在能量残余的情况,所提频率捷变波形设计方法允许子脉冲多次重复选取距离干扰频点最远的雷达频点,有效降低了回波中的干扰剩余能量,提高了信干噪比。同时扩展了动作空间,提供了最优动作选取的基础。

    通过本文研究发现,当子脉冲数或脉冲数较多时,增大了网络的搜索和决策空间,使得收敛时间进一步增加,并且提高了最优策略的收敛难度。但这不会影响强化学习的关键要素设计,因此所提方法仍能根据交互数据的反馈结果进行策略优化。另外,考虑到子脉冲间、脉冲间的相位不一致,在积累时会带来一定程度上的增益损失。因此在未来的研究中,考虑将子脉冲以及脉冲间的积累情况纳入到奖励函数中,从而指导策略选取。

  • 图  1  雷达发射频率通道选择示意图

    Figure  1.  Radar transmission frequency channel selection schematic

    图  2  噪声压制式干扰场景示意图

    Figure  2.  Noise suppression jamming scene schematic

    图  3  无干扰环境下频率通道选择次数与SNR

    Figure  3.  Frequency channel selection times and SNR in the no jamming environment

    图  4  无干扰环境下所提算法的性能对比图

    Figure  4.  Comparison plots of the performance of the proposed algorithm in no jamming environment

    图  5  固定干扰策略环境下频率通道选择次数与SINR

    Figure  5.  Frequency channel selection times and SINR in the fixed jamming strategy environment

    图  6  固定干扰策略场景下所提算法的性能对比图

    Figure  6.  Comparison plots of the performance of the proposed algorithm in fixed jamming strategy environment

    图  7  阻塞式压制干扰下的SINR

    Figure  7.  SINR under blocking suppression jamming

    图  8  非自适应干扰场景中所提算法的性能对比图

    Figure  8.  Comparison plots of the performance of the proposed algorithm in non-adaptive jamming scene

    图  9  自适应干扰场景下所提算法的性能对比图

    Figure  9.  Comparison plots of the performance of the proposed algorithm in adaptive jamming scene

    1  RAFA-EXP3++算法

    1.   RAFA-EXP3++ algorithm

     初始化:频率通道数NfiF,初始损失估计值 ˜L0(fi)=0,权重 w0(fi)=1,损失期望差估计值 ˆΔ0(fi)=1
     对于每一个脉冲重复周期 t=1,2,,T
     1. 设置参数: βt=12lnNtN; ηt=2βt; c=20
        fiFξt(fi)=c(lnt)2tˆΔt1(fi)2; εt(fi)=min{12N,βt,ξt(fi)}
     2. fiF,计算各频率通道选择概率 pt(fi)
             pt(fi)=(1Nj=1εt(fj))wt1(fi)Nj=1wt1(fj)+εt(fi)                           (11)
     3. 依概率 pt从可用频率通道集 F中选择发射频率通道 fa,接收回波信号并利用式(5)计算损失值 lt(fa)
     4. fiF,更新各频率通道权重值 wt(fi)和损失期望差估计值 ˆΔt(fi)
             ˜Lt(fi)={˜Lt1(fi)+lt(fi)pt(fi),fi=fa˜Lt1(fi),fifa                           (12)
             wt(fi)=exp(ηt˜Lt(fi))                                      (13)
             ˆΔt(fi)=min{1,1t(˜Lt(fi)minfjF˜Lt(fj))}                             (14)
    下载: 导出CSV

    表  1  仿真实验雷达参数

    Table  1.   Radar parameters of simulation experiment

    参数 数值
    工作频段 Ku频段
    信号带宽B 40 MHz
    频率通道数N 30
    脉冲重复周期 Tr 20 μs
    发射功率 Pt 1000 W
    发射天线增益G 40 dB
    雷达系统损耗 Ls 4 dB
    接收机带宽 Bn 40 MHz
    接收机噪声系数 Fn 3 dB
    虚警率 Pfa 104
    目标的径向距离R 10 km
    下载: 导出CSV

    表  2  仿真实验中目标RCS均值(m2)

    Table  2.   The mean RCS of target in the simulation experiment (m2)

    频率通道 RCS均值
    1~5 U(8.5,9.5)
    6 14
    7~15 U(8.5,10.0)
    16~30 U(9.0,9.5)
    下载: 导出CSV

    表  3  仿真实验干扰机部分参数

    Table  3.   Jammer parameters of simulation experiment

    参数 数值
    干扰机发射总功率 PJ 800 W
    干扰机天线增益 GJ 10 dB
    雷达在干扰方向增益 G(θ) 20 dB
    极化失配损失 γJ 0.5
    干扰系统损耗 LJ 5 dB
    与雷达的径向距离 RJ 15 km
    下载: 导出CSV

    表  4  扫频式干扰参数设置

    Table  4.   Parameter setting of sweeping frequency jamming

    参数 数值
    扫频带宽 1.2 GHz
    干扰带宽 200 MHz
    跳频带宽 200 MHz
    扫频周期 120 μs
    下载: 导出CSV

    表  5  非自适应干扰场景中检测到目标的次数

    Table  5.   The number of detected targets in non-adaptive jamming scene

    算法名称 次数
    Random 53965
    ε-Greedy 66838
    UCB1 55951
    EXP3 72825
    CDTS 55345
    RAFA-EXP3++ 72837
    下载: 导出CSV

    表  6  自适应干扰场景下检测到目标的次数

    Table  6.   The number of detected targets in adaptive jamming scene

    算法名称 次数
    Random 54048
    ε-Greedy 27423
    UCB 1 16265
    EXP3 55135
    CDTS 33723
    RAFA-EXP3++ 55170
    下载: 导出CSV
  • [1] LI Nengjing and ZHANG Yiting. A survey of radar ECM and ECCM[J]. IEEE Transactions on Aerospace and Electronic Systems, 1995, 31(3): 1110–1120. doi: 10.1109/7.395232
    [2] HUANG Tianyao, LIU Yimin, MENG Huadong, et al. Cognitive random stepped frequency radar with sparse recovery[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(2): 858–870. doi: 10.1109/TAES.2013.120443
    [3] 全英汇, 方文, 高霞, 等. 捷变频雷达导引头技术现状与发展趋势[J]. 航空兵器, 2021, 28(3): 1–9. doi: 10.12132/ISSN.1673-5048.2020.0209

    QUAN Yinghui, FANG Wen, GAO Xia, et al. Review on frequency agile radar seeker[J]. Aero Weaponry, 2021, 28(3): 1–9. doi: 10.12132/ISSN.1673-5048.2020.0209
    [4] 李潮, 张巨泉. 雷达电子战自适应捷变频对抗技术研究[J]. 电子对抗技术, 2004, 19(1): 30–33. doi: 10.3969/j.issn.1674-2230.2004.01.008

    LI Chao and ZHANG Juquan. Research on the combat technology of radar EW with self-adapted frequency agile ability[J]. Electronic Information Warfare Technology, 2004, 19(1): 30–33. doi: 10.3969/j.issn.1674-2230.2004.01.008
    [5] 全英汇, 方文, 沙明辉, 等. 频率捷变雷达波形对抗技术现状与展望[J]. 系统工程与电子技术, 2021, 43(11): 3126–3136. doi: 10.12305/j.issn.1001-506X.2021.11.11

    QUAN Yinghui, FANG Wen, SHA Minghui, et al. Present situation and prospects of frequency agility radar waveform countermeasures[J]. Systems Engineering and Electronics, 2021, 43(11): 3126–3136. doi: 10.12305/j.issn.1001-506X.2021.11.11
    [6] SMITH G E, CAMMENGA Z, MITCHELL A, et al. Experiments with cognitive radar[J]. IEEE Aerospace and Electronic Systems Magazine, 2016, 31(12): 34–46. doi: 10.1109/MAES.2016.150215
    [7] MARTONE A F, RANNEY K I, SHERBONDY K, et al. Spectrum allocation for noncooperative radar coexistence[J]. IEEE Transactions on Aerospace and Electronic Systems, 2018, 54(1): 90–105. doi: 10.1109/TAES.2017.2735659
    [8] KIRK B H, NARAYANAN R M, GALLAGHER K A, et al. Avoidance of time-varying radio frequency interference with software-defined cognitive radar[J]. IEEE Transactions on Aerospace and Electronic Systems, 2019, 55(3): 1090–1107. doi: 10.1109/TAES.2018.2886614
    [9] SUTTON R S and BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Cambridge: MIT Press, 2018: 32–36.
    [10] SELVI E, BUEHRER R M, MARTONE A, et al. Reinforcement learning for adaptable bandwidth tracking radars[J]. IEEE Transactions on Aerospace and Electronic Systems, 2020, 56(5): 3904–3921. doi: 10.1109/TAES.2020.2987443
    [11] PUTERMAN M L. Chapter 8 Markov decision processes[J]. Handbooks in Operations Research and Management Science, 1990, 2: 331–434. doi: 10.1016/S0927-0507(05)80172-0
    [12] THORNTON C E, KOZY M A, BUEHRER R M, et al. Deep reinforcement learning control for radar detection and tracking in congested spectral environments[J]. IEEE Transactions on Cognitive Communications and Networking, 2020, 6(4): 1335–1349. doi: 10.1109/TCCN.2020.3019605
    [13] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
    [14] AILIYA, YI Wei, and VARSHNEY P K. Adaptation of frequency hopping interval for radar anti-jamming based on reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2022, 71(12): 12434–12449. doi: 10.1109/TVT.2022.3197425
    [15] LI Kang, JIU Bo, WANG Penghui, et al. Radar active antagonism through deep reinforcement learning: A way to address the challenge of Mainlobe jamming[J]. Signal Processing, 2021, 186: 108130. doi: 10.1016/j.sigpro.2021.108130
    [16] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.
    [17] LEE S Y, CHOI S, and CHUNG S Y. Sample-efficient deep reinforcement learning via episodic backward update[C]. The 33rd International Conference on Neural Information Processing Systems, Vancouver, Canada, 2019: 2112–2121.
    [18] WHITE III C C and WHITE D J. Markov decision processes[J]. European Journal of Operational Research, 1989, 39(1): 1–16.
    [19] BUBECK S and CESA-BIANCHI N. Regret analysis of stochastic and nonstochastic multi-armed bandit problems[J]. Foundations and Trends® in Machine Learning, 2012, 5(1): 1–122. doi: 10.1561/2200000024
    [20] HOI S C H, SAHOO D, LU Jing, et al. Online learning: A comprehensive survey[J]. Neurocomputing, 2021, 459: 249–289. doi: 10.1016/j.neucom.2021.04.112
    [21] ZHOU Pan and JIANG Tao. Toward optimal adaptive wireless communications in unknown environments[J]. IEEE Transactions on Wireless Communications, 2016, 15(5): 3655–3667. doi: 10.1109/TWC.2016.2524638
    [22] WANG Qian, XU Ping, REN Kui, et al. Towards optimal adaptive UFH-based anti-jamming wireless communication[J]. IEEE Journal on Selected Areas in Communications, 2012, 30(1): 16–30. doi: 10.1109/JSAC.2012.120103
    [23] KHALEDI M and ABOUZEID A A. Dynamic spectrum sharing auction with time-evolving channel qualities[J]. IEEE Transactions on Wireless Communications, 2015, 14(11): 5900–5912. doi: 10.1109/TWC.2015.2443796
    [24] ZHAO Qing, KRISHNAMACHARI B, and LIU Keqin. On myopic sensing for multi-channel opportunistic access: Structure, optimality, and performance[J]. IEEE Transactions on Wireless Communications, 2008, 7(12): 5431–5440. doi: 10.1109/T-WC.2008.071349
    [25] PULKKINEN P, AITTOMÄKI T, and KOIVUNEN V. Reinforcement learning based transmitter-receiver selection for distributed MIMO radars[C]. 2020 IEEE International Radar Conference (RADAR), Washington, USA, 2020: 1040–1045.
    [26] 王俊迪, 许蕴山, 肖冰松, 等. 相控阵雷达目标搜索的MAB模型策略[J]. 现代雷达, 2019, 41(6): 45–49. doi: 10.16592/j.cnki.1004-7859.2019.06.009

    WANG Jundi, XU Yunshan, XIAO Bingsong, et al. A MAB mode strategy in AESA radar target searching[J]. Modern Radar, 2019, 41(6): 45–49. doi: 10.16592/j.cnki.1004-7859.2019.06.009
    [27] AUER P, CESA-BIANCHI N, and FISCHER P. Finite-time analysis of the multiarmed bandit problem[J]. Machine Learning, 2002, 47(2): 235–256. doi: 10.1023/A:1013689704352
    [28] THORNTON C E, BUEHRER R M, and MARTONE A F. Constrained contextual bandit learning for adaptive radar waveform selection[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 58(2): 1133–1148. doi: 10.1109/TAES.2021.3109110
    [29] THOMPSON W R. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples[J]. Biometrika, 1933, 25(3/4): 285–294. doi: 10.2307/2332286
    [30] AUER P, CESA-BIANCHI N, FREUND Y, et al. The nonstochastic multiarmed bandit problem[J]. SIAM Journal on Computing, 2002, 32(1): 48–77. doi: 10.1137/S0097539701398375
    [31] FANG Yuyuan, ZHANG Lei, WEI Shaopeng, et al. Online frequency-agile strategy for radar detection based on constrained combinatorial nonstationary bandit[J]. IEEE Transactions on Aerospace and Electronic Systems, 2023, 59(2): 1693–1706. doi: 10.1109/TAES.2022.3203689
    [32] 王跃东, 顾以静, 梁彦, 等. 伴随压制干扰与组网雷达功率分配的深度博弈研究[J]. 雷达学报, 2023, 12(3): 642–656. doi: 10.12000/JR23023

    WANG Yuedong, GU Yijing, LIANG Yan, et al. Deep game of escorting suppressive jamming and networked radar power allocation[J]. Journal of Radars, 2023, 12(3): 642–656. doi: 10.12000/JR23023
    [33] 陈伯孝. 现代雷达系统分析与设计[M]. 西安: 西安电子科技大学出版社, 2012: 79–81.

    CHEN Boxiao. Mordern Radar System Analysis and Design[M]. Xi’an: Xidian University Press, 2012: 79–81.
    [34] 赵国庆. 雷达对抗原理[M]. 2版. 西安: 西安电子科技大学出版社, 2012: 183–186.

    ZHAO Guoqing. Principle of Radar Countermeasure[M]. Xi’an: Xidian University Press, 2012: 183–186.
    [35] AUDIBERT J Y, MUNOS R, and SZEPESVÁRI C. Exploration–exploitation tradeoff using variance estimates in multi-armed bandits[J]. Theoretical Computer Science, 2009, 410(19): 1876–1902. doi: 10.1016/j.tcs.2009.01.016
    [36] ARORA R, DEKEL O, and TEWARI A. Online bandit learning against an adaptive adversary: From regret to policy regret[C]. The 29th International Conference on International Conference on Machine Learning, Edinburgh, Scotland, 2012: 1747–1754.
    [37] BUBECK S and SLIVKINS A. The best of both worlds: Stochastic and adversarial bandits[C]. The 25th Annual Conference on Learning Theory, Edinburgh, UK, 2012: 23.
    [38] SELDIN Y and SLIVKINS A. One practical algorithm for both stochastic and adversarial bandits[C]. The 31st International Conference on International Conference on Machine Learning, Beijing, China, 2014: 1287–1295.
  • 期刊类型引用(1)

    1. 王兴家,王彬,刘岳巍,晏学成,丁峰. 基于元知识转移的认知雷达波形设计. 雷达科学与技术. 2024(04): 443-453 . 百度学术

    其他类型引用(4)

  • 加载中
图(9) / 表(7)
计量
  • 文章访问数: 409
  • HTML全文浏览量: 175
  • PDF下载量: 135
  • 被引次数: 5
出版历程
  • 收稿日期:  2023-10-20
  • 修回日期:  2023-12-13
  • 网络出版日期:  2023-12-22
  • 刊出日期:  2023-12-28

目录

/

返回文章
返回