
王跃东 顾以静 梁彦 王增福 张会霞

王跃东, 顾以静, 梁彦, 等. 伴随压制干扰与组网雷达功率分配的深度博弈研究[J]. 雷达学报, 2023, 12(3): 642–656. doi: 10.12000/JR23023
WANG Yuedong, GU Yijing, LIANG Yan, et al. Deep game of escorting suppressive jamming and networked radar power allocation[J]. Journal of Radars, 2023, 12(3): 642–656. doi: 10.12000/JR23023
DOI: 10.12000/JR23023
基金项目: 国家自然科学基金(61873205)



    梁 彦,博士,教授,主要研究方向为多源信息融合,复杂系统建模、估计与控制等




    梁彦 liangyan@nwpu.edu.cn

  • 责任主编:易伟 Corresponding Editor: YI Wei
  • 中图分类号: TN974

Deep Game of Escorting Suppressive Jamming and Networked Radar Power Allocation

Funds: The National Natural Science Foundation of China (61873205)
More Information
  • 摘要: 传统的组网雷达功率分配一般在干扰模型给定的情况下进行优化,而干扰机资源优化是在雷达功率分配方式给定情况下,这样的研究缺乏博弈和交互。考虑到日益严重的雷达和干扰机相互博弈的作战场景,该文提出了伴随压制干扰下组网雷达功率分配深度博弈问题,其中智能化的目标压制干扰采用深度强化学习(DRL)训练。首先在该问题中干扰机和组网雷达被映射为两个智能体,根据干扰模型和雷达检测模型建立了压制干扰下组网雷达的目标检测模型和最大化目标检测概率优化目标函数。在组网雷达智能体方面,由近端策略优化(PPO)策略网络生成雷达功率分配向量;在干扰机智能体方面,设计了混合策略网络来同时生成波束选择动作和功率分配动作;引入领域知识构建更加有效的奖励函数,目标检测模型、等功率分配策略和贪婪干扰功率分配策略3种领域知识分别用于生成组网雷达智能体和干扰机智能体的导向奖励,从而提高智能体的学习效率和性能。最后采用交替训练方法来学习两个智能体的策略网络参数。实验结果表明;当干扰机采用基于DRL的资源分配策略时,采用基于DRL的组网雷达功率分配在目标检测概率和运行速度两种指标上明显优于基于粒子群的组网雷达功率分配和基于人工鱼群的组网雷达功率分配。


  • 图  1  压制干扰机掩护目标穿越组网雷达防区的示例

    Figure  1.  An example of a suppression jammer protecting a target through the networked radar defense area

    图  2  干扰机智能体和组网雷达智能体的博弈流程图

    Figure  2.  The game closed-loop process of the jammer agent and the networked radar agent

    图  3  干扰机、雷达和目标的相对空间位置

    Figure  3.  The relative spatial position of the jammer, radar and target

    图  4  组网雷达智能体与环境交互图

    Figure  4.  The networked radar agent and environment interaction diagram

    图  5  知识辅助的组网雷达智能体奖励模块

    Figure  5.  The knowledge-assisted reward module for the networked radar agent

    图  6  组网雷达智能体的策略网络

    Figure  6.  The policy network of the networked radar agent

    图  7  干扰机智能体与环境交互图

    Figure  7.  The jammer agent and environment interaction diagram

    图  8  知识辅助的干扰机智能体奖励函数模块

    Figure  8.  The knowledge-assisted reward function module for the jammer agent

    图  9  干扰机智能体的混合策略网络

    Figure  9.  The hybrid policy network of the jammer agent

    图  10  组网雷达部署和目标编队轨迹

    Figure  10.  The deployment of the networked radar and the trajectory of the target formation

    图  11  奖励变化曲线

    Figure  11.  The rewards convergence curve

    图  12  干扰资源分配结果

    Figure  12.  The interference resource allocation result

    图  13  3种组网雷达功率分配策略的目标检测概率

    Figure  13.  The target detection probability of three networked radar power allocation strategies

    图  14  不同干扰模式下基于DRL组网雷达功率分配策略的目标检测概率

    Figure  14.  The target detection probability of the DRL-based networked radar power allocation strategy under different interference models

    图  15  组网雷达功率分配结果

    Figure  15.  The networked radar power allocation results

    图  16  各雷达节点受压制干扰情况

    Figure  16.  The indication that each radar node is interfered

    图  17  干扰机和组网雷达的距离变化

    Figure  17.  The distance variation of the jammer and the networked radar

    表  1  雷达工作参数

    Table  1.   The working parameters of the radars

    发射总功率$P_{\text{r}}^{{\text{total}}}$10 mW工作频率100 GHz

    最小发射功率$P_{\text{r}}^{\min }$0最大发射功率$P_{\text{r}}^{\max }$2 mW
    天线增益${G_{\text{r} } }$45 dB虚警概率${P_{\text{f}}}$10–6
    表  2  干扰机工作参数

    Table  2.   The working parameters of the jammer

    干扰总功率$ P_{\text{j}}^{{\text{total}}} $60 W干扰天线增益${G_{\text{j}}}$10 dB
    最小发射功率$ P_{\text{j}}^{\min } $0最大发射功率$ P_{\text{j}}^{\max } $60 W
    干扰波束个数L3天线波瓣宽度$ {\theta _{0.5}} $
    工作频率100 GHz极化失配损失$ {\gamma _{\text{j}}} $0.5
    表  3  算法参数设置

    Table  3.   The algorithm parameters setting

    衰减因子$\beta $0.9999导向奖励参数${b_1},{b_2}$0.5, 0.1
    表  4  各策略的资源调度运行时间

    Table  4.   The resource scheduling running time of each strategy

