Processing math: 100%

基于复数域深度强化学习的多干扰场景雷达抗干扰方法

解烽 刘环宇 胡锡坤 钟平 李君宝

何峻, 傅瑞罡, 付强. 自动目标识别评价方法发展述评[J]. 雷达学报, 2023, 12(6): 1215–1228. doi: 10.12000/JR23094
引用本文: 解烽, 刘环宇, 胡锡坤, 等. 基于复数域深度强化学习的多干扰场景雷达抗干扰方法[J]. 雷达学报, 2023, 12(6): 1290–1304. doi: 10.12000/JR23139
HE Jun, FU Ruigang, and FU Qiang. Review of automatic target recognition evaluation method development[J]. Journal of Radars, 2023, 12(6): 1215–1228. doi: 10.12000/JR23094
Citation: XIE Feng, LIU Huanyu, HU Xikun, et al. A radar anti-jamming method under multi-jamming scenarios based on deep reinforcement learning in complex domains[J]. Journal of Radars, 2023, 12(6): 1290–1304. doi: 10.12000/JR23139

基于复数域深度强化学习的多干扰场景雷达抗干扰方法

DOI: 10.12000/JR23139 CSTR: 32380.14.JR23139
基金项目: 国家自然科学基金(62271166),哈尔滨工业大学医工理交叉基金(IR2021104)
详细信息
    作者简介:

    解 烽,博士生,主要研究方向为雷达抗干扰技术、深度强化学习

    刘环宇,讲师,主要研究方向为强化学习、目标识别检测和无人机控制

    胡锡坤,助理研究员,主要研究方向为遥感图像处理和深度学习

    钟 平,研究员,主要研究方向为智能目标识别

    李君宝,教授,主要研究方向为机器学习算法、嵌入式智能系统、图像处理

    通讯作者:

    刘环宇 liuhuanyu@hit.edu.cn

  • 责任主编:全英汇 Corresponding Editor: QUAN Yinghui
  • 中图分类号: TN974

A Radar Anti-jamming Method under Multi-jamming Scenarios Based on Deep Reinforcement Learning in Complex Domains

Funds: The National Natural Science Foundation of China (62271166), Interdisciplinary Research Foundation of HIT (IR2021104)
More Information
  • 摘要: 在现代电子战中,雷达面临的干扰环境比以前更加复杂,机载干扰机会根据突袭任务与突袭阶段的不同而改变其干扰方式。近年来,基于强化学习的雷达抗干扰方法在单一干扰对抗场景下取得了一定进展,但在实际复杂多干扰场景下的研究仍有不足。为了解决该问题,本文提出了一种基于复数域深度强化学习的多干扰场景雷达抗干扰方法以优化频率捷变雷达的抗干扰策略。首先,针对突袭任务的阶段性特点建立了噪声瞄准干扰、距离假目标欺骗干扰与密集假目标转发干扰3种干扰模型,并设计了3种干扰顺序策略来模拟实际干扰场景。其次,针对多干扰场景模型,构建了一种融合信干噪比与目标航迹完整性的强化学习奖励函数,并针对干扰信号的复数域特征,提出了一种基于复数域深度强化学习的多干扰场景雷达抗干扰方法。最后,基于3种干扰顺序策略设计了雷达抗干扰仿真实验,结果表明,所提方法能够有效解决雷达面临的时序条件下复杂多干扰场景的主瓣干扰问题,与两种经典深度强化学习算法相比该方法抗干扰决策性能大幅提高,平均决策时间降低至405.3 ms。

     

  • 信息化时代中对于深层次信息的需求日益迫切,目标识别就是根据某物体呈现的特征进行分析和判断,从而达到辨认和识别其身份和属性的目的。当这一过程不需要人工参与而只由机器自动完成时,就称该过程为自动目标识别(Automatic Target Recognition, ATR)。一旦将此项重要的任务交由机器来自主完成,应该如何评价ATR所取得的实际作用?

    由于ATR技术与模式识别、人工智能等技术有着许多共同点,因此雷达、光学等信息处理研究领域中都包含ATR这一研究方向,许多学术机构及期刊会议也设有ATR专栏。IEEE很早就从图像处理角度定义过ATR:自动目标识别一般指通过计算机处理来自各种传感器的数据,实现自主或辅助目标的检测和识别[1]

    很多学者系统梳理过ATR的概念与技术发展。例如,文献[2]对雷达ATR技术现状与发展认识进行了总结,文献[3]从工程视角进一步对ATR技术发展进行了评述。ATR技术研究需要多个学科方向进行交叉融合[4],而测试与评价对任何技术领域的发展都是非常重要的。随着ATR技术的快速发展,ATR评价方法的研究也逐步得到重视。例如,Ross等人[511]在历年SPIE会议上发表了一系列论文阐述SAR ATR评价的理念与方法,李彦鹏等人[1214]对ATR效果评估进行了深入研究。但从总体来看,近年来通用性的评价方法研究较为少见。ATR评价方法研究经常被归属于某个相关技术领域,点缀在众多的图形图像[15,16]、信息处理[17,18]、系统工程[19,20],乃至运筹管理[21,22]等领域的期刊或会议论文集中。

    专门总结ATR评价方法的综述研究更为少见,更多的是在论文、专著中作为ATR技术发展的组成部分予以介绍。例如,文献[12,2327]虽然都以ATR评价方法作为主题,但研究重点在于提出新的评价方法;文献[13]对ATR评价进行了介绍,但主要成果是为ATR系统的性能评价提供综合性分析工具。文献[28]是一篇有关ATR算法评价方法的综述文献,更多的是对上述学位论文及专著相关部分的总结。十多年来,ATR技术领域有了新的发展,同时给ATR评价带来了新的问题,但是该领域缺乏最新的综述文献对这些新进展进行归纳与总结。

    本文面向通用的ATR算法与系统,不仅梳理和总结了ATR技术及其评价方法的发展,还对ATR评价方法研究背后的基础理论、方法模型等开展了分析讨论,并针对当前方法研究中存在的关键问题给出了自己的见解,旨在为科学、有效的ATR算法与系统评价提供方法借鉴和启发引导。

    20世纪80~90年代的ATR研究基本可以看作统计模式识别理论在具体应用领域中的探索实践,处理方法上沿袭了传统的特征提取与选择、模板建库、分类器设计、匹配决策等经典模式识别环节。特征提取在统计模式识别中尤为关键,这也是早期ATR研究的重点内容。

    以雷达对空中目标的识别为例,目标信号特征包括飞机的动力构件调制特征、目标谐振区极点特征、极化散射矩阵的不变量、微动特征,以及雷达成像时散射中心、结构特征等[29]。目标特征提取需要大量的实测数据,而当时的数据采集手段较为有限,造成用于匹配模板的标准状态与目标的实际状态之间存在较大差异,导致这一时期ATR系统的实用性较差。

    当人们认识到模板匹配方法的局限性之后,开始尝试采用模型预测来应对实际情况中目标变化的多样性。基于模型的分类识别逐渐成为当时ATR研究的主流技术。其中,颇具代表性的当属美国国防部高级研究计划局(Defense Advanced Research Projects Agency, DARPA)和美国空军实验室(Air Force Research Laboratory, AFRL)联合开展的MSTAR (Moving and Stationary Target Acquisition and Recognition)计划[30],研制出较为成熟的基于模型SAR ATR系统。

    针对传统ATR系统难以引入外部信息、缺少对目标相关知识利用等问题,文献[31]建议采用知识推理辅助的目标识别方法。这类方法中,基于上下文知识的目标识别技术首先得到了关注和深入研究[32]。随后,本体论[33]、可视化[34]、数据融合[35]等方法被陆续引入。ATR研究的范围逐步提升到更广泛的全局信息利用层面。

    早期基于神经网络的ATR技术大多采用小规模的网络分类器[3639]。随着深度学习研究兴起,深度学习方法已成为当前ATR技术的一个研究热点[4042]。深度卷积神经网络(Convolutional Neural Networks, CNN)的成功[43]同样在声呐图像、雷达图像的识别应用中得到了验证[4446]。深度学习方法在信息处理过程中不再严格区分“特征提取”与“分类识别”,而是直接完成目标识别的全过程[47]

    目前,CNN已被广泛应用于一维距离像识别[4850]、SAR图像识别[5155]和红外图像识别[5658]等场景,并且被证明在提升泛化性能方面有不错的表现[59],但有些场景中也容易受到噪声干扰[60,61]和欺骗[62]等因素影响。另外,虽然迁移学习[63]在SAR图像ATR的应用中取得了一定成功[6466],但人们还是对深度学习ATR方法的可解释性存在着一定的疑惑[67]

    从20世纪50年代雷达目标识别领域研究[68]开始,ATR技术已经取得了长足的进步。然而,要真正解决目标识别问题,ATR技术仍面临许多困难与挑战。除了目标识别问题本身的复杂性之外,ATR领域缺乏系统、科学的性能测试与评价方法也是制约其技术发展的瓶颈问题之一。

    ATR评价方法研究正是要致力于改变这一现状,对ATR算法或系统进行性能评价与预测,使得ATR研究具备成为真正科学领域的基本要素[4]。文献[69]是有关ATR发展的较早评述,其中对于ATR评价重要性和发展的预测已被实践所证明。为构建实用化的ATR系统,必须先建立起有效的ATR评价方法及性能测试系统[70]

    ATR评价实际上贯穿于整个ATR研制过程。以研制一个ATR算法为例,图1[71]给出了ATR评价在各个阶段的不同内容。

    图  1  典型ATR研制与测试生命周期[71]
    Figure  1.  A typical ATR development and test life cycle[71]

    无论处于哪个阶段,ATR算法的评价都离不开性能指标定义、测试条件构建和推断与决策等环节。本节分别归纳总结这几方面的研究成果。

    识别性能对于ATR算法来说无疑非常重要,许多文献中提到的ATR性能指标就是指衡量其识别能力的指标。至于泛化能力等其他方面的能力,通常采用分析某个关键识别指标(如识别率)随测试条件变化的下降程度来度量。故本文重点阐述ATR识别性能指标。

    混淆矩阵(Confusion Matrix)从模式分类研究时期起就被广泛使用,通常记录成一张由行和列构成的二维表格。单元格用下标(i,j )定位,记录目标i被自动判别为目标j的次数或比率。配合彩色或灰度幅度值,混淆矩阵能够更加直观地展示目标识别的结果,如图2[72]所示。

    图  2  3类目标识别结果混淆矩阵[72]
    Figure  2.  Classification result map of three types of targets[72]

    对于m类目标的情况,混淆矩阵至少包含了m2个单元格,详细记录了ATR算法对于每一类目标正确识别及混淆判别的结果。当目标类型数据较多时,混淆矩阵难以直观展示测试结果。对此,可以利用混淆矩阵推算出另一类被经常使用的评价指标—概率型指标,反映ATR过程中对某个目标类别的正确/错误判别概率,如检测概率(Probability of Detection, PD)、虚警概率(Probability of False Alarm, PFA)、识别率等。

    如果说概率型指标是以数的形式对混淆矩阵进行简化,那么ROC (Receiver Operating Characteristic)曲线就是用图的形式对PDPFA之间存在的约束关系进行描述。ROC曲线最早应用于雷达检测领域,如图3[73]所示。

    图  3  双正态分布生成的ROC曲线[73]
    Figure  3.  Sample N-N ROC curve generation[73]

    图3给出了存在高斯白噪声(非目标)n情况下,对同样服从正态分布的信号(目标)sn依据检测门限x0得到的ROC曲线。显然,越大的曲线下面积(Area Under the Curve, AUC)意味着ATR系统在保持低虚警概率P(S/n)的同时,具有更高的检测概率P(S/sn)。AUC因而成为评价“目标-非目标”这种二分类ATR算法性能的最常见评价指标,并逐步从雷达ATR领域扩展到其他领域,如医学病理图像ATR诊断性能评价[74,75]。文献[76]对一些基于ROC曲线的ATR算法性能评价方法进行了较为系统的总结。

    采用深度学习方法的ATR算法,更倾向于采用由精确率(Precision)和召回率(Recall)所构成的P-R曲线[77]。为避免P-R曲线因为样本的排序而出现摇摆,一般还要对其进行平滑处理,如图4所示。

    图  4  实际P-R曲线与平滑后P-R曲线
    Figure  4.  Actual and smoothed P-R Curve

    与AUC类似,平均精度(Average Precision, AP)由P-R曲线所衍生,表示不同召回率下精确率的平均值。至于如何对P-R曲线做离散化取值,如何计算平滑后的P-R曲线下面积,都有一系列相应的规范要求,具体方法可以参考文献[78,79]。此外,P-R曲线虽然同样是针对某类目标而言的,但可以通过对各类目标的AP值再取平均值(mean AP, mAP)来实现多分类的ATR算法性能评价。因此,AUC也可以说是mAP的特例。

    综上所述,ATR算法识别性能的评价指标主要包括:以表格形式记录的混淆矩阵,根据目标识别阶段定义的概率型指标,以及ROC曲线、P-R曲线等图形及衍生指标。表1总结了常见的ATR识别性能指标。

    表  1  常见ATR识别性能指标
    Table  1.  Common ATR performance measures
    形式 典型代表 使用要点 适用范围 优/缺点
    表格 混淆矩阵 每行数据记录一类目标被正确识别或错误混淆的情况 任意m类目标的分类性能评价 优点:记录所有目标类型之间的相互区分结果
    缺点:目标类型数m较大时展示效果不直观
    概率 检测概率PD
    虚警概率PFA
    种类识别概率PCC
    类型识别概率PID
    逐级识别过程中特定事件的发生概率 目标识别过程中某个决策任务结果的不确定性度量 优点:内涵清晰,指标点估计值计算简单
    缺点:需要根据多次目标识别试验进行统计推断
    曲线 ROC曲线
    P-R曲线
    转换为AUC, AP采用下面积、曲线积分的形式度量 相互制约的两方面
    性能综合刻画
    优点:综合评价阈值变化对两个相互制约指标的影响
    缺点:需调整阈值进行量化,精度受阈值离散取值的影响
    下载: 导出CSV 
    | 显示表格

    ATR技术最终将应用于真实环境,需要将ATR算法加载到实际系统中进行检验。MSTAR计划将SAR ATR系统所处的条件分为4类[9]:ATR系统面临的真实环境称为工作条件(Operation Conditions, OC),性能评价时所构建的测试条件(Test Condtions)只是OC的子集。用于算法训练的数据样本代表了ATR系统的训练条件(Training Condtions)。此外,对于模型驱动的ATR系统还可以定义其建模条件(Modeled Condtions)。上述4类条件之间的关系如图5(a)所示;而ATR系统评价其实只能考察ATR系统的准确性(Accuracy)、稳健性(Robustness)和扩展性(Extensibility),三者共同反映了部分的有效性(Utility),如图5(b)所示。

    图  5  MSTAR计划中的训练与测试条件[9]
    Figure  5.  Training and testing conditions in MSTAR program[9]

    为了更好地评价ATR系统的扩展性,AFRL进一步将OC划分为标准工作条件(Standard Operation Condition, SOC)和扩展工作条件(Extended Operation Condition, EOC)[80],根据ATR任务的具体需求设置具有代表性的EOC,并在目标类型、地面背景、传感器姿态等因素维度上构建差异化的测试条件。测试条件构建最后体现为不同的数据集:一般来说,SOC采集的一部分数据构成训练数据集,主要被用作ATR算法训练开发和自检;EOC的数据相对于研制方保密,形成测试数据集并用于ATR系统性能评价。

    在SAR ATR技术领域中,MSTAR数据集被广泛使用。MSTAR数据集包含X波段0.25 m×0.25 m分辨率的全方位SAR图像序列,方位角间隔1°,图像分辨率128×128像素,所含目标多为车辆[81]。其中,常见的几类地面目标如图6所示[82]

    图  6  10类MSTAR目标的光学及SAR图像[82]
    Figure  6.  Optic and SAR images of 10 MSTAR targets[82]

    公开发布的数据中提供设置的因素包括外形差异和俯仰角差异[82]。通常一类(Class)目标中包括若干不同的类型(Type),用于评价ATR算法在目标外形差异条件下的扩展性;部分目标还具有多个差异较大俯仰角的观测图像,用于评价ATR算法在不同成像视角条件下的扩展性。文献[83]总结了如何正确使用MSTAR数据开展SAR ATR评价工作。文献[84]对MSTAR数据所发挥的作用进行了分析,总结了1995—2020年使用该数据论文的引用次数,如图7所示。

    图  7  MSTAR数据引文进展[84]
    Figure  7.  MSTAR citation progression[84]

    在光学图像ATR技术领域,包含海量图像的数据集为ATR系统提供了比较接近真实环境的测试条件,从而极大地促进了数据驱动的ATR技术飞速发展。其中,颇具代表性的图像数据集有PASCAL VOC[85,86], ImageNet[87], MS COCO[88]和Open Images[89]等。这些数据集经常被作为目标检测、模式识别等领域中ATR算法性能测试的基准条件。

    分析表1不难发现,混淆矩阵由于其记录结果难以直观比较,需要转换为反映特定性能的概率型指标;而体现“检测-虚警”“精确率-召回率”等概率型指标之间相互约束关系的ROC曲线、P-R曲线等,也是以概率指标作为基础。由于实际测试次数的限制,基于概率型指标的性能评价通常被归结为统计推断问题,下面结合实例进行详细介绍。

    以识别率指标为例,在统计学中可抽象为Bernoulli试验的成败概率。记n个测试样本中正确识别的次数为X,X为服从二项分布的随机变量。X=k (k=0, 1, 2, ···, n)的概率为

    P{X=k}=(nk)pk(1p)nk (1)

    n较大时(至少要求n≥30),识别率指标的测试结果 ˆp=X/n 可以用正态分布近似,在置信度1–α下识别率指标的区间估计结果为

    [ˆpzα/2ˆp(1ˆp)n,ˆp+zα/2ˆp(1ˆp)n] (2)

    其中,zα/2表示标准正态分布N(0,1)的α/2分位数。

    对ATR算法性能评价中特别关心的识别率达标问题,可以通过构建检验统计量进行假设检验予以判断。例如,合同对ATR算法的识别率指标要求为p0,可以构建如下的原假设H0和备选假设H1来判断识别率精确率是否达标[73]

    H0:pp0H1:p<p0z0=ˆpp0ˆp(1ˆp)nN(0,1) (3)

    其中的检验统计量z0由测试结果 ˆp 、合同要求值p0和样本容量n共同计算。若该假设检验的显著性水平取α,则当z0>–zα时,判定识别率指标达到规定值。

    文献[90]在上述正态近似假设前提下,对等价误识率的估计精度、区分度等问题进行了详细讨论,其研究结果表明需要大量的测试样本才能保证推断结果具有统计意义。对任意测试样本容量的一般情况,文献[91]提出了一种基于特定事件贝叶斯后验概率的评价方法,有效解决了根据概率型指标进行ATR算法考核检验、比较排序等评价问题。

    上述评价方法都只是根据某个关键的概率型指标进行评价,但实际中的ATR系统具有多方面属性,需要构建合适的评价指标体系才能开展全面评价。ATR系统评价所面临的多指标综合评价问题,在决策分析领域中被称为多属性决策(Multi-Attribute Decision-Making, MADM)问题,一般可采用分值模型或关系模型进行多指标聚合。

    顾名思义,分值模型通过获取综合评分来实现多指标综合评价,类似于雷达等技术领域中广泛使用质量因数(Figure of Metric, FoM)[92]对系统的整体性能进行综合描述。FoM的通式可概括为

    FoM=ni=1aiwi (4)

    其中,ai表示第i个指标的评分值,wi表示该项指标的权重。

    为得到ATR系统的综合评分值,Klimack等人[93]将决策分析(Decision Analysis, DA)理论引入ATR系统评价,以价值函数和效用函数作为获取指标评分值的量化工具,然后再用一种混合价值/效用(Hybrid Value-Utility)[94]的分值模型聚合多个指标的评分值。文献[95]结合某ATR系统评价给出了详细的指标分解、赋权和评分过程,并且归纳出一个通用的评分决策模型,如图8[95]所示。图8中底层的红色曲线表示各指标值的概率分布,倒数第二级的绿色曲线表示每个指标对应的价值函数或效用函数,需要根据具体的应用场景进行构建。

    图  8  通用决策分析模型结构[95]
    Figure  8.  Common decision analysis model structure[95]

    除分值模型之外,关系模型是另一类常见的评价决策模型。关系模型从形式上可以概况为[96]:称(U,R)为评价关系模型,其中U={x1, x2, ···, xn}为评价对象集,R为评价对象之间的关系集

    R=[R(x1,x1)R(x1,x2)R(x1,xn)R(x2,x1)R(x2,x2)R(x2,xn)R(xn,x1)R(xn,x2)R(xn,xn)] (5)

    其中,R(xi,xj)表示评价对象xixj之间的某种优劣关系。

    不同于分值模型,关系模型避开了不同数据类型指标的评分要求,不需要为每个评价指标构造价值函数或效用函数。例如,对ATR系统评价中最为常见的实数型、风险型和区间型指标,文献[97]通过建立基于标准优劣差异x的偏好映射实现对式(5)中矩阵元素的赋值,从而完成了混合3种数据类型的多指标ATR系统综合评价。

    第3节分别对ATR评价方法研究中的性能指标定义、测试条件构建、推断与决策等方面的成果进行了归纳总结,本节继续对一些最新的研究进展进行分析与评述。

    性能指标定义方面,消除评价指标不确定性的归一化方法研究已经开始引起关注。例如,对于识别率等具有不确定性的概率型指标,文献[98]提出一种前景函数构建方法,将识别率的增量转变成前景价值,其所设计的前景价值函数不仅具有边际递减效应,而且不敏感于测试样本容量的变化。另外,随着深度学习方法在ATR技术领域的广泛应用,对于ATR算法可解释性[99,100]的要求日益强烈,成为这类ATR算法评价的研究热点。可解释性研究的重点在于提出可量化的指标,但是当前常见的一些方法(如LIME[101], Grad-CAM[102]等)尚缺乏被一致认可的量化指标。

    测试条件构建方面,随着国内学界对数据的逐渐重视,国内多个研究机构陆续发布了可用于ATR算法研究与系统测评的数据资源,包括雷达[103105]、红外[106,107]等多种传感器采集的数据。代表测试条件的数据集质量问题,也开始引起人们的广泛关注。例如,文献[108]分别针对图像数据集和文本数据集,提出了面向任务的数据集质量评价和数据选择方法,实现了任务相关性和内容多样性的量化度量。当实测数据不能完全满足工作条件的多样性需求时,人工合成及仿真计算等方法也逐步成为一种有益的补充手段[109112]。通过不断提高所构建测试条件与实际工作条件的逼真度,ATR系统的有效性可以用在测试数据集上的扩展性来等效近似。

    推断与决策方面,适用于ATR评价的混合型多属性决策问题已引起国内外的普遍关注,陆续提出了多种混合型多属性决策方法[113,114]。国内学者对区间数[115,116]、模糊型[117,118]和语言变量[119]等类型的多数属性决策问题抱有较浓厚的研究兴趣。文献[120]总结了各类不确定性和混合型多属性决策方法,给出了一些新的决策方法与应用实例。ATR系统评价方法研究中,借鉴这些最新决策理论成果的报道较为少见。文献[121]针对制导装置提出了基于区间直觉模糊集的性能评价方法,但是评价方法的合理性仍有待实际应用检验。

    ATR评价方法的研究伴随着ATR技术发展,陆续取得了不少研究成果。理论上,测评方法分为理论分析和实验测量两种技术途径,本文只涉及基于测试的评价方法。这是由于ATR技术与实际应用结合紧密,大部分的ATR算法和ATR系统的性能指标需要根据实际测试结果计算,因而制约了理论分析方法的发展。对基于测试的ATR评价方法,获取识别率等关键指标的边界值是一个难点问题。作者认为,如果将ATR算法作为结构未知的“黑箱”进行测试,始终难以从根本上解决ATR算法的可信应用问题。基于理论分析的方法研究,则有可能从对ATR算法内部认知的角度突破该难题。

    下面根据当前的研究现状,提出两个值得深入思考和持续研究的方向。

    (1) 借鉴多属性决策理论,进行综合评价方法创新。

    现阶段对于不确定性多属性决策方法、不确定信息下的案例推理决策方法等方面的研究成果颇为丰富,但对ATR系统评价而言,最为关键的问题是根据评价指标自身的定义与内涵,谨慎选择合适的不确定信息类型予以描述和度量,然后再从众多的已有方法成果中挑选合适的决策模型(亦称为集结算子)来融合决策者的主观偏好。这些研究工作貌似只是对现有理论方法的修改,却灵活解决了ATR评价工作所要面临的各种实际问题,也是构建ATR评价指标体系的理论依据所在。因此,有必要针对ATR评价问题中特有的混合型多属性决策问题,研究相应的决策模型及综合评价方法,解决多指标的ATR综合评价问题。

    (2) 持续数据工程建设,提升测试样本数据质量。

    ATR算法技术主流从最初的模板匹配到后面的模型驱动,再到现在的以深度学习为代表的数据驱动,对于训练数据和测试数据的需求都在不断增加。ATR评价主要关心如何适当减少测试数据,同时又能够保证测试样本涵盖实际工作条件的各类场景,实际上提出了数据使用规范与数据集质量评价这两个方面的需求。因此,还需进一步加强测试流程的规范化研究,重点分析测试样本的数据质量,构建合理的质量指标体系对测试数据集进行量化考核,保证测试结果反映ATR系统的真实性能表现。

    ATR评价方法的研究已取得一定成果,但仍然跟不上ATR技术的发展需求。随着相关学科领域的发展及ATR技术自身的持续深入研究,建议在ATR技术领域中将ATR评价设立为一个独立的研究方向,为模式分类、目标检测、敌我识别、无人作战等高新技术应用提供科学的检验标准与决策依据。

  • 图  1  频率捷变雷达模型

    Figure  1.  Frequency agile radar model

    图  2  噪声瞄准干扰仿真图

    Figure  2.  Simulation diagram of noise spot jamming

    图  3  距离假目标欺骗干扰仿真图

    Figure  3.  Simulation diagram of distance false-target deception jamming

    图  4  密集假目标转发干扰仿真图

    Figure  4.  Simulation diagram of dense false-target repeater jamming

    图  5  3种干扰策略顺序

    Figure  5.  Order of three jamming strategies

    图  6  FA雷达与干扰机

    Figure  6.  FA radar and target jammer

    图  7  噪声瞄准干扰频域图

    Figure  7.  Frequency domain of noise spot jamming

    图  8  距离假目标欺骗干扰时域图

    Figure  8.  Time domain of distance false-target deception jamming

    图  9  密集假目标转发干扰时域图

    Figure  9.  Time domain of dense false-target repeater jamming

    图  10  基于复数域深度强化学习的多干扰场景雷达抗干扰网络

    Figure  10.  Deep RL based radar anti-jamming network under multi-jamming scenes in complex domain

    图  11  复数域特征提取网络

    Figure  11.  Complex domain feature extraction network

    图  12  深度确定性策略梯度网络

    Figure  12.  Deep deterministic policy gradient network

    图  13  态势预测过程损失值

    Figure  13.  Loss value of situation awareness process

    图  14  态势预测过程准确率

    Figure  14.  Accuracy value of situation awareness process

    图  15  3种干扰类型下不同强化学习算法的决策性能

    Figure  15.  Decision performance of different RL algorithms under three types of interference

    图  16  DRL-ANCD网络对于3种干扰类型的抗干扰行为决策

    Figure  16.  Anti-jamming decisions of DRL-ANCD networks for three interference

    图  17  3种干扰策略下不同强化学习算法的决策性能

    Figure  17.  Decision performance of different RL algorithms under three interference strategies

    图  18  干扰策略Ⅰ下DRL-ANCD网络的抗干扰行为

    Figure  18.  Anti-jamming behaviors of DRL-ANCD networks under interference strategy I

    图  19  干扰策略Ⅱ下DRL-ANCD网络的抗干扰行为

    Figure  19.  Anti-jamming behaviors of DRL-ANCD networks under interference strategy Ⅱ

    图  20  干扰策略Ⅲ下DRL-ANCD网络的抗干扰行为

    Figure  20.  Anti-jamming behaviors of DRL-ANCD networks under interference strategy Ⅲ

    1  深度确定性策略梯度算法

    1.   Deep deterministic policy gradient algorithm

     1. 使用权重 θQθμ随机初始化Q网络参数 Q(s,aθQ)和策略
     网络参数 μ(sθμ)
     2. 使用初始化目标网络
     3. 使用权重 θQθQ, θμθμ初始化目标网络 Qμ
     4. 初始化经验池R
     5. for episode=1, 2, ···, M,执行:
     6.  为行动探索初始化一个随机过程 N
     7.  获得一个初始化观察状态 s1
     8.  for t=1,2,,T,执行:
     9.   根据当前策略与探索噪声选择行动 at
     10.   执行动作 at,获得奖励 rt与新的状态 st+1
     11.   将样本 (st,at,rt,st+1)存储至经验池R
     12.   从R中随机采样出N个样本 (si,ai,ri,si+1)
     13.   设置 yi=ri+γQ(si+1,μ(si+1θμ)θQ)
     14.   使用损失函数L更新Q网络参数
     15.   使用采样样本的策略梯度更新行为策略
     16.   更新目标网络参数:
      θQτθQ+(1τ)θQ
      θμτθμ+(1τ)θμ
     17.   end for
     18. end for
    下载: 导出CSV

    表  1  雷达发射信号仿真参数表

    Table  1.   Radar transmit signal simulation parameters

    参数类型 数值
    信号类型 LFM
    采样频率 fs (MHz) 100
    脉冲宽度 Tp (μs) 10
    脉冲重复周期 Tr (μs) 50
    下变频后的中频频率 fI (MHz) 25
    调频斜率k (Hz/s) 2×1012
    带宽B (MHz) 20
    下载: 导出CSV

    表  2  3种干扰类型下的态势预测性能

    Table  2.   Posture prediction performance under 3 interference types

    干扰类型 总体区间 步进 识别时间(ms) 识别精度(%)
    噪声瞄准干扰 [3~4 GHz] 1 MHz 96 98.6
    距离假目标欺骗干扰 [3~4 GHz] 1 MHz 132 97.4
    密集假目标转发干扰 [1~1000 μs] 1 μs 144 94.4
    下载: 导出CSV

    表  3  算法参数设置

    Table  3.   Algorithm parameters setting

    参数 PPO TD3 DRL-ANCD
    Q网络学习率 10–3 10–3 10–3
    策略网络学习率 10–3 10–3 10–3
    优化器 Adam Adam Adam
    目标网络更新率 10–3 5×10–3 5×10–3
    批输入 128 128 128
    折扣系数 0.99 0.99 0.99
    奖励缩放 1.0 1.0 1.0
    PPO裁剪参数 0.2 None None
    下载: 导出CSV

    表  4  单一干扰类型下3种强化学习算法抗干扰性能

    Table  4.   Performance of 3 RL algorithms for a single jamming type

    干扰类型 算法名称 平均奖励 决策时间(ms)
    噪声瞄准干扰 PPO –215 188
    TD3 –51 333
    DRL-ANCD 53 244
    距离假目标欺骗干扰 PPO –168 168
    TD3 –25 225
    DRL-ANCD 94 203
    密集假目标转发干扰 PPO –156 269
    TD3 –45 340
    DRL-ANCD 24 289
    下载: 导出CSV

    表  5  在线网络参数

    Table  5.   Online net parameters

    网络 网络层 输入 输出 激活
    策略网络 MLP1 State 256 ReLU
    MLP2 256 256 ReLU
    MLP3 256 128 ReLU
    MLP4 128 1 None
    Q网络 MLP1 State+action 256 ReLU
    MLP2 Action+256 256 ReLU
    MLP3 256 128 ReLU
    MLP4 128 1 None
    下载: 导出CSV

    表  6  多干扰策略下3种强化学习算法抗干扰性能

    Table  6.   Performance of 3 RL algorithms for a multi-jamming strategies

    干扰策略 算法名称 对抗奖励 决策时间(ms)
    干扰策略Ⅰ PPO-SL –202 356
    TD3-SL –125 443
    DRL-ANCD 3 402
    干扰策略Ⅱ PPO-SL –221 375
    TD3-SL –122 429
    DRL-ANCD 14 392
    干扰策略Ⅲ PPO-SL –124 386
    TD3-SL 25 463
    DRL-ANCD 107 422
    下载: 导出CSV
  • [1] KOGON S M, HOLDER E J, and WILLIAMS D B. Mainbeam jammer suppression using multipath returns[C]. Conference Record of the Thirty-First Asilomar Conference on Signals, Systems and Computers, Pacific Grove, USA, 1997: 279–283.
    [2] GRECO M, GINI F, and FARINA A. Radar detection and classification of jamming signals belonging to a cone class[J]. IEEE Transactions on Signal Processing, 2008, 56(5): 1984–1993. doi: 10.1109/TSP.2007.909326
    [3] NERI F. Introduction to Electronic Defense Systems[M]. SciTech Publishing, Raleigh, NC, 2006.
    [4] 李宇环, 岳显昌, 张兰. 基于压缩感知的时域抗射频干扰方法[J]. 科学技术与工程, 2020, 20(7): 2767–2772. doi: 10.3969/j.issn.671-1815.2020.07.035

    LI Yuhuan, YUE Xianchang, and ZHANG Lan. Time-domain radio frequency interference suppression method based on compressed sensing[J]. Science Technology and Engineering, 2020, 20(7): 2767–2772. doi: 10.3969/j.issn.671-1815.2020.07.035
    [5] 杜思予, 刘智星, 吴耀君, 等. 基于SVM的捷变频雷达密集转发干扰智能抑制方法[J]. 雷达学报, 2023, 12(1): 173–185. doi: 10.12000/JR22065

    DU Siyu, LIU Zhixing, WU Yaojun, et al. Dense-repeated jamming suppression algorithm based on the support vector machine for frequency agility radar[J]. Journal of Radars, 2023, 12(1): 173–185. doi: 10.12000/JR22065
    [6] 董淑仙, 吴耀君, 方文, 等. 频率捷变雷达联合模糊C均值抗间歇采样干扰[J]. 雷达学报, 2022, 11(2): 289–300. doi: 10.12000/JR21205

    DONG Shuxian, WU Yaojun, FANG Wen, et al. Anti-interrupted sampling repeater jamming method based on frequency-agile radar joint fuzzy C-means[J]. Journal of Radars, 2022, 11(2): 289–300. doi: 10.12000/JR21205
    [7] 施龙飞, 任博, 马佳智, 等. 雷达极化抗干扰技术进展[J]. 现代雷达, 2016, 38(4): 1–7, 29.

    SHI Longfei, REN Bo, MA Jiazhi, et al. Recent developments of radar anti-interference techniques with polarimetry[J]. Modern Radar, 2016, 38(4): 1–7, 29.
    [8] 陈新竹. 多功能数字阵列雷达空域抗有源干扰方法研究[D]. [博士论文], 上海交通大学, 2022.

    CHEN Xinzhu. Research on spatial jamming cancellation in mutifunction digital array radar[D]. [Ph.D. dissertation], Shanghai Jiao Tong University, 2022.
    [9] 刘智星, 杜思予, 吴耀君, 等. 脉间-脉内捷变频雷达抗间歇采样干扰方法[J]. 雷达学报, 2022, 11(2): 301–312. doi: 10.12000/JR22001

    LIU Zhixing, DU Siyu, WU Yaojun, et al. Anti-interrupted sampling repeater jamming method for interpulse and intrapulse frequency-agile radar[J]. Journal of Radars, 2022, 11(2): 301–312. doi: 10.12000/JR22001
    [10] LECUN Y, BENGIO Y, and HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. doi: 10.1038/nature14539
    [11] 李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述[J]. 计算机应用, 2016, 36(9): 2508–2515, 2565.

    LI Yandong, HAO Zongbo, and LEI Hang. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508–2515, 2565.
    [12] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, 2018, 41(1): 1–27. doi: 10.11897/SP.J.1016.2018.00001

    LIU Quan, ZHAI Jianwei, ZHANG Zongzhang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1–27. doi: 10.11897/SP.J.1016.2018.00001
    [13] 刘朝阳, 穆朝絮, 孙长银. 深度强化学习算法与应用研究现状综述[J]. 智能科学与技术学报, 2020, 2(4): 312–326. doi: 10.11959/j.issn.2096-6652.202034

    LIU Zhaoyang, MU Chaoxu, and SUN Changyin. An overview on algorithms and applications of deep reinforcement learning[J]. Chinese Journal of Intelligent Science and Technology, 2020, 2(4): 312–326. doi: 10.11959/j.issn.2096-6652.202034
    [14] DAYAN P and DAW N D. Decision theory, reinforcement learning, and the brain[J]. Cognitive, Affective, & Behavioral Neuroscience, 2008, 8(4): 429–453. doi: 10.3758/CABN.8.4.429
    [15] CAROTENUTO V, DE MAIO A, ORLANDO D, et al. Adaptive radar detection using two sets of training data[J]. IEEE Transactions on Signal Processing, 2018, 66(7): 1791–1801. doi: 10.1109/TSP.2017.2778684
    [16] 汪浩, 王峰. 强化学习算法在雷达智能抗干扰中的应用[J]. 现代雷达, 2020, 42(3): 40–44, 48.

    WANG Hao and WANG Feng. Application of reinforcement learning algorithms in anti-jamming of intelligent radar[J]. Modern Radar, 2020, 42(3): 40–44, 48.
    [17] XING Qiang, ZHU Weigang, and JIA Xin. Research on method of intelligent radar confrontation based on reinforcement learning[C]. 2017 2nd IEEE International Conference on Computational Intelligence and Applications (ICCIA), Beijing, China, 2017: 471–475.
    [18] LI Kang, JIU Bo, LIU Hongwei, et al. Reinforcement learning based anti-jamming frequency hopping strategies design for cognitive radar[C]. 2018 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), Qingdao, China, 2018: 1–5.
    [19] LI Kang, JIU Bo, and LIU Hongwei. Deep Q-network based anti-jamming strategy design for frequency agile radar[C]. 2019 International Radar Conference (RADAR), Toulon, France, 2019: 1–5.
    [20] WANG Shanshan, LIU Zheng, XIE Rong, et al. Reinforcement learning for compressed-sensing based frequency agile radar in the presence of active interference[J]. Remote Sensing, 2022, 14(4): 968. doi: 10.3390/rs14040968
    [21] LI Xinzhi and DONG Shengbo. Research on efficient reinforcement learning for adaptive frequency-agility radar[J]. Sensors, 2021, 21(23): 7931. doi: 10.3390/s21237931
    [22] 崔国龙, 余显祥, 魏文强, 等. 认知智能雷达抗干扰技术综述与展望[J]. 雷达学报, 2022, 11(6): 974–1002. doi: 10.12000/JR22191

    CUI Guolong, YU Xianxiang, WEI Wenqiang, et al. An overview of antijamming methods and future works on cognitive intelligent radar[J]. Journal of Radars, 2022, 11(6): 974–1002. doi: 10.12000/JR22191
    [23] WATERS W M and LINDE G J. Frequency-agile radar signal processing[J]. IEEE Transactions on Aerospace and Electronic Systems, 1979, AES-15(3): 459–464. doi: 10.1109/TAES.1979.308841
    [24] 李尔康. 基于干扰认知的雷达反干扰波形设计与实现[D]. [硕士论文], 电子科技大学, 2022.

    LI Erkang. Design and implementation of radar anti-jamming waveform based on jamming cognition[D]. [Master dissertation], University of Electronic Science and Technology of China, 2022.
    [25] 张昭建, 谢军伟, 杨春晓, 等. 掩护脉冲信号抗转发式欺骗干扰性能分析[J]. 弹箭与制导学报, 2016, 36(4): 149–152, 156.

    ZHANG Zhaojian, XIE Junwei, YANG Chunxiao, et al. Performance analysis of screening pulse signal confronts to deception jamming[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2016, 36(4): 149–152, 156.
    [26] 李研. 雷达抗干扰波形设计及仿真分析[D]. [硕士论文], 西安电子科技大学, 2022.

    LI Yan. Radar anti-jamming waveform design and simulation analysis[D]. [Master dissertation], Xidian University, 2022.
    [27] 温鹏飞. 基于雷达数据的目标航迹识别和聚类研究[D]. [硕士论文], 合肥工业大学, 2020.

    WANG Pengfei. Research on track recognition and clustering based on radar data[D]. [Master dissertation], Hefei University of Technology, 2020.
    [28] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
    [29] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. https://arxiv.org/abs/1707.06347, 2017.
    [30] FUJIMOTO S, HOOF H, and MEGER D. Addressing function approximation error in actor-critic methods[C]. 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 1587–1596.
  • 期刊类型引用(2)

    1. 王中宝,尹奎英. 一种无人机载高分辨率SAR图像目标快速检测方法. 指挥控制与仿真. 2023(05): 43-50 . 百度学术
    2. 邹焕新,李美霖,曹旭,李润林,秦先祥. 一种基于测地线距离的极化SAR图像快速超像素分割算法. 雷达学报. 2021(01): 20-34 . 本站查看

    其他类型引用(2)

  • 加载中
图(20) / 表(7)
计量
  • 文章访问数: 1163
  • HTML全文浏览量: 855
  • PDF下载量: 447
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-07-31
  • 修回日期:  2023-10-19
  • 网络出版日期:  2023-11-09
  • 刊出日期:  2023-12-28

目录

/

返回文章
返回