Integrated Transmission Resource Management Scheme for Multifunctional Radars in Dynamic Electromagnetic Environments
-
摘要: 传统多功能雷达仅面向目标特性优化发射资源,在动态电磁环境下面临干扰智能时变、优化模型失配的问题。因此,该文提出一种基于数据驱动的一体化发射资源管理方案,旨在通过对动态干扰信息在线感知与利用提升多功能雷达在动态电磁环境下的多目标跟踪(MTT)性能。该方案首先建立马尔可夫决策过程,数学化描述雷达被敌方截获和干扰的风险。而后将该马尔可夫决策过程感知的干扰信息耦合进MTT精度计算,一体化发射资源管理方法被设计为具有约束动作空间的优化问题。最后提出一种贪婪排序回溯算法对其进行求解。仿真结果表明,所提方法在面向动态干扰环境时不仅可以降低敌方截获概率,还能在被干扰时降低干扰对雷达的影响,改善MTT性能。Abstract: Traditional multifunctional radar systems optimize transmission resources solely based on target characteristics. However, this approach poses challenges in dynamic electromagnetic environments owing to the intelligent time-varying nature of jamming and the mismatch between traditional optimization models and real-world scenarios. To address these limitations, this paper proposes a data-driven integrated transmission resource management scheme designed to enhance the Multiple Target Tracking (MTT) performance of multifunctional radars in complex and dynamic electromagnetic environments. The proposed scheme achieves this by enabling online perception and utilization of dynamic jamming information. The scheme initially establishes a Markov Decision Process (MDP) to mathematically model the risks associated with radar interception and adversarial jamming. This MDP provides a structured approach to perceive jamming information, which is then integrated into the calculation of MTT. The integrated resource management challenge is formulated as an optimization problem with constraints on the action space. To solve this problem effectively, a greedy sorting backtracking algorithm is introduced. Simulation results demonstrate the efficacy of the proposed method, demonstrating its ability to significantly reduce the probability of radar interception in dynamic jamming environments. Furthermore, the method mitigates the impact of jamming on radar performance during adversarial interference, thereby improving MTT performance.
-
1. 引言
随着无线通信技术的迅速发展,无线局域网(Wireless Fidelity, Wi-Fi)感知技术凭借其非侵入性、低成本、易于部署等特点,正在成为智能健康监测领域中的一项重要创新[1−6]。相较于传统监测方式,Wi-Fi感知技术无需依赖穿戴设备或摄像头等可视化工具,使得它在病患、老人等弱势群体的健康监护中具有显著优势[7,8]。通过对Wi-Fi信号变化的实时跟踪,系统能够精确检测到个体的日常行为模式,以及包括跌倒在内的异常行为,实时且有效地提供健康状态预警,同时也极大地降低了整体监测成本[9,10]。
然而,为了构建高效的监测模型,尤其是利用Wi-Fi感知技术实现精准识别,如何构建合适的数据集成为一大挑战[11,12]。为了确保模型的准确性与泛化能力,必须在不同环境、不同个体的条件下采集多样化的数据,这通常意味着需要进行大量的重复采集。然而,建立这样一个全面的数据集在实践中极为困难,不仅耗时费力,而且由于跌倒事件等数据的采集通常需要实验者模拟或实际发生跌倒,这就要求参与者多次进行跌倒实验。此类实验不仅存在较高的风险,还涉及一定的道德困境,尤其是在涉及人体实验时,可能会触及科研伦理的红线[13−16]。因此,为确保研究过程符合法律和伦理规范,创新且可行的数据采集方法显得尤为关键。
为了应对数据集构建中的挑战,当前研究中常用的解决方法主要包括数据增广和人工智能(AI)生成两种技术[17]。数据增广通过对现有数据进行变换(如添加噪声、频率偏移等)来扩展数据集,但这一方法可能导致过拟合,影响模型的泛化能力[18,19]。相比之下,生成对抗网络(GAN)等AI生成技术通过合成虚拟数据来辅助模型训练,尤其在数据稀缺的情况下尤为有效。然而,生成数据的质量高度依赖于已有数据,且合成数据缺乏真实数据的物理一致性,可能导致模型解释性较差[20,21]。为了克服这些问题,在保证数据多样性、提高模型泛化能力和保护隐私的前提下,创新数据采集和增强方法,已经成为该领域亟待解决的关键问题。
时间编码超表面为解决这一问题提供了全新的思路。超表面作为一种二维人工结构,能够精确调控电磁波的幅度、相位、极化等多种特性[22−24]。然而,传统超表面在加工后其电磁特性难以量化,且一旦固定结构和性能,难以根据实际需求或环境变化灵活调整。为克服这一局限,研究人员在2014年提出了可重构数字编码超表面的概念[25]。以1-bit相位调制型超表面为例,通过在单元设计中集成可调控元件(如变容二极管、PIN二极管),使超表面的电磁特性能够实时切换,呈现0°或180°的反射相位[26]。这创新性地将物理领域与数字领域有效结合,显著扩展了超表面的应用潜力。基于此,研究者进一步提出了时间编码超表面的概念,通过在时间维度上设计数字编码序列,使超表面电磁特性呈现周期性切换,从而实现了电磁波频谱特性的灵活调控[27,28]。这一进展使得超表面能够在信号处理领域中发挥重要作用,已广泛应用于雷达干扰[29]、无线通信发射[30,31]、任意波形生成[32]等场景。在此基础上,利用时间编码超表面的频谱调控能力,能够有效模拟人体的微多普勒特征[33],从而为Wi-Fi感知模型中的数据集构建问题提供切实可行的解决方案。
为此,本文构建了一种基于时间编码超表面的人体运动特征模拟平台,如图1所示。当Wi-Fi信号入射至时间编码超表面时,超表面可对Wi-Fi信号进行调制,使其具有人体跌倒特征。在Wi-Fi接收端对超表面回波信号进行解调后,可以获得与有真人志愿者在超表面位置进行跌倒实验时采集的信号相同的结果。该平台适用于需要大量重复动作样本采集的场景,特别是在感知数据获取困难、健康检测中样本获取涉及隐私与伦理问题等情况下。此外,所构建的运动特征模拟平台能够在不同环境下利用时间编码超表面生成重复样本,并在不增加人力成本的前提下显著增强数据样本的环境多样性。所提出的方法有效应对了当前Wi-Fi感知数据集构建中的挑战,成为一种新型的数据集扩增方法。
综上,本文提出了一种利用时间编码超表面进行人体运动特征模拟的方法,并以超表面模拟人体跌倒特征为例,构建起了Wi-Fi感知数据采集的辅助平台。为此本文设计了一个可以实现0~360°全相位调制的时间编码超表面,根据采集得到的真实人体运动特征设计超表面的编码时序,实现了时间编码超表面对运动特征的模拟。在此基础上,利用时间编码超表面生成人体跌倒信号,并构建多动作分类网络验证了生成信号的可靠性以及其辅助构建Wi-Fi数据集的有效性。
2. 基于CSI模型的超表面运动特征生成理论
在Wi-Fi感知中,信道状态信息(Channel State Information, CSI)是物理层的核心参数,用于反映无线信道的多径传播特性[2,3]。由目标运动引发的多普勒和微多普勒效应是反映运动信息的关键特征,通过分析这些特征可以推断目标的速度、行为甚至运动轨迹[34−36]。为了在感知系统中捕获目标的运动特征变化(包括运动引发的多普勒特征、微多普勒特征、加速度特征等),可将CSI建模为多径信号在子载波频率f和采样时间t上的线性叠加。该系统的响应模型数学表示为
H(f,t)=L∑l=1αle−j2πfdlc+K∑k=1βk(t)e−j2πfdk(t)c=Hstatic+Hmotion (1) 其中,$ {H_{{\text{static}}}} = \displaystyle\sum\nolimits_{l = 1}^L {{\alpha _l}{{\mathrm{e}}^{ - {\mathrm{j}}2\pi f{\textstyle\frac{{{d_l}}}{{\mathrm{c}}}}}}} $表示环境的静态多径效应, L为静态多径路径数量,$ {\alpha _l} $和$ {d_l} $分别表示第l条路径的增益和长度。$ {H_{{\text{motion}}}} = \displaystyle\sum\nolimits_{k = 1}^K {\beta _k}\left( t \right) \cdot{{\mathrm{e}}^{ - {\mathrm{j}}2\pi f{\textstyle\frac{{{d_k}\left( t \right)}}{{\mathrm{c}}}}}} $描述了由人体运动引发的动态多径效应, K为运动引发的动态路径数量,$ {\beta _k}\left( t \right) $与$ {d_k} $分别表示第 k条人体运动路径的时间变化增益和长度。对于运动特征而言,由人体运动产生的信道变化主要反映在相位的动态变化,幅度变化则较为有限,因此可以将路径增益$ {\beta _k}\left( t \right) $近似为常数$ {\beta _k} $,以便于捕捉相位随时间的变化[10]。
进一步地,人体的多普勒特征包括由径向运动引发的多普勒频率偏移以及局部微动引发的微多普勒频移。此时,动态路径的$ {d_k}\left( t \right) $可建模为
dk(t)=dk+vkt+dmicro,k(t) (2) 其中,$ {d_k} $表示目标的初始距离,$ {v_k} $为径向运动速度,$ {d_{{\text{micro}},k}}\left( t \right) $为由目标局部微动带来的径向距离变化。它们分别决定了运动产生的多普勒频率$ {f_{D,k}} $与微多普勒频率$ {f_{{\text{micro}},k}}\left( t \right) $:
fD,k=2vkλ,fmicro,k(t)=2λdmicro,k(t)dt (3) 此时可得动态信道响应的相位变化$ {\phi _k}\left( t \right) $为
ϕk(t)=−2πfdk+vkt+dmicro,k(t)c (4) 在Wi-Fi感知环境中,收到的信号是全部动态路径信号的线性叠加。因此可以构建一个“等效系统响应”在代表所有人体反射路径的综合效果:
Hhuman=K∑k=1βk(t)ejϕk(t)=βejϕ(t) (5) 此时的动态多径效应$ {H_{{\text{human}}}} $已被简化为一个相位随时间变化的复信号。
幸运的是,时间编码超表面对电磁波的调控机理同样可以描述为式(5)的形式。对于一个相位调制型时间编码超表面,当受到载频为$ {f_c} $的单音信号$ {E_i}\left( t \right) = {A_0}{\mathrm{{e}}^{{\mathrm{j}}\left[ {2\pi {f_c}t + {\varphi _i}\left( t \right)} \right]}} $照射时,其反射回波信号的电场可表示为
Er(t)=|Γ(t)|A0ej{2πfct+[φi(t)+φr(t)]} (6) 其中,$ {A_0} $和$ \left| {\varGamma \left( t \right)} \right| $分别表示入射信号和反射系数振幅,$ {\varphi _i}\left( t \right) $和$ {\varphi _r}\left( t \right) $为对应的初始相位。当模拟运动特征时,要求反射相位$ {\varphi _r}\left( t \right) $可以实现任意多比特的切换。同式(5),构建时间超表面的系统响应$ {H_{{\text{meta}}}} $:
Hmeta=Er(t)Ei(t)=|Γ(t)|ejφr(t) (7) 对于相位调制型时间编码超表面,由于在设计时要求较高的反射振幅,通常假设$ \left| {\varGamma \left( t \right)} \right| $为恒定值,即$ \left| {\varGamma \left( t \right)} \right| = \left| \varGamma \right| $。简化时间编码超表面的系统响应:
Hmeta=Er(t)Ei(t)=|Γ|ejφr(t) (8) 从式(8)可以看到,人体动态多径响应$ {H_{{\text{human}}}} $与超表面系统响应$ {H_{{\text{meta}}}} $具有相同的表达形式。因此,通过提取人体运动引发的相位响应并以此为基础设计超表面的反射相位满足以下条件时:
φr(t)=ϕ(t) (9) 便可利用时间编码超表面代替志愿者生成Wi-Fi感知的运动样本数据。
3. 实验环境设计与硬件配置
3.1 超表面的电磁特性
为了验证所提出的基于时间编码超表面的人体运动特征生成平台的工作性能,我们设计并制备了一种能够实现360°相位连续调制的时间编码超表面,其单元结构如图2(a)所示。该基本单元由顶层和底层的金属铜以及中间的介质层(F4B, $ {\varepsilon _r} = 3.0, \tan \delta = 0.0015 $)构成。金属贴片上集成了变容二极管,通过调节两端的偏置电压实现反射相位的动态切换。单元主要参数包括:L = 24 mm, W = 12 mm, H = 5 mm, P = 5.6 mm, Q = 1.2 mm。
基于该结构,利用商业仿真软件CST Microwave Studio对单元进行了全波仿真。仿真中,在单元的x和y方向设置边界条件为“Unit Cell”,在z方向设置为Floquet端口。图2(c)分别展示了所设计在0~30°不同入射时超表面的反射幅度与反射相位随控制电压变化的关系曲线。结果表明,超表面在0~30°角度范围内能够保持较高反射幅度的同时,可实现0°~360°的任意相位调控。以该单元为基础制备了一个12×16的时间编码超表面样品,实物如图2(b)所示。实际测试结果显示,超表面的反射幅度和反射相位随控制电压的变化关系如图2(d)所示。尽管时间编码超表面样品的幅度相较于仿真结果有所降低,但在0°~30°的入射角范围内,仍能保持360°的全相位调制,表明超表面不仅适用于Wi-Fi垂直入射场景,也适用于斜入射场景。
3.2 实验场景与实验内容
为验证利用时间编码超表面模拟人体跌倒信号的可行性与有效性,本文训练了一个多动作分类网络,该网络包含人体跌倒这一关键场景,并同时引入了4组其他典型动作:走近、走远、跑近和跑远。这些动作具有普遍性和代表性,尤其在弱势群体中较为常见,且在执行过程中伴随有跌倒的风险。因此,这些动作不仅符合实际应用场景,还能有效测试超表面生成信号的区分能力。通过构建一个基于运动特征的分类网络,本文旨在量化超表面生成信号的质量,并评估其在复杂环境中的适用性。
(1) 模板样本采集
根据式(9)的要求,首先采集由人体运动产生的运动特征,作为生成信号的模板。为便于后续讨论,本文将此类数据定义为“模板样本”。实验场景如图3(a)所示。为了最大限度地减少环境因素对采集信号的影响,信号采集在微波暗室中进行。采集过程中,矢量网络收发仪(PXIe-5841)通过角锥喇叭天线发射单音信号,持续时间为3 s。志愿者站立在距天线3 m处,并在采集期间完成一次特定动作。为了确保数据的多样性,共涉及8名志愿者,每位志愿者重复执行每个动作5次,最终累计收集了200组活动模板样本。
(2) 真实样本采集
接下来,采集人体运动时的CSI样本,用于与超表面模拟信号进行对比,本文将此类数据定义为“真实样本”。在本实验中,利用PicoScenes构建了一个单发双收的Wi-Fi感知系统。所采集的CSI样本形成一个四维矩阵$ {H_{i,j,k,t}} $,其中i和j分别表示发射天线与接收天线,k为子载波索引,t为包索引。为了评估所构建系统的泛化能力,数据采集在两个不同的复杂环境中进行,如图3(b)和图3(c)所示,其他设置与第一个实验设置相同。采集的样本涉及8名志愿者,每位志愿者在两个环境重复执行每个动作5次,最终累计收集了400组活动模板样本。
(3) 生成样本采集
最后,采集由超表面代替人体模拟多普勒特征和微多普勒特征时的CSI样本,用于验证本系统工作能力的有效性。本文将此类数据定义为“生成样本”。在此过程中,超表面被部署在志愿者的初始运动位置,代替志愿者进行后续的数据采集。根据式(5),提取模板样本的相位变化信息,并将其输入到16 bit任意波形发生器(PXIe-
5433 )中,驱动时间编码超表面模拟运动特征。为了减少干扰因素并确保实验的说服力,除了超表面替代志愿者外,本实验的其余配置与第二个实验相同。每个模板样本产生5次生成样本,共采集2000组活动模板样本。3.3 LeNet神经网络
在本文中,选择LeNet作为动作分类的深度学习模型,主要是因为其结构简单且适用于小规模数据集的训练[37]。LeNet由卷积层、池化层、全连接层和输出层组成,其网络架构如图4所示。网络首先通过多层卷积和池化操作从输入的微多普勒时频图像中提取低级和高级特征,然后通过多层全连接层进行特征的整合,最终输出对应的动作分类结果。通过这种方式,LeNet能够有效地识别不同人体动作的多普勒与微多普勒特征。
4. 运动特征生成平台的性能评估
4.1 数据处理及分析结果
由于Wi-Fi信号采集的数据量庞大且包含大量噪声与干扰因素,直接将原始数据输入神经网络进行训练将导致计算效率低下,并影响模型性能。因此,必须对原始数据进行一系列预处理步骤,以减少数据量、去除噪声并提取有效特征,从而为后续的深度学习模型提供更加精确且有价值的信息。
首先,需要对接收数据中的相位偏差进行校正。针对由频率偏移和载波频率偏移引起的相位偏差,采用接收机中一根天线的CSI(信道状态信息)与另一根天线的CSI共轭相乘的方式进行校正,从而有效消除由频率偏移引起的相位失真,进而提升信号质量。
接下来,为了降低数据维度并减少计算负担,对数据进行进一步处理。在室内环境中,人体运动引起的多普勒频移通常位于5~80 Hz的范围内[38],因此利用带通滤波器滤除与人体运动无关的直流分量和高频噪声,从而保留与动作相关的频率信息。随后,使用主成分分析(PCA)对数据进行降维,将57个子载波的信息融合并提取最显著的特征,压缩至第一个主成分中,从而显著减少样本的维度。最后,由于人体产生的频移一般小于80 Hz,依据奈奎斯特采样定律,本文将数据进一步降采样至250 Hz,以在减少数据量的同时确保无失真采样。
对降采样处理后的信号进行短时傅里叶变换(STFT),以提取多普勒谱。在此过程中,丢弃多普勒谱中的相位信息,仅保留其归一化幅度,并将幅度小于–15 dB的部分截断并赋值为0,以减少低幅度噪声对后续处理的干扰。模板样本、真实样本与生成样本的处理结果如图5所示,二者在同一类动作下具有高度相似性。由于幅度调控受限,超表面生成的样本在时频分析中出现了负频率成分和高阶谐波,较真实样本有所不同。然而,由于这些谐波的能量远小于生成信号,因此仍可以认为超表面生成的信号质量较高。
4.2 生成信号质量评估
为了评估时间编码超表面生成的多普勒与微多普勒特征的质量,采用多动作分类网络的分类准确率作为主要评估指标。首先,利用真实样本构建分类网络,并使用生成样本进行准确率验证。如果生成样本在由真实样本训练的网络中能够获得较高的分类准确率,则说明生成样本与真实样本之间具有较高的相似性。此外,生成样本与真实样本在分类准确率上的差异可作为衡量生成样本质量的参考指标。
具体而言,首先利用真实样本训练分类模型,其中训练集占比80%,测试集占比20%,即训练集320条样本,测试集80条样本,分别用于模型训练和测试。为确保评估结果的准确性与可靠性,采用不同的随机数种子进行5次独立划分,并分别训练和评估模型,最终结果整合为混淆矩阵(如图6(a)所示)。结果显示分类准确率极高,表明模型能够有效识别并分类5类动作。随后,将生成样本输入上述训练模型中,整合结果形成混淆矩阵(如图6(b)所示)。尽管生成样本的分类结果较真实样本有所下降,但5类动作的准确率仍分别达到98%、89%、83%、89%和84%,表明生成信号较为完整地保留了动作的多普勒与微多普勒特征,证明了生成信号的较高质量。
此外,本文利用生成样本构建分类模型,并将全部真实样本输入其中进行评估,分类结果的准确率如图6(c)所示。可以看出,当前分类准确率显著高于生成样本在由真实样本训练的网络中的准确率。这表明,人体动作能够在生成样本训练的模型中得到较好识别,即生成样本可用于辅助构建感知模型的数据集。然而,通过对比图6(b)和图6(c),可以发现生成样本相较于真实样本存在信息丢失,其可能原因包括以下两点:
(1) 当前超表面仅能模拟人体运动的相位信息,导致幅度信息丢失;
(2) 超表面在不同反射相位下未能完全保持一致的振幅值,在实际生成过程中不可避免地引入了高阶频率分量,从而导致频谱污染。
4.3 系统对感知模型的训练增益
上一个实验验证了时间编码超表面能够模拟人体的运动特征可以辅助构建数据集,但也存在信息丢失的问题。为了进一步验证超表面生成的信号是否能有效用于数据集扩增,本文通过对比不同数据比例下,真实样本与生成样本共同训练模型的分类准确率变化,来量化数据扩增的增益效果。
此次实验的所有训练任务均采用K折交叉验证法,以提供稳健的性能衡量标准。具体而言,真实样本被划分为K份,依次选取其中一份作为测试集,其余作为训练集。由于每一份样本都会被选为测试集,因此实验将被分为K个子任务,分别训练并评估模型。基于K折交叉验证的框架,本次实验进一步利用超表面生成的信号进行数据集扩增,从而构建最终的训练数据集。为此,提出了增广率的定义:
增广率=训练集样本数训练集真实样本数 (10) 在实验过程中,确保每次训练的数据集中的真实样本数保持不变,并通过增加生成样本数来提高增广率。当增广率为100%时,数据集完全由真实样本构成。对于每个子集和每个增广率,本文采集了M个不同的生成样本子集进行模型训练,确保每个折叠模型都经过M次不同虚拟样本集的训练与评估。本实验设置K=5,M=5,测试了增广率从100%到450%(以50%为步进)的变化对分类准确率的影响,共进行了5×5×8组测试,测试结果如图6(d)所示。为了突出超表面特征模拟的优势,本文将传统数据增广方法在不同增广率下的分类准确率变化曲线与其进行对比。由于模型训练的初始准确率(无生成样本)较高,因此随着增广率的增加,准确率提升有限。然而,测试结果表明,生成样本的加入依旧提高了模型的分类准确率,且增益超过了传统数据增广方法,表明利用时间编码超表面进行人体运动特征模拟在数据集构建中具有显著增益。
5. 结语
本文提出了一种基于时间编码超表面的人体运动特征模拟方法,可利用该方法辅助构建人体跌倒的数据集用于Wi-Fi监测。为验证该方案的可行性与有效性,本文设计并加工了一款能够实现相位360°调制的超表面,并基于其构建了一个可以模拟多普勒与微多普勒特征的平台。实验结果表明,时间编码超表面模拟的多普勒与微多普勒信号与真实信号之间具有较强的相似性;利用其辅助构建的数据集可提高Wi-Fi感知模型的监测精度。本文提出的方法不仅在Wi-Fi感知领域具有重要的应用前景,在雷达与通信领域也展现了广阔的应用潜力。
-
1 贪婪排序回溯算法流程
1. The flow of greedy sort backtracking algorithm
步骤1 输入在第k帧状态${{\boldsymbol{s}}_k}$、动作空间$\mathcal{A}$。初始化$ \mathcal{D}_{q}=\varnothing $、迭代次数$j = 1$以及动作索引${n_q} = 1$, $\forall q$。 步骤2 评估每一个目标与动作空间$\mathcal{A}$相关的成本函数: ${{\boldsymbol{C}}_q} = \left[ {c({\boldsymbol{s}}_k^q,{{\boldsymbol{a}}_1}), c({\boldsymbol{s}}_k^q,{{\boldsymbol{a}}_2}), \cdots ,c({\boldsymbol{s}}_k^q,{{\boldsymbol{a}}_{{N_\mathcal{A}}}})} \right]$, $ \forall q $ 步骤3 将成本函数${{\boldsymbol{C}}_q}$按升序排序,形成索引${\bf{I}}{{\bf{X}}_q}$: $ {{\boldsymbol{C}}_q}({\bf{I}}{{\bf{X}}_q}(1)) \lt{{\boldsymbol{C}}_q}({\bf{I}}{{\bf{X}}_q}(2)) \lt \cdots \lt {{\boldsymbol{C}}_q}({\bf{I}}{{\bf{X}}_q}({N_\mathcal{A}})) $, $\forall q$ 步骤4 当至少存在一个目标的动作索引${n_q}{\text{ \lt }}{N_\mathcal{A}}$,进入步骤5。 步骤5 形成一个联合发射方案并提取其中的驻留时间信息,进入步骤6。 ${{\boldsymbol{a}}_j} = \left[ {{\mathcal{A}_1}({\bf{I}}{{\bf{X}}_1}({n_1})),{\mathcal{A}_2}({\bf{I}}{{\bf{X}}_2}({n_2})), \cdots ,{\mathcal{A}_Q}({\bf{I}}{{\bf{X}}_Q}({n_Q}))} \right] \Rightarrow {{\boldsymbol{t}}_j} = \left[ {{t_1},{t_2}, \cdots ,{t_Q}} \right]$ 步骤6 计算联合发射方案${{\boldsymbol{a}}_j}$对应的成本函数$ {{\boldsymbol{c}}_j} = \left[ {{c_j}(1), {c_j}(2), \cdots ,{c_j}(Q)} \right] $: $ {c}_{j}\left(q\right)=\left\{Cq(IXq(nq)),tq>tmin 或者nq \lt NA +∞, 其他\right. $ 步骤7 如果$\displaystyle\sum\nolimits_{q = 1}^Q {{t_q}} \le {t_{{\text{total}}}}$,进入到步骤9;否则进入到步骤8。 步骤8 获得${{\boldsymbol{c}}_j}$中具有最小成本函数的目标索引${\rm{I}}{{\rm{X}}_{\min }}$,将对应的驻留时间方案$ {t_{{\rm{I}}{{\rm{X}}_{{\text{min}}}}}} $存储进$ \mathcal{D}_{\mathrm{IX}_{\mathrm{min}}} $(目标${\rm{I}}{{\rm{X}}_{\min }}$已遍历过的动作,
$ \left|{\mathcal{D}}_{{\text{IX}}_{\mathrm{min}}}\right|={n}_{{\text{IX}}_{\mathrm{min}}} $)。然后执行$ j = j + 1 $,${n_{{\rm{I}}{{\rm{X}}_{{\text{min}}}}}} = {n_{{\rm{I}}{{\rm{X}}_{{\text{min}}}}}} + 1$,进入到步骤4。步骤9 在$ \mathcal{D}_{q} $中回溯寻找具有相同驻留时间参数($ {t}_{q}\in {\mathcal{D}}_{q} $)的最小索引$ {\text{IX}}_{{\mathcal{D}}_{q}} $,同时更新动作索引: $ {n}_{q}^{*}=\left\{IXDq, IXDq≠∅ nq,其他 \right.$ 然后形成最优发射方案$ {\boldsymbol{a}}_k^* = \left[ {{\mathcal{A}_1}({\bf{I}}{{\bf{X}}_1}(n_1^*)),{\mathcal{A}_2}({\bf{I}}{{\bf{X}}_2}(n_2^*)), \cdots ,{\mathcal{A}_Q}({\bf{I}}{{\bf{X}}_Q}(n_Q^*))} \right] $,进入步骤10。 步骤10 输出最终的发射方案$ {\boldsymbol{a}}_k^* $。 表 1 雷达参数
Table 1. Radar parameters
参数 设定值 ${G_{{\text{R,R}}}}$ 80 dB ${B_{{\text{R,r}}}}$ 1 MHz ${\eta _{\text{R}}}$ –141 dBW ${B_{{\text{R,r}}}}$ 0.5° 表 2 目标参数
Table 2. Target parameters
目标索引 位置(km) 速度(m/s) ${\bar \sigma _q}$(${{\text{m}}^2}$) 1 (–8, –10) (10, 20) [9, 6, 3] 2 (0, 25) (–25, 10) [7, 4, 2] 3 (15, 12) (–25, 15) [8, 5, 2] 表 3 动态电磁环境参数
Table 3. Target parameters
目标索引 截获模式 $\left[ {B_{{\text{I,lo}}}^q,B_{{\text{I,up}}}^q} \right]$ $G_{{\text{R,I}}}^q$ ${N_{{\text{P,}}q}}$ $B_{{\text{I,min}}}^q$ 干扰策略 ${P_{{\text{J}},q}}$ $G_{{\text{J,R}}}^q$ $B_{{\text{J,k}}}^q$ 1 弱 $ \left[ {0.5,6.5} \right] $ GHz –3 dB 5 0.2 GHz 2 30 W 43 dB 2 MHz 2 弱 $ \left[ {0.5,3.5} \right] $ GHz 0 dB 7 0.1 GHz 1 30 W 43 dB 2 MHz 3 强 $ \left[ {0.5,4.5} \right] $ GHz 14 dB 5 0.3 GHz 1 30 W 43 dB 2 MHz 表 4 不同优化算法运行时间
Table 4. Running time of different optimization algorithms
优化算法 运行时间(s) 贪婪排序回溯算法 0.00074 穷举法 0.01790 分支定界法 0.01660 -
[1] MORELANDE M R, KREUCHER C M, and KASTELLA K. A Bayesian approach to multiple target detection and tracking[J]. IEEE Transactions on Signal Processing, 2007, 55(5): 1589–1604. doi: 10.1109/TSP.2006.889470. [2] BLACKMAN S S. Multiple-Target Tracking with Radar Applications[M]. Dedham: Artech House, 1986: 1–449. [3] STONE L D, STREIT R L, CORWIN T L, et al. Bayesian Multiple Target Tracking[M]. 2nd ed. Boston: Artech House, 2014: 107–160. [4] HUE C, LE CADRE J P, and PÉREZ P. Sequential Monte Carlo methods for multiple target tracking and data fusion[J]. IEEE Transactions on Signal Processing, 2002, 50(2): 309–325. doi: 10.1109/78.978386. [5] WANG Xiangli, YI Wei, XIE Mingchi, et al. A joint beam and dwell time allocation strategy for multiple target tracking based on phase array radar system[C]. 2017 20th International Conference on Information Fusion (Fusion), Xi’an, China, 2017: 1–5. doi: 10.23919/ICIF.2017.8009856. [6] 戴金辉, 严俊坤, 王鹏辉, 等. 基于目标容量的网络化雷达功率分配方案[J]. 电子与信息学报, 2021, 43(9): 2688–2694. doi: 10.11999/JEIT200873.DAI Jinhui, YAN Junkun, WANG Penghui, et al. Target capacity based power allocation scheme in radar network[J]. Journal of Electronics & Information Technology, 2021, 43(9): 2688–2694. doi: 10.11999/JEIT200873. [7] YUAN Ye, YI Wei, and KONG Lingjiang. Joint tracking sequence and dwell time allocation for multi-target tracking with phased array radar[J]. Signal Processing, 2022, 192: 108374. doi: 10.1016/j.sigpro.2021.108374. [8] NARYKOV A S, KRASNOV O A, and YAROVOY A. Algorithm for resource management of multiple phased array radars for target tracking[C]. 2013 16th International Conference on Information Fusion, Istanbul, Turkey, 2013: 1258–1264. [9] YUAN Ye, YI Wei, HOSEINNEZHAD R, et al. Robust power allocation for resource-aware multi-target tracking with colocated MIMO radars[J]. IEEE Transactions on Signal Processing, 2021, 69: 443–458. doi: 10.1109/TSP.2020.3047519. [10] SCHLEHER D C. Electronic Warfare in the Information Age[M]. Boston: Artech House, 1999: 1–60. [11] SHI Chenguang, WANG Yijie, SALOUS S, et al. Joint transmit resource management and waveform selection strategy for target tracking in distributed phased array radar network[J]. IEEE Transactions on Aerospace and Electronic Systems, 2022, 58(4): 2762–2778. doi: 10.1109/TAES.2021.3138869. [12] ZHANG Haowei, LIU Weijian, ZHANG Qiliang, et al. Joint resource optimization for a distributed MIMO radar when tracking multiple targets in the presence of deception jamming[J]. Signal Processing, 2022, 200: 108641. doi: 10.1016/j.sigpro.2022.108641. [13] AILIYA, YI Wei, and VARSHNEY P K. Adaptation of frequency hopping interval for radar anti-jamming based on reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2022, 71(12): 12434–12449. doi: 10.1109/TVT.2022.3197425. [14] LI Kang, JIU Bo, WANG Penghui, et al. Radar active antagonism through deep reinforcement learning: A way to address the challenge of mainlobe jamming[J]. Signal Processing, 2021, 186: 108130. doi: 10.1016/j.sigpro.2021.108130. [15] ZHANG Peng, YAN Junkun, PU Wenqiang, et al. Multi-dimensional resource management scheme for multiple target tracking under dynamic electromagnetic environment[J]. IEEE Transactions on Signal Processing, 2024, 72: 2377–2393. doi: 10.1109/TSP.2024.3390119. [16] YAN Junkun, LIU Hongwei, JIU Bo, et al. Simultaneous multibeam resource allocation scheme for multiple target tracking[J]. IEEE Transactions on Signal Processing, 2015, 63(12): 3110–3122. doi: 10.1109/TSP.2015.2417504. [17] YAN Junkun, LIU Hongwei, PU Wenqiang, et al. Joint beam selection and power allocation for multiple target tracking in netted colocated MIMO radar system[J]. IEEE Transactions on Signal Processing, 2016, 64(24): 6417–6427. doi: 10.1109/TSP.2016.2607147. [18] LI Nengjing and ZHANG Yiting. A survey of radar ECM and ECCM[J]. IEEE Transactions on Aerospace and Electronic Systems, 1995, 31(3): 1110–1120. doi: 10.1109/7.395232. [19] VAN TREES H L. Detection, Estimation, and Modulation Theory, Part III: Radar-Sonar Signal Processing and Gaussian Signals in Noise[M]. New York: John Wiley & Sons, 2001: 294–307. [20] SKOLNIK M I. Radar Handbook[M]. New York: McGraw-Hill, 2008: 313–370. [21] SUKHAREVSKY O I, VASILETS V A, and ZALEVSKY G S. Electromagnetic wave scattering by aerial and ground radar objects[C]. 2015 IEEE Radar Conference (RadarCon), Arlington, USA, 2015: 162–167. DOI: 10.1109/RADAR.2015.7130989. [22] BERTSEKAS D P. Reinforcement Learning and Optimal Control[M]. Nashua: Athena Scientific, 2019: 1–40. [23] SUTTON R S and BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Cambridge: MIT Press, 2018: 37–58. [24] NERI F. Introduction to Electronic Defense Systems[M]. 2nd ed. Henderson: SciTech Publishing, 2006: 259–368. [25] STINCO P, GRECO M, GINI F, et al. Cognitive radars in spectrally dense environments[J]. IEEE Aerospace and Electronic Systems Magazine, 2016, 31(10): 20–27. doi: 10.1109/MAES.2016.150193. [26] SELVI E, BUEHRER R M, MARTONE A, et al. Reinforcement learning for adaptable bandwidth tracking radars[J]. IEEE Transactions on Aerospace and Electronic Systems, 2020, 56(5): 3904–3921. doi: 10.1109/TAES.2020.2987443. [27] KOCHENDERFER M J, WHEELER T A, and WRAY K H. Algorithms for Decision Making[M]. Cambridge: MIT Press, 2022: 311–326. [28] 严俊坤, 纠博, 刘宏伟, 等. 一种针对多目标跟踪的多基雷达系统聚类与功率联合分配算法[J]. 电子与信息学报, 2013, 35(8): 1875–1881. doi: 10.3724/SP.J.1146.2012.01470.YAN Junkun, JIU Bo, LIU Hongwei, et al. Joint cluster and power allocation algorithm for multiple targets tracking in multistatic radar systems[J]. Journal of Electronics & Information Technology, 2013, 35(8): 1875–1881. doi: 10.3724/SP.J.1146.2012.01470. [29] LISI F, FORTUNATI S, GRECO M S, et al. Enhancement of a state-of-the-art RL-based detection algorithm for massive MIMO radars[J]. IEEE Transactions on Aerospace and Electronic Systems, 2022, 58(6): 5925–5931. doi: 10.1109/TAES.2022.3168033. -