Waveform Selection Method of Cognitive Radar Target Tracking Based on Reinforcement Learning
-
摘要: 认知雷达通过不断与环境互动并从经验中学习,根据获得的知识不断调整其波形、参数和照射策略,以在复杂多变的场景中实现稳健的目标跟踪,其波形设计在提高跟踪性能方面一直备受关注。该文提出了一种用于跟踪高机动目标的认知雷达波形选择框架,该框架考虑了恒定速度(CV)、恒定加速度(CA)和协同转弯(CT)模型的组合,在该框架的基础上设计了基于准则优化(CBO)和熵奖励Q学习(ERQL)方法进行最优波形选择。该方法将雷达与目标集成到一个闭环中,发射波形随目标状态的变化实时更新,从而达到对目标的最佳跟踪性能。数值结果表明,与CBO方法相比,所提出的ERQL方法大大减少了获取最优波形的处理时间,并实现了与CBO相近的跟踪性能,相比于固定参数(Fixed-P)方法,极大地提高了机动目标的跟踪精度。
-
关键词:
- 目标跟踪 /
- 认知雷达 /
- 波形挑选 /
- 基于准则优化(CBO) /
- 熵奖励Q学习(ERQL)
Abstract: Based on the obtained knowledge through ceaseless interaction with the environment and learning from the experience, cognitive radar continuously adjusts its waveform, parameters, and illumination strategies to achieve robust target tracking in complex and changing scenarios. Its waveform design has been receiving attention to improve tracking performance. In this paper, we propose a novel framework of cognitive radar waveform selection for the tracking of high-maneuvering targets. The framework considers the combination of Constant Velocity (CV), Constant Acceleration (CA), and Coordinate Turn (CT) motions. We also design Criterion-Based Optimization (CBO) and Entropy Reward Q-Learning (ERQL) methods to perform waveform selection based on this framework. To provide the optimum target tracking performance, it merges the radar and target into a closed loop, updating the broadcast waveform in real-time as the target state changes. The suggested ERQL technique achieves about the same tracking performance as the CBO while using much less processing time than the CBO, according to numerical results. The proposed ERQL method significantly increases the tracking accuracy of moving targets as compared to the fixed parameter approach. -
1. 引言
认知雷达根据环境和目标的变化情况调整其操作和处理策略,可实现比常规雷达更好的目标检测效果。这类雷达可以从自身经验中学习和进化,是下一代目标检测的重要研究方向。随着现代科学技术的不断发展,机动性更高、雷达散射面更小的目标越来越多,各种新的电磁干扰策略也应运而生。此外,雷达所在的地理工作环境复杂多变,如何在有限的能量、时间和频谱资源[1,2]内根据目标和环境的变化合理自适应地设计发射波形、优化资源分配[3]是现代雷达面临的挑战。Haykin[4]最先提出认知雷达(Cognitive Radar, CR)的概念,与传统的自适应雷达相比,CR的发射机可以利用接收机反馈的环境信息、现有知识和合适的准则自适应地设计[5]和发射波形。因此,它可以最大限度地提取非均匀环境中感兴趣目标的信息,提高雷达在动态环境中的性能[6,7]。此后,各知名学者开始对认知雷达进行深入研究。Guerci[8]首先提出了认知全自适应雷达的理论框架,并结合知识辅助(Knowledge Aid, KA)和自适应发射[9]对该框架进行了改进。他最近全面概述了采用KA全自适应方法的认知雷达领域的最新发展[10]。Bell等人[11]提出了适用于目标探测和跟踪场景的通用认知雷达系统模型,Smith和Metron创新集团联合开发了认知雷达实验平台[12]。这些工作在认知雷达设计理论方面具有开创性和启发性,而具体实用的认知雷达系统仍在研发路上。
一般来说,认知发射主要有两个方式[13]来实现:最优波形设计和最优波形选择。前者是基于雷达获取的环境信息在线实时设计[14,15],但求最优解的过程往往比较复杂,计算复杂度难以满足实时性要求。而最优波形选择[16,17]是预先设计一个波形库,按照一定的准则从中选择一组最优的波形或波形参数。如在文献[18]中,为了最大限度地提高雷达在恶劣环境下的运行性能,Clemente使用分数阶傅里叶变换生成相位编码库波形,并分析它们的模糊度函数以量化所提出波形库的有效性能。在频谱拥挤的环境中,Zhao等人[19]提出了一种基于波形库的方法来实现实时波形自适应,结果表明,所提出的波形库在小尺度上具有较高的量化精度,并且生成的波形具有令人满意的频谱兼容性。在文献[20]中,Nguyen提出了一种自适应波形选择算法,通过最小化贝叶斯克拉美罗下界(Cramer-Rao Lower Bound, CRLB)获得跟踪成本函数,选择最小化跟踪均方误差的波形进行目标跟踪。针对机动目标跟踪问题,Roman等人[21]在自适应雷达背景下,介绍了一种互信息准则函数来选择最优波形参数,结果表明,该判据是自适应SAR系统中波形选择的有效手段。Cao等人[22]提出了一种基于间接强化学习的自适应波形选择算法,解决了目标状态空间的不确定性问题。结果表明自适应波形选择比传统固定参数方法具有更好的计算效率和更小的状态估计误差,也提高了跟踪精度。
现代目标形状各异、机动性强,雷达工作的电磁环境也越来越复杂。然而,传统雷达发射波形只有单一的波形,无法有效应对环境变化。此外,通过网格搜索最优波形参数的计算成本较高,且无法保证最优波形的实时性。鉴于此,我们采用IMM和自适应波形选择的思想作为基础工作,提出了一种新颖的认知雷达波形选择框架,以改善高机动性目标跟踪,如图1所示。该框架基于IMM场景结合恒定速度(Constant Velocity),恒定加速度(Constant Acceleration)和协同转弯(Coordinate Turn, CT)运动模型,将它们的滤波结果加权综合得到近似预测误差协方差。基于该波形选择框架,设计了准则优化(Criterion-Based Optimization, CBO)和熵奖励Q学习(Entropy Reward Q-Learning, ERQL)方法分别从以高斯线性调频信号为例的波形库中挑选最优发射波形参数,其中ERQL方法提出了一种基于行为奖惩的熵奖励函数。发射器-目标-接收器形成一个闭环,发射波形参数与目标状态变化实时迭代更新,以达到最佳目标跟踪性能。
2. 系统模型
该部分描述了目标运动模型的融合,并分析了波形对目标跟踪的影响。
2.1 目标运动模型的融合
为简单起见,本文研究了3种典型的机动目标运动模型,包括CV, CA和CT运动模型[23,24]。
目标模型是以下形式的离散时间动态运动模型:
xk+1=Fkxk+wk (1) 其中,
xk=[xk,˙xk,¨xk,yk,˙yk,¨yk]T ,[xk,yk]T ,[˙xk,˙yk]T 和[¨xk,¨yk]T 分别定义为目标的位置、速度和加速度。Fk 为状态转移矩阵,状态噪声wk~N{wk;0,Qk} 。我们假设非线性观测模型为zk=h(xk,k)+vk (2) 其中,
h(⋅) 是量测函数,量测噪声vk~N{vk;0,Rk} 。各运动模型的状态转移矩阵Fk 和高斯态噪声wk 将在附录中展示。量测向量zk 、量测函数h(⋅) 和误差协方差Rk 将会各自展示在第4节和第2节。对于加速度波动较大的目标,单模型方法无法匹配目标的实际运动状态,跟踪效果不理想。IMM作为一种多模型方法,可以同时使用多种不同形式的运动模型和噪声来估计目标状态,然后自适应地将各个模型的估计结果折衷,加权和作为最终的目标跟踪结果。目前,它已成功应用于多个跟踪系统[21]。本节采用CV, CA和CT模型作为IMM的模型集,算法流程如图2所示。
IMM目标跟踪算法假设模型集中的模型转移为1阶马尔可夫过程,具体算法流程如下:
首先,根据转移概率矩阵和模型的先验概率计算每个模型的预测概率:
ˉc(i)k=3∑j=1πjiμ(j)k−1|k−1 (3) 其中,这里
πji 表示转移概率矩阵Pπ 中从模型j转移到模型i的概率,Pπ 将在后面给出。μ(j)k−1|k−1 表示第j个模型在时间k−1 的有效概率。可以得到模型j到模型i的归一化概率:μ(i|j)k−1|k−1=πjiμ(j)k−1|k−1ˉc(i)k (4) 其次,经过各运动模型的状态输入交互,即根据混合估计重新初始化目标状态和协方差矩阵,如下:
ˆx0(i)k−1|k−1=3∑j=1μ(i|j)k−1|k−1ˆx(j)k−1|k−1 (5) P0(i)k−1|k−1=3∑j=1μ(i|j)k−1|k−1[P(j)k−1|k−1+(ˆx(j)k−1|k−1−ˆx0(i)k−1|k−1)(ˆx(j)k−1|k−1−ˆx0(i)k−1|k−1)T] (6) 其中,带有帽子的状态向量
ˆx 表示对状态向量x的估计值,ˆx(j)k−1|k−1 ,P(j)k−1|k−1 分别表示第j个运动模型在k−1 时目标的状态向量和协方差矩阵,式(5)和式(6)分别表示图2中输入交互的结果。然后,每个滤波器分别根据接收到的测量值
zk 进行卡尔曼滤波,更新各自对机动目标状态的估计。此步骤对应于图2中的CA, CV和CT模型滤波。对于第i个模型,具体滤波过程如下:
(1) 根据
k−1 时刻的状态估计值和模型归一化交互概率完成输入交互,如式(5)和式(6)所示。(2) 根据运动模型,单步预测目标状态和误差协方差矩阵:
ˆx(i)k|k−1=F(i)k−1ˆx0(i)k−1|k−1 (7) P(i)k|k−1=F(i)k−1P0(i)k−1|k−1(F(i)k−1)T+Q(i)k−1 (8) (3) 根据k 时刻的量测值,更新目标的状态估计:
˜z(i)k=zk−H(i)kˆx(i)k|k−1 (9) S(i)k=H(i)kP(i)k|k−1(H(i)k)T+R(i)k (10) K(i)k=P(i)k|k−1(H(i)k)T(S(i)k)−1 (11) ˆx(i)k|k=ˆx(i)k|k−1+K(i)k˜z(i)k (12) P(i)k|k=[I−K(i)kH(i)k]P(i)k|k−1 (13) 其中,
H(i)k = [Δxkh(xk,k)] 是量测方程h(xk,k) 关于目标状态xk 的雅可比矩阵,Δxk 表示对xk 的1阶偏导。˜z(i)k ,S(i)k 和K(i)k 分别表示第i个滤波器的新息,新息协方差和卡尔曼增益矩阵。最后,融合滤波和交互输出,假设新息服从正态分布,第i个模型的似然概率由式(14)给出:
Λ(i)k=1√|2πS(i)k|exp[−12(˜z(i)k)T(S(i)k)−1˜z(i)k] (14) 结合式(3)的预测概率,更新模型i的有效概率:
μ(i)k|k=Λ(i)kˉc(i)k∑3j=1Λ(j)kˉc(j)k (15) 因此,根据每个模型的概率,对目标状态估计和误差协方差进行加权融合,得到IMM滤波的最终估计结果:
ˆxk|k=3∑j=1μ(j)k|kˆx(j)k|k (16) Pk|k=3∑j=1μ(j)k|k[P(j)k|k+(ˆxk|k−ˆx(j)k|k)(ˆxk|k−ˆx(j)k|k)T] (17) 2.2 波形对目标跟踪的影响
本文考虑以下的雷达窄带脉冲发射信号[25]:
sT(t)=√2Re{√ET˜s(t)ej2πfct} (18) 其中,
Re(⋅) 表示取实部操作,ET 为发射信号的能量,fc 为载频,˜s(t) 为单位能量复包络信号,且满足:∫T/T22−T/T22|˜s(t)|2dt=1 (19) 其中,T是脉冲重复周期,那么雷达接收的单个点目标回波信号表示为
sR(t)=√2Re{[√ERejφ˜s(t−τ)ej2πvt+˜n(t)]ej2πfct} (20) 其中,
ER 表示接收信号的能量,φ 为机动目标反射导致的随机相移,τ 为目标时延,v为机动目标径向运动导致的多普勒平移,˜n(t) 为接收的高斯白噪声。在目标跟踪系统中,当接收信号信噪比足够大,信号模糊函数的旁瓣可忽略时,目标时延-多普勒估计误差可以达到CRLB,即CRLB量测噪声协方差。该值与波形参数有关,从而建立了参数与跟踪算法之间的联系。
本文以高斯调频信号[25]为例构建波形参数库,其复包络的表达式为
˜s(t)=(πλ2)−14exp[−(12λ2−j2πb)t2] (21) 令
a(t)=(πλ2)−14exp(−t2/t22λ2(2λ2)) ,Ω(t)= 2π(bdt2/(dt)+fc) ,脉冲持续时间λ 和调频斜率b构成的估计矢量为θ=[λ,b]T 。sR(t) 对应的时延多普勒估计[τ,v]T 的费希尔信息矩阵J(θ) 的各元素通过以下求得[26]:J1,1 = −∂2AF˜s(τ,v)∂τ2|τ=0v=0=∫λ/λ22−λ/−λ22(˙a2(t)+a2(t)Ω2(t))dt−(∫λ/λ22−λ/λ22a2(t)Ω(t)dt)2J1,2 = −∂2AF˜s(τ,v)∂τ∂v|τ=0v=0=∫λ/λ22−λ/−λ22ta2(t)Ω2(t)dtJ2,2 = −∂2AF˜s(τ,v)∂v2|τ=0v=0=∫λ/λ22−λ/−λ22t2a2(t)dt (22) 其中,
AF˜s(τ,v) 是˜s(t) 的模糊函数且J1,2 = J2,1 。根据检测估计理论,噪声协方差在时延多普勒域中的CRLB[26]为J(θ)−1 。结合转移矩阵T=diag(c/2,c/(2fc)) ,其中c是光速,可将时延多普勒域的CRLB转换到径向距离r和径向速度˙r 域的CRLB,对应的距离-速度测量噪声协方差的CRLB可表示为R(r,˙r)(θk)=TJ(θk)−1T (23) 最后可得到高斯调频信号的量测噪声协方差的CRLB为
R(r,˙r)(θk)=[c2λ2/c2λ22η(2η)−c2bλ2/−c2bλ2fcη(fcη)−c2bλ2/−c2bλ2fcη(fcη)c2(1/1λ2+2b2λ2)λ2+2b2λ2)/c2(1/1λ2+2b2λ2)λ2+2b2λ2)f2cη(f2cη)] (24) 其中,
η 是信噪比。从式(24)可以看出,测量噪声协方差与脉冲持续时间λ 和线性调频频率b有关。因此,可以按照一定准则合理调整波形参数θk = [λ,b]T ,有效提高跟踪精度。3. 波形参数选择准则
本节给出了两个波形选择准则:Max-MI和Min-MSE,如下所述。
3.1 最大互信息准则
在雷达领域中,假设量测值z和目标预测状态x都是服从高斯分布的随机变量,那么它们构成的误差协方差矩阵为[27]
P=[PxPxzPzxPz] (25) 量测与目标预测状态的互信息越大,雷达对目标状态估计性能就越好,x和z的互信息可表示为
I(x;z)=12log|Px||Px−PxzP−1zPTxz|=12log|Pz||Pz−PTxzP−1xPxz| (26) 由于目标状态的预测值与测量噪声相互独立,将
Hk 代入式(26)可得到zk 和xk|k−1 的互信息为I(xk|k−1;zk)=12logdet[Rk(θk)+(HPk|k−1HT)]det[Rk(θk)] (27) 由于式(27)受到波形参数影响的仅有量测噪声协方差矩阵
Rk ,且log 是单调递增函数,所以基于最大互信息的波形参数选择准则等效为θoptk=arg maxθk∈ΘI(xk|k−1;zk)=arg maxθk∈Θdet[Rk(θk)+(HPk|k−1HT)]det[Rk(θk)] (28) 其中,
Θ 为所有波形参数θ 组成的集合。又因为目标状态的后验协方差Pk|k 的行列式可以表示为det[Pk|k(θk)]=det[Rk(θk)]det[(HPk|k−1HT+Rk(θk))−1]⋅det(Pk|k−1) (29) 其中,
Pk|k−1 与雷达发射波形参数θk 无关,所以式(29)等价于:θoptk=argminθk∈Θ det[Pk|k(θk)] (30) 式(27)和式(29)的详细推导见附录。因此,在最大互信息准则下,可通过寻找使得后验估计误差协方差行列式最小的波形参数作为最优参数。
3.2 最小均方差准则
最小均方误差准则[28]是寻找使目标状态估计在每一时刻的均方根误差最小化的波形参数。其表达式为
min (31) 在贝叶斯框架下的滤波器,目标状态估计误差协方差具有如下形式:
{{\boldsymbol{P}}_{k|k}}({{\boldsymbol{\theta}} _k}) = {\rm{E}}[{{\boldsymbol{\varepsilon}} _{k|k}}({{\boldsymbol{\theta}} _k}){{\boldsymbol{\varepsilon}} _{k|k}}{({{\boldsymbol{\theta}} _k})^{\rm{T}}}|{{\boldsymbol{z}}_k}] (32) 其中,
{{\boldsymbol{\varepsilon}} _{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right) = {{\boldsymbol{x}}_k} - {\hat {\boldsymbol{x}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right) 表示目标真实状态与估计状态的差值,对式(31)两边取迹可得\begin{split} & {\rm{Tr}}({{\boldsymbol{P}}_{k|k}}({{\boldsymbol{\theta}} _k})) \\ & \quad = {\rm{E}}\left\{ {[{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}({{\boldsymbol{\theta}} _k})]{{[{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}({{\boldsymbol{\theta}} _k})]}^{\rm{T}}}|{{\boldsymbol{z}}_k}} \right\} \end{split} (33) 其中,式(33)的详细推导详见附录。
因此,在最小均方误差准则下的波形参数可以通过式(34)进行选择:
{\boldsymbol{\theta}} _k^{{\rm{opt}}} = \mathop {\arg {\text{min}}}\limits_{{{\boldsymbol{\theta}} _k} \in \varTheta } {\text{ Tr}}[{{\boldsymbol{P}}_{k|k}}({{\boldsymbol{\theta}} _k})] (34) 即通过寻找使得后验估计误差协方差的迹最小的波形参数作为最优参数。
4. 最优波形参数选择方法的设计
强化学习[29]和认知雷达波形参数选择具有相似的交互学习过程。因此,基于RL的雷达波形参数选择是认知雷达的研究热点。然而,在目标跟踪场景中,很难获得状态转移的先验知识,因此我们使用无模型方法来解决这个问题,Q-Learning (QL)方法是无模型方法的典型代表。在QL中,状态动作对
(s,a) 的Q值被定义为期望的累积折扣奖励,Q值可以根据式(35)[30]更新获得:\begin{split} {Q_{k + 1}}(s,a) =& {Q_k}(s,a) \\ & + \alpha \left[ {{r_k} + \gamma \mathop {\max}\limits_{a'} {Q_k}(s',a') - {Q_k}(s,a)} \right] \end{split} (35) 其中,
s \in {\boldsymbol{S}} 表示agent状态,a \in {\boldsymbol{A}} 表示agent行为,\alpha 为学习率,\gamma \in [0,1] 是折扣因子,{r_k} 是及时奖励,其具体形式稍后给出。经过足够次数的迭代使Q表收敛,选择最大Q值的行为作为最佳决策
{\pi ^*}(s) :{\pi ^*}(s) = \mathop {\arg {\text{max}}}\limits_{a \in {\boldsymbol{A}}} {\text{ }}{Q^*}(s,a) (36) 在单一CV, CA或CT场景下,雷达接收机贝叶斯滤波器估计目标状态,将预测误差协方差
{{\boldsymbol{P}}_{k + 1|k + 1}} 反馈给雷达发射机,发射机根据指定的准则函数选择最优波形参数。但是这种单模型波形选择策略在IMM算法中并不适用,主要原因有以下两点:
(1) IMM模型集中单个模型的有效概率并不为1,而且会随着滤波器的迭代而不断更新,不能用单模型的预测误差协方差替代目标的预测误差协方差。
(2) 在k时刻,
k + 1 时刻目标量测值{{\boldsymbol{z}}_{k + 1}} 无法预知,由式(17)可知,IMM算法的总体目标状态估计误差协方差{{\boldsymbol{P}}_{k + 1|k + 1}} 无法获取,进而导致无法根据准则函数实现波形参数的选择。因此,本工作为IMM模型提供了目标预测误差协方差的近似求解方法。在k时刻,通过式(3)—式(6)完成模型间的输入交互,得到各个模型的预测概率
\bar c_k^{(i)} 以及输入状态{\boldsymbol{P}}_{k|k}^{0(i)} 。然后各模型根据式(8)、式(10)、式(11)和式(13)分别对目标在k + 1 时刻的状态做出预测,得到目标状态预测误差协方差{\boldsymbol{P}}_{k + 1|k + 1}^{(i)} 。最后结合各模型的预测误差协方差\bar c_k^{(i)} 进行加权求和,作为IMM的估计误差协方差,如下:{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{{\boldsymbol{P}}} _{k + 1|k + 1}} = {\boldsymbol{\varGamma}} \sum\limits_{i = 1}^3 {\bar c_k^{(i)}} {\boldsymbol{P}}_{k + 1|k + 1}^{(i)} (37) 其中,
{\boldsymbol{\varGamma}} 表示使估计误差协方差矩阵单位一致的加权矩阵。该方法考虑了IMM集中的所有目标模型,将每个模型的预测误差协方差与预测概率加权融合,得到IMM算法总体预测误差协方差的近似,然后根据指定的判据函数完成波形参数的选取。所提出的波形选择方法的框图如图3所示,下面根据图3的描述总结最优波形选择算法的具体步骤。在k时刻,雷达发射波形参数为
{{\boldsymbol{\theta}} _k} 的波形,对目标进行照射,由接收机接收来自目标回波的量测值{{\boldsymbol{z}}_k} ,并交由接收机的IMM滤波器进行数据处理。IMM滤波器完成输入交互、融合滤波和交互输出后,对机动目标在k时刻的状态做出估计,得到{\hat {\boldsymbol{x}}_{k|k}} 和{{\boldsymbol{P}}_{k|k}} 。接下来,为了实现波形参数选择,IMM中的各个模型会根据自己的目标运动模型对k + 1 时刻目标的状态进行预测,得到各自的预测误差协方差{\boldsymbol{P}}_{k + 1|k + 1}^{(i)} 。随后结合预测概率\bar c_k^{(i)} 通过加权的方式融合各个模型的预测状态误差协方差得到{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{{\boldsymbol{P}}} _{k + 1|k + 1}} ,将其作为IMM的预测状态误差协方差的近似,反馈给雷达发射机。雷达发射机根据指定的波形参数选择方法,从高斯线性调频脉冲参数库中选择一组最优波形参数作为k + 1 时刻的发射波形参数,作用于目标和环境。通过雷达和环境的不断交互,动态地调整发射波形参数,改善雷达对目标跟踪的性能。其中,提出的波形选择算法—CBO/ERQL算法总结如表1,根据误差协方差
{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{{\boldsymbol{P}}} _{k + 1|k + 1}}({{\boldsymbol{\theta}} _{k + 1}}) 完成波形和参数选择,可通过以下两种方式实现:表 1 CBO/ERQL算法Table 1. CBO/ERQL algorithm输入:k - 1时刻的状态估计{\hat {\boldsymbol{x}}_{k - 1|k - 1} }, {{\boldsymbol{P}}_{k - 1|k - 1} },k时刻的量
测{{\boldsymbol{z}}_k}。输出:最佳发射波形参数{{\boldsymbol{\theta}} _{k + 1} }。 (1) 通过IMM滤波器中的交互输入和模型滤波过程,计算每个模
型在时间k的估计值\hat {\boldsymbol{x}}_{k|k}^{{\rm{CV}}},{\text{ } }{\boldsymbol{P}}_{k|k}^{{\rm{CV}}}\\hat {\boldsymbol{x} }_{k|k}^{ {\rm{CA} }}, {\boldsymbol{P}}_{k|k}^{{\rm{CA}}}\\hat {\boldsymbol{x}}_{k|k}^{{\rm{CT}}},{\text{ } }{\boldsymbol{P}}_{k|k}^{{\rm{CT}}}。(2) 通过式(8)、式(10)、式(11)、式(13)计算各模型的预测概率
\bar c_k^{(i)}和预测状态估计误差协方差{\boldsymbol{P}}_{k + 1|k + 1}^{(i)}。(3) 通过式(37)的加权融合,得到{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$} }{{\boldsymbol{P}}} _{k + 1|k + 1} }。 (4) if (CBO) (5) 通过网格搜索找到式(30)或式(34)的最优波形参数{{\boldsymbol{\theta}} _{k + 1} }。 (6) else (ERQL) (7) 根据式(38)和式(39)计算预测奖励{r_{k + 1}},通过式(35)更新每
个波形的Q表,重复此步骤,直到完成所需的单步预测次数或者
Q表收敛。(8) 选择Q表中最大Q值所对应的策略作为k + 1时刻的波形选择
策略 \pi _{k + 1}^{\text{*}}(s) 。(9) 根据波形选择策略 \pi _{k + 1}^*(s) 选择波形参数{{\boldsymbol{\theta}} _{k + 1} }。 (10) end if (11) 根据波形参数{{\boldsymbol{\theta}} _{k + 1} },发射最优波形。 (1) 基于准则优化(CBO)方法
通过遍历雷达波形库的所有波形参数,根据CBO选取满足准则的波形参数作为最优发射波形参数。例如,根据Min-MSE准则,选取使
{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{{\boldsymbol{P}}} _{k + 1|k + 1}}({{\boldsymbol{\theta}} _{k + 1}}) 迹最小的波形参数作为k + 1 时刻的最优发射波形。(2) 熵奖励Q学习(ERQL)算法
在与目标交互的过程中,借助Q学习试错学习机制得到一个波形参数选择决策器。实现步骤如下:
首先,根据k时刻的状态估计误差协方差
{{\boldsymbol{P}}_{k|k}} 评估雷达的跟踪性能。评价标准是熵态,即{\rm{E}}{{\rm{S}}_k} = {\rm{det}}\left( {{{\boldsymbol{P}}_{k|k}}} \right) (38) 其中,
{\rm{E}}{{\rm{S}}_k} 表示k时刻的熵,通过比较k - 1 时刻的熵和k时刻的熵来奖励k时刻发出的波形参数{{\boldsymbol{\theta}} _k} ,设计的奖励函数如下:{r_k} = \log(1 + |{\rm{E}}{{\rm{S}}_{k - 1}} - {\rm{E}}{{\rm{S}}_k}|){\rm{sign}}({\rm{E}}{{\rm{S}}_{k - 1}} - {\rm{E}}{{\rm{S}}_k}) (39) 其中,
{\rm{sign}}( \cdot ) 是符号函数。当熵在时间k小于时间k - 1 时,波形导致估计不确定性减小,得到积极奖励;否则,给予负惩罚。然后,通过式(38)和式(39)计算实时奖励
{r_k} ,并根据式(35)更新Q表。接下来,根据式(37)单步预测
{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{{\boldsymbol{P}}} _{k + 1|k + 1}}({{\boldsymbol{\theta}} _{k + 1}}) ,结合式(38)和式(39)计算预测奖励{r_{k + 1}} ,并根据式(35)再次更新Q表,重复此步骤,直到完成所需的单步预测次数或Q表收敛。最后,选择最大Q值的行为作为最佳决策,得到
k + 1 时刻的最优波形选择策略\pi _{k + 1}^*(s) 。5. 仿真结果
本节以一个IMM目标跟踪仿真实例为例,验证所提方法的有效性。假设认知雷达位于坐标原点,机动目标初始位置位于
(3000,3000) m,初始速度大小为(0.1,0.1) m/s,其运动轨迹分为3个阶段,如图4所示。机动目标运动总时长为50 s,采样间隔\Delta t = 0.1 s。在0~20 s,目标做10 m/s2的匀加速运动;在21~40 s,目标做转弯率为- 0.35 rad/s的恒转弯率运动;在41~50 s,目标做匀速运动。雷达载频{f_{\rm{c}}} = 10.4 GHz,噪声系数{\sigma _{{\text{CV}}}} = {\sigma _{{\text{CA}}}} = {\sigma _{{\text{CT}}}}{\text{ = }}0.01 。各模型初始目标状态估计
{\hat {\boldsymbol{x}}_{0|0}} 、误差协方差{\boldsymbol{P}}_{0|0}^{(i)} 以及加权矩阵{\boldsymbol{\varGamma}} 分别为{\hat {\boldsymbol{x}}_{0|0}} = {\left[ {3010,4,0,3010,4,0} \right]^{\rm{T}}} (40) {\boldsymbol{P}}_{0|0}^{(i)} = {\rm{diag}}({10^2},{2^2},0,{10^2},{2^2},0) (41) {\boldsymbol{\varGamma}} {\text{ = diag(1,\;10,\;125,\;1,\;10,\;125)}} (42) 目标状态的量测向量为
{\boldsymbol{z}} = \left[ {r,\dot r,\beta } \right] ,量测函数为{\boldsymbol{h}}( \cdot ) = {[{h_r}( \cdot ),{h_{\dot r}}( \cdot ),{h_\beta }( \cdot )]^{\rm{T}}} ,且有\left\{ \begin{aligned} & r = {h_r}({{\boldsymbol{x}}_k}) = \sqrt {{{({x_k} - {x_r})}^2} + {{({y_k} - {y_r})}^2}} \\ & \dot r = {h_{\dot r}}({{\boldsymbol{x}}_k}) = \left[ {{x_k} - {x_r},{y_k} - {y_r}} \right]{\left[ {\begin{array}{*{20}{c}} {{{\dot x}_k}}&{{{\dot y}_k}} \end{array}} \right]^{\rm{T}}}/r \\ & \beta = {h_\beta }({{\boldsymbol{x}}_k}) = \arctan \left[ {\left( {{y_k} - {y_r}} \right)/({x_k} - {x_r})} \right] \end{aligned} \right. (43) 分别表示径向距离、径向速度和径向角度的量测值。其中,
[{x_r},{y_r}] 代表雷达的位置。角度
\beta 估计的CRLB是{\sigma _\beta }{\text{ = }}{{{\beta _{3\;{\text{dB}}}}} \mathord{\left/ {\vphantom {{{\beta _{3{\text{dB}}}}} {\kappa \sqrt \eta }}} \right. } {\kappa \sqrt \eta }} ,其中半功率方位波束宽度{\beta _{3\;{\text{dB}}}}{\text{ = }}3 ,单脉冲误差斜率\kappa = 1 。这里\beta 只受信噪比\eta 的影响,与r和\dot r 的测量无关,则测量噪声协方差式(24)可扩展为\begin{split} & {{\boldsymbol{R}}_{(r,\dot r,{\boldsymbol{\beta}} )}}({{\boldsymbol{\theta}} _k}) \\ & = \left[ {\begin{array}{*{20}{c}} {{{{c^2}{\lambda ^2}} \mathord{\left/ {\vphantom {{{c^2}{\lambda ^2}} {2\eta }}} \right. } ({2\eta })}}&{{{ - {c^2}b{\lambda ^2}} \mathord{\left/ {\vphantom {{ - {c^2}b{\lambda ^2}} {{f_c}\eta }}} \right. }({{f_{\rm{c}}}\eta })}}&0 \\ {{{ - {c^2}b{\lambda ^2}} \mathord{\left/ {\vphantom {{ - {c^2}b{\lambda ^2}} {{f_c}\eta }}} \right. } ({{f_{\rm{c}}}\eta })}}&{{{{c^2}({1 \mathord{\left/ {\vphantom {1 2}} \right. } 2}{\lambda ^2} + 2{b^2}{\lambda ^2})} \mathord{\left/ {\vphantom {{{c^2}({1 \mathord{\left/ {\vphantom {1 2}} \right. } 2}{\lambda ^2} + 2{b^2}{\lambda ^2})} {f_c^2\eta }}} \right. } ({f_{\rm{c}}^2\eta })}}&0 \\ 0&0&{\sigma _\beta ^2} \end{array}} \right] \end{split} (44) 其中,信噪比
\eta 被定义为\eta {\text{ = }}{{R_0^4} \mathord{\left/ {\vphantom {{R_0^4} {(R_{{\rm{Tx}}}^2R_{{\rm{Rx}}}^2)}}} \right. } {(R_{{\rm{Tx}}}^2R_{{\rm{Rx}}}^2)}} (45) 其中,
{R_{{\rm{Tx}}}} = {R_{{\rm{Rx}}}} ,{R_0} 是雷达接收目标回波信噪比为0 dB时的距离,此时{R_{{\rm{Tx}}}} = {R_0} ,仿真实验设置{R_0} 为7000 m。本文采用高斯调频脉冲构建的波形参数库如下:
{\boldsymbol{P}} = \left\{ {\lambda \in [{{10}^{ - 8}},1 \times {{10}^{ - 6}}]{\text{ s}},b \in [ - {{10}^{12}},{{10}^{12}}]{{{\text{ Hz}}}/{\rm{s}}}} \right\} (46) 其中,波形参数取值的步长设置为:
\Delta \lambda = {10^{ - 8}} s,\Delta b = 2 \times {10^{11}} Hz/s。IMM算法中各模型间的概率转移矩阵设置为
{{\boldsymbol{P}}_{\pi} } = \left[ {\begin{array}{*{20}{c}} {0.96}&{0.02}&{0.02} \\ {0.02}&{0.96}&{0.02} \\ {0.02}&{0.02}&{0.96} \end{array}} \right] (47) 本实验在设定的情境下进行了100次蒙特卡罗仿真,为了分析不同准则函数基于IMM波形参数选择算法的性能,制定了以下3个性能指标:
(1) 目标状态估计均方根误差(Root Means Square Error, RMSE),以目标位置为例:
{{\rm{RMSE}}_{{\rm{pos}}}}(k) = \sqrt {\frac{1}{N}\sum\limits_{n = 1}^N {\left[{{({\boldsymbol{x}}_k^n - \hat {\boldsymbol{x}}_{k|k}^n)}^2} + {{({\boldsymbol{y}}_k^n - \hat {\boldsymbol{y}}_{k|k}^n)}^2}\right]} } (48) (2) 目标状态估计均方根误差的均值(Average Value of Root Means Square Error, ARMSE),以目标位置为例:
{{\rm{ARMSE}}_{{\rm{pos}}}} = \frac{1}{M}\sum\limits_{n = 1}^M {{\rm{RMSE}}(k)} (49) (3) 熵态(Entropic State, ES),熵定义为目标状态估计误差协方差的香农熵,可以用来衡量目标整体状态估计的不确定性,其表达式为
{\rm{ES}}(k) = \frac{1}{N}\sum\limits_{n = 1}^N {\frac{1}{2}} \log\left[ {{\text{det}}\left( {\left( {2\pi {\rm{e}}} \right){{\boldsymbol{P}}_{k|k}}} \right)} \right] (50) 由于
\log 函数为单调函数,所以熵态可简化为{\rm{ES}}(k) = \frac{1}{N}\sum\limits_{n = 1}^N {\det \left( {{{\boldsymbol{P}}_{k|k}}} \right)} (51) 其中,n表示第n次蒙特卡罗仿真,N为蒙特卡罗仿真的次数,M为目标跟踪过程中的采样点数。
仿真实验对所提出的ERQL方法和CBO方法进行了仿真,并采用固定波形参数(Fixed-P)方法作为跟踪性能比较,固定波形的参数是从波形库中选择的一组最佳跟踪性能参数。
在目标跟踪过程中,CA, CT和CV的有效概率变化曲线分别如图5(a)、图5(b)和图5(c)所示。如3幅图中红色虚线框所示,分别对应图4中运动轨迹的3个阶段。所提出的方法可以在目标的3个运动阶段中以最大概率选择对应的运动模型,图中,曲线ERQL-10和ERQL-40分别表示使用ERQL方法单步预测10次和40次。所提出方法与Fixed-P方法相比,可以提高模型与目标轨迹匹配的有效概率。其中,Min-MSE方法表现最好,在每个阶段都能以最高的概率匹配到正确的目标运动模型,这也是Min-MSE方法在目标跟踪中误差最小的原因之一。
限于篇幅,位置和速度的RMSE以X轴为例。图6给出了波形参数选择策略对目标位置跟踪的RMSE变化曲线。可以看出,与Fixed-P方法相比,所提出的Min-MSE, Max-MI和ERQL波形参数选择方法可以有效提高雷达目标位置的跟踪精度;Min-MSE和Max-MI方法在目标跟踪中的RMSE几乎相同。同时,还可以看到ERQL方法单步预测的次数越多,跟踪性能越好,但随着目标距离的增加,CBO的跟踪性能优于ERQL方法。
5种波形参数选择策略下目标速度的RMSE曲线如图7所示。从图中可以看出,基于CBO和ERQL方法的波形参数动态调整可以有效提高雷达目标速度估计精度。在21~40 s期间,机动目标处于CT运动阶段,速度变化较大,导致雷达目标速度估计出现较大波动。而本文提出的方法对波形参数进行动态调整,可以有效减小这种波动,提高系统跟踪的稳定性。当目标离雷达较近时,CBO和ERQL方法在目标速度估计上的误差相似,但随着目标的远离,CBO的跟踪精度优于ERQL方法。
表2显示了各波形参数选择方法的位置和速度ARMSE比较。其中,
{\bar X_{{\rm{pos}}}} 和{\bar Y_{{\rm{pos}}}} 分别表示X轴和Y轴的位置跟踪ARMSE,{\bar X_{{\rm{vel}}}} 和{\bar Y_{{\rm{vel}}}} 分别表示X轴和Y轴的速度跟踪ARMSE。可以看出,CBO和ERQL方法与Fixed-P方法相比,目标跟踪性能有了显著提高。其中,Min-MSE的性能最好,Min-MSE与Fixed-P相比,X轴和Y轴位置跟踪误差分别降低了23.38%和24.04%,X轴和Y轴速度跟踪误差分别降低了47.92%和52.93%。ERQL-40与Fixed-P相比,X轴和Y轴位置跟踪误差分别降低了21.05%和22.08%,X轴和Y轴速度跟踪误差分别降低了40.63%和43.41%。表2也清楚地表明,CBO的跟踪性能优于ERQL方法,ERQL-40的跟踪性能优于ERQL-10。表 2 不同方法的ARMSE对比结果Table 2. ARMSE comparison results of different methods方法 {\bar X_{{\rm{pos}}} } {\bar Y_{{\rm{pos}}} } {\bar X_{{\rm{vel}}} } {\bar Y_{{\rm{vel}}} } Fixed-P 18.05 m 20.47 m 2.88 m/s 4.10 m/s Min-MSE 13.83 m 15.55 m 1.50 m/s 1.93 m/s Max-MI 14.44 m 15.79 m 1.46 m/s 1.92 m/s ERQL-10 15.40 m 17.98 m 1.87 m/s 2.55 m/s ERQL-40 14.25 m 15.95 m 1.71 m/s 2.32 m/s 图8和图9是目标跟踪波形参数变化曲线结果。从图8可以看出,CBO更愿意选择较大的脉冲持续时间,在运动轨迹变换时,选择较小的脉冲持续时间以提高雷达对目标位置的估计精度。但是ERQL方法的脉冲持续时间在整个目标跟踪期间变化不大,只是在CT运动阶段脉冲持续时间有较大的波动来应对目标的变化。对于调频斜率的变化,从图9可以看出,在整个运动过程中,Max-MI总是选择较大的调频斜率,而ERQL方法选择较小的调频斜率,两种方法在整个目标运动过程中调频斜率变化不大。而Min-MSE方法在目标改变运动轨迹时,线性调频率有较大变化,其也是Min-MSE的跟踪性能最好的原因。
熵态变化曲线如图10所示,从整体熵态变化的角度,比较了各种方法下的雷达目标的跟踪性能。可以看到在自适应调整波形参数后,CBO和ERQL方法与Fixed-P方法相比显著降低了熵态大小。不同波形挑选方法的熵态变化规律类似于图6,即在目标距离雷达较近时,CBO和ERQL-40方法的熵态没有明显区别,但随着目标的远离,CBO方法的跟踪性能更好。
由上面分析可知,CBO方法的目标跟踪精度最高,ERQL方法次之。但CBO方法是通过网格搜索实现的。它会遍历波形库中的所有参数来寻找最优的波形参数,所以这种方法非常耗时。图11显示了各种波形参数选择算法的平均耗时结果。可以看到,在相同的跟踪条件下,CBO方法所需的CPU时间约为ERQL-10方法的22倍,ERQL-40方法的7倍,Fixed-P方法的84倍。
为进一步验证ERQL方法的性能,又分别进行了单步预测多次的ERQL实验,实验对比结果如表3所示。以X轴位置跟踪为例,虽然Min-MSE方法相比Fixed-P方法的跟踪精度更高,但是Min-MSE方法的CPU时间是Fixed-P方法的84倍,而ERQL-40方法仅为Fixed-P方法的11.8倍。为了获得较高的跟踪精度,CBO遍历参数库的时间成本是非常巨大的。然而,ERQL方法通过单步预测与更新,不仅保证了目标跟踪性能,而且显著减少了波形参数选择过程的计算时间。表3还列出了各种预测次数的ERQL方法对目标跟踪性能的改进。可以看出,当需要更高的跟踪性能并考虑时间成本时,ERQL-40是最佳选择。
表 3 CBO和ERQL方法相比于Fixed-P方法的跟踪性能改善与CPU时间比较(%)Table 3. CBO and ERQL methods compared with Fixed-P methods for improved tracking performance and CPU time (%)方法 {X_{{\rm{pos}}} } {Y_{{\rm{pos}}} } {X_{{\rm{vel}}} } {Y_{{\rm{vel}}} } CPU time Min-MSE 23.38 24.04 47.92 52.93 8619 Max-MI 20.61 22.86 49.13 53.17 7893 ERQL-10 14.68 12.16 34.84 37.80 283 ERQL-20 16.01 16.76 37.28 40.73 545 ERQL-40 21.05 22.08 40.63 43.41 1081 ERQL-80 15.51 15.68 41.11 47.07 2016 6. 结语
为了提高机动目标的跟踪精度,本文提出了一种认知雷达波形选择框架。并基于该框架设计了基于准则优化(CBO)或熵奖励Q学习(ERQL)方法以迭代智能地挑选波形参数,将雷达发射机-目标-雷达接收机集合成一个闭环结构。结果表明,CBO方法虽然具有较高的跟踪精度,但其计算时间约为固定参数(Fixed-P)方法的84倍。当对跟踪性能和时间成本有更高要求时,单步预测40次的ERQL方法是最好的选择。与Fixed-P方法相比,ERQL-40比CBO节省约71.8倍的时间,对目标位置和速度的跟踪精度分别提高了21.05%和40.63%。未来的工作将改进强化学习和卡尔曼滤波器,以进一步提高跟踪性能。
附录
CV, CA, CT的状态转移矩阵
{{\boldsymbol{F}}_k} 分别为{\boldsymbol{F}}_k^{{\text{CV}}} = \left[ {\begin{array}{*{20}{c}} 1&T \\ 0&1 \end{array}} \right], {\boldsymbol{F}}_k^{{\text{CA}}} = \left[ {\begin{array}{*{20}{c}} 1&T&{{{{T^2}} \mathord{\left/ {\vphantom {{{T^2}} 2}} \right. } 2}} \\ 0&1&T \\ 0&0&1 \end{array}} \right], {\boldsymbol{F}}_k^{{\text{CT}}} = \left[ {\begin{array}{*{20}{c}} 1&{\dfrac{{\sin \omega T}}{\omega }}&0&{ - \dfrac{{1 - \cos \omega T}}{\omega }} \\ 0&{\cos \omega T}&0&{ - \sin \omega T} \\ 0&{\dfrac{{1 - \cos \omega T}}{\omega }}&1&{\dfrac{{\sin \omega T}}{\omega }} \\ 0&{\sin \omega T}&0&{\cos \omega T} \end{array}} \right] 其中,T为测量数据的采样周期。
CV, CA, CT的高斯态噪声
{{\boldsymbol{w}}_k} 的协方差{{\boldsymbol{Q}}_k} 分别为\begin{split} \qquad\; &{\boldsymbol{Q}}_k^{{\text{CV}}} = \sigma _{{\text{CV}}}^2\left[ {\begin{array}{*{20}{c}} {{{{T^2}} \mathord{\left/ {\vphantom {{{T^2}} 3}} \right. } 3}}&{{{{T^3}} \mathord{\left/ {\vphantom {{{T^3}} 2}} \right. } 2}} \\ {{{{T^3}} \mathord{\left/ {\vphantom {{{T^3}} 2}} \right. } 2}}&{{T^2}} \end{array}} \right],\\ & {\boldsymbol{Q}}_k^{{\text{CA}}} = \sigma _{{\text{CA}}}^2\left[ {\begin{array}{*{20}{c}} {{{{T^2}} \mathord{\left/ {\vphantom {{{T^2}} {20}}} \right. } {20}}}&{{{{T^2}} \mathord{\left/ {\vphantom {{{T^2}} 8}} \right. } 8}}&{{{{T^3}} \mathord{\left/ {\vphantom {{{T^3}} 6}} \right. } 6}} \\ {{{{T^4}} \mathord{\left/ {\vphantom {{{T^4}} 8}} \right. } 8}}&{{{{T^3}} \mathord{\left/ {\vphantom {{{T^3}} 6}} \right. } 6}}&{{{{T^2}} \mathord{\left/ {\vphantom {{{T^2}} 2}} \right. } 2}} \\ {{{{T^3}} \mathord{\left/ {\vphantom {{{T^3}} 6}} \right. } 6}}&{{{{T^2}} \mathord{\left/ {\vphantom {{{T^2}} 2}} \right. } 2}}&T \end{array}} \right], \end{split} {\boldsymbol{Q}}_k^{{\text{CT}}} = \sigma _{{\text{CT}}}^2\left[ {\begin{array}{*{20}{c}} {\dfrac{{2(\omega T - \sin \omega T)}}{{{\omega ^3}}}}&{\dfrac{{1 - \cos \omega T}}{{{\omega ^2}}}}&0&{\dfrac{{\omega T - \sin \omega T}}{{{\omega ^2}}}} \\ {\dfrac{{1 - \cos \omega T}}{{{\omega ^2}}}}&T&{ - \dfrac{{\omega T - \sin \omega T}}{{{\omega ^2}}}}&0 \\ 0&{ - \dfrac{{\omega T - \sin \omega T}}{{{\omega ^2}}}}&{\dfrac{{2(\omega T - \sin \omega T)}}{{{\omega ^3}}}}&{\dfrac{{1 - \cos \omega T}}{{{\omega ^2}}}} \\ {\dfrac{{\omega T - \sin \omega T}}{{{\omega ^2}}}}&0&{\dfrac{{1 - \cos \omega T}}{{{\omega ^2}}}}&T \end{array}} \right] 其中,
\omega 表示转向角速度,\sigma _{{\rm{CV}}}^2 ,\sigma _{{\rm{CA}}}^2 ,\sigma _{{\rm{CT}}}^2 为可以调节的状态噪声强度。式(27)的详细推导为
\begin{split} & I({{\boldsymbol{x}}_{k|k - 1}};{{\boldsymbol{z}}_k}) \\ & \quad=\frac{1}{2}\log \frac{{\left| {{{\boldsymbol P}_z}} \right|}}{{\left| {{{\boldsymbol P}_z} - {\boldsymbol P}_{xz}^{\rm T}{\boldsymbol P}_x^{ - 1}{{\boldsymbol P}_{xz}}} \right|}} \\ & \quad = \frac{1}{2}\log \frac{{\left| {{{\boldsymbol P}_{k|k - 1}}} \right|}}{{\left| {{{\boldsymbol P}_{k|k - 1}} - {{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}}{{({\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k})}^{ - 1}}{\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}} \right|}} \\ & \quad = \frac{1}{2}\log \frac{{\left| {{{\boldsymbol P}_{k|k - 1}}} \right|}}{{\left| {{{\boldsymbol H}^{ - 1}}\left[ {({\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}) - {\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}}} \right]{{({\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k})}^{ - 1}}{\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}} \right|}} \\ & \quad = \frac{1}{2}\log \frac{{\left| {{{\boldsymbol P}_{k|k - 1}}} \right|}}{{\left| {{{\boldsymbol H}^{ - 1}}{{\boldsymbol R}_k}{{({\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k})}^{ - 1}}{\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}} \right|}} \\ & \quad= \frac{1}{2}\log \frac{{\left| {\boldsymbol{I}} \right|}}{{\left| {{{\boldsymbol H}^{ - 1}}{{\boldsymbol R}_k}{{({\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k})}^{ - 1}}{\boldsymbol H}} \right|}} \\ & \quad= \frac{1}{2}\log \frac{{\left| {{\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}} \right|}}{{\left| {{{\boldsymbol R}_k}} \right|}}{\text{ = }}\frac{1}{2}\log \frac{{\det \left[ {{{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right) + \left( {{\boldsymbol H}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}}} \right)} \right]}}{{\det \left[ {{{\boldsymbol R}_k}({{\boldsymbol{\theta}} _k})} \right]}} \end{split} \tag{A-1} 式(29)的详细推导为
\begin{split} & \det \left[ {{{\boldsymbol P}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right] \\ & \quad= \det \left[ {\left( {{\boldsymbol{I}} - {K_k}\left( {{{\boldsymbol{\theta}} _k}} \right){\boldsymbol{H}}} \right){{\boldsymbol P}_{k|k - 1}}} \right] \\ & \quad= \det \left\{ {\left[ {{\boldsymbol{I}} - {{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}}{{\left( {{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right)}^{ - 1}}{\boldsymbol{H}}} \right]{{\boldsymbol P}_{k|k - 1}}} \right\} \\ & \quad= \det \left\{ {\left[ {{{\boldsymbol H}^{ - 1}}\left( {{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right) - {{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}}} \right]} \right. \cdot \left. {{{\left[ {{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right]}^{ - 1}}{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}} \right\} \\ & \quad= \det \left[ {{{\boldsymbol H}^{ - 1}}{{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right){{\left( {{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right)}^{ - 1}}{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}} \right] \\ & \quad= \frac{{\det \left[ {{{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right]}}{{\det \left[ {{{\left( {{\boldsymbol{H}}{{\boldsymbol P}_{k|k - 1}}{{\boldsymbol H}^{\rm T}} + {{\boldsymbol R}_k}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right)}^{ - 1}}} \right]}}\det \left( {{{\boldsymbol P}_{k|k - 1}}} \right) \end{split} \tag{A-2} 式(33)的详细推导为
\begin{split} & {\text{Tr}}\left( {{{\boldsymbol{P}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right) \\ & \quad = {\rm{Tr}}\left\{ {{\rm{E}}\left[ {\left( {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right){{\left( {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right)}^{\rm{T}}}|{{\boldsymbol{z}}_k}} \right]} \right\} \\ & \quad = {\rm{E}}\left\{ {{\rm{Tr}}\left[ {\left( {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right){{\left( {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right)}^{\rm{T}}}|{{\boldsymbol{z}}_k}} \right]} \right\} \\ & \quad = {\rm{E}}\left[ {\left( {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right){{\left( {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right)}^{\rm{T}}}|{{\boldsymbol{z}}_k}} \right] \\ & \quad = {\rm{E}}\left[ {{{\left\| {{{\boldsymbol{x}}_k} - {{\hat {\boldsymbol{x}}}_{k|k}}\left( {{{\boldsymbol{\theta}} _k}} \right)} \right\|}^2}|{{\boldsymbol{z}}_k}} \right] \end{split} \tag{A-3} -
表 1 CBO/ERQL算法
Table 1. CBO/ERQL algorithm
输入:k - 1时刻的状态估计{\hat {\boldsymbol{x}}_{k - 1|k - 1} }, {{\boldsymbol{P}}_{k - 1|k - 1} },k时刻的量
测{{\boldsymbol{z}}_k}。输出:最佳发射波形参数{{\boldsymbol{\theta}} _{k + 1} }。 (1) 通过IMM滤波器中的交互输入和模型滤波过程,计算每个模
型在时间k的估计值\hat {\boldsymbol{x}}_{k|k}^{{\rm{CV}}},{\text{ } }{\boldsymbol{P}}_{k|k}^{{\rm{CV}}}\\hat {\boldsymbol{x} }_{k|k}^{ {\rm{CA} }}, {\boldsymbol{P}}_{k|k}^{{\rm{CA}}}\\hat {\boldsymbol{x}}_{k|k}^{{\rm{CT}}},{\text{ } }{\boldsymbol{P}}_{k|k}^{{\rm{CT}}}。(2) 通过式(8)、式(10)、式(11)、式(13)计算各模型的预测概率
\bar c_k^{(i)}和预测状态估计误差协方差{\boldsymbol{P}}_{k + 1|k + 1}^{(i)}。(3) 通过式(37)的加权融合,得到{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$} }{{\boldsymbol{P}}} _{k + 1|k + 1} }。 (4) if (CBO) (5) 通过网格搜索找到式(30)或式(34)的最优波形参数{{\boldsymbol{\theta}} _{k + 1} }。 (6) else (ERQL) (7) 根据式(38)和式(39)计算预测奖励{r_{k + 1}},通过式(35)更新每
个波形的Q表,重复此步骤,直到完成所需的单步预测次数或者
Q表收敛。(8) 选择Q表中最大Q值所对应的策略作为k + 1时刻的波形选择
策略 \pi _{k + 1}^{\text{*}}(s) 。(9) 根据波形选择策略 \pi _{k + 1}^*(s) 选择波形参数{{\boldsymbol{\theta}} _{k + 1} }。 (10) end if (11) 根据波形参数{{\boldsymbol{\theta}} _{k + 1} },发射最优波形。 表 2 不同方法的ARMSE对比结果
Table 2. ARMSE comparison results of different methods
方法 {\bar X_{{\rm{pos}}} } {\bar Y_{{\rm{pos}}} } {\bar X_{{\rm{vel}}} } {\bar Y_{{\rm{vel}}} } Fixed-P 18.05 m 20.47 m 2.88 m/s 4.10 m/s Min-MSE 13.83 m 15.55 m 1.50 m/s 1.93 m/s Max-MI 14.44 m 15.79 m 1.46 m/s 1.92 m/s ERQL-10 15.40 m 17.98 m 1.87 m/s 2.55 m/s ERQL-40 14.25 m 15.95 m 1.71 m/s 2.32 m/s 表 3 CBO和ERQL方法相比于Fixed-P方法的跟踪性能改善与CPU时间比较(%)
Table 3. CBO and ERQL methods compared with Fixed-P methods for improved tracking performance and CPU time (%)
方法 {X_{{\rm{pos}}} } {Y_{{\rm{pos}}} } {X_{{\rm{vel}}} } {Y_{{\rm{vel}}} } CPU time Min-MSE 23.38 24.04 47.92 52.93 8619 Max-MI 20.61 22.86 49.13 53.17 7893 ERQL-10 14.68 12.16 34.84 37.80 283 ERQL-20 16.01 16.76 37.28 40.73 545 ERQL-40 21.05 22.08 40.63 43.41 1081 ERQL-80 15.51 15.68 41.11 47.07 2016 -
[1] YUAN Ye, YI Wei, HOSEINNEZHAD R, et al. Robust power allocation for resource-aware multi-target tracking with colocated MIMO radars[J]. IEEE Transactions on Signal Processing, 2021, 69: 443–458. doi: 10.1109/TSP.2020.3047519 [2] SUN Zhichao, YEN G G, WU Junjie, et al. Mission planning for energy-efficient passive UAV radar imaging system based on substage division collaborative search[J]. IEEE Transactions on Cybernetics, 2023, 53(1): 275–288. doi: 10.1109/TCYB.2021.3090662 [3] LIANG Jing and LIANG Qilian. Design and analysis of distributed radar sensor networks[J]. IEEE Transactions on Parallel and Distributed Systems, 2011, 22(11): 1926–1933. doi: 10.1109/TPDS.2011.45 [4] HAYKIN S. Cognitive radar: A way of the future[J]. IEEE Signal Processing Magazine, 2006, 23(1): 30–40. doi: 10.1109/MSP.2006.1593335 [5] LUO Zihan, LIANG Jing, and XU Zekai. Intelligent waveform optimization for target tracking in radar sensor networks[C]. 10th International Conference on Communications, Signal Processing, and Systems (CSPS), Changbaishan, China, 2021: 165–172. [6] HAYKIN S. Cognition is the key to the next generation of radar systems[C]. 2009 IEEE 13th Digital Signal Processing Workshop and 5th IEEE Signal Processing Education Workshop, Marco Island, USA, 2009: 463–467. [7] HAYKIN S, ZIA A, ARASARATNAM I, et al. Cognitive tracking radar[C]. 2010 IEEE Radar Conference, Arlington, USA, 2010: 1467–1470. [8] GUERCI J R. Cognitive radar: A knowledge-aided fully adaptive approach[C]. 2010 IEEE Radar Conference, Arlington, USA, 2010: 1365–1370. [9] GUERCI J R, GUERCI R M, RANAGASWAMY M, et al. CoFAR: Cognitive fully adaptive radar[C]. 2014 IEEE Radar Conference, Cincinnati, USA, 2014: 984–989. [10] GUERCI J R. Cognitive Radar: The Knowledge-Aided Fully Adaptive Approach[M]. 2nd ed. Norwood, USA: Artech House, 2020. [11] BELL K L, BAKER C J, SMITH G E, et al. Cognitive radar framework for target detection and tracking[J]. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(8): 1427–1439. doi: 10.1109/JSTSP.2015.2465304 [12] SMITH G E, CAMMENGA Z, MITCHELL A, et al. Experiments with cognitive radar[C]. 2015 IEEE 6th International Workshop on Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), Cancun, Mexico, 2015: 293–296. [13] ZHANG Lingzhao and JIANG Min. Cognitive radar target tracking algorithm based on waveform selection[C]. 2021 IEEE 5th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), Chongqing, China, 2021: 1506–1510. [14] HULEIHEL W, TABRIKIAN J, and SHAVIT R. Optimal adaptive waveform design for cognitive MIMO radar[J]. IEEE Transactions on Signal Processing, 2013, 61(20): 5075–5089. doi: 10.1109/TSP.2013.2269045 [15] ALDAYEL O, MONGA V, and RANGASWAMY M. Successive QCQP refinement for MIMO radar waveform design under practical constraints[J]. IEEE Transactions on Signal Processing, 2016, 64(14): 3760–3774. doi: 10.1109/TSP.2016.2552501 [16] FENG Shuo and HAYKIN S. Cognitive risk control for transmit-waveform selection in vehicular radar systems[J]. IEEE Transactions on Vehicular Technology, 2018, 67(10): 9542–9556. doi: 10.1109/TVT.2018.2857718 [17] SAVAGE C O and MORAN B. Waveform selection for maneuvering targets within an IMM framework[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(3): 1205–1214. doi: 10.1109/TAES.2007.4383612 [18] CLEMENTE C, SHOROKHOV I, PROUDLER I, et al. Radar waveform libraries using fractional Fourier transform[C]. 2014 IEEE Radar Conference, Cincinnati, USA, 2014: 855–858. [19] ZHAO Dehua, WEI Yinsheng, and LIU Yongtan. Real-time waveform adaption in spectral crowed environment using a sub-waveforms-based library[C]. 2016 CIE International Conference on Radar, Guangzhou, China, 2016: 1–5. [20] NGUYEN N H, DOGANCAY K, and DAVIS L M. Adaptive waveform selection for multistatic target tracking[J]. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(1): 688–701. doi: 10.1109/TAES.2014.130723 [21] ROMAN J. R., GARNHAM J. W. and ANTONIK P., Information Theoretic Criterion for Waveform Selection. Fourth IEEE Workshop on Sensor Array and Multichannel Processing, 2006., Waltham, MA, USA, 2006, 444-448, doi: 10.1109/SAM.2006.1706172. [22] CAO Xin, ZHENG Zhe, and AN Di. Adaptive waveform selection algorithm based on reinforcement learning for cognitive radar[C]. 2019 IEEE 2nd International Conference on Automation, Electronics and Electrical Engineering (AUTEEE), Shenyang, China, 2019: 208–213. [23] HAN Bo, HUANG Hanqiao, LEI Lei, et al. An improved IMM algorithm based on STSRCKF for maneuvering target tracking[J]. IEEE Access, 2019, 7: 57795–57804. doi: 10.1109/ACCESS.2019.2912983 [24] BLACKMAN S S, DEMPSTER R J, BUSCH M T, et al. IMM/MHT solution to radar benchmark tracking problem[J]. IEEE Transactions on Aerospace and Electronic Systems, 1999, 35(2): 730–738. doi: 10.1109/7.766953 [25] KERSHAW D J and EVANS R J. Optimal waveform selection for tracking systems[J]. IEEE Transactions on Information Theory, 1994, 40(5): 1536–1550. doi: 10.1109/18.333866 [26] SIRA S P, PAPANDREOU-SUPPAPPOLA A, and MORRELL D. Advances in Waveform-Agile Sensing for Tracking[M]. Cham: Springer, 2009: 59–60. [27] WILLIAMS J L. Information theoretic sensor management[D]. [Ph. D. dissertation], Massachusetts Institute of Technology, 2007: 41–42. [28] ATHANS M and TSE E. A direct derivation of the optimal linear filter using the maximum principle[J]. IEEE Transactions on Automatic Control, 1967, 12(6): 690–698. doi: 10.1109/TAC.1967.1098732 [29] THORNTON C E, KOZY M A, BUEHRER R M, et al. Deep reinforcement learning control for radar detection and tracking in congested spectral environments[J]. IEEE Transactions on Cognitive Communications and Networking, 2020, 6(4): 1335–1349. doi: 10.1109/TCCN.2020.3019605 [30] WANG Qing, QIAO Yanming, and GAO Lirong. A cognitive radar waveform optimization approach based on deep reinforcement learning[C]. 2019 IEEE International Conference on Signal, Information and Data Processing (ICSIDP), Chongqing, China, 2019: 1–6. 期刊类型引用(0)
其他类型引用(3)
-