基于强化学习的认知雷达目标跟踪波形挑选方法

朱培坤; 梁菁; 罗子涵; 沈晓峰

doi:10.12000/JR22239

基于强化学习的认知雷达目标跟踪波形挑选方法

DOI: 10.12000/JR22239

电子科技大学信息与通信工程学院成都 611731

基金项目: 国家自然科学基金(61731006)，四川省自然科学基金(2023NSFSC0450)，111计划(B17008)

详细信息

作者简介:
朱培坤，博士生，主要研究方向包括雷达波形设计、雷达传感器网络和分布式协同信号处理等

梁　菁，教授，博士生导师，主要研究方向包括雷达传感器网络、分布式协同信号处理、模糊逻辑与机器学习等

罗子涵，硕士生，主要研究方向包括雷达波形设计、机器学习和智能信号处理

沈晓峰，研究员，主要研究方向包括雷达探测与目标识别、智能感知与信息系统、先进信号与信息处理

通讯作者:
梁菁 liangjing@uestc.edu.cn

责任主编：胡卫东 Corresponding Editor: HU Weidong
中图分类号: TN958
计量
- 文章访问数: 1372
- HTML全文浏览量: 733
- PDF下载量: 363
- 被引次数: 74
出版历程
- 收稿日期: 2022-12-21
- 修回日期: 2023-02-08
- 网络出版日期: 2023-02-22
- 刊出日期: 2023-04-28

Waveform Selection Method of Cognitive Radar Target Tracking Based on Reinforcement Learning

School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China

Funds: The National Natural Science Foundation of China (61731006), Sichuan Natural Science Foundation (2023NSFSC0450), The 111 Project under Grant (B17008)

More Information

Corresponding author: LIANG Jing, liangjing@uestc.edu.cn

摘要

摘要: 认知雷达通过不断与环境互动并从经验中学习，根据获得的知识不断调整其波形、参数和照射策略，以在复杂多变的场景中实现稳健的目标跟踪，其波形设计在提高跟踪性能方面一直备受关注。该文提出了一种用于跟踪高机动目标的认知雷达波形选择框架，该框架考虑了恒定速度(CV)、恒定加速度(CA)和协同转弯(CT)模型的组合，在该框架的基础上设计了基于准则优化(CBO)和熵奖励Q学习(ERQL)方法进行最优波形选择。该方法将雷达与目标集成到一个闭环中，发射波形随目标状态的变化实时更新，从而达到对目标的最佳跟踪性能。数值结果表明，与CBO方法相比，所提出的ERQL方法大大减少了获取最优波形的处理时间，并实现了与CBO相近的跟踪性能，相比于固定参数(Fixed-P)方法，极大地提高了机动目标的跟踪精度。
- 目标跟踪 /
- 认知雷达 /
- 波形挑选 /
- 基于准则优化(CBO) /
- 熵奖励Q学习(ERQL)
Abstract: Based on the obtained knowledge through ceaseless interaction with the environment and learning from the experience, cognitive radar continuously adjusts its waveform, parameters, and illumination strategies to achieve robust target tracking in complex and changing scenarios. Its waveform design has been receiving attention to improve tracking performance. In this paper, we propose a novel framework of cognitive radar waveform selection for the tracking of high-maneuvering targets. The framework considers the combination of Constant Velocity (CV), Constant Acceleration (CA), and Coordinate Turn (CT) motions. We also design Criterion-Based Optimization (CBO) and Entropy Reward Q-Learning (ERQL) methods to perform waveform selection based on this framework. To provide the optimum target tracking performance, it merges the radar and target into a closed loop, updating the broadcast waveform in real-time as the target state changes. The suggested ERQL technique achieves about the same tracking performance as the CBO while using much less processing time than the CBO, according to numerical results. The proposed ERQL method significantly increases the tracking accuracy of moving targets as compared to the fixed parameter approach.
- Target tracking /
- Cognitive radar /
- Waveform selection /
- Criterion-Based Optimization (CBO) /
- Entropy Reward Q-Learning (ERQL)

HTML全文

图 1 认知雷达波形选择框架

Figure 1. Cognitive radar waveform selection framework

下载: 全尺寸图片幻灯片

图 2 以CV, CA和CT为模型的IMM流程图

Figure 2. IMM flow chart based on CV, CA and CT models

下载: 全尺寸图片幻灯片

图 3 波形选择框图

Figure 3. Waveform selection block diagram

下载: 全尺寸图片幻灯片

图 4 机动目标运动轨迹

Figure 4. Trajectory of maneuvering target

下载: 全尺寸图片幻灯片

图 5 各运动模型在不同运动阶段被选择的概率

Figure 5. Probability of each motion model being selected in different motion stages

下载: 全尺寸图片幻灯片

图 6 目标位置跟踪RMSE曲线(X轴)

Figure 6. Target position tracking RMSE curve (X axis)

下载: 全尺寸图片幻灯片

图 7 目标速度跟踪RMSE曲线(X轴)

Figure 7. Target velocity tracking RMSE curve (X axis)

下载: 全尺寸图片幻灯片

图 8 目标跟踪脉冲持续时间变化曲线

Figure 8. Target tracking pulse duration variation curve

下载: 全尺寸图片幻灯片

图 9 目标跟踪调频斜率变化曲线

Figure 9. Target tracking frequency modulation slope variation curve

下载: 全尺寸图片幻灯片

图 10 目标跟踪熵态变化曲线

Figure 10. Target tracking entropy state variation curve

下载: 全尺寸图片幻灯片

图 11 各波形参数选择算法的平均耗时结果

Figure 11. The average time-consuming results of each waveform parameter selection algorithm

下载: 全尺寸图片幻灯片

表 1 CBO/ERQL算法

Table 1. CBO/ERQL algorithm

输入： $k - 1$ 时刻的状态估计 ${\hat {\boldsymbol{x}}_{k - 1\|k - 1} }$ , ${{\boldsymbol{P}}_{k - 1\|k - 1} }$ ，k时刻的量　测 ${{\boldsymbol{z}}_k}$ 。
输出：最佳发射波形参数 ${{\boldsymbol{\theta}} _{k + 1} }$ 。
(1) 通过IMM滤波器中的交互输入和模型滤波过程，计算每个模　型在时间k的估计值 $\hat {\boldsymbol{x}}_{k\|k}^{{\rm{CV}}},{\text{ } }{\boldsymbol{P}}_{k\|k}^{{\rm{CV}}}$ \ $\hat {\boldsymbol{x} }_{k\|k}^{ {\rm{CA} }}$ , ${\boldsymbol{P}}_{k\|k}^{{\rm{CA}}}$ \ $\hat {\boldsymbol{x}}_{k\|k}^{{\rm{CT}}},{\text{ } }{\boldsymbol{P}}_{k\|k}^{{\rm{CT}}}$ 。
(2) 通过式(8)、式(10)、式(11)、式(13)计算各模型的预测概率　 $\bar c_k^{(i)}$ 和预测状态估计误差协方差 ${\boldsymbol{P}}_{k + 1\|k + 1}^{(i)}$ 。
(3) 通过式(37)的加权融合，得到 ${\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$} }{{\boldsymbol{P}}} _{k + 1\|k + 1} }$ 。
(4) if (CBO)
(5) 通过网格搜索找到式(30)或式(34)的最优波形参数 ${{\boldsymbol{\theta}} _{k + 1} }$ 。
(6) else (ERQL)
(7) 根据式(38)和式(39)计算预测奖励 ${r_{k + 1}}$ ，通过式(35)更新每　个波形的Q表，重复此步骤，直到完成所需的单步预测次数或者　Q表收敛。
(8) 选择Q表中最大Q值所对应的策略作为 $k + 1$ 时刻的波形选择　策略 $\pi _{k + 1}^{\text{*}}(s)$ 。
(9) 根据波形选择策略 $\pi _{k + 1}^*(s)$ 选择波形参数 ${{\boldsymbol{\theta}} _{k + 1} }$ 。
(10) end if
(11) 根据波形参数 ${{\boldsymbol{\theta}} _{k + 1} }$ ，发射最优波形。

下载: 导出CSV

表 2 不同方法的ARMSE对比结果

Table 2. ARMSE comparison results of different methods

方法	${\bar X_{{\rm{pos}}} }$	${\bar Y_{{\rm{pos}}} }$	${\bar X_{{\rm{vel}}} }$	${\bar Y_{{\rm{vel}}} }$
Fixed-P	18.05 m	20.47 m	2.88 m/s	4.10 m/s
Min-MSE	13.83 m	15.55 m	1.50 m/s	1.93 m/s
Max-MI	14.44 m	15.79 m	1.46 m/s	1.92 m/s
ERQL-10	15.40 m	17.98 m	1.87 m/s	2.55 m/s
ERQL-40	14.25 m	15.95 m	1.71 m/s	2.32 m/s

下载: 导出CSV

表 3 CBO和ERQL方法相比于Fixed-P方法的跟踪性能改善与CPU时间比较(%)

Table 3. CBO and ERQL methods compared with Fixed-P methods for improved tracking performance and CPU time (%)

方法	${X_{{\rm{pos}}} }$	${Y_{{\rm{pos}}} }$	${X_{{\rm{vel}}} }$	${Y_{{\rm{vel}}} }$	CPU time
Min-MSE	23.38	24.04	47.92	52.93	8619
Max-MI	20.61	22.86	49.13	53.17	7893
ERQL-10	14.68	12.16	34.84	37.80	283
ERQL-20	16.01	16.76	37.28	40.73	545
ERQL-40	21.05	22.08	40.63	43.41	1081
ERQL-80	15.51	15.68	41.11	47.07	2016

下载: 导出CSV

参考文献(30)

[1]	YUAN Ye, YI Wei, HOSEINNEZHAD R, et al. Robust power allocation for resource-aware multi-target tracking with colocated MIMO radars[J]. IEEE Transactions on Signal Processing, 2021, 69: 443–458. doi: 10.1109/TSP.2020.3047519
[2]	SUN Zhichao, YEN G G, WU Junjie, et al. Mission planning for energy-efficient passive UAV radar imaging system based on substage division collaborative search[J]. IEEE Transactions on Cybernetics, 2023, 53(1): 275–288. doi: 10.1109/TCYB.2021.3090662
[3]	LIANG Jing and LIANG Qilian. Design and analysis of distributed radar sensor networks[J]. IEEE Transactions on Parallel and Distributed Systems, 2011, 22(11): 1926–1933. doi: 10.1109/TPDS.2011.45
[4]	HAYKIN S. Cognitive radar: A way of the future[J]. IEEE Signal Processing Magazine, 2006, 23(1): 30–40. doi: 10.1109/MSP.2006.1593335
[5]	LUO Zihan, LIANG Jing, and XU Zekai. Intelligent waveform optimization for target tracking in radar sensor networks[C]. 10th International Conference on Communications, Signal Processing, and Systems (CSPS), Changbaishan, China, 2021: 165–172.
[6]	HAYKIN S. Cognition is the key to the next generation of radar systems[C]. 2009 IEEE 13th Digital Signal Processing Workshop and 5th IEEE Signal Processing Education Workshop, Marco Island, USA, 2009: 463–467.
[7]	HAYKIN S, ZIA A, ARASARATNAM I, et al. Cognitive tracking radar[C]. 2010 IEEE Radar Conference, Arlington, USA, 2010: 1467–1470.
[8]	GUERCI J R. Cognitive radar: A knowledge-aided fully adaptive approach[C]. 2010 IEEE Radar Conference, Arlington, USA, 2010: 1365–1370.
[9]	GUERCI J R, GUERCI R M, RANAGASWAMY M, et al. CoFAR: Cognitive fully adaptive radar[C]. 2014 IEEE Radar Conference, Cincinnati, USA, 2014: 984–989.
[10]	GUERCI J R. Cognitive Radar: The Knowledge-Aided Fully Adaptive Approach[M]. 2nd ed. Norwood, USA: Artech House, 2020.
[11]	BELL K L, BAKER C J, SMITH G E, et al. Cognitive radar framework for target detection and tracking[J]. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(8): 1427–1439. doi: 10.1109/JSTSP.2015.2465304
[12]	SMITH G E, CAMMENGA Z, MITCHELL A, et al. Experiments with cognitive radar[C]. 2015 IEEE 6th International Workshop on Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), Cancun, Mexico, 2015: 293–296.
[13]	ZHANG Lingzhao and JIANG Min. Cognitive radar target tracking algorithm based on waveform selection[C]. 2021 IEEE 5th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), Chongqing, China, 2021: 1506–1510.
[14]	HULEIHEL W, TABRIKIAN J, and SHAVIT R. Optimal adaptive waveform design for cognitive MIMO radar[J]. IEEE Transactions on Signal Processing, 2013, 61(20): 5075–5089. doi: 10.1109/TSP.2013.2269045
[15]	ALDAYEL O, MONGA V, and RANGASWAMY M. Successive QCQP refinement for MIMO radar waveform design under practical constraints[J]. IEEE Transactions on Signal Processing, 2016, 64(14): 3760–3774. doi: 10.1109/TSP.2016.2552501
[16]	FENG Shuo and HAYKIN S. Cognitive risk control for transmit-waveform selection in vehicular radar systems[J]. IEEE Transactions on Vehicular Technology, 2018, 67(10): 9542–9556. doi: 10.1109/TVT.2018.2857718
[17]	SAVAGE C O and MORAN B. Waveform selection for maneuvering targets within an IMM framework[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(3): 1205–1214. doi: 10.1109/TAES.2007.4383612
[18]	CLEMENTE C, SHOROKHOV I, PROUDLER I, et al. Radar waveform libraries using fractional Fourier transform[C]. 2014 IEEE Radar Conference, Cincinnati, USA, 2014: 855–858.
[19]	ZHAO Dehua, WEI Yinsheng, and LIU Yongtan. Real-time waveform adaption in spectral crowed environment using a sub-waveforms-based library[C]. 2016 CIE International Conference on Radar, Guangzhou, China, 2016: 1–5.
[20]	NGUYEN N H, DOGANCAY K, and DAVIS L M. Adaptive waveform selection for multistatic target tracking[J]. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(1): 688–701. doi: 10.1109/TAES.2014.130723
[21]	ROMAN J. R., GARNHAM J. W. and ANTONIK P., Information Theoretic Criterion for Waveform Selection. Fourth IEEE Workshop on Sensor Array and Multichannel Processing, 2006., Waltham, MA, USA, 2006, 444-448, doi: 10.1109/SAM.2006.1706172.
[22]	CAO Xin, ZHENG Zhe, and AN Di. Adaptive waveform selection algorithm based on reinforcement learning for cognitive radar[C]. 2019 IEEE 2nd International Conference on Automation, Electronics and Electrical Engineering (AUTEEE), Shenyang, China, 2019: 208–213.
[23]	HAN Bo, HUANG Hanqiao, LEI Lei, et al. An improved IMM algorithm based on STSRCKF for maneuvering target tracking[J]. IEEE Access, 2019, 7: 57795–57804. doi: 10.1109/ACCESS.2019.2912983
[24]	BLACKMAN S S, DEMPSTER R J, BUSCH M T, et al. IMM/MHT solution to radar benchmark tracking problem[J]. IEEE Transactions on Aerospace and Electronic Systems, 1999, 35(2): 730–738. doi: 10.1109/7.766953
[25]	KERSHAW D J and EVANS R J. Optimal waveform selection for tracking systems[J]. IEEE Transactions on Information Theory, 1994, 40(5): 1536–1550. doi: 10.1109/18.333866
[26]	SIRA S P, PAPANDREOU-SUPPAPPOLA A, and MORRELL D. Advances in Waveform-Agile Sensing for Tracking[M]. Cham: Springer, 2009: 59–60.
[27]	WILLIAMS J L. Information theoretic sensor management[D]. [Ph. D. dissertation], Massachusetts Institute of Technology, 2007: 41–42.
[28]	ATHANS M and TSE E. A direct derivation of the optimal linear filter using the maximum principle[J]. IEEE Transactions on Automatic Control, 1967, 12(6): 690–698. doi: 10.1109/TAC.1967.1098732
[29]	THORNTON C E, KOZY M A, BUEHRER R M, et al. Deep reinforcement learning control for radar detection and tracking in congested spectral environments[J]. IEEE Transactions on Cognitive Communications and Networking, 2020, 6(4): 1335–1349. doi: 10.1109/TCCN.2020.3019605
[30]	WANG Qing, QIAO Yanming, and GAO Lirong. A cognitive radar waveform optimization approach based on deep reinforcement learning[C]. 2019 IEEE International Conference on Signal, Information and Data Processing (ICSIDP), Chongqing, China, 2019: 1–6.

施引文献

期刊类型引用(34)

1.	王萍，高娇娇，张振亚，殷涛，王文凯. 基于UWB二维信道状态信息的室内人员摔倒检测方法. 传感器与微系统. 2025(02): 155-159 . 百度学术
2.	宋永坤，晏天兴，张可，刘显，戴永鹏，金添. 基于点云时空特征的超宽带雷达轻量化人体行为识别方法. 雷达学报(中英文). 2025(01): 1-15 . 百度学术
3.	任振裕，吉辰卿，余潮，陈万里，王锐. 面向毫米波动作识别的视觉辅助信道仿真技术. 雷达学报(中英文). 2025(01): 90-101 . 百度学术
4.	丁传威，刘芷麟，张力，赵恒，周庆，洪弘，朱晓华. 基于MIMO雷达成像图序列的切向人体姿态识别方法. 雷达学报(中英文). 2025(01): 151-167 . 百度学术
5.	李未一，杨健，方旖，贾勇，张伟. 基于散射分离的多通道雷达人体行为识别方法. 电波科学学报. 2025(01): 172-183 . 百度学术
6.	周杨，李剑鹏，王知雨，梁庆真. 基于4D点云和航迹信息的人员跌倒检测方法. 电子技术应用. 2024(01): 120-124 . 百度学术
7.	张敏，张欢，史晓娟，梁卓文，张娜. 老年患者跌倒检测系统的设计与实现. 中国医学装备. 2024(02): 157-161 . 百度学术
8.	林志伟，刘梓隆，袁煜盛，倪沁玮，蔡志明. 基于微多普勒特征的人体动作识别. 软件工程. 2024(03): 21-25 . 百度学术
9.	杨路，雷雨霄，余翔. 基于FMCW雷达的人体生命体征信号预测算法. 雷达科学与技术. 2024(01): 43-56 . 百度学术
10.	陈媛，林碧霞，陈瑞娥，李开新，蔡真真，聂伟琳，吴林静. 住院患者跌倒预防护理决策支持系统的开发与应用. 中国卫生质量管理. 2024(07): 12-16+31 . 百度学术
11.	孙梓誉，顾晶. 基于雷达时频变换和残差网络的人体行为检测. 电子测量技术. 2024(10): 27-33 . 百度学术
12.	林倩，杨姝玥，刘林盛. 浅析毫米波雷达在汽车电子中的应用. 天津理工大学学报. 2024(05): 80-85 . 百度学术
13.	余亚男，贾勇，杜玲丽，林凡强，郭世盛. 基于时空Transformer的毫米波雷达三维人体姿态重构. 信号处理. 2024(10): 1910-1920 . 百度学术
14.	吴哲夫，闫鑫悦，施汉银，龚树凤，方路平. 基于双流CNN-BiLSTM的毫米波雷达人体动作识别方法. 传感技术学报. 2024(10): 1754-1763 . 百度学术
15.	卓智海，祝文胜，王双龙. 基于双注意力机制的FMCW雷达人体行为识别. 北京信息科技大学学报(自然科学版). 2024(05): 58-66 . 百度学术
16.	龚树凤，施汉银，闫鑫悦，吴哲夫. 基于度量学习的毫米波雷达少样本人体动作识别. 传感技术学报. 2024(11): 1921-1930 . 百度学术
17.	高鹏，张岩，唐新余，王蒙，季文飞. 结合注意力机制的雷达多信号动作识别方法. 计算机技术与发展. 2023(01): 157-164 . 百度学术
18.	张为威，金彤彤，孙童心，黄钰茹，郜洵，郑址洪. 智能居家养老场景下跌倒检测摄像头的交互设计. 计算机辅助设计与图形学学报. 2023(02): 238-247 . 百度学术
19.	田钰琪，刘康，张远辉. 基于毫米波雷达点云的人体动作识别. 中国计量大学学报. 2023(01): 66-73+83 . 百度学术
20.	许向阳，张俊强，沈月健，李猛. FMCW毫米波雷达跌倒检测算法研究. 软件工程. 2023(05): 6-10 . 百度学术
21.	刘伟，蒋雅婷，郑子淳. Wi-Fi技术在人体行为感知中的应用探讨. 信息与电脑(理论版). 2023(05): 209-212 . 百度学术
22.	刘树博，赖招宇，罗先喜，李跃忠，李智. 基于毫米波雷达与情感神经网络的室内人员跌倒检测算法. 中国电子科学研究院学报. 2023(03): 203-212 . 百度学术
23.	李牧，王昭，骆宇. 基于TsFresh-Stacking的毫米波雷达人体跌倒检测方法. 网络安全与数据治理. 2023(06): 71-78 . 百度学术
24.	汪超，刘思远，郑慧，卓智海. 基于轻量化卷积神经网络的人体动作识别. 北京信息科技大学学报(自然科学版). 2023(03): 22-26 . 百度学术
25.	周乐，陈一畅，刘铭哲，朱超. 基于多传感器融合的人体跌倒检测系统. 空天预警研究学报. 2023(02): 129-135 . 百度学术
26.	丰玉华，魏怡，刘力手，丰圆丹，李可. 面向跌倒行人的MP-YOLOv5检测模型. 重庆邮电大学学报(自然科学版). 2023(05): 960-970 . 百度学术
27.	漆晶，汪正东，谢广智. 基于胸腔信号样本的FMCW雷达身份验证. 雷达科学与技术. 2023(05): 539-546+554 . 百度学术
28.	瓦其日体，李刚，赵志纯，则正华. 基于直方图分析和自适应遗传的雷达道路目标识别特征优选方法. 雷达学报. 2023(05): 1014-1030 . 本站查看
29.	马泽宇，叶宁，徐康，王甦，王汝传. 基于FMCW雷达和ResNeSt-GRU的行为识别方法. 计算机与现代化. 2023(11): 101-107+112 . 百度学术
30.	赵举，郑建立. 基于多传感器和Bi-LSTM的个性化跌倒检测研究. 智能计算机与应用. 2022(04): 146-150+158 . 百度学术
31.	夏燕超，王彦，郭灵. 用于人体姿态检测的微波雷达研制. 南华大学学报(自然科学版). 2022(02): 49-56 . 百度学术
32.	方震，简璞，张浩，姚奕成，耿芳琳，刘畅宇，闫百驹，王鹏，杜利东，陈贤祥. 基于FMCW雷达的非接触式医疗健康监测技术综述. 雷达学报. 2022(03): 499-516 . 本站查看
33.	翟靖宇，陈金立. 基于LSTM-Attention的毫米波雷达行人轨迹预测方法. 中国电子科学研究院学报. 2022(06): 534-541 . 百度学术
34.	杨洲，李洋，段洁利，徐兴，余家祥，申东英，袁浩天. 基于毫米波雷达的果园单木冠层信息提取. 农业工程学报. 2021(21): 173-182 . 百度学术