A Non-myopic and Fast Resource Scheduling Algorithm for Multi-target Tracking of Space-based Radar Considering Optimal Integrated Performance
-
摘要: 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。
-
关键词:
- 天基雷达 /
- 资源调度 /
- 多目标跟踪 /
- 部分可观测的马尔可夫决策过程 /
- 蒙特卡罗树搜索(MCTS)
Abstract: Appropriate and effective resource scheduling is the key to achieving the best performance for a space-based radar. Considering the resource scheduling problem of multi-target tracking in a space-based radar system, we establish a cost function that considers target threat, tracking accuracy, and Low Probability of Interception (LPI). Considering target uncertainty and constraints of the space-based platform and long-term expected cost, we establish a resource scheduling model based on the Partially Observable Markov Decision Process (POMDP) with multiple constraints. To transform and decompose the resource scheduling problem of multi-target tracking with multiple constraints into multiple unconstrained sub-problems, we use the Lagrangian relaxation method. To deal with the curse of dimensionality caused by the continuous state space, continuous action space and continuous observation space, we use the online POMDP algorithm based on the Monte Carlo Tree Search (MCTS) and partially observable Monte Carlo planning with observation widening algorithm. Finally, a non-myopic and fast resource scheduling algorithm with comprehensive performance indices for multi-target tracking in a space-based radar system is proposed. Simulation results show that the proposed algorithm, when compared with the existing scheduling algorithms, allocates resources more appropriately and shows better performance. -
1. 引言
森林高度是估算森林蓄积量及生物量的重要基础数据,对于研究森林资源状况以及分析全球生态环境、气候变化具有重要意义。极化合成孔径雷达干涉测量技术(Polarimetric SAR Interferometry, PolInSAR)采用微波监测模式,其回波信号不仅记录垂直结构及其属性信息,且可以区分同一分辨单元内不同散射体高度的能力,已被视为大范围、高分辨率、高精度反演森林高度的有效手段之一[1]。
为了实现利用PolInSAR观测量准确地提取森林高度,Thrauhft等人[2]建立了随机地体二层散射模型(Random Volume over Ground, RVoG),该模型将森林散射场景抽象为两层,即由随机均匀分布的散射体组成的植被层,以及微波信号不可穿透的地表层。随后,Papathanassiou等人[3,4]进一步分析PolInSAR复相干性与RVoG模型的关联,建立了利用PolInSAR反演森林高度的框架。实质上,该框架是基于体散射去相干的模型表达来反演森林高度等参数的,并且利用不同PolInSAR数据都获得了较高的反演精度[5-7]。
由于森林场景具有显著的时变性,具有长时间间隔的星载重轨干涉SAR(如ALOS-1至少为46天,ALOS-2为14天)散射场景内介电常数变化(如降雨)和风动都会产生严重的时间去相干。因此,除了体去相干的影响,时间去相干也是星载重轨极化干涉SAR数据中不可忽略的去相干因素,决定了森林参数反演的精度,甚至是反演成败的关键。为此,Yang等人[8]在随机移动散射模型(Random Motion over Ground, RMoG)[9]和体时去相干散射模型 (Volume Temporal Decorrelation, VTD)模型[10]基础上,提出一种时间去相干半经验森林高度反演方法。该方法结合少量机载LiDAR森林高度数据辅助时间去相干半经验模型解算,利用ALOS-1 PARSAR-1 HV极化相干幅度成功实现了大尺度森林高度反演。
然而,该方法需假设HV极化不包含地表散射回波能量贡献,事实上,L波段SAR信号具有较强的穿透性,尤其当森林高度较低或密度较小时,HV极化方式会记录显著地表回波信号。此外,该方法只适用于单基线干涉数据,尚未考虑多基线条件下,如何充分利用观测几何的多样性提升反演结果的可靠性。因此本文的目的是针对上述反演方法的限制,利用ALOS-2 PARSAR-2多基线PolInSAR数据更为准确地提取森林高度。主要思路如下:首先利用相干最大分离算法(Maximum Coherence Difference, MCD)在极化空间内寻求具有最少地面散射能量贡献的极化方式,以获得更为纯净的森林冠层散射贡献。然后利用该极化方式的相干幅度,在少量森林高度地面调查数据辅助下基于时间去相干半经验模型进行森林高度反演。在此基础之上,结合多基线数据根据PolInSAR相干集在复数平面内的几何表达,甄选最优观测干涉数据的反演结果作为森林高度反演最终结果。
2. 多基线PolInSAR森林高度反演策略
2.1 时间去相干半经验模型
综合顾及垂直方向上散射体分布产生的体去相干、散射场景内介电特性改变和植被风动引起的时间去相干同时占主导地位,星载重轨PolInSAR复相干系数一般形式表示为[8]
γ(ω)=eiφ0⋅γvd⋅γv/m+γgd⋅μ(ω)1+μ(ω) (1) 式中,
φ0 为地表相位;γvd 和γgd 分别表示植被体层和地面层介电特性改变引起的时间去相干复因子;μ(ω) 为地体幅度比,与极化方式有关;γv/m 为体散射去相干和时间去相干(植被风动引起)产生的耦合去相干γv/m=∫h0exp[−12(4πλ)2σ2r(z)]⋅f(z)⋅exp(ikzz)dz∫h0f(z)dz (2) 其中,
h 表示森林高度;f(z) 为指数形式的垂直结构函数,描述垂直方向z 上散射体的分布;σr(z) 为散射体沿雷达视线方向的随机运动标准差,假定与森林高度呈线性关系σr(z)=σrhrz (3) 式中,
σr 表示在参考高度hr (根据先验信息一般设为15 m[8,9])处的运动标准差。为了解决上述模型过参数化问题,Yang等人[8]对散射场景做如下假设:(1) 散射场景内时间去相干与消光系数在空间上具有一致性;(2) HV极化方式具有较小地面散射能量贡献,可假定其地体幅度比
μmin=0 ,此时对于该极化方式可忽略地面层介电常数改变引起的时间去相干;(3) 假定干涉场景为零空间基线理想情况(忽略森林垂直结构引起的体散射去相干),即垂直有效波束kz=0 ,此时对于式(2)适用积分第一中值定理(即对于在给定区间[a,b] 有连续函数f(x) 和同号可积函数g(x) ,区间内存在一点ε 满足∫baf(x)g(x)dx=f(ε)∫bag(x)dx 。因此在上述假定条件下,式(1)可简化为时间去相干半经验模型[8,11]γ=Sscene⋅exp[−12(4πσrαλhr)2h2]≈Sscene⋅sinc(hCscene) (4) 其中,
α 为中值ε 关于森林高度的比例因子,即ε=αh (0≤α≤1 );Sscene ,Cscene 分别与植被体层介电特性改变和风动引起的时间去相干有关Sscene=|γvd|; Cscene=λhr2π2σrα (5) 2.2 MCD相干优化算法
已有方法主要选用对森林冠层较为敏感的HV极化方式进行模型求解,但是ALOS-2 PALSAR-2发射具有较强穿透能力的L波段电磁波,HV极化方式回波信号中同样会记录显著地表回波信号。鉴于此,本文利用ALOS-2 PALSAR-2全极化数据结合极化相干最优理论,尽可能抑制地表回波信号的干扰。具体方法如下:
在主辅极化SAR影像散射机制相同的情况下,极化干涉SAR的复相干系数表示为[12]
γ=⟨ωHΩ12ω⟩√⟨ωHT11ω⟩⟨ωHT22ω⟩ (6) 式中,自相关矩阵
T11 和T22 都是标准Hermitian相干矩阵,分别描述主辅影像的极化特性,Ω12 为互相关矩阵,不仅包含极化信息,还包含了主副影像不同极化通道间的干涉相位关系。ω 为归一化复投影矢量,通过转换ω 可以计算极化空间内任意极化基下对应散射机制的复相干系数,组成相干集。该复相干系数集合形成的区域边界范围可以看作将相干复平面旋转任意角度,得到的实部最大和最小相干系数[13]Re(γeiϕ)=ωHAωωHTωA=eiϕΩ12+e−iϕΩH122,T=T11+T222} (7) 式中,
ϕ 为旋转相位,在[0,π) 范围内等间隔采样角度。式(7)求极值可以转化为求解特征值问题即Aω=λTω ,进而得到最大和最小特征值分别对应的特征向量ω1 和ω2 ,那么相干区域的一对边界点可以表示为[14]γ1=ωH1Ω12ω1ωH1Tω1, γ2=ωH2Ω12ω2ωH2Tω2 (8) 相比传统InSAR技术只能获取HH, HV或VV极化方式对应的复相干系数,相干集中包含了特定极化散射机理对应的复相干系数,为寻求极化空间内具有更为纯净森林冠层散射贡献的极化方式提供了可能。相干区域范围示意如图1所示,其中在相干区域成对边界点中距离最远的一对相干系数点
γA ,γB (也就是相干区域长轴两端点),可以表征植被层和地表层有效相位中心的最大分离[15]。根据式(9)进一步确定体散射占优极化方式复相干γ(μmin) 与地表散射占优极化方式的复相干γ(μmax) kz>0:ifarg(γAγ∗B)>0thenγ(μmin)=γA,γ(μmax)=γBifarg(γAγ∗B)<0thenγ(μmin)=γB,γ(μmax)=γAkz<0:ifarg(γAγ∗B)<0thenγ(μmin)=γA,γ(μmax)=γBifarg(γAγ∗B)>0thenγ(μmin)=γB,γ(μmax)=γA} (9) 其中,
μmin 表示具有最小地体幅度比的极化方式,对应体散射占优极化方式复相干;μmax 表示具有最大地体幅度比的极化方式,对应表面散射占优极化方式复相干;kz 为垂直有效波束,取决于成像相对几何关系(垂直基线B⊥ ,斜距R ,入射角θ 和雷达波长λ )[16]kz=4πB⊥λRsinθ (10) 2.3 森林高度反演方法
即便简化了模型参数和采用多基线PolInSAR数据增加了观测量,利用传统多维非线性迭代求解时间去相干半经验模型仍存在秩亏问题。因此本文采用一种外部数据辅助反演法[8],即先利用小范围真实森林高度数据辅助解算出模型参数
Sscene 和Cscene ,然后代入模型中即可得到整个散射场景范围的森林高度结果。模型参数求解具体思路如下:对于给定模型参数初始值,利用训练数据中的μmin 极化方式相干幅度结合式(4)可以得到反演森林高度结果hinvert ,它与对应真实森林高度数据hreal 确定的散点图如图2所示。理想情况下,两者数据散点应沿虚线y=x 分布,但实际上在初始模型参数误差存在情况下,两者散点点阵椭圆主轴与y=x 并非一致,而是存在一定的偏差。因此通过利用训练数据对其调整来寻求散射场景最佳模型参数。主成分分析思想[17]为实现上述思路提供了契机,即通过对训练数据中
hreal 与hinvert 这两个二维数据的协方差矩阵进行特征值分解,可以确定该二维数据降维后的主轴(也就是散点点阵椭圆的长轴)斜率k X=[Var(hreal)Cov(hreal,hinvert)Cov(hinvert,hreal)Var(hinvert)]=[P11P12P21P22][λ100λ2][P11P12P21P22]−1k=P21P11} (11) 其中
λ1 和λ2 为按降序排列的特征值,P 为特征值对应的特征向量的元素。而点阵椭圆质心与虚线y=x 的偏差b 可以表示为b=M(hreal)−M(hinvert)[M(hreal)+M(hinvert)]/2 (12) 式中,M 表示取平均运算。
散点点阵椭圆主轴确定后,显然可以通过建立使逼近参数
k ,b 分别趋近于1, 0的目标函数(k−1)2+(b−0)2=min (13) 该目标函数可以利用高斯-牛顿迭代算法进行非线性最小二乘求解,如式(14)所示
[S∗sceneC∗scene]=(JT0J0)−1JT0[1−k00−b0]+[Sscene0Cscene0] (14) 式中,
∗ 表示最终迭代次数;通过给定模型参数初始值Sscene0 ,Cscene0 ,结合上述主成分思想可以得到初始点相应的k0 ,b0 以及雅克比矩阵J0 J0=[∂k∂Sscene∂k∂Cscene∂b∂Sscene∂b∂Cscene]|Sscene0Cscene0 (15) 然后将得到修正后的模型参数作为新的初始点进行下一次迭代,经过多次迭代后即可获得最佳模型参数
S∗scene ,C∗scene ,迭代终止条件为(ε 为经验阈值,本文设为10−6 )|[S∗sceneC∗scene]−[S(∗−1)sceneC(∗−1)scene]|<ε (16) 在利用训练数据求得时间去相干半经验模型参数后,对每个像元求解一元非线性方程得到整个散射场景内的森林高度结果。
2.4 多基线融合策略
时间去相干、体去相干以及其他噪声等因素会共同影响PolInSAR复相干性在复平面单位圆上的几何表达[18]。在多基线配置下,不同干涉对在同一分辨单元内往往呈现出不同的相干区域结构(如图1所示)。而相干特性
P 可以作为评价相干区域结构的指标[19]P=|γ(μmin)−γ(μmax)||γ(μmin)+γ(μmax)| (17) 式中,
γ(μmin) ,γ(μmax) 为2.2节所述相干区域长轴的两端点,分别对应体散射极化通道与地表散射极化通道的复相干系数。|γ(μmin)−γ(μmax)| 即为极化相干区域的长轴,反映了不同极化相干点在复数单位圆的分离程度;|γ(μmin)+γ(μmax)| 为相干区域质心到坐标原点距离的2倍,反映了相干区域整体相干性的平均水平。因此,P 值越大说明该干涉对具有更好的相干性质量与极化分离度,反演的结果更为可靠。通过相干特性指标P 甄选出不同干涉对在同一分辨单元内反演出的最优森林高度值作为多基线PolInSAR森林高度融合结果,多基线PolInSAR融合反演框架可表示为
max‖P1(γ1(μmin),γ1(μmax))P2(γ2(μmin),γ2(μmax))⋮PN(γN(μmin),γN(μmax))‖ (18) 式中,N 为极化干涉SAR观测基线数。
3. 实验与分析
3.1 实验区及数据分析
研究区域黄丰桥国有林场(27°
05′ —27°24′ N, 113°35′ —113°55′ E)呈带状分布,横跨湖南省攸县东西两部(如图3所示)。该林场属亚热带季风湿润性气候区,年平均气温17.8 °C,年降水量1410.8 mm,大部分降雨发生于春、夏季。林场境内森林茂盛,拥有森林蓄积量90.12×104 m3,森林覆盖率达90%。林分类型以针叶林为主,包括杉木、油松、落叶松等。地面实测数据由中南林业科技大学于2016年6~7月采集得到,通过在林区范围内选取60个相互独立的林分样地以确保避免空间自相关,每个林分样地规格为30×30 m。树高则基于单木测高原理利用激光测高仪测得,林分高度范围为4.60~20.20 m,平均高度为13.24 m。本文通过随机采样,将60个林分样地数据随机分为45个训练数据(图3黄点所示)和15个验证数据(图3红点所示)两组。
多基线星载重轨PolInSAR数据是利用日本宇航局(JAXA)提供的5景覆盖研究区域的ALOS-2 PALSAR-2 L波段全极化数据。该SAR影像范围如图3蓝色虚线所示,获取时间为2016年6月至8月,获取模式为StripMap2(SM2),影像主要参数信息如表1所示。将5景SAR影像组成3个时间基线为14天的干涉影像对(BL1, BL2, BL3),然后各自进行配准处理,并进行公共带通滤波以确保去除几何去相干。相干性以11×11窗口进行估计,并应用Boxcar滤波进行平滑处理以消除斑点效应。最后利用SRTM DEM对SAR影像进行地理编码,并将其重采样至与DEM空间分辨率一致(30×30 m)。图4为3个干涉对的HV极化和
μmin 极化的相干性统计图,由统计图可见不同干涉对的相干性均较低,说明研究区域受时间去相干影响较为严重。表 1 ALOS-2 PALSAR-2参数信息Table 1. Parameter information of ALOS-2 PALSAR-2日期(2016年) 垂直有效波数(rad/m) 时间基线(天) 距离向/方位向分辨率(m) 中心入射角 (°) 极化方式 0616—0630 (BL1) 0.013~0.015 0630—0714 (BL2) 0.010~0.011 14 2.86/2.97 38.99 Full 0811—0825 (BL3) 0.009~0.010 3.2 实验结果与分析
以选取的15个验证林分的实测森林高度(H-field)对反演结果(H-invert)进行分析评价,图5为3个干涉对利用HV极化反演得到的散点图结果,均方根误差RMSE分别为:4.20 m, 4.03 m和3.42 m。利用
μmin 极化方式反演的验证结果如图6所示,3个干涉对的反演精度分别提高了:20%, 17%和12%,除此之外,相关系数R2 也分别有所提高。分析认为采用全极化数据结合PolInSAR相干优化算法扩展了极化空间,相比已有方法中选用的HV极化,μmin 极化含有更少地表散射贡献,更贴近时间去相干半经验模型推导过程中基于“零”地体幅度比的关键假设。从上述单基线森林高度反演结果看,不同干涉对反演整体精度较为接近,但是对于同一林分在利用不同干涉对反演的结果却存在明显差异。因此,当多基线数据可用时,我们进一步在单基线PolInSAR森林高度反演结果的基础上挖掘PolInSAR数据本身特性并对其森林高度反演能力进行评判。与时间去相干相关的参数
Sscene 和Cscene 共同反映了散射场景内的时间去相干影响水平,其中Sscene 与植被体层介电特性变化相关,Cscene 反映了植被体层随机运动引起时间去相关水平。表2即为单基线PolInSAR模型参数解算结果,对于不同干涉对,Sscene 越小,表明该基线在散射场景内植被体层介电变化(降水等引起)越显著;Cscene 越小,则表明植被体层随机运动(风动等引起)越强烈。从图4相干性统计图也可以看出,干涉对BL1相干性相对更低,受时间去相干的影响更为严重。因此,在不同时间去相干以及其他噪声影响下,每个干涉对在同一分辨单元内会具有不同的的相干特性,呈现出优劣不同的相干区域结构。表 2 单基线PolInSAR模型参数解算结果Table 2. Model parameter results of single baseline PolInSAR inversion模型参数 BL1 BL2 BL3 Sscene 0.69 0.78 0.78 Cscene 9.88 10.08 11.14 3个干涉对在验证林分的相干特性P值、反演森林高度值以及多基线融合森林高度值如表3所示,从整体看,根据相干特性P值大小从3个单基线PolInSAR反演结果中甄选出的森林高度结果更接近于实测真实森林高度。整个实验区的多基线PolInSAR融合反演结果以及精度评定如图7所示,均方根误差RMSE为2.05 m,相比于已有的方法,本文提出的多基线PolInSAR融合反演策略精度至少提高了40%(与图5中BL3基线结果对比),同时,相关系数也提升至0.81。
表 3 3个干涉对的相干特性P值以及森林高度值Table 3. Coherence characteristic P-value and forest heights for three interferometric pairs林分样地编号 BL1 P值 / 森林高度(m) BL2 P值 / 森林高度(m) BL3 P值 / 森林高度(m) 多基线融合结果(m) 实测森林高度(m) 1 0.130 / 17.82 0.113 / 17.02 0.081 / 16.89 17.82 14.43 2 0.116 / 14.38 0.104 / 15.30 0.091 / 16.52 14.38 14.20 3 0.092 / 12.46 0.075 / 15.83 0.135 / 11.34 11.34 9.80 4 0.103 / 15.21 0.111 / 15.34 0.119 / 14.19 14.19 16.00 5 0.106 / 6.86 0.106 / 7.24 0.131 / 8.31 8.31 10.70 6 0.110 / 12.98 0.083 / 14.67 0.118 / 11.89 11.89 13.50 7 0.114 / 13.35 0.096 / 15.30 0.101 / 16.10 13.35 13.43 8 0.079 / 14.29 0.106 / 16.15 0.117 / 16.22 16.22 16.95 9 0.069 / 12.12 0.090 / 17.63 0.060 / 12.30 17.63 20.10 10 0.104 / 12.33 0.089 / 13.67 0.102 / 11.72 12.33 15.60 11 0.075 / 18.34 0.103 / 16.75 0.154 / 10.16 10.16 13.30 12 0.113 / 9.08 0.134 / 9.46 0.106 / 12.69 9.46 11.00 13 0.086 / 13.76 0.096 / 9.07 0.109 / 16.00 16.00 16.40 14 0.197 / 10.17 0.230 / 8.71 0.186 / 9.51 8.71 6.00 15 0.103 / 14.59 0.064 / 19.17 0.128 / 15.40 15.40 14.70 4. 结束语
在多基线全极化数据可用条件下,弥补单基线InSAR观测信息不足以及几何结构单一的问题,对于反演结果整体精度提升具有重要作用。本文提出了一种星载重轨多基线PolInSAR反演森林高度的策略,对InSAR极化空间和观测几何空间进行扩展,主要结论如下:
(1) 该方法利用MCD相干优化算法获得对体散射最为敏感的极化方式,并基于时间去相干半经验模型进行森林高度反演,使每条单基线反演精度在一定程度上都有所提高。
(2) 利用由相干特性指标P确定的相干区域最优准则可以优选出同一分辨单元内最优的单基线森林高度反演结果。因此,相比仅利用单基线单一极化反演方法,多基线PolInSAR融合策略具有更好的稳定性,精度也更高。
-
1 POMCPOW算法
1. POMCPOW algorithm
Input:信念状态b1,搜索深度d,拉格朗日算子向量{\boldsymbol{\varLambda}}^e ,模拟
次数\varGamma ,动作空间{\mathcal{A}}Output:最优策略{\boldsymbol{\pi}}^e 1: for l=1:{\mathcal{L}} do 2: for n=1:\varGamma do 3: x\leftarrow 从bl中采样 4: SIMULATE(x,\hbar ,{\boldsymbol{\lambda}}_l^e ,d) 5: end for 6: {\boldsymbol{a}}_l^e \leftarrow \mathop {\arg \min }\limits_{{\boldsymbol{a}}_l} {\mathcal{Q}}({\boldsymbol{b}}_l,{\boldsymbol{a}}_l) 7: 预测u步得到下一调度时刻的信念状态bl+1 8: end for 9: return {\boldsymbol{\pi}}^e=[{\boldsymbol{a}}_1^e\;{\boldsymbol{a}}_2^e\;\cdots\;{\boldsymbol{a}}_{\mathcal{L}}^e] 10: procedure SIMULATE ({\boldsymbol{x}},\hbar,{\boldsymbol{\lambda}},d ) 11: if d=0 then 12: return 0 13: end if 14: if |{\mathcal{C}}(\hbar)| \le \delta_{\boldsymbol{a}} N(\hbar)^{\alpha_{\boldsymbol{a}}} then 15: {\boldsymbol{a}} \leftarrow NEXTACTION(\hbar) 16: {\mathcal{C}}(\hbar) \leftarrow {\mathcal{C}}(\hbar) \cup \{{\boldsymbol{a}}\} 17: end if
18: {\boldsymbol{a}}\leftarrow \mathop {\arg \min }\limits_{{\boldsymbol{a}}\in{\mathcal{C}}(\hbar) } {\mathcal{Q}}(\hbar {\boldsymbol{a}}) -\mu \sqrt{\dfrac{\log N(\hbar )}{N(\hbar {\boldsymbol{a}})}}19: {\boldsymbol{x}}',{\boldsymbol{y}},\;C \leftarrow {\mathcal{G}}({\boldsymbol{x}},{\boldsymbol{a}},{\boldsymbol{\lambda}}) 20: if |{\mathcal{C}}(\hbar {\boldsymbol{a}})|\le\delta_{\boldsymbol{y}} N(\hbar {\boldsymbol{a}})^{\alpha_{\boldsymbol{y}}} then 21: M(\hbar {\boldsymbol{ay}}) \leftarrow M( \hbar {\boldsymbol{ay}})+1 22: else
23: 选择{\boldsymbol{y}}\in {\mathcal{C}}(\hbar {\boldsymbol{a}}){\mathrm{w.p}}.\dfrac{M(\hbar {\boldsymbol{ay}})}{\displaystyle\sum\nolimits_{\boldsymbol{y}} M(\hbar {\boldsymbol{ay}})}24: end if 25: 增加{\boldsymbol{x}}' 至 X(\hbar {\boldsymbol{ay}}) 26: 增加{\mathrm{Pr}}({\boldsymbol{y}}|{\boldsymbol{x}}',{\boldsymbol{a}}) 至W(\hbar {\boldsymbol{ay}}) 27: if {\boldsymbol{y}}\notin {\mathcal{C}}(\hbar {\boldsymbol{a}}) then 28: {\mathcal{C}}(\hbar {\boldsymbol{a}}) \leftarrow {\mathcal{C}}(\hbar {\boldsymbol{a}}) \cup \{{\boldsymbol{y}}\} 29: C_{\mathrm{total}} \leftarrow {\mathrm{ROLLOUT}} ({\boldsymbol{x}},\hbar,{\boldsymbol{\lambda}},d) 30: else
31: 选择{\boldsymbol{x}}'\in X(\hbar {\boldsymbol{ay}}) {\mathrm{w.p.}}\dfrac{W(\hbar {\boldsymbol{ay}}[i])}{\displaystyle\sum\nolimits_{j=1}^mW(\hbar {\boldsymbol{ay}})[j]}32: C \leftarrow \varLambda ({\boldsymbol{x}},{\boldsymbol{a}}) 33: C_{\mathrm{total}} \leftarrow C +\gamma{\mathrm{SIMULATE}}({\boldsymbol{x}},\hbar {\boldsymbol{ay}}, {\boldsymbol{\lambda}}, d-1) 34: end if 35: N (\hbar) \leftarrow N (\hbar)+1 36: N (\hbar {\boldsymbol{a}}) \leftarrow N (\hbar {\boldsymbol{a}})+1
37: {\mathcal{Q}} (\hbar {\boldsymbol{a}}) \leftarrow {\mathcal{Q}} (\hbar {\boldsymbol{a}})+ \dfrac{C_{\mathrm{total}}-{\mathcal{Q}}(\hbar {\boldsymbol{a}})}{N(\hbar {\boldsymbol{a}}) }38: end procedure 2 Rollout算法
2. Rollout algorithm
1: procedure ROLLOUT({\boldsymbol{x}},\hbar,{\boldsymbol{\lambda}},d) 2: if d=0 then 3: return 0 4: end if 5: {\boldsymbol{a}} \leftarrow{\boldsymbol{\pi}}_{\mathrm{rollout}} (\hbar,\cdot) 6: {\boldsymbol{x}}',{\boldsymbol{y}},C \leftarrow {\mathcal{G}}({\boldsymbol{x}},{\boldsymbol{a}},{\boldsymbol{\lambda}}) 7: return C+\gamma {\mathrm{ROLLOUT}}({\boldsymbol{x}}', \hbar {\boldsymbol{ay}},{\boldsymbol{\lambda}}, d-1) 8: end procedure 3 基于LR-POMCPOW的天基雷达多目标跟踪资源调度算法
3. LR-POMCPOW-based resource scheduling algorithm for multi-target tracking of space-based radar
Input: 动作空间{\mathcal{A}} ,初始信念状态B1,最大迭代次数em,初始迭代步长\gamma_{\mathrm{LR}} ,模拟次数\varGamma ,搜索深度d Output:最优策略{\boldsymbol{\pi}}^* ,最优累积多目标总代价值V*(B1) 1:调度次数\kappa=1 2:while \kappa\le K do 3: 迭代次数e=0,拉格朗日乘子向量初始值设定为{\boldsymbol{\varLambda}}^0=[{\boldsymbol{\lambda}}_1^0\; {\boldsymbol{\lambda}}_2^0\;\cdots\;{\boldsymbol{\lambda}}_{\mathcal{L}}^0] ^{\mathrm{T}} 4: while e ≤em do 5: for i=1:{\mathcal{I}} do 6: 给定信念状态{\boldsymbol{b}}_{i,\kappa} ,搜索深度d,拉格朗日算子向量{\boldsymbol{\varLambda}}^e ,模拟次数 \varGamma,动作空间{\mathcal{A}} ,转至算法1进行求解,得到目标i的最优策略
{\boldsymbol{\pi}}^e_i=[{\boldsymbol{a}}_{i,1}^e\;{\boldsymbol{a}}_{i,2}^e\;\cdots\; {\boldsymbol{a}}_{i,{\mathcal{L}}}^e]7: end for 8: 分别计算次梯度\varsigma_{1,l}=\displaystyle\sum\nolimits_{i=1}^{\mathcal{I}} p_{{\mathrm{av}},i,l}-E/ \mathfrak{U}, \varsigma_{2,l} =\displaystyle\sum\nolimits_{i=1}^{\mathcal{I}} \tau_{i,l}/T-\eta ,\forall l,1\le l \le {\mathcal{L}} 9: 对于\forall l,1\le l \le {\mathcal{L}} ,\varsigma_{1,l} , \varsigma_{2,l} 等于0或小于给定误差阈值\varepsilon ,则迭代结束,并保存对应的策略\bar{\boldsymbol{\pi}} =[{\boldsymbol{\pi}}_1^*\;{\boldsymbol{\pi}}_2^*\;\cdots\; {\boldsymbol{\pi}}_{\mathcal{I}} ^*]^{\mathrm{T}},转至步骤13 10: 更新拉格朗日乘子向量{\boldsymbol{\varLambda}} ^e,令\lambda_{1,l}^{e+1}=\max\{ 0, \lambda_{1,l}^e + \gamma_{\mathrm{LR}}\cdot \varsigma_{1,l} \} , \lambda_{2,l}^{e+1}= \max\{ 0, \lambda_{2,l}^e + \gamma_{\mathrm{LR}}\cdot \varsigma_{2,l} \}, \forall l, 1\le l \le {\mathcal{L}} 11: 令e=e+1,返回至步骤4 12: end while
13: 选取本次调度各目标策略的首个动作,构成动作向量\bar {\boldsymbol{\pi}}_\kappa=[{\boldsymbol{a}}_{1,1}^*\;{\boldsymbol{a}}_{2,1}^*\;\cdots\;{\boldsymbol{a}}_{{\mathcal{I}},1}^*] ^{\mathrm{T}}14: 当\kappa 大于K时结束迭代,利用PEKF-VB算法执行完剩余更新步,并转至步骤20 15: for i=1:{\mathcal{I}} do 16: 利用PEKF-VB算法执行u步更新,得到信念状态{\boldsymbol{b}}_{i,\kappa+1} 17: end for 18: 令\kappa=\kappa+1 19:end while 20:根据最优策略\bar{\boldsymbol{\pi}}^*=[\bar {\boldsymbol{\pi}}_1\;\bar {\boldsymbol{\pi}}_2\;\cdots\; \bar {\boldsymbol{\pi}}_K] 计算式(17)的最优累积多目标总代价值V*(B1) 表 1 仿真基本参数设置
Table 1. Basic parameter settings of simulation
参数 数值 搜索深度d 6 模拟次数\varGamma 600 状态粒子数Nparticles 600 折扣因子\gamma 1 脉冲宽度\nu 1 μs 第l次调度时初始拉格朗日算子{{\lambda}}_l^0 [50, 50] LR最大迭代次数em 50 LR初始迭代步长\gamma_{\mathrm{LR}} 20 LR误差阈值\varepsilon 0.01 最大时间预算比\eta 0.5 轨道6根数1 [7400 km, 0, 0.61 rad, 0 rad,
0 rad, 0.84 rad]格林尼治恒星时角(GHA) 4.98 rad 窗口起始时间tstart (UTCG) 4 May 2023 04:14:43.000 窗口结束时间tend (UTCG) 4 May 2023 04:19:42.000 1轨道高度指圆形轨道下的半长袖,即地心与天基雷达卫星之间的距离。 表 2 场景1初始时刻目标相关参数
Table 2. Parameters related to target initialization of scenario 1
区域内目标 初始位置(km) 初始速度(km/s) \sigma \;({\mathrm{m}}^2) r (km) \tau\;({\mathrm{s}}) pav (W) 参考目标 — — 11 1250.00 0.20 1×104 目标1 [–3563.04,4533.712,2741.618] [0.008,0.109,–0.168] 14 1570.05 0.20 1×104 目标2 [–3728.76,4427.435,2695.038] [–0.123,–0.126,0.037] 15 1572.54 0.20 1×104 我方飞机 [–3560.39,4547.62,2722.091] [–0.164,–0.110,–0.031] — — — — 表 3 场景2初始时刻目标相关参数
Table 3. Parameters related to target initialization of scenario 2
区域内目标 初始位置(km) 初始速度(km/s) \sigma \;({\mathrm{m}}^2) r (km) \tau\;({\mathrm{s}}) pav (W) 参考目标 — — 11 900.00 0.20 1×104 目标1 [–3579.26,4512.89,2754.72] [0.139,0.115,–0.008] 10 750.44 0.25 1×104 目标2 [–3596.33,4574.503,2628.813] [–0.055,0.051,–0.164] 15 1413.93 0.25 1×104 表 4 场景3初始时刻目标相关参数
Table 4. Parameters related to target initialization of scenario 3
区域内目标 初始位置(km) 初始速度(km/s) \sigma\;({\mathrm{m}}^2) r (km) \tau\;({\mathrm{s}}) pav (W) 参考目标 — — 11 1300.00 0.20 1.00×104 目标1 [–2924.49,5193.69,2294.53] [0.201,0.111,0.008] 10 1325.83 0.15 1.42×104 目标2 [–3192.74,5100.13,2155.14] [0.173,0.098,0.025] 15 1559.51 0.12 1.60×104 目标3 [–2947.68,5222.76,2197.083] [0.137,0.102,–0.057] 15 1353.37 0.20 1.10×104 目标4 [–3109.56,5044.01,2392.48] [0.028,0.081,–0.135] 12 1480.35 0.23 1.50×104 我方舰船 [–2992.27,5162.81,2244.70] [0.010,0.009,–0.007] — — — — 表 5 各算法超参数
Table 5. Algorithm hyperparameters
比较的算法 \mu \delta_{\boldsymbol{a}} \alpha_{\boldsymbol{a}} \delta_{\boldsymbol{y}} \alpha_{\boldsymbol{y}} Mr POMCPOW 100 35 1/100 8 1/120 — POMCPDPW 30 3 1/30 5 1/55 — POMCP 70 — — — — — Rollout — — — — — 30 -
[1] XIE Mingchi, YI Wei, KIRUBARAJAN T, et al. Joint node selection and power allocation strategy for multitarget tracking in decentralized radar networks[J]. IEEE Transactions on Signal Processing, 2018, 66(3): 729–743. doi: 10.1109/TSP.2017.2777394 [2] DAI Jinhui, YAN Junkun, WANG Penghui, et al. Optimal resource allocation for multiple target tracking in phased array radar network[C]. 2019 International Conference on Control, Automation and Information Sciences (ICCAIS), Chengdu, China, 2019: 1–4. [3] SUN Jun, LU Xiujuan, YUAN Ye, et al. Resource allocation for multi-target tracking in multi-static radar systems with imperfect detection performance[C]. 2020 IEEE Radar Conference (RadarConf20), Florence, Italy, 2020: 1–6. [4] ZHANG Haowei, LIU Weijian, ZONG Binfeng, et al. An efficient power allocation strategy for maneuvering target tracking in cognitive MIMO radar[J]. IEEE Transactions on Signal Processing, 2021, 69: 1591–1602. doi: 10.1109/TSP.2020.3047227 [5] LU Xiujuan, YI Wei, and KONG Lingjiang. Joint online route planning and resource optimization for multitarget tracking in airborne radar systems[J]. IEEE Systems Journal, 2022, 16(3): 4198–4209. doi: 10.1109/JSYST.2021.3116020 [6] SHI Chenguang, ZHOU Jianjiang, and WANG Fei. Adaptive resource management algorithm for target tracking in radar network based on low probability of intercept[J]. Multidimensional Systems and Signal Processing, 2018, 29(4): 1203–1226. doi: 10.1007/s11045-017-0494-8 [7] SHI Chenguang, WANG Yijie, SALOUS S, et al. Joint transmit resource management and waveform selection strategy for target tracking in distributed phased array radar network[J]. IEEE Transactions on Aerospace and Electronic Systems, 2022, 58(4): 2762–2778. doi: 10.1109/TAES.2021.3138869 [8] CHHETRI A S, MORRELL D, and PAPANDREOU-SUPPAPPOLA A. Energy efficient target tracking in a sensor network using non-myopic sensor scheduling[C]. 2005 7th International Conference on Information Fusion, Philadelphia, USA, 2005: 558–565. [9] HERO A O and COCHRAN D. Sensor management: Past, present, and future[J]. IEEE Sensors Journal, 2011, 11(12): 3064–3075. doi: 10.1109/JSEN.2011.2167964 [10] FERRI G, MUNAFÒ A, GOLDHAHN R, et al. A non-myopic, receding horizon control strategy for an AUV to track an underwater target in a bistatic sonar scenario[C]. 53rd IEEE Conference on Decision and Control, Los Angeles, USA, 2014: 5352–5358. [11] JI Shihao, PARR R, and CARIN L. Nonmyopic multiaspect sensing with partially observable Markov decision processes[J]. IEEE Transactions on Signal Processing, 2007, 55(6): 2720–2730. doi: 10.1109/TSP.2007.893747 [12] KRISHNAMURTHY V and DJONIN D V. Optimal threshold policies for multivariate POMDPs in radar resource management[J]. IEEE Transactions on Signal Processing, 2009, 57(10): 3954–3969. doi: 10.1109/TSP.2009.2022915 [13] JIANG Xiaofeng, ZHOU Feng, JIAN Yang, et al. An optimal POMDP-based anti-jamming policy for cognitive radar[C]. 2017 13th IEEE Conference on Automation Science and Engineering (CASE), Xi’an, China, 2017: 938–943. [14] SHAN Ganlin, XU Gongguo, and QIAO Chenglin. A non-myopic scheduling method of radar sensors for maneuvering target tracking and radiation control[J]. Defence Technology, 2020, 16(1): 242–250. doi: 10.1016/j.dt.2019.10.001 [15] SCHÖPE M I, DRIESSEN H, and YAROVOY A. A constrained POMDP formulation and algorithmic solution for radar resource management in multi-target tracking[J]. ISIF Journal of Advances in Information Fusion, 2021, 16(1): 31–47. [16] HAWKINS J T. A Langrangian decomposition approach to weakly coupled dynamic optimization problems and its applications[D]. [Ph.D. dissertation], Massachusetts Institute of Technology, 2003. [17] CASTANON D A. Approximate dynamic programming for sensor management[C]. The 36th IEEE Conference on Decision and Control, San Diego, USA, 1997: 1202–1207. [18] LI Yuan, ZHU Huayong, and SHEN Lincheng. The Lagrangian relaxation based resources allocation methods for air-to-ground operations under uncertainty circumstances[C]. 2009 Chinese Control and Decision Conference, Guilin, China, 2009: 5609–5614. [19] KURNIAWATI H, HSU D, and LEE W S. SARSOP: Efficient Point-based POMDP Planning by Approximating Optimally Reachable Belief Spaces[M]. BROCK O, TRINKLE J, and RAMOS F. Robotics: Science and Systems. Cambridge: MIT Press, 2009: 1–8. [20] PINEAU J, GORDON G, and THRUN S. Point-based value iteration: An anytime algorithm for POMDPs[C]. The 18th International Joint Conference on Artificial Intelligence, Acapulco, Mexico, 2003: 1025–1030. [21] SPAAN M T J and VLASSIS N. Perseus: Randomized point-based value iteration for POMDPs[J]. Journal of Artificial Intelligence Research, 2005, 24: 195–220. doi: 10.1613/jair.1659 [22] SMITH T and SIMMONS R. Heuristic search value iteration for POMDPs[C]. The 20th Conference on Uncertainty in Artificial Intelligence, Banff, Canada, 2004: 520–527. [23] ROSS S, PINEAU J, PAQUET S, et al. Online planning algorithms for POMDPs[J]. Journal of Artificial Intelligence Research, 2008, 32: 663–704. doi: 10.1613/jair.2567 [24] SILVER D and VENESS J. Monte-Carlo planning in large POMDPs[C]. The 23rd International Conference on Neural Information Processing Systems, Vancouver, British, 2010: 2164–2172. [25] YE Nan, SOMANI A, HSU D, et al. DESPOT: Online POMDP planning with regularization[J]. Journal of Artificial Intelligence Research, 2017, 58: 231–266. doi: 10.1613/jair.5328 [26] KURNIAWATI H and YADAV V. An online POMDP Solver for Uncertainty Planning in Dynamic Environment[M]. INABA M and CORKE P. Robotics Research: The 16th International Symposium ISRR. Cham, Switzerland: Springer, 2016: 611–629. [27] SUNBERG Z and KOCHENDERFER M. Online algorithms for POMDPs with continuous state, action, and observation spaces[C]. The Thirty-Third International Conference on Automated Planning and Scheduling, Delft, The Netherlands, 2018: 259–263. [28] KERSHAW D J and EVANS R J. Optimal waveform selection for tracking systems[J]. IEEE Transactions on Information Theory, 1994, 40(5): 1536–1550. doi: 10.1109/18.333866 [29] SIRA S P, PAPANDREOU-SUPPAPPOLA A, and MORRELL D. Dynamic configuration of time-varying waveforms for agile sensing and tracking in clutter[J]. IEEE Transactions on Signal Processing, 2007, 55(7): 3207–3217. doi: 10.1109/TSP.2007.894418 [30] LI Xi, CHENG Ting, SU Yang, et al. Joint time-space resource allocation and waveform selection for the collocated MIMO radar in multiple targets tracking[J]. Signal Processing, 2020, 176: 107650. doi: 10.1016/j.sigpro.2020.107650 [31] KOCH W. Adaptive parameter control for phased-array tracking[C]. SPIE 3809, Signal and Data Processing of Small Targets 1999, Denver, USA, 1999: 444–455. [32] KATSILIERIS F, DRIESSEN H, and YAROVOY A. Threat-based sensor management for target tracking[J]. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(4): 2772–2785. doi: 10.1109/TAES.2015.140052 [33] HU Yumei, WANG Xuezhi, LAN Hua, et al. An iterative nonlinear filter using variational Bayesian optimization[J]. Sensors, 2018, 18(12): 4222. doi: 10.3390/s18124222 [34] 何子述, 程子扬, 李军, 等. 集中式MIMO雷达研究综述[J]. 雷达学报, 2022, 11(5): 805–829. doi: 10.12000/JR22128HE Zishu, CHENG Ziyang, LI Jun, et al. A survey of collocated MIMO radar[J]. Journal of Radars, 2022, 11(5): 805–829. doi: 10.12000/JR22128 [35] LIM M H, TOMLIN C J, and SUNBERG Z N. Sparse tree search optimality guarantees in POMDPs with continuous observation spaces[C]. Twenty-Ninth International Joint Conference on Artificial Intelligence, Yokohama, Japan, 2020: 1–16. [36] JI Shihao, PARR R, LI Hui, et al. Point-based policy iteration[C]. The Twenty-Second National Conference on Artificial Intelligence, Vancouver, British, 2007: 1243–1249. [37] SCHÖPE M I, DRIESSEN H, and YAROVOY A. Multi-task sensor resource balancing using Lagrangian relaxation and policy rollout[C]. 2020 IEEE 23rd International Conference on Information Fusion (FUSION), Rustenburg, South Africa, 2020: 1–8. 期刊类型引用(5)
1. 汪思源,曲毅,陈怡君. 基于U-Net的涡旋电磁波雷达成像方法. 空军工程大学学报. 2024(03): 77-85 . 百度学术
2. 潘浩然,马晖,胡敦法,刘宏伟. 基于涡旋电磁波新体制的雷达前视三维成像. 雷达学报. 2024(05): 1109-1122 . 本站查看
3. 毛德庆,杨建宇,杨明杰,张永超,张寅,黄钰林. IAA-Net:一种实孔径扫描雷达迭代自适应角超分辨成像方法. 雷达学报. 2024(05): 1073-1091 . 本站查看
4. 马晖,胡敦法,师竹雨,刘宏伟. 基于涡旋电磁波的雷达应用研究进展. 现代雷达. 2023(05): 27-41 . 百度学术
5. 袁航,罗迎,陈怡君,苏令华. 基于反正弦圆环天线阵列的二维成像. 北京航空航天大学学报. 2023(06): 1487-1494 . 百度学术
其他类型引用(10)
-