Loading [MathJax]/jax/output/SVG/jax.js

单通道超宽带雷达人体姿态增量估计技术

李柯蒙 戴永鹏 宋勇平 周小龙 宋永坤 金添

李柯蒙, 戴永鹏, 宋勇平, 等. 单通道超宽带雷达人体姿态增量估计技术[J]. 雷达学报(中英文), 2025, 14(1): 16–27. doi: 10.12000/JR24109
引用本文: 李柯蒙, 戴永鹏, 宋勇平, 等. 单通道超宽带雷达人体姿态增量估计技术[J]. 雷达学报(中英文), 2025, 14(1): 16–27. doi: 10.12000/JR24109
LI Kemeng, DAI Yongpeng, SONG Yongping, et al. Single-channel ultrawideband radar human pose-incremental estimation technology[J]. Journal of Radars, 2025, 14(1): 16–27. doi: 10.12000/JR24109
Citation: LI Kemeng, DAI Yongpeng, SONG Yongping, et al. Single-channel ultrawideband radar human pose-incremental estimation technology[J]. Journal of Radars, 2025, 14(1): 16–27. doi: 10.12000/JR24109

单通道超宽带雷达人体姿态增量估计技术

DOI: 10.12000/JR24109 CSTR: 32380.14.JR24109
基金项目: 国家自然科学基金(61971430)
详细信息
    作者简介:

    李柯蒙,博士生,主要研究方向为超宽带雷达人体姿态估计、机器学习与人工智能

    戴永鹏,博士,讲师,主要研究方向为MIMO阵列雷达成像与图像增强

    宋勇平,博士,讲师,主要研究方向为MIMO雷达成像、雷达目标检测和雷达抗干扰

    周小龙,博士生,主要研究方向为超宽带雷达人体姿态估计、机器学习与人工智能

    宋永坤,博士,讲师,主要研究方向为MIMO雷达成像、雷达信号处理与机器学习

    金 添,博士,教授,主要研究方向为新体制雷达系统、智能感知与处理

    通讯作者:

    戴永鹏 dai_yongpeng@nudt.edu.cn

    金添 tianjin@nudt.edu.cn

  • 责任主编:陈彦 Corresponding Editor: CHEN Yan
  • 中图分类号: TN958.95

Single-channel Ultra-wideband Radar Human Pose-incremental Estimation Technology

Funds: The National Natural Science Foundation of China (61971430)
More Information
  • 摘要: 该文针对光学与雷达传感器融合人体姿态估计研究,基于连续时间微动累积量与姿态增量的物理对应关系,提出了一种单通道超宽带雷达人体姿态增量估计方案。具体来说,通过构造空时分步增量估计网络,采用空域伪3D卷积层与时域膨胀卷积层分步提取空时微动特征,将其映射为时间段内人体姿态增量,结合光学提供的姿态初值,实现人体三维姿态估计。实测数据结果表明,融合姿态估计在原地动作集取得5.38 cm估计误差,并能够实现一段时间行走动作连续姿态估计。与其他雷达姿态估计对比和消融实验证明了该文方法的优势。

     

  • 人体姿态估计(Human Pose Estimation, HPE)指通过传感器得到空间内人体关节点的坐标,是一种人体目标的精细感知方法[1],在军事与民用领域具有重要的应用价值[2]

    光学传感器准确度高、鲁棒性强,与深度学习方法配合,成为人体姿态估计的重要手段。然而光学传感器易受黑暗、遮蔽等环境影响,无法应对复杂场景的人体姿态估计任务,利用其他传感器可以弥补不足,根据原理分为穿戴与非穿戴[3]。常见的穿戴式传感器有陀螺仪、加速度计和惯性测量单元(Inertial Measurement Unit, IMU),这类方法需要被测试者主动佩戴相关仪器,操作繁琐且具有侵入性[4]。非穿戴式设备如Wi-Fi和雷达则无需检测对象主动配合,具有更广泛的应用场景[5]。受到带宽的限制,Wi-Fi空间分辨率不足,且不可编码特性带来差的抗干扰能力,系统稳定性往往较低,雷达带宽大,具有空间分辨率高、稳定性强的特点,是一种较优的方案[6]

    现有基于雷达人体姿态估计主要依赖多输入多输出(Multiple-Input Multiple-Output, MIMO)阵列成像技术。2015年Adib等人[7]提出了第1个可以在人被完全遮挡时捕捉人形的系统RF-Capture(Radio Frequency-Capture),它使用两个组件捕捉人体粗糙姿态。随后该团队在2018年提出二维人体姿态估计架构RF-Pose (Radio Frequency-Pose)[8]和三维人体姿态估计架构RF-Pose3D (Radio Frequency-Pose 3D)[9],该架构通过超宽带雷达阵列捕捉人体目标的距离、方位、高度信息,联合时间窗观测,构成4D信息块,由于深度学习计算量等限制,将4D信息分解为水平和垂直的3D信息,通过三维卷积神经网络对关节点进行估计。Sengupta等人[10]首次利用毫米波雷达点云成像,在不同坐标平面得到的投影作为卷积网络的输入,得到四种不同运动的姿态估计。中国科学技术大学的陈彦团队Zhang等人[1113]利用时空注意力机制,融合垂直和水平摆放的毫米波雷达二维热图信息,实现了更精准的姿态估计。国防科技大学的金添团队[14]基于超宽带MIMO雷达四维成像数据,提取三维成像空间特征与成像序列时间特征,重构出人体目标的各个关节点位置。但上述基于成像的姿态估计受人体身高、体重、性别影响严重,且随着目标与雷达的距离增加,方位向分辨能力下降,姿态估计效果大幅下降。

    除了基于雷达成像的姿态估计研究,基于运动目标回波产生的微多普勒效应进行姿态估计是一种新颖的、具有广阔前景的方法。人体运动中不同部位速度不同会带来载频中心附近的多普勒频移,通过瞬时频率分析方法,可以提取躯干和四肢的微多普勒频移,从而进行细粒度感知任务[15]。Zhou等人[16]使用C波段单通道雷达的运动人体时频信息,通过准对称U-Net网络构造MD-Pose (Micro Doppler-Pose)实现了二维姿态估计,但缺少对距离的充分利用。Ding等人[17]基于毫米波雷达,通过具有运动学约束的深度学习模型,将距离-多普勒频谱数据映射到三维人体骨骼关节坐标的特征空间,提取关节点旋转信息,重构的姿态不受偶尔损坏的输入的影响,但数据集包含拳击、摆臂、举手、踏步4种特征相似原地动作,缺少动作泛化性。2023年Cao等人[18]将运动特征分解为躯干、四肢双分支特征,通过自注意力机制捕捉两种细化特征,缓解了人体反射信号叠加对HPE的影响。微动信息由多帧回波得到,人体微动是时序相关的非平稳特征,上述方法均是微动到单一时刻人体姿态的映射,存在模糊的对应关系,需要研究更清晰的映射关系。

    微动特征反映了各关节点径向速度分量,连续时间微动累积量与姿态增量具有直接的物理对应关系[19],建立微动特征到姿态增量的映射,比微动到单一时刻姿态映射更合适。结合光学传感器分辨率高的优势,本文设计了一种空时分步增量估计网络,利用运动人体微动信息生成姿态增量,与光学初态结合实现连续稳定的姿态估计;结合前次估计结果与雷达持续回波迭代估计,可以实现人体姿态的连续估计。本文基于自研的单通道超宽带雷达展开研究,具有体积小、易布设的优势,在自建数据集上取得了较现有微动姿态估计方法更好的估计精度和动作泛化性。

    本文使用的低频超宽带雷达发射调频连续波(Frequency Modulated Continuous Wave, FMCW),信号频率随时间线性增加。雷达发射信号帧内可表示为

    st(t)=Aexp[j2π(f0t+St2/2)],t[0,Tp] (1)

    其中,A为信号强度,${f_0}$为发射信号基频,$S = B/T$为信号调频率,B代表信号带宽,${T_{\mathrm{p}}}$代表信号时常。假设某点目标在距离天线${R_0}$处以速度v远离雷达,回波信号可表示为

    sr(t)=KAexp{j2π[f0(tτ)+S(tτ)2/2]},τ=2(R0+vt)c (2)

    其中,K为传输过程带来的衰减系数,$\tau $代表回波传输时延,通过混频,忽略式中的微小量,中频信号表示为

    s(t)=12KA2exp[{j2πf0t+jπSt2}{j2πf0(tτ)+jπS(tτ)2}]12KA2exp[j2π(2vλ+2SR0c)t+jπ4Svct2+j4πR0λ],τ=2(R0+vt)c (3)

    对式(3)求导并除以$2\pi $,得到信号瞬时频率:

    f(t)=2vλ+2SR0c+4Svct (4)

    人体目标是多个部件组成的复杂目标,利用点散射模型简化复杂人体目标是一种常用方法,Boulic模型[20]将人体目标简化为N个点目标组成的拓展目标,第i个点目标与雷达距离为${R_i}$,速度为${v_i}$,运动方向与雷达夹角为${\theta _i}$,频率表示为

    fi(t)=2vicos(θi)λ+2SRic+4Svicos(θi)ct (5)

    可以看到,中频信号频率与目标位置、速度和时间有关,在单通道雷达回波中3个特征耦合。单帧内第3项可忽略不计,前两项反映了目标距离与速度,沿回波快时间做傅里叶变换,峰值表示目标与雷达的径向距离。由傅里叶变换特性,信号的初相体现在峰值处的复数值对应的相位,计算相邻周期的相位差$\Delta {\phi _{{\mathrm{IF}}}} = 4\pi v{T_{\mathrm{c}}}/\lambda $,该式中速度与脉冲间相位差成正比,沿回波慢时间做傅里叶变换,得到相参处理间隔内目标速度。图1表示回波矩阵经过上述流程解算的距离多普勒(Range-Doppler, RD)特征的流程,人体目标距雷达4 m处原地踏步走时,4 m处的躯干特征最明显但径向速度较小,表现在多普勒维在零频处,四肢运动表现为多普勒维展宽现象,其雷达反射面积小于躯干,特征强度较弱。

    图  1  人体微动回波特征
    Figure  1.  Human body micro Doppler characteristics

    重叠堆叠多张RD特征得到距离-多普勒-时间特征,可以有效增加上下文信息,本文利用生成的RDT (Range-Doppler-Time)三维特征作为网络输入。在分辨率上,距离分辨率$\Delta R = {\mathrm{c}}/(2B) = 0.25\;{\mathrm{m}}$。单张RD谱图观测窗长取64个快时间脉冲,得到时常$\Delta T = 64/{\mathrm{PRF}} = 0.256\;{\mathrm{s}}$ ,定义相邻RD步进量为${T_{{\mathrm{stride}}}}$ ,则深度为M的RDT特征时间分辨率为$T = \Delta T + (M - 1){T_{{\mathrm{stride}}}}$ 。根据相位差与速度关系,单张RD速度分辨率$ \Delta v = \lambda /(2N\Delta T) $ ,其中,$\lambda $为雷达信号的波长,$N = 128$为多普勒维傅里叶变换点数,经计算速度分辨率优于人体步速,因此,上述方法可有效实现人体雷达回波的高维表征,为人体姿态增量估计提供基础。

    速度与距离为积分关系,微动与姿态增量具有相似的关系,增量等于各关节点微多普勒积分的矢量叠加,RD二维特征对应时间太短,无法满足增量估计要求,建立RDT三维特征到姿态增量的映射是本节关注的问题。“编-解码”结构是一种学习数据表示和生成的神经网络模型[21],通常由编码器和解码器组成,编码器负责将输入数据转换为潜在的表示空间,解码器负责将关键特征信息映射到目标空间,通过损失函数最小化目标与输出之间的差异。图2是本文空时分步姿态增量估计框架,数据采集部分表示单通道超宽带雷达感知场景人体目标,根据人体微动回波模型得到三维RDT特征,增量估计网络部分将微动特征编码到高维特征空间,再将其解码到姿态增量空间,与光学姿态初值结合生成观测时间对应的姿态终值。

    图  2  空时分步姿态增量估计框架
    Figure  2.  Structure of pose-increment estimation using spatiotemporal step-by-step

    RDT空时编码模块采用先空域特征展开、后时域特征提取的分步策略,分布策略可用式(6)表示,通过子任务串联减少了网络单步负担,提高了特征提取效率,除此之外,分步编码更加灵活,根据任务需求可以替换不同的组件,便于调试和优化。

    Encoding(RDT3D):=SpaceTime(RDT3D)Time(Space(RDT3D)) (6)

    $ {{\mathrm{RDT}}_{3{\mathrm{D}}}} $既可用多通道二维卷积层处理,也可利用单通道三维卷积层,然而前者只是按顺序罗列的总结策略,后者通过增加深度维沿时序特征整合[22],建立了时序信息的局部相关性,本文选择三维卷积构建空域特征编码模块。但普通的三维卷积存在参数量大、训练推理速度慢的问题,本文借鉴了分解卷积的思想[23],将$3 \times 3 \times 3$卷积核解耦成$1 \times 3 \times 3$的空间卷积和$3 \times 1 \times 1$的时间卷积,构造了伪3D (Pseudo-3D, P3D)空域特征编码模块。两种卷积的组织形式有3种,如图3分为串联、并联和串并联,为了增加网络结构的多样性、提升模型的特征学习能力,网络采用3种结构交替叠加,且在卷积操作后添加了批归一化层加速训练过程,ReLU激活函数增强模型的非线性表达能力。

    图  3  P3D的不同组织形式
    Figure  3.  Different organizational forms of P3D

    $ {{\mathrm{RDT}}_{3{\mathrm{D}}}} $经过多层P3D生成时域整合、空域展开的长序一维特征向量。然而,该特征没有建立时域上的长期依赖关系,只是RDT输入特征微动、各关节点雷达径向距离、时序三维编码后的顺序排列,需要进一步对序列数据建模长时依赖性。针对序列特征,RNN (Recurrent Neural Networks), LSTM (Long Short-Term Memory)等能够捕获长时间依赖,在自然语言领域成果明显,但RNN结构不能支持批处理和时间维度上的并行化[24],卷积结构可以,且卷积结构提供了对时间接受野的精确控制,这有利于建模时间依赖性。考虑到展开后的特征向量为长序列,为了在参数量增加较少的前提下捕捉到更广泛的上下文信息,时域特征编码模块使用了膨胀卷积[25],通过在卷积核元素间增加空洞快速扩大感受野,感受野的增加速度取决于膨胀率的设置。Wang等人[26]指出膨胀卷积设计规则:

    Mi=max[Mi+12ri,Mi+12(Mi+1ri),ri] (7)

    其中,${M_i}$表示第i层两个非零元素之间的距离,${r_i}$ 表示第i 层的膨胀率。本文利用尺寸为3的一维卷积核,设置膨胀率$ {r_i} = {2^{i - 1}} $ ,满足上述设计准则基础上感受野呈指数增加。至此,时域膨胀卷积模块(Time-Dilation Convolution, TDC)提取空域展开的$ {\mathrm{RD}}{{\mathrm{T}}_{3{\mathrm{D}}}} $大感受野时域特征信息,实现增量估计编码任务。

    增量估计模块属于头网络,负责端到端的解码姿态变化量,通过多层3D反卷积和归一化指数(Soft-argmax)函数,将主干网络提取的时空特征映射为14个关节点的增量概率空间。Soft-argmax函数的计算过程类似于对概率加权求和,将每个位置的概率值乘以对应位置索引,并将所有加权后的位置值相加,得到最终坐标。得到概率置信图后,在3个坐标轴的投影即为网络估计的姿态增量。通过Zed光学提供初始姿态,增量可以不断地迭代更新当前时刻的姿态,实现人体三维姿态估计。

    网络损失函数采用均方误差(Mean Square Error, MSE)损失,它的原理是将模型预测结果与实际标签之间的差异平方后求平均值,这样可以惩罚大误差,使得模型更加关注那些与实际值差距较大的样本,这样的选择考虑到不同动作增量,在坐标轴投影分布差异较大,MSE损失的数学表达式如式(8),其中,${J_n}$表示网络预测的坐标增量,${\hat J_n}$表示增量真值。

    J(w,b)=12NNn=1JnˆJn2 (8)

    网络的评价指标选择关节点位置误差的平均值(Mean Per Joint Position Error, MPJPE),其计算方法是对于每个关节,计算估计关节位置与真实关节位置之间的欧氏距离,然后将所有关节的距离加总并取平均值,得到最终的 MPJPE 值,该值越小表示网络估计精度越高。

    本文使用的超宽带雷达距离分辨率为0.25 m,根据图1对踏步特征的分析,人体目标躯干部分累积量最大,特征表示明显,原地动作躯干跨距离单元较少,行走动作跨距离单元较多,据此将数据集分为原地数据与行走数据展开实验。

    本实验采用S波段单通道超宽带雷达系统,基频2.5 GHz,工作带宽600 MHz,发射锯齿连续波,脉冲重复频率250 Hz,快时间采样率4 MHz,采样点数1680点。雷达天线采用超宽带高增益线极化天线,工作频率支持1.4~10.5 GHz,通过实验验证了人体活动区域在天线波束宽度内,多普勒信息能够完整地被感知。骨骼姿态真值由Zed智能相机提供,作为商业化的智能相机,Zed利用内嵌的光学三维姿态重构模块,提供区域内人体姿态绝对坐标。相机采样频率为15 帧/s,通过对实验对象绑定标签,验证了Zed智能相机可以提供可信、连续的运动人体姿态标签。实验场景图4为一空房间,房间尺寸为7.0 m×5.3 m,雷达摆放在待测者的侧前方,光学相机摆放在正前方,在固定机位前提下将雷达与相机坐标系对准。

    图  4  实验场景与关节定义
    Figure  4.  Experimental scenario and joint definition

    为了体现本文方法的动作泛化性,相比于领域内其他研究数据集动作单一,我们的数据包含5种差异较大且具有代表意义的原地动作:挥拳、踏步、弯腰、展臂转圈和跌倒。其中,弯腰与跌倒代表高度向的偏移量较多、挥拳和踏步代表距离向偏移量较多、展臂转圈代表方位向与距离向偏移量较多。此外,考虑到人体目标通常是运动的,数据也涉及区域内行走的动作,包括沿雷达径向来回行走、切向行走、斜对角行走和随意行走,代表人体跨距离单元较多的场景。

    为了增加了行走的数据多样性,实验选择了4名受试者作为实验对象,他们身高分布在175~192 cm,每人原地动作观测时常3 min,共计5种,行走动作每人观测时常15 min。数据集包含2个小时、共计10.8万帧光学姿态标签与相应的单通道超宽带雷达回波。数据训练上,将数据按10:3:2的比例分为训练集、验证集和测试集。训练的最大迭代次数为100次,每个批次样本数设置为128,初始学习率为0.1,学习率在第10轮和第60轮衰减,系数为0.1,网络训练GPU使用的是NVIDIA RTX A6000。

    观测时间越长,雷达的多普勒分辨率越高,然而特征的复杂化对模型产生不利影响,本节通过实验研究单次增量估计最佳观测时常,将RDT特征对应观测时常定义为时域感受野,研究了其长短对不同种类动作估计的影响。为了排除神经网络参数结构对性能的影响,改变预处理时相邻RD特征时间跨度,控制单个RDT特征时域感受野,研究时域感受野对原地单次增量估计的影响,网络输入深度为10帧,高宽均为128像素的三维RDT特征。

    对于原地动作,分析了0.64 s到2.56 s感受野下,网络训练80轮次权重在验证集上表现,如图5。增量误差随训练权重收敛速度上,1.92 s显著优于其余3种,这表示在该时间跨度下,网络能够更快速提取姿态增量特征。在误差趋于稳定的基础上,MPJPE从优到劣排序为1.92 s>1.28 s>0.64 s>2.56 s,表明时域感受野过大或过小都会降低增量估计性能。

    图  5  时域感受野对原地动作增量估计影响
    Figure  5.  Impact of time-domain receptive field on increment estimation in situ

    分析认为,当时域感受野过短时,性能较差的原因如下:构建的特征不够全面,很多细微的运动或变化无法展现出,导致最终增量估计误差较大;较短的观测时间带来噪声的影响增加,推理时间变长,特别是微动信号本身就比较微弱时,这会使得从这样的数据中提取到的特征更多地受到噪声的干扰,而不是真正代表微动运动;时间维度较少意味着表征不够丰富,模型学习到的信息可能过于特定于训练数据的特定情况,泛化能力较差。当时间跨度较大时,推理时常也会变慢,且估计误差较大,这是因为:长时间跨度时微动特征经历复杂的非线性变化,人体运动的周期性带来跨周期特征提取问题,模型难以区分;长时间跨度带来数据不平衡,人体运动微动频率离群量的可能性增加,使模型无法适应这种频率的变化。

    对于行走动作,分析了0.16 s到1.28 s感受野下,网络训练100轮次权重在验证集上的表现,如图6。对比发现0.32 s的验证误差与0.16 s相近,显著优于其余时间跨度。然而,当0.16 s时,验证集上误差曲线起伏过大,模型在该条件下不够稳定;当0.48 s或更大时,估计误差增大。综合来看,行走动作时域感受野选择0.32 s,取得最优的效果。

    图  6  时域感受野对行走动作增量估计影响
    Figure  6.  Impact of time-domain receptive field on increment estimation of walking

    两种运动模式对比,收敛速度上行走动作比原地动作较慢,这是因为跨距离单元运动使距离维特征更丰富,网络学习变慢,原地动作数据集距离维特征单一,且周期性使网络能较快学习多普勒维特征。最佳时域感受野和估计误差上,行走动作在较小感受野下,性能优于原地动作。一方面,相同时间下,行走动作涉及距离、多普勒两个维度变化,特征展开度更高,需要的时域感受野更小;另一方面,原地数据集中,个别动作如跌倒和转圈,复杂度较高,一定程度上影响了整体的性能。

    在最佳时域感受野设置下,本节对原地5种常见动作展开定量和可视化分析。表1是跌倒、挥拳、踏步、弯腰和展臂转圈5种动作下,14个关节点的增量估计量化结果。横向对比主要考虑不同动作性能,平均值显示,挥拳和踏步动作性能较好,因为挥拳特征主要体现在手部上,速度较快微动特征较明显,踏步动作周期性较明显,性能也比较稳定。弯腰动作缓慢,微动特征减弱,误差劣于挥拳和踏步。跌倒时虽然微动特征明显,但不同受试者跌倒方向、四肢动作不一,网络难以统筹所有特征,误差较大。转圈性能差表明人体朝向对微动特征影响较大,后续的行走动作估计也表明,人体转向时估计偏移会增加。

    表  1  原地动作增量估计误差(cm)
    Table  1.  Incremental estimation error of in situ actions (cm)
    关节点 跌倒 挥拳 踏步 弯腰 转圈 平均
    头部 7.47 2.23 2.14 10.47 5.99 5.66
    胸部 3.76 3.52 2.24 4.16 4.81 3.70
    右肩 4.72 2.45 2.30 6.60 10.18 5.25
    右肘 8.48 3.75 2.69 6.93 9.03 6.18
    右腕 6.94 3.33 2.20 6.96 13.99 6.68
    左肩 6.07 3.10 5.74 5.93 8.20 5.81
    左肘 6.78 1.96 3.62 6.68 8.52 5.51
    左腕 6.75 1.35 5.83 9.11 11.17 6.84
    右髋 10.18 3.91 2.74 4.90 8.81 6.11
    右膝 3.42 2.05 2.50 8.59 8.70 5.05
    右脚 13.64 1.09 2.89 1.42 8.08 5.42
    左髋 6.95 1.94 1.99 3.58 6.67 4.23
    左膝 4.48 2.65 3.75 3.67 8.00 4.51
    左脚 5.67 1.36 2.78 1.55 10.24 4.32
    平均 6.81 2.48 3.10 5.75 8.74 5.37
    下载: 导出CSV 
    | 显示表格

    纵向对比来看,考虑不同关节点增量估计对比。总体来看,估计误差与雷达反射面积和运动范围有关,比如从平均值来看,脖子代表的胸腔附近估计精度最高,这是因为其雷达反射面积较大,而弯腰时脖子估计误差变大,运动范围较小的下肢此时容易在距离维度被跟踪,增量误差较小。更细致地分析,跌倒和弯腰时各关节点误差较分散,估计稳定性弱;挥拳与弯腰的腿部特征、转圈的头部脖颈处运动范围小,特征容易跟踪,估计误差要小一些。

    与其他方法对比,基于成像的方法需要利用MIMO阵列对人体目标成像,无法在本文单通道数据上复现,于是本文选择基于微动的方法对比性能。文章对比了引言中提到的双分支输入自注意力机制融合的JGLNet (Joint Global Local Network)[18]和添加运动学约束的KCL (Kinematic Constrained Learning)方法[17],可视化结果如图7所示,图7(a)是光学相机拍摄场景图,图7(b)是三维姿态真值,图7(c)图7(d)图7(e)分别代表JGLNet, KCL和本文的方法姿态估计结果。从任务目标看,两种方法利用不同优化策略实现了时间段内多普勒特征到单一时刻的姿态映射,效果差于本文代表的增量映射,特别是跌倒动作与真值相差较大。JGLNet利用了人体运动的全局和局部信息,最初针对毫米波数据集提出并取得了不错效果,然而低频超宽带数据分辨率较低,局部信息不够明显,导致性能下降。KCL添加了父子关节点距离损失和角度损失,以及误差学习分支补偿估计偏移,对于肩膀和下肢的宽度、各关节点相对位置有所优化。本文的方法充分提取了RDT的空时特征,实现了微动到增量的映射,在原地动作上取得了可观的效果,特别是以跌倒为代表的复杂动作,体现了增量估计方案较强的泛化性。

    图  7  姿态估计可视化结果
    Figure  7.  Visualization results of attitude estimation

    表2是与两种微动方法的定量对比,展示了重要关节点和平均的误差。JGLNet和KCL在髋关节处取得较好的估计效果,但随着靠近手腕脚踝,误差逐渐增加,一方面是因为四肢部分雷达反射面积较小,特征不明显,另一方面与四肢运动灵活度较高,微动特征捕捉难度大,定量分析更清晰地展示了本文增量估计的优势。

    表  2  本文与其他方法对比(cm)
    Table  2.  Comparison between this article and other methods (cm)
    方法 关节点 平均
    头部 胸部 肩膀 肘部 手腕 髋部 膝盖 脚踝
    JGLNet[18] 14.70 9.82 14.10 17.40 24.60 8.90 18.80 21.60 16.24
    KCL[17] 13.60 4.37 6.49 11.70 12.90 1.67 6.86 10.10 8.46
    Ours 5.66 3.67 5.53 5.85 6.76 5.17 4.78 4.87 5.29
    下载: 导出CSV 
    | 显示表格

    受到雷达系统、环境等噪声影响,姿态估计等下游任务性能可能会被影响,本节研究噪声对雷达增量估计的影响。噪声的引入是不可避免的,可以利用反证法,通过在回波中添加高斯白噪声,研究随着噪声的增加各关节点估计性能变化。图8展示了不同信噪比下姿态估计误差表现,随着信噪比(Signal to Noise Ratio, SNR)的降低噪声变强,各关节点的误差大多呈现上升趋势,表明信噪比对人体姿态估计的精度有显著影响,特别是对于一些移动频繁、位置变化大的关节点(如手腕、膝盖),信噪比的影响更加明显、误差增幅更大。然而也存在估计精度无显著变化的头部、胸部和髋部,一方面得益于躯干部分雷达反射面积较大且运动幅度较小,在RDT特征中较为稳定明显地存在,另一方面展示出本文方法对躯干估计具有较高的鲁棒性,这在4.5节行走动作二维迭代跟踪中也有所体现,胸部和髋部抗累积误差性能较好,适用于细粒度要求较低的人体跟踪任务。

    图  8  噪声对姿态估计的影响
    Figure  8.  The impact of noise on attitude estimation

    对于姿态增量估计,有效估计时常是重要的指标,持续的监测能力使技术的实用变得可行。行走是人体持续运动的代表性动作,本节对行走动作进行持续姿态估计,为了体现微动信息姿态估计受距离影响较小的优势,随机截取了一组3~5 m区间,受试者持续17 s的往返行走数据,将RDT特征按顺序输入时空增量网络,单次增量估计时域感受野为0.32 s,在光学初始姿态指导下,得到人体连续行走姿态估计值。姿态刷新率为0.32 s,即RDT相邻输入无重叠。

    从两个维度分析连续姿态估计性能,分别是定性二维迭代跟踪分析与定量三维关节点误差分析。二维迭代跟踪使用颈部、右髋和左髋3个节点的俯视投影平均值作为定位坐标,反映了行人整体在检测场景内的位置,图9(a)z轴设置为时间,直观地展示了随时间变化的真实轨迹与迭代跟踪轨迹,可以看到人体在3~5 m范围内来回行走,迭代估计下的二维位置误差保持在较小的误差区间。转身时误差有所增加,因为4.3节指出转身动作增量估计效果误差较大,但值得一提的是,随着雷达数据的继续输入,二维位置误差得到了一定程度的校正。直到12.0751 s第4次转身后,迭代带来的累积误差使模型偏离真值较大,后续表现效果不佳。

    图  9  行走迭代估计效果
    Figure  9.  Walking iteration estimation effect

    二维跟踪无法反映更细粒的关节点误差信息,图9(b)是所有关节点MPJPE平均值,模型在第6.1357 s左右误差显著上升,表明行人在第2次转身时姿态估计误差显著累积。整体分析,利用微动特征迭代增量估计误差主要来自转身动作,二维跟踪有效时间要长于三维姿态,这是因为前者细粒度较弱,对误差累积的容忍度较高。

    为了评估本文空时分步增量估计网络的先进性,本节对两个关键组件进行消融实验研究,探究对增量估计性能和网络复杂度的影响,对比结果如表3所示,空域伪3D组件用P3D表示,时域膨胀组件用TDC表示。

    表  3  各组件性能与计算成本
    Table  3.  Performance and computational cost of each component
    方法 估计性能 计算成本
    平均(cm) $\varDelta $ (%) 参数量(M) 推理时间(ms)
    2D 6.14 85.88 8.61
    P3D 5.82 +5.21 35.48 6.16
    2D-TDC 5.79 +5.70 84.73 9.26
    P3D-TDC 5.38 +12.38 34.33 6.73
    下载: 导出CSV 
    | 显示表格

    可以看到,P3D组件显著降低了网络参数量、提高了推理时间的同时,取得了较二维卷积5.21%精度提高;TDC能够有效捕捉不同时间尺度上的特征,估计性能获得5.70%的提升,兼顾两者的P3D-TDC组件则在较低推理时间上,取得了最优的增量估计性能,相比2D编码性能提升12.38%,推理时间在毫秒量级,满足4.5节姿态实时刷新的要求。

    本文针对光学与雷达传感器融合人体姿态估计研究,设计了一种空时特征分步提取编解码网络,通过构造空时分步增量估计网络,将微动特征映射为人体姿态增量,结合光学提供的姿态初值实现连续姿态估计,可用于间断光照或遮蔽等相机受限时,结合雷达补齐缺失姿态。实测数据表明,融合姿态估计在原地动作集取得5.38 cm估计误差,并能够实现一段时间行走动作连续姿态估计。消融实验表明,增量估计网络组件相比基线卷积结构姿态准确率提高12.38%,推理速度提高1.88 ms。研究还有不充分之处,缺少不同场景下的泛化性分析,在迭代姿态估计时缺少修正补偿等优化方法,未来将会对无光、遮蔽、远距离等复杂场景补充研究,且研究累计误差抑制算法,进一步推动该技术的实用化和发展空间。

  • 图  1  人体微动回波特征

    Figure  1.  Human body micro Doppler characteristics

    图  2  空时分步姿态增量估计框架

    Figure  2.  Structure of pose-increment estimation using spatiotemporal step-by-step

    图  3  P3D的不同组织形式

    Figure  3.  Different organizational forms of P3D

    图  4  实验场景与关节定义

    Figure  4.  Experimental scenario and joint definition

    图  5  时域感受野对原地动作增量估计影响

    Figure  5.  Impact of time-domain receptive field on increment estimation in situ

    图  6  时域感受野对行走动作增量估计影响

    Figure  6.  Impact of time-domain receptive field on increment estimation of walking

    图  7  姿态估计可视化结果

    Figure  7.  Visualization results of attitude estimation

    图  8  噪声对姿态估计的影响

    Figure  8.  The impact of noise on attitude estimation

    图  9  行走迭代估计效果

    Figure  9.  Walking iteration estimation effect

    表  1  原地动作增量估计误差(cm)

    Table  1.   Incremental estimation error of in situ actions (cm)

    关节点 跌倒 挥拳 踏步 弯腰 转圈 平均
    头部 7.47 2.23 2.14 10.47 5.99 5.66
    胸部 3.76 3.52 2.24 4.16 4.81 3.70
    右肩 4.72 2.45 2.30 6.60 10.18 5.25
    右肘 8.48 3.75 2.69 6.93 9.03 6.18
    右腕 6.94 3.33 2.20 6.96 13.99 6.68
    左肩 6.07 3.10 5.74 5.93 8.20 5.81
    左肘 6.78 1.96 3.62 6.68 8.52 5.51
    左腕 6.75 1.35 5.83 9.11 11.17 6.84
    右髋 10.18 3.91 2.74 4.90 8.81 6.11
    右膝 3.42 2.05 2.50 8.59 8.70 5.05
    右脚 13.64 1.09 2.89 1.42 8.08 5.42
    左髋 6.95 1.94 1.99 3.58 6.67 4.23
    左膝 4.48 2.65 3.75 3.67 8.00 4.51
    左脚 5.67 1.36 2.78 1.55 10.24 4.32
    平均 6.81 2.48 3.10 5.75 8.74 5.37
    下载: 导出CSV

    表  2  本文与其他方法对比(cm)

    Table  2.   Comparison between this article and other methods (cm)

    方法 关节点 平均
    头部 胸部 肩膀 肘部 手腕 髋部 膝盖 脚踝
    JGLNet[18] 14.70 9.82 14.10 17.40 24.60 8.90 18.80 21.60 16.24
    KCL[17] 13.60 4.37 6.49 11.70 12.90 1.67 6.86 10.10 8.46
    Ours 5.66 3.67 5.53 5.85 6.76 5.17 4.78 4.87 5.29
    下载: 导出CSV

    表  3  各组件性能与计算成本

    Table  3.   Performance and computational cost of each component

    方法 估计性能 计算成本
    平均(cm) $\varDelta $ (%) 参数量(M) 推理时间(ms)
    2D 6.14 85.88 8.61
    P3D 5.82 +5.21 35.48 6.16
    2D-TDC 5.79 +5.70 84.73 9.26
    P3D-TDC 5.38 +12.38 34.33 6.73
    下载: 导出CSV
  • [1] LI Ming, QIN Hao, HUANG M, et al. RGB-D image-based pose estimation with Monte Carlo localization[C]. 2017 3rd International Conference on Control, Automation and Robotics, Nagoya, Japan, 2017: 109–114. DOI: 10.1109/ICCAR.2017.7942670.
    [2] KHAN A, GUPTA S, and GUPTA S K. Multi-hazard disaster studies: Monitoring, detection, recovery, and management, based on emerging technologies and optimal techniques[J]. International Journal of Disaster Risk Reduction, 2020, 47: 101642. doi: 10.1016/j.ijdrr.2020.101642.
    [3] 鲁勇, 吕绍和, 王晓东, 等. 基于WiFi信号的人体行为感知技术研究综述[J]. 计算机学报, 2019, 42(2): 231–251. doi: 10.11897/SP.J.1016.2019.00231.

    LU Yong, LV Shaohe, WANG Xiaodong, et al. A survey on WiFi based human behavior analysis technology[J]. Chinese Journal of Computers, 2019, 42(2): 231–251. doi: 10.11897/SP.J.1016.2019.00231.
    [4] VON MARCARD T, ROSENHAHN B, BLACK M J, et al. Sparse inertial poser: Automatic 3D human pose estimation from sparse IMUs[J]. Computer Graphics Forum, 2017, 36(2): 349–360. doi: 10.1111/cgf.13131.
    [5] DAI Yongpeng, JIN Tian, LI Haoran, et al. Imaging enhancement via CNN in MIMO virtual array-based radar[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(9): 7449–7458. doi: 10.1109/TGRS.2020.3035064.
    [6] 金添, 何元, 李新羽, 等. 超宽带雷达人体行为感知研究进展[J]. 电子与信息学报, 2022, 44(4): 1147–1155. doi: 10.11999/JEIT211044.

    JIN Tian, HE Yuan, LI Xinyu, et al. Advances in human activity sensing using ultra-wide band radar[J]. Journal of Electronics & Information Technology, 2022, 44(4): 1147–1155. doi: 10.11999/JEIT211044.
    [7] ADIB F, HSU C Y, MAO Hongzi, et al. Capturing the human figure through a wall[J]. ACM Transactions on Graphics (TOG), 2015, 34(6): 219. doi: 10.1145/2816795.2818072.
    [8] ZHAO Mingmin, LI Tianhong, ALSHEIKH M A, et al. Through-wall human pose estimation using radio signals[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7356–7365. DOI: 10.1109/CVPR.2018.00768.
    [9] ZHAO Mingmin, TIAN Yonglong, ZHAO Hang, et al. RF-based 3D skeletons[C]. The 2018 Conference of the ACM Special Interest Group on Data Communication, Budapest, Hungary, 2018: 267–281. DOI: 10.1145/3230543.3230579.
    [10] SENGUPTA A, JIN Feng, ZHANG Renyuan, et al. mm-Pose: Real-time human skeletal posture estimation using mmWave radars and CNNs[J]. IEEE Sensors Journal, 2020, 20(17): 10032–10044. doi: 10.1109/JSEN.2020.2991741.
    [11] YU Cong, ZHANG Dongheng, WU Zhi, et al. RFPose-OT: RF-based 3D human pose estimation via optimal transport theory[J]. Frontiers of Information Technology & Electronic Engineering, 2023, 24(10): 1445–1457. doi: 10.1631/FITEE.2200550.
    [12] XIE Chunyang, ZHANG Dongheng, WU Zhi, et al. RPM: RF-based pose machines[J]. IEEE Transactions on Multimedia, 2024, 26: 637–649. doi: 10.1109/TMM.2023.3268376.
    [13] XIE Chunyang, ZHANG Dongheng, WU Zhi, et al. RPM 2.0: RF-based pose machines for multi-person 3D pose estimation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(1): 490–503. doi: 10.1109/TCSVT.2023.3287329.
    [14] SONG Yongkun, JIN Tian, DAI Yongpeng, et al. Through-wall human pose reconstruction via UWB MIMO radar and 3D CNN[J]. Remote Sensing, 2021, 13(2): 241. doi: 10.3390/rs13020241.
    [15] CHEN V C. The Micro-Doppler Effect in Radar[M]. Boston: Artech House, 2011.
    [16] ZHOU Xiaolong, JIN Tian, DAI Yongpeng, et al. MD-Pose: Human pose estimation for single-channel UWB radar[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2023, 5(4): 449–463. doi: 10.1109/TBIOM.2023.3265206.
    [17] DING Wen, CAO Zhongping, ZHANG Jianxiong, et al. Radar-based 3D human skeleton estimation by kinematic constrained learning[J]. IEEE Sensors Journal, 2021, 21(20): 23174–23184. doi: 10.1109/JSEN.2021.3107361.
    [18] CAO Zhongping, DING Wen, CHEN Rihui, et al. A joint global-local network for human pose estimation with millimeter wave radar[J]. IEEE Internet of Things Journal, 2023, 10(1): 434–446. doi: 10.1109/JIOT.2022.3201005.
    [19] DU Hao, JIN Tian, SONG Yongping, et al. A three-dimensional deep learning framework for human behavior analysis using range-Doppler time points[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(4): 611–615. doi: 10.1109/LGRS.2019.2930636.
    [20] BOULIC R, THALMANN N M, and THALMANN D. A global human walking model with real-time kinematic personification[J]. The Visual Computer, 1990, 6(6): 344–358. doi: 10.1007/BF01901021.
    [21] ZHENG Ce, ZHU Sijie, MENDIETA M, et al. 3D human pose estimation with spatial and temporal transformers[C]. The 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 11636–11645. DOI: 10.1109/ICCV48922.2021.01145.
    [22] FANG Yuming, DING Guanqun, LI Jia, et al. Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2305–2318. doi: 10.1109/TIP.2018.2885229.
    [23] QIU Zhaofan, YAO Ting, and MEI Tao. Learning spatio-temporal representation with pseudo-3d residual networks[C]. The 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 5534–5542. DOI: 10.1109/ICCV.2017.590.
    [24] PAVLLO D, FEICHTENHOFER C, GRANGIER D, et al. 3D human pose estimation in video with temporal convolutions and semi-supervised training[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2020: 7745–7754. DOI: 10.1109/CVPR.2019.00794.
    [25] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[J]. arXiv, 2016.
    [26] WANG Panqu, CHEN Pengfei, YUAN Ye, et al. Understanding convolution for semantic segmentation[C]. 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), Lake Tahoe, USA, 2018: 1451–1460. DOI: 10.1109/WACV.2018.00163.
  • 加载中
图(9) / 表(3)
计量
  • 文章访问数: 387
  • HTML全文浏览量: 82
  • PDF下载量: 138
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-05
  • 修回日期:  2024-08-14
  • 网络出版日期:  2024-09-14
  • 刊出日期:  2025-02-28

目录

/

返回文章
返回