Loading [MathJax]/extensions/TeX/boldsymbol.js

基于点云时空特征的超宽带雷达轻量化人体行为识别方法

宋永坤 晏天兴 张可 刘显 戴永鹏 金添

宋永坤, 晏天兴, 张可, 等. 基于点云时空特征的超宽带雷达轻量化人体行为识别方法[J]. 雷达学报(中英文), 2025, 14(1): 1–15. doi: 10.12000/JR24110
引用本文: 宋永坤, 晏天兴, 张可, 等. 基于点云时空特征的超宽带雷达轻量化人体行为识别方法[J]. 雷达学报(中英文), 2025, 14(1): 1–15. doi: 10.12000/JR24110
SONG Yongkun, YAN Tianxing, ZHANG Ke, et al. A lightweight human activity recognition method for ultra-wideband radar based on spatiotemporal features of point clouds[J]. Journal of Radars, 2025, 14(1): 1–15. doi: 10.12000/JR24110
Citation: SONG Yongkun, YAN Tianxing, ZHANG Ke, et al. A lightweight human activity recognition method for ultra-wideband radar based on spatiotemporal features of point clouds[J]. Journal of Radars, 2025, 14(1): 1–15. doi: 10.12000/JR24110

基于点云时空特征的超宽带雷达轻量化人体行为识别方法

DOI: 10.12000/JR24110 CSTR: 32380.14.JR24110
基金项目: 湖南省自然科学基金青年基金项目(2024JJ6065)
详细信息
    作者简介:

    宋永坤,博士,讲师,主要研究方向为雷达图像处理、新体制雷达技术、人体行为智能感知

    晏天兴,硕士生,主要研究方向为动作识别、雷达信号处理

    张 可,硕士生,主要研究方向为深度学习、姿态重构

    刘 显,硕士生,主要研究方向为深度学习、目标检测

    戴永鹏,博士,讲师,主要研究方向为MIMO阵列雷达成像与图像增强

    金 添,博士,教授,主要研究方向为新体制雷达系统、智能感知与处理

    通讯作者:

    宋永坤 songyk1118@163.com

  • 责任主编:郭世盛 Corresponding Editor: GUO Shisheng
  • 中图分类号: TN957

A Lightweight Human Activity Recognition Method for Ultra-wideband Radar Based on Spatiotemporal Features of Point Clouds

Funds: The Youth Fund Project of the Hunan Provincial Natural Science Foundation (2024JJ6065)
More Information
  • 摘要: 低频超宽带(UWB)雷达因其良好穿透性和分辨率,在人体行为识别领域具有显著的优势。针对现有的动作识别算法运算量大、网络参数多的问题,该文提出了一种基于时空点云的高效且轻量的超宽带雷达人体行为识别方法。首先通过UWB雷达采集人体的四维运动数据,然后采用离散采样的方法将雷达图像转换为点云表示,由于人体行为识别属于时间序列上的分类问题,该文结合PointNet++网络与Transformer网络提出了一种轻量化的时空网络,通过提取并分析四维点云的时空特征,实现了对人体行为的端到端识别。在模型的训练过程中,提出了一种点云数据多阈值融合的方法,进一步提高了模型的泛化性和识别能力。该文根据公开的四维雷达成像数据集对所提方法进行验证,并与现有方法进行了比较。结果表明,所提方法在人体行为识别率达到96.75%,且消耗较少的参数量和运算量,验证了其有效性。

     

  • 随着科技的不断进步,人体行为识别已被广泛运用于视频监控、人机交互、虚拟现实、健康监测以及体育分析等领域[14]。这项技术的发展不仅提高了机器的智能水平,也促进了人机交互的自然性,并且增强了多媒体内容的互动性和可访问性,为相关领域的进步提供了重要支持。人体行为识别旨在通过分析视频或传感器数据来对人类的行为进行自动检测和分类。近年来,随着深度学习技术的飞速发展,基于深度学习的人体行为识别的准确性和效率得到了显著提升[58]。目前研究获取人体行为信息的方法主要可以分为两种,一种是基于可接触式传感器的方法,例如穿戴惯性测量单元等电子设备[9,10],而另一种是基于非接触式传感器的方法,例如使用相机[11]、雷达[12]、WiFi[13]等无线设备获取人体信息。在信息的处理上,随着深度学习的提出,网络模型可以通过多层次的神经网络结构进行自动学习和实现数据中的高级特征的提取,无需人工手动设计特征,从而更好地捕捉数据的复杂关系和抽象特征。

    超宽带雷达由于具有高分辨率、强穿透能力、低功率消耗和隐私保护等优点,受到了广泛的关注。在非接触式人体行为识别领域,基于雷达回波数据的处理方法通常将雷达信号转换为谱图表示,并通过深度学习技术进行特征提取。常见的方法是使用卷积神经网络(Convolutional Neural Networks, CNN)[14]提取谱图特征,这类方法首先将回波信号处理成时间-多普勒图[15]、距离-多普勒图[16]或者将它们结合起来[17,18]。CNN根据其处理的输入数据的维度主要分为二维卷积神经网络(2D CNN)和三维卷积神经网络(3D CNN)两大类,文献[19]设计一个新颖的模块来增强2D CNN处理视频动作数据的能力,文献[20]使用2D骨架数据和CNN-LSTM架构,提出了一种新的多视角人体动作识别方法,文献[21]提出一种名为 3D-ShuffleViT的高效视频动作识别网络,这是一种结合3D CNN和视觉变换器(ViTs)的高效视频动作识别模型,平衡了参数数量和准确度。文献[22]提出了一种3D CNN模型AR3D,该模型结合残差学习和注意力机制,进一步提高了视频人体动作识别的性能。

    在研究人体行为识别时,首先需要对目标人体进行有效表征。三维人体模型的构建常用点云、等值面和体素等数据表示方法,以捕捉人体的三维信息。其中,点云作为一种三维数据表示方法,具有高分辨率、灵活性、丰富的信息和轻量化的特点,能够高效地捕捉物体表面的细节。点云是一组在三维空间中的点的集合,每个点都由其在XYZ坐标系中的坐标值定义。点云通常由3D扫描仪、雷达等设备获取,用于表示现实世界中的物体或环境的三维结构。对于点云数据的处理,Qi等人[23]提出了PointNet,这是一种能够解决点云数据的无序性、置换不变性以及物体姿态变换不变性问题的方法。然而,PointNet在局部细节提取方面存在不足,无法有效应用于需要识别精细特征的任务,例如语义分割。为了解决这一问题,Qi等人[24]在原有基础上提出了PointNet++。PointNet++通过引入多层次特征提取结构和适应点云密度变化的分组策略,解决了PointNet在局部特征提取和处理非均匀点云密度方面的局限性,显著提升了点云数据处理的性能和鲁棒性。PointNet++通过优化特征提取结构,有效应对了点云密度不均的问题,使其在复杂场景下的表现更加出色。这些改进使其在人体行为识别领域具有广阔的应用前景,特别是在需要高度精细化特征提取的任务中。

    行为识别作为一种与时序相关的任务,涉及从时间序列中分析和识别人类的行为模式。这个过程通常包括对一系列连续图像帧进行处理和分析,以识别图像序列中的特定行为。Transformer[25]作为一种用于处理序列数据的深度学习模型,能够有效地捕获时序信息。近年来,随着数据预处理、自注意力模型架构及Embedding方法等的不断优化,Transformer及其改进方法在行为识别领域表现出越来越高的识别精度及推理速度。文献[26]提出了一种基于角度引导的Transformer融合网络,用于处理多站协同雷达高分辨率目标识别问题,有效地提高了多站协同时的目标识别性能。文献[27]提出了协作卷积Transformer网络(Co-ConvT),通过引入Transformer中的自注意力机制来建立远程依赖关系,并将其与图卷积神经网络(Graph Convolution Neural Networks, GCNNs)相结合,用于复杂场景下的动作识别,增强了模型对时空特征的提取能力。文献[28]通过结合自适应图和Transformer两种方式,使模型更加关注骨架数据中的时空信息,从而显著提高了动作识别的准确率。文献[29]通过融合PointNet和Transformer的功能块,提出了一个用于车内乘员监测的轻量级且准确的神经网络(PointNet-Transformer, PTFNet),该网络利用PointNet对3D点云的直接处理能力和Transformer对时序信息的高效捕捉能力,实现了对车内乘员状态的快速准确监测。

    上述研究表明,利用点云模型对人体建模可以达到高度精确的三维姿态和形状重建效果。而Transformer凭借其强大的时序信息捕获能力,能够对四维序列数据中的时序信息进行高效捕捉和建模,这种结合为理解复杂的时空动态提供了新的视角。现有的CNN方法在处理时序信息和三维数据方面仍存在一定局限性。具体而言,2D CNN在捕捉大尺度图像和全局依赖关系时效果不佳,常用的投影方式往往会导致空间信息的损失,这些缺点限制了2D CNN在处理复杂时序和空间数据时的性能。相比之下,3D CNN能够更精确地识别和处理三维数据,因此可以在时间和空间维度上同时进行卷积操作。然而,3D CNN也面临更高的计算成本和更长的训练时间的挑战。此外,3D CNN模型的训练需要大量数据和计算资源,这对其网络结构的设计提出了更高要求。

    因此,针对以上的不足,本文提出了一种基于点云时空特征的超宽带雷达轻量化人体行为识别方法,首先将雷达回波处理成点云数据,然后使用本文提出的人体行为识别网络模型UWB-PointTransformer处理点云数据,识别人体行为类别,在训练的过程中使用了多阈值融合的方法进一步提高了算法的泛化性和识别精度。本文的主要贡献如下:

    (1) 设计了一种雷达点云数据表征方法,将高维雷达数据处理成离散的点云数据。在保持原有的身体轮廓和空间分布下将原有的203 GB四维雷达人体动作成像数据[30]处理成1.22 GB点云数据,仅为原来数据的0.6%,这是一种轻量级的处理与存储形式。

    (2) 设计了一种轻量高效的人体行为识别时空网络UWB-PointTransformer,该网络以四维点云作为输入数据,利用PointNet++提取每一帧点云的空间特征,再利用Transformer结构提取时间维度信息,结合时序信息对10种常见的人类日常行为实现了精准的识别,同时保持了较低的网络参数量和计算量。

    (3) 提出了一种多阈值点云数据融合网络训练的方法,将不同阈值的数据同时放入网络训练,实现训练数据的增广,提高了网络的预测精度和泛化能力。

    雷达回波的产生基于电磁波的发射、传播、反射和接收。雷达系统通过发射特定频率的电磁波,然后接收由目标物体反射回来的电磁波,以此来探测目标物体的存在、位置、速度等信息。本文用于研究人体行为的雷达是多输入多输出(Multiple Input Multiple Output, MIMO)超宽带雷达,该雷达系统通过获取目标或场景的空间信息并将其可视化为图像。本文使用的雷达系统的发射信号为步进频连续波信号(Stepped Frequency Continuous Wave, SFCW),如图1所示。假设每个频点的脉冲持续时间为T,频点间的发射间隔为Tr,起始频率为f0,每个频点的频率变化量为Δf,初始相位为φ0,在一个步进频雷达周期内有N个频率点。因此在一个周期内,在时间t时刻,第k个发射频率波形可以表示为

    图  1  步进频连续波形频域图
    Figure  1.  Frequency-domain diagram of SFCW waveform
    xk(t)=cos[2π(f0+kΔf)tf0]rect[t(T/T2+kTr2+kTr)T],k=0,1,,N1 (1)

    其中,rect()表示矩形窗函数,可以表示为

    rect(tT)={1,T2<t<T20, (2)

    雷达系统在接收回波信号时,通常情况下会有多个散射点,以单个散射点为例,接收信号为各个单散射点的线性叠加,设该散射点对各个频率的散射系数均为σ,该散射点的接收回波相对于发射信号的延时为τ,且假设目标低速运动,则不同频率点的延时τ基本相同,那么接收信号可以表示为

    y(t)=N1k=0σcos[2π(f0+kΔf)(tτ)+f0]rect[tτ(T/T2+kTr2+kTr)T] (3)

    下一步,接收到的信号与发射信号进行频率混移,将回波信号的频谱移到基带,然后用低通滤波器滤除高频中的分量得到基带接收信号。混频后的信号u(t)可以表示为

    u(t)=y(t)x(t)=N1k=0σcos[2π(f0+kΔf)(tτ)+f0]rect[tτ(T/2+kTr)T]N1k=0cos[2π(f0+kΔf)t+f0]rect[t(T/2+kTr)T] (4)

    基带信号反映了目标物体反射信号的主要特征,经过低通滤波后,基带信号u(t)化简为

    u(t)=N1k=0cos[2π(f0+kf)t]rect(τT) (5)

    MIMO雷达作为具有一种多发多收的天线结构的雷达,工作场景原理如图2所示,常用的穿墙雷达信号成像算法包括压缩感知[31]成像算法、边界估计[32]算法、后向投影(Back Projection, BP)[33]算法、层析成像[34]等。

    图  2  MIMO雷达工作场景
    Figure  2.  Operating scenarios of MIMO radar systems

    BP成像算法的核心原理是利用雷达回波数据通过时间延迟的相干累加过程来重建目标的图像。它的优势在于能够简单并且直观地进行成像,能够在未知目标几何形状的情况下重建目标图像。由于BP算法成像效果不受天线阵列布局的约束,是MIMO雷达成像常用的算法。然而BP算法的计算量通常很大,特别是在处理高分辨率成像时,由于需要对图像中的每个像素点都进行相干累加处理,因此存在较大的计算开销,但得益于GPU的高效并行计算能力,这一问题可以得到有效缓解。

    雷达成像的原理基于回波模型,对于一个包含m个发射天线和n个接收天线的雷达系统,假设发射阵列的第m个发射单元位置为(xm,0),接收阵列的第n个接收单元位置为(xn,0),目标Q的位置为(x0,y0),发射阵列和接收阵列与目标的距离分别为R(q)mR(q)n

    {R(q)m=(x0xm)2+y20R(q)n=(xnx0)2+y20 (6)

    已知电磁波的传播速度为c,目标Q的时延τm,n

    τm,n=R(q)m+R(q)nc (7)

    成像区域的像素点P的时延˜τm,n

    ˜τm,n=(xnx0)2+y20+(xmx0)2+y20c (8)

    RCS为目标的雷达散射截面积,像素点P对应的第k个频点的像素值为

    Sm,n(k)=RCSexp(j2π(fL+kΔf)τm,n) (9)

    由于雷达接收到的回波为频域信号,在BP成像的过程中可直接对频域回波进行相干累加实现目标成像。将像素点P在每个频点的多通道数据进行相干叠加,可得到像素点P的值为

    I(xp,yp)=Mm=1Nn=1N1k=0RCSexp(j2π(fL+kΔf)(τm,n˜τm,n)) (10)

    由式(10)可知,当目标Q(xq,yq)与像素点P(xp,yp)重合时,可以得到较大的像素值,不重合时值较小。然而,该方法需要对所有频点进行累加,计算量巨大。在实际应用的过程中,一般先对回波信号做傅里叶逆变换,将频域数据转化为时域数据,再对每个等效通道对应距离的回波相干累加,即实现了时域BP成像。

    对于基于步进频连续波信号的MIMO雷达体制,BP算法首先对目标点Q的回波做sr(i)傅里叶逆变换,得到时域信号std(τm,n),那么由成像点P的距离在std(τm,n)对应的像素值为

    Itdm,n(xp,yp)=std(˜τm,nτm,n) (11)

    对所有通道在成像点P的强度值相累加,该结果即为像素点P的BP成像结果对应的像素值为

    Itd(xp,yp)=Mm=1Nn=1RCSstd(˜τm,nτm,n) (12)

    超宽带雷达点云模型构建主要包括“体”“面”“点”3个阶段。首先,“体”阶段通过BP成像算法获取人体在距离-方位-高度三维空间中的雷达图像。接着,“面”阶段对三维雷达图像进行阈值处理,形成三维等值面。最后,“点”阶段将等值面进行离散采样,转换为距离-方位-高度的点云模型,最终得到以点云形式表现的人体微动模型。

    在人体三维成像的构建过程中,本文首先对雷达回波进行动目标检测(Moving Target Indication, MTI)[35]处理滤除静止杂波,接下来采用先大范围粗略二维成像再小范围精细成像的方法获取人体目标的三维雷达图像[30],然后对每一帧三维雷达图像进行归一化处理,在此基础上,进一步融入时间序列维度,将三维图像数据与时间维度进行矩阵拼接,构筑了四维人体行为序列,其表示形式如式(13)所示。这一方法不仅捕捉了人体的几何形态,还细致记录了人体动作随时间的演变过程,为深入理解人体动态行为提供了丰富的时空信息。

    I4D=concat(I3D,t1, I3D,t2, , I3D,T) (13)

    以张开双臂动作为例,目标展开双臂的过程,经回波信号处理后生成的三维雷达图像的部分“体”数据如图3所示,本文采用蓝-黄-红的渐变色系直观地反映能量等级的递增,其中,红色越深表示能量越强,对于人体目标而言,胸腔区域由于具有较大的体积和密度,对雷达电磁波的反向散射作用更为显著,从而导致散射强度的增加。相反,四肢区域相对较细且活动度大,其散射截面较小,因此在雷达图像中呈现出较低的散射强度。

    图  3  张开双臂动作“体”的数据
    Figure  3.  Data of the “body” in the action of spreading arms

    等值面是空间上的一种曲面,在该曲面上函数F(x,y,z)的值为某一给定值V,即由S={(x,y,z):F(x,y,z)=V}生成的一个曲面在等值面的生成上,本文沿时间轴对长度为T帧的数据进行累积,首先根据对雷达四维数据集的统计分析设定检测阈值,对归一化的三维雷达图像I4D进行固定阈值检测后,使用三维MarchingCube算法[36]进行等值面的绘制。其中,Marching Cubes算法是一种有效的三维体素数据等值面提取技术,其核心思想是将三维空间划分为小立方体网格,通过检测每个小立方体顶点的数据值与等值面阈值的关系来确定等值面的存在,然后根据顶点的高低值组合生成等值面的多边形片段,并将这些片段在空间中连续拼接,形成完整的等值面,从而实现对三维体素数据中特定等值面的有效可视化。以张开双臂和挥手动作为例,将同一阈值下雷达回波处理后生成的三维等值面如图4所示。

    图  4  不同动作经雷达回波转换后的三维等值面图
    Figure  4.  Three-dimensional isosurface diagrams of different actions converted from radar echo data

    由于三维等值面由多个不规则三角形构成,虽然可以较好地对目标进行表征,但是结构复杂且数据量大,导致处理过程计算量大,本文对其进行离散采样处理。首先获取构成等值面的每个三角形的顶点和面。计算每个面的面积,得到整个网格表面的总面积。本文采用最远点采样法[24](Farthest Point Sampling, FPS)从每帧等值面中采集固定的点云数目。最远点采样算法是一种高效的点云采样技术,其核心思想在于每次采样过程中,选取与现有采样点集具有最大欧几里得距离的点,以此方式确保采样点之间的最大分离度。该方法的优势在于在保持较低采样数量的前提下,能够最大限度地捕捉并构建物体的几何特征。

    在采样的过程中,首先初始化等值面上的采样点的点集,然后在每一轮迭代中,计算当前点集中每个点到已选采样点的欧几里得距离,并选取距离最远的点作为新的采样点。通过这种迭代过程,算法能够有效地覆盖物体表面的广泛区域,同时避免了对局部区域的过度采样。

    FPS算法的具体步骤:初始情况是有一个空集合A用来存储选中的点,所有的n个点存储在集合B中,需要从中选出k个点,k<n。本文在传统最远点采样的基础上,针对存在重复计算的问题对采样点之间距离计算方式进行优化,即在选择第m个点时,需要计算点集B中的点pB点集Am–1个点的距离:{p1B,p2B,,pm1B},而当选择第m+1个点时,需要计算B中的点pB到点集Am个点的距离:{p1B,p2B,,pm1B,pmB},此时重复计算了{p1B,p2B,,pm1B}m–1个距离值。本文对该步骤进行优化,假设tm1B是点pB到点集A里面m–1个点的距离的最小值,可表示为

    tm1B=min({p1B,p2B,,pm1B}) (14)

    在选择第m个点时,需要计算min({p1B,p2B,,pm1B,pmB}),对该式进行分解,可等效为

    min({p1B,p2B,,pm1B,pmB})=min(min({p1B,p2B,,pm1B}),pmB)=min(tm1B,pmB) (15)

    因此,在循环采样点集的时候可以将已经计算的距离数据保存,到下次循环直接调用,避免计算浪费,提高计算效率。

    以“张开双臂”的动作为例,根据不同的采样点数,同一帧下相同的动作生成的等值面离散后生成的点云模型如图5所示。分析点云模型,可以观察到当点云模型经过离散采样处理后,其能够以较高的准确性近似原始模型的几何特征。随着采样点数量的增减,模型的细节表现将呈现出细微的波动。因此,在确保识别精度和优化存储效率之间,可以寻求一个恰当的均衡点,实现对模型细节和性能的最优权衡。

    图  5  不同点云数目所构建的人体模型
    Figure  5.  Human body models constructed from point clouds of varying quantities

    本文所提出的UWB-PointTransformer网络如图6所示,网络主要由PointNet++网络以及Transformer网络组成。首先利用PointNet++提取输入点云序列每一帧的点云的空间特征,然后使用Transformer网络来处理这些特征随时间的变化,捕捉到动作或场景随时间的变化,最终实现对目标的行为识别。

    图  6  UWB-PointTransformer网络结构图
    Figure  6.  Schematic diagram of the UWB-PointTransformer network architecture

    在PointNet++网络中,首先输入一个T帧的点云序列,表示为P={P[t]|t=1,2,,T},每帧包含任意点数的雷达点云数据,表示为P(T)={P(T)i|i=1,2,,nt},PointNet++网络主要由3个集合抽象层(Set Abstraction, SA)组成,SA层使用多尺度组群从不同尺度上抽象特征,这一步的物理意义在于从输入的点云中抽取局部特征。并且使用不同的球形半径和不同数量的邻居点来捕捉多尺度的几何信息,对于每个点Pi,找到其半径r内的邻居点集合Ni,然后将每个局部区域内的点集使用多层感知机(Multilayer Perceptron, MLP)处理,得到局部特征。

    3个SA层在PointNet++网络中通过采样、分组、局部特征提取、置换不变性的特征聚合,以及多尺度特征融合,有效地处理点云数据并提取点云的特征,最终将每个点云被转换成了一个包含1024维特征的单一向量,最终输出一个形状为B×1024的全局特征张量 {\boldsymbol{X}} 至Transformer网络中。Transformer网络主要由自注意力机制、前馈神经网络(Feed-Forward Neural Network, FFN)、残差连接等模块组成,能够有效地处理序列数据,如图7所示。

    图  7  Transformer网络
    Figure  7.  Transformer network

    对于输入序列 {\boldsymbol{X}} = [{{\boldsymbol{x}}_1},{{\boldsymbol{x}}_2}, \cdots ,{{\boldsymbol{x}}_n}] ,Transformer通过堆叠多层的编码器来处理序列数据。每个编码器层包含多头自注意力和前馈神经网络。其中多头注意力机制将输入的特征张量通过线性变换生成查询 \left( {\boldsymbol{Q}} \right) 、键 \left( {\boldsymbol{K}} \right) 、值 \left( {\boldsymbol{V}} \right) 矩阵,每个矩阵的形状为 (B,T,{d_{{k}}}) ,它们的定义为 {\boldsymbol{Q}} = {\boldsymbol{X}}{{\boldsymbol{W}}_{\rm{Q}}} , {\boldsymbol{K}} = {\boldsymbol{X}}{{\boldsymbol{W}}_{\rm{K}}} , {\boldsymbol{V}} = {\boldsymbol{X}}{{\boldsymbol{W}}_{\rm{V}}}

    接下来,在多头注意力模块中计算注意力权重并加权求和:

    {\rm{Att}}{\mathrm{ention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\mathrm{softm}}{{{\mathrm{ax}}}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\mathrm{T}}}}}{{\sqrt {{d_k}} }}\right){\boldsymbol{V}} (16)

    再将来自多个头的输出连接起来:

    \begin{split} & {\mathrm{MultiHead}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) \\ & \quad = {\mathrm{Concat}}({\bf{hea}}{{\bf{d}}_1},{\bf{hea}}{{\bf{d}}_2}, \cdots ,{\bf{hea}}{{\bf{d}}_h}) \end{split} (17)

    输出形状为 (B,T,h*{d_k}) , h是头的数量,然后通过线性投影将多头连接的结果通过线性变换投影回输入维度:

    {\boldsymbol{O}} = {\rm{Mul}}{\mathrm{tiHead}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}){{\boldsymbol{W}}_{\rm{O}}} (18)

    然后原始输入XO输出进行残差连接和归一化:

    {{{\bf{Out}}}}{{\bf{put}}_1} = {\bf{LayerNorm}}({\boldsymbol{X}} + {\boldsymbol{O}}) (19)

    前馈神经网络FFN由两层带有非线性激活函数全连接层组成,残差连接和归一化FFN中进行变换:

    {\mathrm{FFN}}({{x}}) = \max (0,x{{\boldsymbol{W}}_1} + {b_1}){{\boldsymbol{W}}_2} + {b_2} (20)

    再进行残差拼接与归一化:

    {{{\bf{Out}}}}{{\bf{put}}_2} = {\mathrm{LayerNorm}}({{\bf{Output}}_1} + {\mathrm{FFN}}({{\bf{Output}}_1})) (21)

    最终输出至全连接层中,全连接层首先执行线性变换,将输入特征向量映射到输出类别的维度,为了将线性变换的结果转换为概率分布,使用softmax函数计算预测的概率分布,计算过程如下:

    {{{\hat y}}_{{i}}} = \frac{{{{\exp}}({{{z}}_{{i}}})}}{{\displaystyle\sum\limits_{{{j}} = 1}^{10} {{{\exp}}({{{z}}_{{j}}})} }} (22)

    其中, {{\hat y}}_i 是softmax的输出,对应第i类的预测概率分布, {{{z}}_i} 是线性变换的第i个输出,i的取值范围是从1到10, \displaystyle\sum\nolimits_{{{j}} = 1}^{10} {{{\exp}}({{{z}}_{{j}}})} 是归一化常数,确保10类动作的概率和为1。

    本文使用交叉熵损失函数评估模型预测概率分布与实际标签之间的差异:

    L = - \sum\limits_{{{i}} = 1}^{10} {{{{y}}_i}\ln ({{{{\hat y}}}_{{i}}}} ) (23)

    其中,L是损失值, y_i\ (i=1,2,\cdots,10) 是10类动作真实标签的独热编码向量, \hat{y}_i\ (i=1,2,\cdots,10) 是模型对10类动作预测的概率分布。

    本文所采用的数据集为国防科技大学金添等人[30]在《雷达学报》期刊开源的超宽带雷达人体动作四维成像数据集,该数据集包含了3个不同场景:无遮挡场景(S1)、塑料板遮挡场景(S2)、砖墙遮挡场景(S3),其中,塑料板的厚度为3 cm,砖墙的厚度为27 cm。使用MIMO超宽带雷达系统对距离系统2~5 m处的目标进行数据采集,一共采集了11位不同体型人体目标的10种不同动作,10种动作分别为开双臂、打拳、静坐、踢腿、坐下、站立、向前走、向左走、向右走、挥手,获取了人体目标的距离-方位-高度-时间四维信息,其中,训练集1557组,3个场景测试集共1200组数据,一共2757组人体动作数据。雷达系统阵列排布如图8所示,系统参数如表1所示。

    图  8  数据采集使用的MIMO超宽带雷达阵列
    Figure  8.  Ultra-wideband MIMO radar array used for data acquisition
    表  1  MIMO超宽带雷达参数表
    Table  1.  Parameter table for ultra-wideband MIMO radar
    参数 指标
    信号体制 步进频信号
    信号带宽 1 GHz
    工作频段 1.78~2.78 GHz
    信号重复频率 10 Hz
    信号步进带宽 4 MHz
    信号发射功率 20 dBm (100 mW)
    系统尺寸 60 cm×88 cm
    天线阵元数 10发10收
    可穿透介质 塑料、木板、砖墙等
    下载: 导出CSV 
    | 显示表格

    在训练过程中,为了保证测试结果的鲁棒性,训练集与验证集来自不同的目标或场景。使用MATLAB2023b数据处理平台将四维成像数据集构造等值面并离散成点云。点云数据在UWB-PointTransformer模型中进行训练时,初始学习率设置为0.001,采用衰减权重为0.0005的SGD梯度下降方式,dropout设置为0.5,整个网络是通过交叉熵损失函数(Cross Entropy Loss)联合进行端到端的训练,每次训练所选取的样本数Batchsize设置为8,总训练周期设定为200。网络框架是基于PyTorch深度学习框架搭建的,网络训练的系统是Ubuntu 22.04,系统运行内存为128 GB,使用的显卡为NVIDIA RTX 3090

    点云的特点之一是可以利用少数的点来表示所选目标的大多数关键信息,这也使得点云能够在保持物体关键信息的同时实现数据的轻量化。在将雷达回波转换成人体点云模型的过程中,阈值的取值以及点数的选取是值得探讨的问题。

    本文根据上文所提的“体”“面”“点”的方法对四维数据集[30]进行处理,根据采样点数的不同分别制作了a, b, c, d, e共5种不同的点云数据集来探究不同阈值下离散点云对模型效果的影响,详情如表2所示。其中,a数据集检测阈值为–4 dB,采样点数为256点;b数据集检测阈值为–8 dB,采样点数为512点;c数据集检测阈值为–10 dB,采样点数为768点;d数据集检测阈值为–14 dB,采样点数为1024点;e数据集检测阈值为–16 dB,采样点数为2048点。为了全面评估点云数据集在超宽带雷达人体行为识别中的应用效果,将a, b, c, d, e这5个数据集进行了独立的训练与测试,以评估模型对它们各自的识别性能。从表2实验结果中可以发现,a数据集采样最少但是识别率较低,原因是数据所采集的特征较少,模型的识别率较低,而b, c, d, e数据集表现较良好,但是e数据集相比于d数据集而言采样点数增倍,但识别率仅增加0.31%,不利于轻量化的存储,原因是在引入更多特征信息时,同时也引入了噪声。为了探索数据集整合对识别性能的潜在提升,本文将b, c, d这3类数据集采取直接混合的方式合并,形成多个更为全面的数据集,将合并后的点云数据一起输入到网络模型中,首先在模型中对不同点数的点云数据统一进行下采样成相同点数。合并后的数据集不仅增加了样本的多样性,还丰富了雷达信号的时空特征,从而有望提高模型对复杂行为的识别能力。经过设定的训练周期后,绘制出不同训练集随训练轮数的识别率变化曲线图,如图9所示。

    表  2  不同数据集在模型中的识别率
    Table  2.  Recognition rates of different datasets within the model
    数据集 阈值(dB) 采样点数 识别率(%)
    a –4 256 73.92
    b –8 512 85.75
    c –10 768 78.45
    d –14 1024 85.65
    e –16 2048 85.86
    b+c –8; –10 512; 768 86.55
    b+d –8; –14 512; 1024 96.75
    c+d –10; –14 768; 1024 88.75
    b+c+d –8; –10; –14 512; 768; 1024 92.25
    注:加粗项表示在所有数据集中表现出识别率最高的数据集。
    下载: 导出CSV 
    | 显示表格
    图  9  不同训练集随训练轮数的识别率变化
    Figure  9.  Recognition rate variation with training epochs for different training sets

    研究结果显示,与采用单一阈值数据集相比,将多个不同的数据集整合并在统一模型中进行训练与测试,能够显著提高识别效能。特别地,当在模型训练过程中融入具有显著点数差异的点云数据集时,识别效果更佳。这表明,多样性的数据集能够促进模型捕捉更全面的空间特征,从而增强识别任务的精确度。然而,当将基于3个不同阈值的数据集混合使用时,模型的识别率出现下降,这一结果说明了单纯增加数据量可能并不总是对模型性能有益,反而可能引入噪声,影响模型的学习效率,同时,更多数据量也增加了网络的训练时长以及网络的运算量。为优化模型性能,合理选择数据集和阈值设置至关重要。此外,这一结果也表明,所设计网络的噪声鲁棒性有待进一步提升。未来的工作将专注于增强网络的噪声处理能力,以更好地利用多样化数据集的优势。

    为了全面评估模型在不同行为识别任务中的性能,本文绘制了在无遮挡场景下包含10种动作的混淆矩阵,以深入探讨模型对于各类动作的分类能力,如图10所示。所识别的动作类别包括:开双臂、打拳、静坐、踢腿、坐下、站立、向前走、向左走、向右走以及挥手。根据混淆矩阵的结果显示,模型对所有的动作的识别率都达到了90%以上,而对打拳、坐下、站立、向前走、向右走的识别率达到了100%,这一结果主要是这些动作具有较大的运动幅度和明显的差异性特征,使得模型能够较为准确地进行区分,这证明了模型对不同动作具有优秀的分辨能力。而开双臂与挥手识别率略低于其他动作,而根据预测标签发现二者容易混淆,通过分析发现,开双臂动作由于与挥手动作在形态上存在较高的相似性,导致模型在区分这两种动作时出现混淆。同时,本文计算了最优模型下模型对各类动作的F1, Precison, Recall值并以雷达图的形式表示,如图11所示,从雷达图整体来看F1, Precison, Recall值接近圆形,表示模型在所有指标上的性能比较均衡。

    图  10  10类动作的混淆矩阵
    Figure  10.  Confusion matrix of 10 types of actions
    图  11  模型的F1, Recall, Precision参数雷达图
    Figure  11.  Radar charts for model’s F1, Recall, Precision parameters

    为了研究Transformer在捕捉时间序列的优越性,本文对时间序列网络进行了消融实验,将空间特征提取模块PointNet++保留在原网络,将Transformer网络替换成同样可用于捕捉时间序列的门控循环单元(Gated Recurrent Unit, GRU)[37]和长短期记忆网络(Long-Short Term Memory, LSTM)[38]以及它们的变体双向门控循环单元(bi-GRU)和双向长短期记忆网络(bi-LSTM),为了进一步提高网络的识别精度,同时在PointNet++网络后加上了Transformer网络中的多头注意力机制(Multihead Attention),将网络的输出向量与多头注意力机制的输出进行有效拼接,再输入到GRU以及LSTM中。识别率以及网络参数量(Params/MB)实验对比结果如表3所示,实验结果表明,相较于GRU和LSTM网络,Transformer在识别率和网络参数量方面均表现出显著优势。

    表  3  不同网络骨干对网络整体的影响
    Table  3.  The impact of different network backbones on the overall network performance
    网络模型 Acc (%) Params (MB)
    PointNet++, GRU 81.33 1.68
    PointNet++, bi-GRU 84.65 1.68
    PointNet++, LSTM
    PointNet++, bi-LSTM
    83.38
    85.65
    2.17
    2.17
    PointNet++, Multihead Attention, bi-GRU 93.50 2.54
    PointNet++, Multihead Attention, bi-LSTM
    PointNet++, Transformer
    94.63
    96.75
    2.54
    0.37
    注:加粗项表示不同骨干网络组合中的最优结果。
    下载: 导出CSV 
    | 显示表格

    在行为识别的具体应用中,由于对未见目标的泛化在识别等非个性化应用中至关重要,为了研究本文提出方法的泛化能力,本文对所提出的网络模型基于交叉验证对分类精度进行评估。本文对比了其他几类计算视觉比较经典以及前沿具有代表性的2D CNN和3D CNN方法[3942]。其中,Res3D[39]通过使用3D CNN同时提取连续帧雷达图像中人体动作的时间和空间特征,最后使用全卷积层实现动作识别。SFN[40]网络通过使用慢帧率和快帧率两条通道提取人体动作信息,其中,慢帧率通道用来提取动作的空间语义信息,快帧率通道用来提取精细的动作特征,该网络对变化快的动作的识别具有较大的优势。TSN[41]网络引入了稀疏采样的方法,将输入网络的视频分割成若干个视频片段,再进行时空特征提取,最后对各个片段的特征提取结果进行融合,得到预测结果。TSM[42]通过沿时间维度移动部分通道来促进相邻帧间的信息交换,同时它可以插入到2D CNN中实现零计算和零参数的时间建模,最终实现较高的动作识别精度。

    针对不同的网络在不同的场景数据进行对比,具体如表4所示。根据实验结果分析,S2场景模拟视野受限但无障碍物遮挡的环境,在该场景中,由于障碍物的厚度较薄,对电磁波的衰减较小,因此,与S1场景相比,识别率比较接近。而S3场景模拟视野受限且存在障碍物的环境,在这一场景中,较厚的墙体结构导致了电磁波能量的显著衰减,从而使得识别率相较于其他场景略有下降。而本文的方法在3个场景上的识别能力均优于其他方法,相对于其他方法,本文的方法在实际应用于超宽带雷达的穿透障碍物能力研究上,表现出更好的识别能力,这进一步证明了所提出方法有较强的泛化能力。

    表  4  不同模型的性能对比和在不同场景下的识别率
    Table  4.  Cross-scenario performance and recognition rates of various models
    模型 S1 (%) S2 (%) S3 (%) FLOPs (GB) Params (MB)
    UWB-PointTransformer 96.75 93.45 82.65 1.60 0.37
    Res3D[39] 92.25 90.00 77.00 3.25 31.69
    SFN[40] 88.00 80.50 70.25 18.27 8.58
    TSN[41] 85.75 83.50 60.75 32.28 22.34
    TSM[42] 91.50 88.00 73.75 16.48 12.71
    3D-ShuffleViT[21] 91.85 90.68 76.48 1.68 2.45
    注:加粗项表示不同模型的性能和在不同场景识别率的最优结果。
    下载: 导出CSV 
    | 显示表格

    为了全面评估所提出模型在处理三维数据时的性能,本研究对比典型的CNN方法,包括模型参数数量和浮点运算次数(FLOPs),如表4所示。对比实验结果显示,传统的CNN方法在处理三维数据时,通常采用三维卷积核,这导致了较高的空间和时间复杂度。相对而言,本文所提出的基于点云的轻量化行为识别方法,在数据上采用了轻量化的处理,并且采用了轻量化的网络设计,有效地降低了模型的参数量和计算复杂度,这一点尤其体现在网络参数上,相比于识别率最高的CNN方法Res3D,本文所提出的方法在参数量上减少了大约98.83%,在准确率上实现了4.5%的提升,同时,显著地提高了模型的运行效率,降低了对计算资源的需求。为了进一步将模型在训练过程中学习到的特征空间进行可视化解释,本文使用t分布随机邻域嵌入(t-SNE)算法[43]将网络的输出特征投影到二维平面上,同时与其他几类方法进行对比,对比结果如图12所示,每个点对应于从目标中提取的特征向量,根据行为类别对其进行着色,10类颜色代表10类不同的动作。可以发现,10类动作表现出较好的空间可区分性,并且本文所提出的方法t-SNE图区分度均优于其他CNN算法,这也进一步证明了模型对于数据具有较优的区分能力。

    图  12  t-SNE特征嵌入可视化
    Figure  12.  t-SNE feature embedding visualization

    表4图12的结果表明了所提方法在三维数据处理任务上的应用潜力和优越性。此外,模型体积的减小也为在实际应用中的轻量化部署提供了可能性,这对于实际应用场景中的模型部署具有重要意义。综上所述,本研究所提出的三维数据处理方法,不仅在计算效率上具有优势,而且在保持或提升分类准确率的同时,减少了模型的存储和计算需求。

    为了进一步验证所提出方法在实际应用场景中的有效性,本研究采用了UWB-PointTransformer网络对特定真实环境中的运动进行检测与识别,分析实测场景下模型对各类动作的预测概率,如图13所示场景中的人体目标分别在执行打拳、张开双臂、向前走、挥手动作的动作。通过5.1节所提到的超宽带MIMO雷达系统对这些动作进行采集后,使用本文所提出“体”“面”“点”的方法将动作数据转换为点云数据后输入至模型中进行处理。模型对各类识别结果如表5所示,表5展示了对各种动作的识别概率。分析结果表明,UWB-PointTransformer网络在各类动作的预测中表现出高度的识别准确性,这表明该网络在处理复杂行为识别任务时具有卓越的性能。此外,本研究还计算了预测时间。经过多次测量,对目标进行动作预测的平均时间为0.08 s,而系统的帧时间为0.1 s,由于预测时间小于帧时间,系统能够持续地对目标进行行为识别。这证实了所提方法在实际应用中的可行性和有效性。

    图  13  人体目标进行不同类型动作示意图
    Figure  13.  The human target is performing different actions
    表  5  网络对不同动作的预测概率
    Table  5.  The network’s prediction probabilities for different actions
    真实动作 预测动作
    开双臂 打拳 静坐 踢腿 坐下 站立 向前走 向左走 向右走 挥手
    开双臂 9.97E–1 7.78E–7 7.71E–5 1.45E–6 1.16E–5 3.43E–4 1.79E–8 3.40E–5 2.99E–5 2.60E–3
    打拳 1.61E–8 9.99E–1 5.23E–9 9.07E–6 1.64E–6 1.32E–5 2.91E–8 1.04E–6 8.83E–9 2.28E–4
    向前走 2.22E–5 5.29E–5 1.62E–4 1.66E–4 2.44E–5 4.05E–7 9.99E–1 7.01E–6 9.60E–9 5.47E–4
    挥手 5.63E–5 4.88E–5 5.05E–8 8.70E–6 5.12E–6 1.04E–4 7.48E–7 1.86E–5 6.64E–8 9.99E–1
    注:加粗项表示网络对当前动作预测概率的最高值。
    下载: 导出CSV 
    | 显示表格

    本文提出一种基于MIMO超宽带雷达的人体行为识别方法,可以在无接触、无光、有障碍等复杂环境下有效进行工作。设计了一种基于PointNet和Transformer的轻量高效的点云网络模型UWB-PointTransformer,可以对动态的点云序列进行高效的学习,达到良好的识别效果。该方法的可行性在四维动作数据集上得到了验证,对10种动作进行了识别。使用公开的数据集进行测试,结果表明与其他网络模型相比,本文所提出的UWB-PointTransformer在保持低参数量和低运算量的同时,可以达到更高的识别率。同时针对模型训练的方法,提出了一种点云多阈值融合的方法,有效地提高了模型的识别率,增强了网络的泛化能力。以上结论可以证明本文所提出行为识别方法在保持轻量化的同时对多场景、多行为识别率的提高有明显作用。在未来的研究中,本文所提出的行为识别方法将探索多传感器融合技术,特别是结合视觉传感器如相机,以实现对行为细节的更高精度捕捉。通过结合雷达的探测能力和相机的高分辨率成像特性,旨在发挥两者的互补优势,从而增强行为识别方法的泛化性能。将在更为复杂的环境条件下,对多样化目标及其动作进行有效识别,提升系统的整体识别准确性和鲁棒性。

  • 图  1  步进频连续波形频域图

    Figure  1.  Frequency-domain diagram of SFCW waveform

    图  2  MIMO雷达工作场景

    Figure  2.  Operating scenarios of MIMO radar systems

    图  3  张开双臂动作“体”的数据

    Figure  3.  Data of the “body” in the action of spreading arms

    图  4  不同动作经雷达回波转换后的三维等值面图

    Figure  4.  Three-dimensional isosurface diagrams of different actions converted from radar echo data

    图  5  不同点云数目所构建的人体模型

    Figure  5.  Human body models constructed from point clouds of varying quantities

    图  6  UWB-PointTransformer网络结构图

    Figure  6.  Schematic diagram of the UWB-PointTransformer network architecture

    图  7  Transformer网络

    Figure  7.  Transformer network

    图  8  数据采集使用的MIMO超宽带雷达阵列

    Figure  8.  Ultra-wideband MIMO radar array used for data acquisition

    图  9  不同训练集随训练轮数的识别率变化

    Figure  9.  Recognition rate variation with training epochs for different training sets

    图  10  10类动作的混淆矩阵

    Figure  10.  Confusion matrix of 10 types of actions

    图  11  模型的F1, Recall, Precision参数雷达图

    Figure  11.  Radar charts for model’s F1, Recall, Precision parameters

    图  12  t-SNE特征嵌入可视化

    Figure  12.  t-SNE feature embedding visualization

    图  13  人体目标进行不同类型动作示意图

    Figure  13.  The human target is performing different actions

    表  1  MIMO超宽带雷达参数表

    Table  1.   Parameter table for ultra-wideband MIMO radar

    参数 指标
    信号体制 步进频信号
    信号带宽 1 GHz
    工作频段 1.78~2.78 GHz
    信号重复频率 10 Hz
    信号步进带宽 4 MHz
    信号发射功率 20 dBm (100 mW)
    系统尺寸 60 cm×88 cm
    天线阵元数 10发10收
    可穿透介质 塑料、木板、砖墙等
    下载: 导出CSV

    表  2  不同数据集在模型中的识别率

    Table  2.   Recognition rates of different datasets within the model

    数据集 阈值(dB) 采样点数 识别率(%)
    a –4 256 73.92
    b –8 512 85.75
    c –10 768 78.45
    d –14 1024 85.65
    e –16 2048 85.86
    b+c –8; –10 512; 768 86.55
    b+d –8; –14 512; 1024 96.75
    c+d –10; –14 768; 1024 88.75
    b+c+d –8; –10; –14 512; 768; 1024 92.25
    注:加粗项表示在所有数据集中表现出识别率最高的数据集。
    下载: 导出CSV

    表  3  不同网络骨干对网络整体的影响

    Table  3.   The impact of different network backbones on the overall network performance

    网络模型 Acc (%) Params (MB)
    PointNet++, GRU 81.33 1.68
    PointNet++, bi-GRU 84.65 1.68
    PointNet++, LSTM
    PointNet++, bi-LSTM
    83.38
    85.65
    2.17
    2.17
    PointNet++, Multihead Attention, bi-GRU 93.50 2.54
    PointNet++, Multihead Attention, bi-LSTM
    PointNet++, Transformer
    94.63
    96.75
    2.54
    0.37
    注:加粗项表示不同骨干网络组合中的最优结果。
    下载: 导出CSV

    表  4  不同模型的性能对比和在不同场景下的识别率

    Table  4.   Cross-scenario performance and recognition rates of various models

    模型 S1 (%) S2 (%) S3 (%) FLOPs (GB) Params (MB)
    UWB-PointTransformer 96.75 93.45 82.65 1.60 0.37
    Res3D[39] 92.25 90.00 77.00 3.25 31.69
    SFN[40] 88.00 80.50 70.25 18.27 8.58
    TSN[41] 85.75 83.50 60.75 32.28 22.34
    TSM[42] 91.50 88.00 73.75 16.48 12.71
    3D-ShuffleViT[21] 91.85 90.68 76.48 1.68 2.45
    注:加粗项表示不同模型的性能和在不同场景识别率的最优结果。
    下载: 导出CSV

    表  5  网络对不同动作的预测概率

    Table  5.   The network’s prediction probabilities for different actions

    真实动作 预测动作
    开双臂 打拳 静坐 踢腿 坐下 站立 向前走 向左走 向右走 挥手
    开双臂 9.97E–1 7.78E–7 7.71E–5 1.45E–6 1.16E–5 3.43E–4 1.79E–8 3.40E–5 2.99E–5 2.60E–3
    打拳 1.61E–8 9.99E–1 5.23E–9 9.07E–6 1.64E–6 1.32E–5 2.91E–8 1.04E–6 8.83E–9 2.28E–4
    向前走 2.22E–5 5.29E–5 1.62E–4 1.66E–4 2.44E–5 4.05E–7 9.99E–1 7.01E–6 9.60E–9 5.47E–4
    挥手 5.63E–5 4.88E–5 5.05E–8 8.70E–6 5.12E–6 1.04E–4 7.48E–7 1.86E–5 6.64E–8 9.99E–1
    注:加粗项表示网络对当前动作预测概率的最高值。
    下载: 导出CSV
  • [1] SUN Zehua, KE Qiuhong, RAHMANI H, et al. Human action recognition from various data modalities: A review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 3200–3225. doi: 10.1109/TPAMI.2022.3183112.
    [2] PAREEK P and THAKKAR A. A survey on video-based human action recognition: Recent updates, datasets, challenges, and applications[J]. Artificial Intelligence Review, 2021, 54(3): 2259–2322. doi: 10.1007/s10462-020-09904-8.
    [3] 元志安, 周笑宇, 刘心溥, 等. 基于RDSNet的毫米波雷达人体跌倒检测方法[J]. 雷达学报, 2021, 10(4): 656–664. doi: 10.12000/JR21015.

    YUAN Zhian, ZHOU Xiaoyu, LIU Xinpu, et al. Human fall detection method using millimeter-wave radar based on RDSNet[J]. Journal of Radars, 2021, 10(4): 656–664. doi: 10.12000/JR21015.
    [4] KONG Yu and FU Yun. Human action recognition and prediction: A survey[J]. International Journal of Computer Vision, 2022, 130(5): 1366–1401. doi: 10.1007/s11263-022-01594-9.
    [5] LI Maosen, CHEN Siheng, CHEN Xu, et al. Actional-structural graph convolutional networks for skeleton-based action recognition[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 3590–3598. doi: 10.1109/CVPR.2019.00371.
    [6] 杨小鹏, 高炜程, 渠晓东. 基于微多普勒角点特征与Non-Local机制的穿墙雷达人体步态异常终止行为辨识技术[J]. 雷达学报(中英文), 2024, 13(1): 68–86. doi: 10.12000/JR23181.

    YANG Xiaopeng, GAO Weicheng, and QU Xiaodong. Human anomalous gait termination recognition via through-the-wall radar based on micro-Doppler corner features and Non-Local mechanism[J]. Journal of Radars, 2024, 13(1): 68–86. doi: 10.12000/JR23181.
    [7] SONG Yongkun, DAI Yongpeng, JIN Tian, et al. Dual-task human activity sensing for pose reconstruction and action recognition using 4-D imaging radar[J]. IEEE Sensors Journal, 2023, 23(19): 23927–23940. doi: 10.1109/JSEN.2023.3308788.
    [8] DUAN Haodong, ZHAO Yue, CHEN Kai, et al. Revisiting skeleton-based action recognition[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 2959–2968. doi: 10.1109/CVPR52688.2022.00298.
    [9] JARAMILLO I E, JEONG J G, LOPEZ P R, et al. Real-time human activity recognition with IMU and encoder sensors in wearable exoskeleton robot via deep learning networks[J]. Sensors, 2022, 22(24): 9690. doi: 10.3390/s22249690.
    [10] PESENTI M, INVERNIZZI G, MAZZELLA J, et al. IMU-based human activity recognition and payload classification for low-back exoskeletons[J]. Scientific Reports, 2023, 13(1): 1184. doi: 10.1038/s41598-023-28195-x.
    [11] 王秉路, 靳杨, 张磊, 等. 基于多传感器融合的协同感知方法[J]. 雷达学报(中英文), 2024, 13(1): 87–96. doi: 10.12000/JR23184.

    WANG Binglu, JIN Yang, ZHANG Lei, et al. Collaborative perception method based on multisensor fusion[J]. Journal of Radars, 2024, 13(1): 87–96. doi: 10.12000/JR23184.
    [12] 丁一鹏, 厍彦龙. 穿墙雷达人体动作识别技术的研究现状与展望[J]. 电子与信息学报, 2022, 44(4): 1156–1175. doi: 10.11999/JEIT211051.

    DING Yipeng and SHE Yanlong. Research status and prospect of human movement recognition technique using through-wall radar[J]. Journal of Electronics & Information Technology, 2022, 44(4): 1156–1175. doi: 10.11999/JEIT211051.
    [13] NIU Kai, WANG Xuanzhi, ZHANG Fusang, et al. Rethinking Doppler effect for accurate velocity estimation with commodity WiFi devices[J]. IEEE Journal on Selected Areas in Communications, 2022, 40(7): 2164–2178. doi: 10.1109/JSAC.2022.3155523.
    [14] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541–551. doi: 10.1162/neco.1989.1.4.541.
    [15] SEYFIOGLU M S, EROL B, GURBUZ S Z, et al. DNN transfer learning from diversified micro-Doppler for motion classification[J]. IEEE Transactions on Aerospace and Electronic Systems, 2019, 55(5): 2164–2180. doi: 10.1109/TAES.2018.2883847.
    [16] RANI S, CHOWDHURY A, CHAKRAVARTY T, et al. Exploiting unique state transitions to capture micro-Doppler signatures of human actions using CW radar[J]. IEEE Sensors Journal, 2021, 21(24): 27878–27886. doi: 10.1109/JSEN.2021.3126436.
    [17] DING Chuanwei, ZHANG Li, CHEN Haoyu, et al. Sparsity-based human activity recognition with pointnet using a portable FMCW radar[J]. IEEE Internet of Things Journal, 2023, 10(11): 10024–10037. doi: 10.1109/JIOT.2023.3235808.
    [18] 何密, 平钦文, 戴然. 深度学习融合超宽带雷达图谱的跌倒检测研究[J]. 雷达学报, 2023, 12(2): 343–355. doi: 10.12000/JR22169.

    HE Mi, PING Qinwen, and DAI Ran. Fall detection based on deep learning fusing ultrawideband radar spectrograms[J]. Journal of Radars, 2023, 12(2): 343–355. doi: 10.12000/JR22169.
    [19] WANG Zhengwei, SHE Qi, and SMOLIC A. Action-net: Multipath excitation for action recognition[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 13209–13218. doi: 10.1109/CVPR46437.2021.01301.
    [20] MALIK N U R, ABU-BAKAR S A R, SHEIKH U U, et al. Cascading pose features with CNN-LSTM for multiview human action recognition[J]. Signals, 2023, 4(1): 40–55. doi: 10.3390/signals4010002.
    [21] WANG Yinghui, ZHU Anlei, MA Haomiao, et al. 3D-ShuffleViT: An efficient video action recognition network with deep integration of self-attention and convolution[J]. Mathematics, 2023, 11(18): 3848. doi: 10.3390/math11183848.
    [22] DONG Min, FANG Zhenglin, LI Yongfa, et al. AR3D: Attention residual 3D network for human action recognition[J]. Sensors, 2021, 21(5): 1656. doi: 10.3390/s21051656.
    [23] QI C R, SU Hao, KAICHUN M, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 77–85. doi: 10.1109/CVPR.2017.16.
    [24] QI C R, YI Li, SU Hao, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 5105–5114.
    [25] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6000–6010.
    [26] 郭帅, 陈婷, 王鹏辉, 等. 基于角度引导Transformer融合网络的多站协同目标识别方法[J]. 雷达学报, 2023, 12(3): 516–528. doi: 10.12000/JR23014.

    GUO Shuai, CHEN Ting, WANG Penghui, et al. Multistation cooperative radar target recognition based on an angle-guided Transformer fusion network[J]. Journal of Radars, 2023, 12(3): 516–528. doi: 10.12000/JR23014.
    [27] 石跃祥, 朱茂清. 基于骨架动作识别的协作卷积Transformer网络[J]. 电子与信息学报, 2023, 45(4): 1485–1493. doi: 10.11999/JEIT220270.

    SHI Yuexiang and ZHU Maoqing. Collaborative convolutional transformer network based on skeleton action recognition[J]. Journal of Electronics & Information Technology, 2023, 45(4): 1485–1493. doi: 10.11999/JEIT220270.
    [28] 韩宗旺, 杨涵, 吴世青, 等. 时空自适应图卷积与Transformer结合的动作识别网络[J]. 电子与信息学报, 2024, 46(6): 2587–2595. doi: 10.11999/JEIT230551.

    HAN Zongwang, YANG Han, WU Shiqing, et al. Action recognition network combining spatio-temporal adaptive graph convolution and Transformer[J]. Journal of Electronics & Information Technology, 2024, 46(6): 2587–2595. doi: 10.11999/JEIT230551.
    [29] XIAO Zhiqiang, YE Kuntao, and CUI Guolong. PointNet-transformer fusion network for in-cabin occupancy monitoring with mm-wave radar[J]. IEEE Sensors Journal, 2024, 24(4): 5370–5382. doi: 10.1109/JSEN.2023.3347893.
    [30] 金添, 宋永坤, 戴永鹏, 等. UWB-HA4D-1.0: 超宽带雷达人体动作四维成像数据集[J]. 雷达学报, 2022, 11(1): 27–39. doi: 10.12000/JR22008.

    JIN Tian, SONG Yongkun, DAI Yongpeng, et al. UWB-HA4D-1.0: An ultra-wideband radar human activity 4D imaging dataset[J]. Journal of Radars, 2022, 11(1): 27–39. doi: 10.12000/JR22008.
    [31] SONG Shaoqiu, DAI Yongpeng, SUN Shilong, et al. Efficient image reconstruction methods based on structured sparsity for short-range radar[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5212615. doi: 10.1109/TGRS.2024.3404626.
    [32] SOUMA R, KIDERA S, and KIRIMOTO T. Fast and accurate permittivity estimation algorithm for UWB internal imaging radar[C]. 2011 3rd International Asia-Pacific Conference on Synthetic Aperture Radar (APSAR), Seoul, Korea (South), 2011: 1–4.
    [33] ANDERSSON L E. On the determination of a function from spherical averages[J]. SIAM Journal on Mathematical Analysis, 1988, 19(1): 214–232. doi: 10.1137/0519016.
    [34] CHEN Jiahui, LI Nian, GUO Shisheng, et al. Enhanced 3-D building layout tomographic imaging via tensor approach[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5105614. doi: 10.1109/TGRS.2024.3391282.
    [35] ASH M, RITCHIE M, and CHETTY K. On the application of digital moving target indication techniques to short-range FMCW radar data[J]. IEEE Sensors Journal, 2018, 18(10): 4167–4175. doi: 10.1109/JSEN.2018.2823588.
    [36] LORENSEN W E and CLINE H E. Marching cubes: A high resolution 3D surface construction algorithm[J]. ACM SIGGRAPH Computer Graphics, 1987, 21(4): 163–169. doi: 10.1145/37402.37422.
    [37] HOCHREITER S and SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735–1780. doi: 10.1162/neco.1997.9.8.1735.
    [38] CHUNG J, GÜLÇEHRE Ç, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. https://arxiv.org/abs/1412.3555, 2014.
    [39] TRAN D, RAY J, SHOU Zheng, et al. ConvNet architecture search for spatiotemporal feature learning[EB/OL]. https://arxiv.org/abs/1708.05038, 2017.
    [40] FEICHTENHOFER C, FAN Haoqi, MALIK J, et al. SlowFast networks for video recognition[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 6202–6211. doi: 10.1109/ICCV.2019.00630.
    [41] WANG Limin, XIONG Yuanjun, WANG Zhe, et al. Temporal segment networks: Towards good practices for deep action recognition[C]. 14th European Conference on European Conference, Amsterdam, The Netherlands, 2016: 20–36. doi: 10.1007/978-3-319-46484-8_2.
    [42] LIN Ji, GAN Chuang, and HAN Song. TSM: Temporal shift module for efficient video understanding[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 7082–7092. doi: 10.1109/ICCV.2019.00718.
    [43] VAN DER MAATEN L and HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(86): 2579–2605.
  • 加载中
图(13) / 表(5)
计量
  • 文章访问数: 1273
  • HTML全文浏览量: 349
  • PDF下载量: 365
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-05
  • 修回日期:  2024-07-24
  • 网络出版日期:  2024-08-28
  • 刊出日期:  2025-02-28

目录

/

返回文章
返回