基于无线信号的人体姿态估计综述

陈彦 张锐 李亚东 宋瑞源 耿瑞旭 龚汉钦 汪斌全 张东恒 胡洋

崔兴超, 粟毅, 陈思伟. 融合极化旋转域特征和超像素技术的极化SAR舰船检测[J]. 雷达学报, 2021, 10(1): 35–48. doi: 10.12000/JR20147
引用本文: 陈彦, 张锐, 李亚东, 等. 基于无线信号的人体姿态估计综述[J]. 雷达学报(中英文), 2025, 14(1): 229–247. doi: 10.12000/JR24189
CUI Xingchao, SU Yi, and CHEN Siwei. Polarimetric SAR ship detection based on polarimetric rotation domain features and superpixel technique[J]. Journal of Radars, 2021, 10(1): 35–48. doi: 10.12000/JR20147
Citation: CHEN Yan, ZHANG Rui, LI Yadong, et al. An overview of human pose estimation based on wireless signals[J]. Journal of Radars, 2025, 14(1): 229–247. doi: 10.12000/JR24189

基于无线信号的人体姿态估计综述

DOI: 10.12000/JR24189 CSTR: 32380.14.JR24189
基金项目: 国家自然科学基金(62172381, 62201542)
详细信息
    作者简介:

    陈 彦,博士,教授,主要研究方向为多模态感知、多媒体信号处理和数字健康

    张 锐,博士生,主要研究方向为多模态感知、视频图像去噪

    李亚东,博士生,主要研究方向为毫米波雷达成像

    宋瑞源,博士生,主要研究方向为多模态机器学习

    耿瑞旭,博士生,主要研究方向为毫米波雷达成像

    龚汉钦,博士生,主要研究方向为无线感知

    汪斌全,博士后,主要研究方向为无线感知

    张东恒,博士,副研究员,主要研究方向为无线感知

    胡 洋,博士,副教授,主要研究方向为计算机视觉、多媒体信号处理和多模态感知

    通讯作者:

    陈彦 eecyan@ustc.edu.cn

  • 责任主编:金添 Corresponding Editor: JIN Tian
  • 中图分类号: TN957.51

An Overview of Human Pose Estimation Based on Wireless Signals

Funds: The National Natural Science Foundation of China (62172381, 62201542)
More Information
  • 摘要: 人体姿态估计在人机交互、动作捕捉和虚拟现实等领域具有广泛的应用前景,一直是人体感知研究的重要方向。然而,基于光学图像的姿态估计方法往往受限于光照条件和隐私问题。因此,利用可在各种光照遮挡下工作,且具有隐私保护性的无线信号进行人体姿态估计获得了更多关注。根据无线信号的工作频率,现有技术可分为高频方法和低频方法,且不同的信号频率对应硬件系统、信号特性、噪声处理和深度学习算法设计等方面均有所不同。该文将以毫米波雷达、穿墙雷达和WiFi信号为代表,回顾其在人体姿态重建研究中的进展和代表性工作,分析各类信号模式的优势与局限,并对潜在研究难点以及未来发展趋势进行了展望。

     

  • 人体动作识别技术应用于健康监护、运动分析、智能家居、场景监控等诸多领域,是计算机视觉领域的研究热点[1]。所谓动作识别,即通过对视频或图像序列进行处理分析,构建视频与人体动作之间的映射关系,使计算机能够像人一样去理解视频[2]。随着深度学习的出现和传感器技术的发展,大量的人体动作数据可以使用低廉的摄像头获取,为深度学习的训练提供了数据支撑,以可见光、结构光为探测手段的深度学习动作识别研究取得了较大成效[3],逐渐取代传统算法。目前,在计算机视觉领域,已有众多基于光学传感器的人体动作识别数据集,如KTH[4], UCF-101[5], HMDB[6], Kinetics[7], NTU RGB+D[8]等,这些数据集中样本的数目由几千到几十万不等,为研究者提供了便利的研究条件,进一步推动了动作识别技术的应用落地。

    随着时代的进步,人们对动作识别系统的应用场景和隐私保护等方面提出了更高的要求。传统的光学传感器无法在无光、遮蔽和非视距等复杂环境下工作且存在隐私泄露的风险,无法适应多样性的应用需求。然而,以电磁波信号为信息传递载体的雷达是一种主动探测系统,得益于电磁波的穿透性,雷达系统可以在遮挡环境下稳定工作。同时,雷达系统通过分析人体目标反射回波提取人体动作信息,不直接获取人体面部信息,具有较好的隐私保护性能[9]。因此,相比于被动探测的光学传感器,基于雷达传感器的人体动作识别系统有更广泛的使用场景,具有较大的研究价值。

    利用雷达进行人体动作识别的一般步骤是,首先选择合适的人体动作特征,然后从接收的雷达回波中提取有效特征,最后采用合适的分类器实现动作识别。早期的研究大多使用手工提取特征的方法,采用一定的雷达信号处理方法,首先提取雷达信号的幅度、频率、相位等信号波形特性[10],目标的距离、方位、高度等目标特性,以及微多普勒运动等信息作为特征,再使用支持向量机、贝叶斯分类、决策树等传统的机器学习方法进行分类[11]。然而,此类方法在实现过程中涉及多项操作,需要大量人工干预,且动作识别的精度不高,应用受限。近年来,深度学习技术在光学动作识别领域表现良好,实现了特征设计、提取和分类识别的一体化的设计,动作识别精度均优于传统算法,一些学者开始将此技术应用于雷达人体动作识别的研究中[12]。加州大学的Kim等人[13]最早将雷达回波信号处理得到的微多普勒谱输入3层卷积神经网络中,取得了较好的动作识别准确率。美国约翰霍普金斯大学Craley等人[14]引入了长短时记忆网络(LSTM)对雷达多普勒图像进行分类识别,充分利用了人体动作特征中的时序信息。电子科技大学的Wang等人[15]设计了一种多个LSTM堆叠的网络结构,并在实测数据上进行了验证,动作识别精度优于深度卷积神经网络(DCNN)。北京邮电大学Li等人[16]采用迁移学习方法来解决小样本雷达数据集下的人体行为识别问题,提高了网络对于新场景下人体行为识别的泛化能力。国防科技大学的Du等人[17]提出了基于距离-多普勒-时间的三维点云输入模式,距离信息的引入提高了不同位置肢体的差异,进一步改善了动作识别率。北京大学李廉林等人[18]基于智能电磁感知技术使用低成本的超材料天线实现了个体和肢体动作的智能识别,拓宽了人体感知的研究方向[19]

    目前基于雷达传感器的人体动作识别数据集相对稀缺,在一定程度上制约了深度学习在雷达人体动作识别领域的发展。尽管部分学者公布了一些雷达动作识别领域的数据集[20-22],但这些数据集大都基于单通道或者较少通道的雷达回波信号的多普勒特征进行动作识别,而多普勒特征包含的信息量远不如光学传感器提供的人体姿态图像特征丰富,使得在人体动作识别领域中雷达传感器的实用化远远滞后于光学传感器。近年来,低频超宽带多输入多输出(Multiple-Input Multiple-Output, MIMO)雷达技术逐渐成熟,在实现较好穿透性的同时,具有距离、方位和高度三维信息感知能力,能够获取与光学传感器类似的人体姿态图像序列[23]。另外,相比于单通道或少通道雷达系统,MIMO雷达具有更好的空间分辨能力,可实现多目标的探测和分离,有较大的研究价值。然而,由于缺少相关公开数据集,严重限制了MIMO雷达传感器在人体动作识别领域的实用化进程。

    为了促进雷达人体动作识别研究的发展,丰富雷达数据集的多样性,本文基于低频超宽带MIMO雷达,构建了超宽带雷达人体动作四维成像数据集(Ultra-Wideband radar Human Activity 4D imaging dataset, UWB-HA4D-1.0)。不同于传统的基于微多普勒谱进行动作识别的数据集,该数据集是国际首个基于雷达四维成像的人体动作数据集,开辟了人体动作识别领域研究的新路线。本数据集包含人体目标的距离-方位-高度-时间四维信息,共采集了11个不同体型人体目标的10种不同动作,以及3种不同场景的雷达数据。该数据集已可通过《雷达学报》官网的相关链接(https://radars.ac.cn/web/data/getData?dataType=UWB-HA4D)免费下载使用。另外,本文以PaddlePaddle为网络框架,使用了计算机视觉领域几种常用的动作识别深度学习网络对数据集进行训练和验证,为该数据集的使用和开发提供参考,方便其他学者进行更进一步的探索研究。

    结合雷达人体动作四维数据采集的任务需求,本节对所需雷达系统的参数进行讨论分析。关于雷达系统的工作频段的选择,已知工作于0~3 GHz频段的低频雷达有较好的穿透性,可穿透多种墙体介质对遮挡目标进行探测[24],适用于多种探测场景。而超宽带雷达相比于窄带雷达具有更优的距离分辨率,可获取目标高精度距离信息[25]。对于雷达系统的信号体制而言,常见的有窄脉冲信号、线性调频信号、步进频信号等,相比于其他两种信号,步进频信号具有高发射功率,频带拓展性好、大时宽、大带宽的特性,有效克服了窄脉冲信号平均功率较低的缺陷,广泛应用于超宽带雷达领域[26]。关于雷达系统的阵列构型,按照天线的排布可分为一维雷达、二维雷达和三维雷达[27],其中一维雷达采用单发单收的天线形式,仅具有距离分辨能力;二维MIMO雷达的天线采用一维线阵排布,可提供目标的距离、方位二维信息;三维MIMO超宽带雷达的天线采用二维面阵排布,可获取目标的距离、方位、高度三维信息,对人体的肢体轮廓进行描绘。相比于一维和二维雷达,三维雷达可提供更详细的人体目标信息,对判定人体目标的行为状态提供了良好的信息支撑。因此,本文采用二维MIMO雷达阵列发射低频超宽带步进频信号的雷达系统技术方案。

    综合考虑多种因素,本文设计了一款三维超宽带MIMO雷达系统,系统参数指标如表1所示。为了获取更好的方位和高度向分辨率,保证雷达成像质量,系统采用了10发10收的大规模MIMO阵列排布形式,阵列尺寸为60 cm×88 cm。由于采用了1.78~2.78 GHz的低频电磁波信号,雷达系统具有较好的穿透性,可穿透幕布、木板、塑料、泡沫、砖墙等常见遮挡物进行目标探测。另外,本系统的信号发射功率仅为20 dBm,不会对人体造成伤害。

    表  1  雷达系统参数
    Table  1.  Radar system parameters
    参数指标
    工作频段1.78~2.78 GHz
    信号带宽1 GHz
    信号体制步进频信号
    信号步进带宽4 MHz
    脉冲重复频率10 Hz
    天线阵元数10发10收(MIMO)
    信号发射功率20 dBm (100 mW)
    系统尺寸60 cm×88 cm
    可穿透介质幕布、木板、塑料、泡沫、砖墙等
    下载: 导出CSV 
    | 显示表格

    本文所设计的三维超宽带MIMO雷达系统样机如图1所示,其中雷达系统进行信号的发射和接收,计算机负责数据的存储和实时处理。二维MIMO阵列的等效图如图2(a)所示,左右两侧的阵列为发射天线,上下两行的阵列为接收天线,10发10收的阵列等效为100个虚拟阵元,本阵列设计将发射天线在高度维不规则排布来降低旁瓣水平。二维MIMO阵列实物图如图2(b)所示,其中天线阵元结构为宽带蝶形阵子天线。

    图  1  三维超宽带MIMO雷达系统
    Figure  1.  Three-dimensional UWB MIMO radar system
    图  2  二维MIMO阵列
    Figure  2.  Two-dimensional MIMO array

    雷达回波信号的采集和处理流程如图3所示,首先MIMO雷达发射电磁波信号,并接收人体目标反射回波,对接收到的100个通道的雷达回波进行动目标显示(Moving Target Indication, MTI)处理[28],滤除静止杂波。然后进行大范围的方位-距离二维成像,成像区域为设定的系统探测范围,对二维成像结果进行恒虚警率(Constant False Alarm Rate, CFAR)检测[29]和跟踪处理来锁定目标在方位-距离二维平面的位置,最后对目标所在位置的方位向±1 m、距离向±1 m、高度向0~2.5 m范围进行三维成像(假定目标位于地平面)。最后,联合时间维度信息构成人体动作4D雷达数据。关于人体目标的成像,本文采取的先大范围二维成像再小范围三维成像的成像思路,不仅可以避免无目标区域三维成像造成的运算量浪费,节约成像时间,还可以保证三维成像结果有足够的成像网格密度,兼顾了成像效率和成像质量。

    图  3  数据采集与处理流程
    Figure  3.  Data collection and processing flow

    本文选择后向投影(Back Projection, BP)算法[30]作为MIMO雷达成像算法,该算法是一种典型的时域成像算法,对阵元排布没有特殊要求,广泛应用于各种MIMO阵列成像领域。BP算法的基本思想是对成像区域进行网格划分,计算在成像区域中的像素点到天线阵列的距离从而计算出传输的时间延迟,根据这个时间延迟来搜索天线阵列接收到的雷达回波信号,将每个通道的回波信号进行叠加计算[31]。虽然BP成像算法运算量稍大,但配合GPU强大的并行运算能力,BP算法成像耗时通常并不显著高于其他成像算法。因此,本数据集的数据生成阶段采用BP算法进行雷达成像。

    本数据集的采集场景有3个,分别是无遮挡场景S1, 3 cm塑料板遮挡场景S2,以及27 cm砖墙遮挡场景S3,具体信息及场景照片如表2图4所示。本数据集中的训练集只是在S1场景下采集,而测试集包括了S1, S2, S3 3个场景的数据,其中场景S2和S3的数据可以用来测试所设计的动作识别方法的环境适应性。需要说明的是,本文在不同的场景都采用直接成像的方式获取四维雷达图像,未根据不同材料墙体遮挡对电磁波信号造成的影响进行补偿。

    表  2  数据集采集场景信息
    Table  2.  Dataset collection scene information
    场景编号遮挡情况训练集测试集
    S1无遮挡
    S23 cm塑料板遮挡×
    S327 cm砖墙遮挡×
    注:√表示有,×表示无。
    下载: 导出CSV 
    | 显示表格
    图  4  数据集采集场景
    Figure  4.  Dataset collection scenes

    本数据集所采集的10种动作类别示意图如图5所示,10种动作分别为开双臂、打拳、静坐、踢腿、坐下、站立、向前走、向左走、向右走、挥手。相比于使用运动微多普勒信息进行动作识别的数据集仅有运动动作,本数据集包含了目标人体各个身体部位的位置和运动双重信息,可以对运动和静止人体动作进行识别。因此,本数据集中不仅有运动动作还有像静坐、站立这样的静止动作,以及向左走、向右走这类易混淆动作,提供了更加丰富的动作类型。各个动作的组数如表3所示,每个动作的组数在269~278组,其中训练集组数都在149~158组,3个场景的测试集中每个动作为40组,共120组。共采集2757组动作,每组动作40帧三维雷达数据,共110280帧数据。

    图  5  动作类型
    Figure  5.  Activity types
    表  3  不同动作的数据量(组)
    Table  3.  The amount of data for different actions (groups)
    标号动作S1场景训练S1场景测试S2场景测试S3场景测试总数
    1开双臂149404040269
    2打拳155404040275
    3静坐156404040276
    4踢腿158404040278
    5坐下155404040275
    6站立156404040276
    7向前走157404040277
    8向左走156404040276
    9向右走158404040278
    10挥手157404040277
    下载: 导出CSV 
    | 显示表格

    取其中一组开双臂的雷达成像数据做方位-高度向最大值投影进行数据预览,结果如图6所示,分别是第10帧、第24帧、第32帧、第40帧的参考光学图像和雷达图像投影。由图6可知,本雷达系统的成像结果保留了人体目标的身体轮廓和躯干运动信息,可以用于不同动作的识别。

    图  6  三维雷达图像投影
    Figure  6.  Projection of three-dimensional images

    为了保证数据集中人体目标的多样性,本文采集了11个不同身高体重的人体目标,具体信息如表4所示,其中身高范围是163~186 cm,体重范围是53~85 kg。本文对人体目标进行编号,分别是H1—H11,根据人体目标的身高体重分布,选择不同身高体重段具有代表性的H6和H8为测试目标。另外,H1—H11只在S1场景录制训练集,而H6和H8两个人体目标在S1, S2, S3 3个场景分别录制测试集。

    表  4  人体目标信息
    Table  4.  Human target information
    目标编号身高(cm)体重(kg)S1场景S2场景S3场景
    H117570××
    H217272××
    H317868××
    H418285××
    H517075××
    H617974
    H716560××
    H816965
    H916253××
    H1018680××
    H1117167××
    下载: 导出CSV 
    | 显示表格

    本数据集对10个不同的动作分别标号是A1—A10,真值标号为0~9,具体如表5所示。数据以mat格式存储,每个文件的命名规则为“Am_Hn_Sp_q.mat”,其中Am为动作编号,m=1, 2, ···, 10,Hn为人体目标编号,n=1, 2, ···, 11,Sp为场景,p=1, 2, 3,q为组号。以“A2_H5_S1_9.mat”为例,该文件名即指在S1场景下H5目标的A2动作的第9组数据。每组数据中,存储雷达四维图像的矩阵名称为“radar_data_sequence”,数据的大小为40×64×64×64,其中40是三维雷达图像的帧数,64×64×64是三维雷达图像的大小,所有三维成像结果均为归一化后的幅度图。同时,本数据集提供了4个标注文件“train_label.txt”、“test_S1_label.txt”、“test_S2_label.txt”、“test_S3_label.txt”,分别对应1个训练集和3个测试集的标签。标签内容为“A2/A2_H5_S1_9.mat 3”,其中A2为动作类型文件夹名称,“A2_H5_S1_9.mat”为四维雷达数据名称,3为动作类型真值标号,与数据名以空格隔开。

    表  5  人体动作标号
    Table  5.  Human activity labels
    动作编号动作类型真值标号动作编号动作类型真值标号
    A1开双臂0A6站立5
    A2打拳1A7向前走6
    A3静坐2A8向左走7
    A4踢腿3A9向右走8
    A5坐下4A10挥手9
    下载: 导出CSV 
    | 显示表格

    现有的动作识别方法可分为传统动作识别方法和基于深度学习的动作识别方法,其中传统动作识别方法包括基于模板匹配的方法[32]、基于时空兴趣点检测的方法[33]、基于关节点轨迹跟踪的方法[34]。对于基于深度学习方法的动作识别方法,根据网络卷积维度的不同可以分为基于二维卷积神经网络(Two Dimensional Convolutional Neural Networks, 2D CNN)的方法、基于三维卷积神经网络(Three Dimensional Convolutional Neural Networks, 3D CNN)的方法。由于基于深度学习的动作识别方法在实现复杂度和识别精度方面均有优异的表现,逐渐取代了传统动作识别算法,因此,本节只介绍基于深度学习的几种经典动作识别方法。

    基于2D CNN的动作识别方法研究主要有基于双流网络和基于时间特征提取模块的两个研究分支。Simonyan等人[35]最早提出了基于2D CNN的双流网络,该网络包含了两个相互独立的流,分别是空间流网络和时间流网络,其中空间流用于构建外观特征,时间流用来构建运动特征,最后将两个网络流的softmax结果融合,得到预测的动作类型。该网络存在的缺点是仅考虑了相邻帧之间的运动特征,对于长时间运动特征的提取具有一定的局限性。为了解决这个问题,Wang等人[36]在双流网络的基础上提出了一种时域分段网络(Time Segment Network, TSN),该网络引入了稀疏采样的方法,将输入网络的视频分割成若干个视频片段,再进行时空特征提取,最后对各个片段的特征提取结果进行融合,得到预测结果。该方法具有全局时空特征的提取能力,有效解决了原始双流网络存在的长时间运动特征提取能力差的问题。但是,TSN的稀疏采样无法保证有效动作信息的提取。Lin等人[37]提出了一种时间移位模块(Temporal Shift Module, TSM)用来捕获时间域上的有效特征。该算法的核心思想是将部分信道沿时间维进行移位,便于相邻帧之间的信息交换,扩大了时间感受野。其优点是在完成有效时间信息建模的同时,几乎没有带来额外的计算量,并取得了较好的动作识别精度。

    基于光学传感器的视频序列中的人体动作是方位-高度-时间的三维数据,使用3D CNN可以直接获取人体动作在这3个维度上的特征。Ji等人[38]最早提出采用3D CNN视频时空特征提取架构,该架构从相邻帧数据中提取多通道的信息,分别进行卷积处理,最后综合各个通道的特征预测动作类型。Tran等人[39]在3D CNN的基础上提出了C3D (Convolutional 3D)框架,该框架最终获得了比2D CNN更加高效的特征提取。基于前期研究,Tran等人[40]将C3D架构与Resnet网络相结合,提出了新的Res3D网络,进一步提高了动作识别精度。为了提高动作识别网络对于时空特征变化的适应性,Feichtenhofer等人[41]提出了快慢网络(SlowFast Networks, SFN),该网络包含慢帧率和快帧率两条通道,其中慢帧率通道用来提取动作的空间语义信息,快帧率通道用来提取精细的动作特征,该网络对变化快的动作的识别具有较大的优势。

    本文选取计算机视觉领域的几种代表性动作识别方法在UWB-HA4D-1.0数据集上进行实验验证,主要有基于2D CNN的TSN, TSM,以及基于3D CNN的Res3D, SFN这几种算法。由于四维雷达图像在网络处理的过程中需要消耗大量的运算单元,所以本文采取将人体目标的三维成像结果做方位-距离、方位-高度、距离-高度3个二维平面上的最大值投影,来实现减少数据量的目的,即将大小为64×64×64的数据转化为大小为3×64×64的数据,以下实验均基于投影后的数据进行处理。

    本文设计的基于TSN网络结构的雷达图像人体动作识别网络如图7所示,首先将时间为T的一段四维雷达数据分割成N段,S1,S2,,SN,分别从N段数据中取出一帧三维成像结果,进行3个平面的最大值投影,并提取光流信息;然后分别使用二维空间卷积提取每一帧雷达图像中的空间特征,使用二维时间卷积提取光流图中的时间特征,最后再将时间和空间特征融合,得到最后的动作识别结果。

    图  7  TSN结构图
    Figure  7.  TSN structure

    基于TSM结构的雷达图像人体动作识别网络的预处理与TSN网络一致,首先将四维雷达数据分割成N段,然后分别从每段中取出一帧数据,共N帧数据。然后按照图8的时间移动方法对N帧数据进行处理,将数据分别沿着时间维进行前移和后移,最后使用2D CNN同时提取时间和空间信息,得到动作识别结果。

    图  8  TSM网络核心结构
    Figure  8.  The core structure of TSM network

    基于Res3D网络的雷达图像人体动作识别网络的处理思路是直接使用3D CNN同时提取连续帧雷达图像中人体动作的时间和空间特征,网络结构图如图9所示,通过Resnet网络提取特征,最后使用全卷积层实现动作识别。

    图  9  Res3D网络结构图
    Figure  9.  Res3D network structure

    基于STN网络结构的雷达图像人体动作识别方法的实现框图如图10所示,由图10可知,慢帧率通道相比于快帧率通道的数据采样间隔较大,数据量较少,两个通道分别使用3D CNN提取特征。另外,快速通道的特征通过侧向连接与慢速通道相连,实现特征的融合,最后将两个通道的结果融合得到最终的动作预测结果。

    图  10  SFN结构图
    Figure  10.  SFN structure

    本节使用在S1场景下采集的9人的10个动作作为训练集对4.1节设计的TSN, TSM, Res3D, STN 4个网络进行训练,将其他2人在S1, S2, S33个场景下采集的数据作为测试集。在训练的过程中,使用Momentum作为优化算法,设置训练循环周期数为100,网络的初始学习率为0.01,并分别在第25和第60个周期以十分之一递减,batch size设置为8,num_workers设置为4。几种算法的特征提取网络是Resnet网络,网络实现是使用百度公司开发的飞桨平台PaddlePaddle框架。网络的训练和测试环境为Ubuntu 20系统,显卡为NVIDIA RXT2070,计算机运行内存为64GB。

    对4种网络分别进行训练,并对3个不同场景的数据进行测试,得到结果如表6所示。由表可知,Res3D网络在S1测试集上取得了最佳识别精度,达到了92.25%,优于其他几种方法。对比S1, S2, S3 3个测试场景的动作识别精度可知,S2场景的识别精度与S1场景较为接近。而S3场景由于较厚墙体的遮挡,电磁波能量衰减较大,成像质量与无遮挡的S1场景相比下降较多,所以动作识别精度也大幅度降低。同时也可知,基于Res3D的方法在非同一探测场景下比其他网络取得了更好的识别精度,具有更好的环境适应性,而TSN方法的环境适应性最差。

    表  6  实验结果对比表
    Table  6.  Experimental results comparison table
    识别方法网络框架S1识别精度S2识别精度S3识别精度
    2D CNNTSN85.75%83.5%60.75%
    TSM91.50%88.0%73.75%
    3D CNNSFN88.00%80.5%70.25%
    Res3D92.25%90.0%77.00%
    下载: 导出CSV 
    | 显示表格

    本节以TSM网络为例展开分析,由4.1节可知,基于2D CNN方法的TSN和TSM网络需要对数据进行分段处理,然后从每段数据中取出一帧输入网络,本文对网络分段数与最终动作识别的精度之间的关系进行探究。以TSM网络为例,网络的输入数据的长度为40帧,为了减少非等间距采样对结果的影响,本文将输入数据分为可以被40整除的段数,即为4段、5段、8段、10段,以及20段。分别使用几种分段数对网络进行训练,并使用S1数据进行验证,得到100个训练周期对应的测试结果,具体如图11所示,其中图11(a)为不同分割段数的TSM网络测试在不同训练周期得到的动作识别测试精度,图11(b)是不同分割段数的最佳测试精度。由图11可知,随着分段数目的增多,网络的数据量增大,获取到更多的目标运动信息,所以得到了较好的动作识别精度。

    图  11  TSM网络测试结果
    Figure  11.  TSM network test results

    为了直观了解不同动作的识别率,本节对网络在不同场景的测试结果进行对比分析,以基于3D CNN的Res3D网络为例,得到3个不同场景下的测试结果如表7所示。由表可知,S1和S2场景中的动作识别率较高,而S3场景由于电磁波能量减弱,对挥手、踢腿等轻微动作的识别率较低。同时,该网络对坐下和静坐两个动作的识别率都较高。

    表  7  Res3D网络在不同场景下的动作识别精度(%)
    Table  7.  Human activity recognition accuracy of Res3D networks in different scenes (%)
    探测场景张开双臂打拳静坐踢腿坐下站立向前走向左走向右走挥手平均
    S1场景9090.097.582.510085.097.51001008092.25
    S2场景8592.5100.085.010082.585.01001007090.00
    S3场景9082.5100.042.510065.050.0701007077.00
    下载: 导出CSV 
    | 显示表格

    本节借鉴计算机视觉领域的动作识别算法实现了4种基于雷达四维成像数据集的动作识别网络,分别是TSN, TSM, Res3D和SFN,并对4种网络的算法框架进行了介绍。为了便于网络处理,本文对四维数据进行了3个方向的最大值投影,然后分别使用S1场景下9人的数据进行训练,使用其他2人在3个场景下的数据分别进行测试。对测试结果进行分析可知,Res3D网络在同一场景表现良好,测试识别精度达到了92.25%,同时Res3D网络对非训练场景的动作识别精度最高,网络的鲁棒性更强。与其他几种方法相比,Res3D网络没有对数据进行离散采样,保留了所有帧的雷达数据,所以取得了较高的动作识别精度,但也消耗了较多的运算量。

    需要说明的是,本文实验中所采取的投影方式实现了数据的压缩,同时也造成了数据的损失,该方法并非最优,仅供数据库使用者参考,实际应用中也可以采取其他数据降维策略。另外,本文所使用的动作识别网络未根据雷达图像属性进行相应修改,识别率仍有较大的提升空间。因此,本文建议该数据集的未来研究可以从以下两个方面入手。

    (1) 数据降维预处理。四维雷达图像区别于三维光学视频数据,多了一维距离信息,现有网络无法直接处理,因此如何设计方法对四维数据进行降维,且最大限度保留人体运动信息具有一定的研究价值。

    (2) 网络结构设计。雷达系统与光学系统的成像机理存在差异,人体位置和运动特征分布略有不同。因此,可结合雷达系统提取雷达图像特有属性,如多普勒特征,合理设计网络结构和损失函数,进一步提高动作识别精度。

    针对基于雷达传感器的人体行为感知领域公开数据集缺乏的问题,本文公开了一种基于超宽带雷达四维成像的人体动作数据集,称为UWB-HA4D-1.0。该数据集以具有距离-方位-高度三维空间分辨能力的超宽带MIMO雷达为数据采集系统,通过MIMO雷达成像方法获取人体目标的三维成像结果,联合时间信息构成包含人体动作信息的四维成像。数据集有11个身高体重不同的人体目标、10种常见的动作类型、3种不同的测试场景,共计2757组人体动作数据,其中训练集1557组,3个测试集共1200组数据。本文对数据集的采集和制作、人体目标和动作信息,以及系统标注做了详细介绍。同时,分析了当前几种主流的动作识别方法。并使用了部分动作识别网络在本数据集上进行了实验测试,对实验结果进行分析和讨论,旨在为数据集使用者提供网络设计和动作识别精度参考。

    本数据集是首个基于雷达四维成像的人体动作数据集,填补了此领域的空白。然而,本数据集仍存在一些问题待解决,比如系统成像帧率偏低、人体目标位置相对单一、动作类型丰富性不够、未对动作的起始帧和结束帧进行标注等问题。针对现存问题,下一步的任务有以下几项。

    (1) 优化系统参数,提高信号帧率。较高的信号帧率可以更好地捕捉人体目标的动作信息,可基于高帧率雷达信号提取人体目标的微多普勒信息,与雷达四维成像结合进一步提高动作识别精度。

    (2) 增加多位置、多人数据,丰富人体动作类型。三维超宽带雷达具有三维空间分辨能力,增加多人场景下的数据,可进行多人动作同时识别的方法研究,具有较大的实用意义。

    (3) 对人体动作信息做更加详细的标注。对人体运动的起始帧和结束帧进行详细标注有助于人体目标动作进行定位和识别的多任务研究,加速推动雷达动作识别系统的实用化进程。

    (4) 多传感器融合。单一传感器存在探测局限,未来可结合光学传感器、分布式雷达传感器等多源传感器实现对人体目标的全方位、多角度探测,提高人体行为感知能力。

    超宽带雷达人体动作四维成像数据集-1.0 (UWB-HA4D-1.0)依托《雷达学报》官方网站发布,数据于每次更新后上传至学报网站“超宽带雷达人体动作四维成像数据集-1.0”页面(附图1),网址为:https://radars.ac.cn/web/data/getData?dataType=UWB-HA4D。由于网站存储空间限制,本次只上传了部分数据,完整数据的获取可以联系编辑部或作者。

    1  超宽带雷达人体动作四维成像数据集1.0发布网页
    1.  Release webpage of ultra-wideband radar human activity 4D imaging dataset
  • 图  1  人体姿态模型

    Figure  1.  Human pose models

    图  2  RPM模型框架图[18]

    Figure  2.  Diagram of the RPM framework[18]

    图  3  基于成像的人体姿态估计方法

    Figure  3.  Radar imaging-based human pose estimation methods

    图  4  混凝土墙体对于信号传播路径的影响

    Figure  4.  The impact of concrete walls on signal propagation paths

    图  5  Person-in-WiFi 3D模型框架[42]

    Figure  5.  The framework of Person-in-WiFi 3D[42]

    表  1  基于无线信号的人体姿态估计研究现状总结

    Table  1.   Summary of research status on pose estimation based on wireless signals

    基于频率的分类 设备 雷达特征信息 代表性工作
    基于高频无线信号的
    人体姿态估计
    毫米波雷达
    (30~300 GHz)
    3D point cloud mmPose[29]
    Heatmap RPM[18]
    Heatmap RPM 2.0[14]
    Heatmap MobiRFPose[19]
    基于低频无线信号的
    人体姿态估计
    穿墙雷达
    (300 MHz~10 GHz)
    Heatmap RF-Pose[34]
    Heatmap RF-Pose3D[36]
    单帧3D成像体素 MIMDSN[37]
    多帧3D成像体素 ST2W-AP[38]
    Heatmap和3D成像体素 Dual-task Net[39]
    多帧雷达回波 RadarFormer[40]
    WiFi
    (2.400~5.825 GHz)
    Channel state information Person-in-WiFi[41]
    Channel state information Person-in-WiFi 3D[42]
    Channel state information DensePose From WiFi[43]
    下载: 导出CSV

    表  2  基于无线信号的人体姿态估计数据集对比

    Table  2.   Summary of dataset on pose estimation based on wireless signals

    数据集 无线设备 真值采集设备 场景数量 行为种类 用户数量 总样本数(帧)
    UWB-HA4D-1.0 穿墙雷达 RGB 3 10 11 110280
    HIBER 毫米波雷达 RGB 10 4 10 402380
    RT-Pose 毫米波雷达 RGB
    LiDAR
    40 6 10 72000
    mRI 毫米波雷达 RGB-D
    IMU
    1 12 20 160000
    mmBody 毫米波雷达 RGB 100 7 20 >20万
    HuPR 毫米波雷达 RGB 1 3 6 141000
    下载: 导出CSV
  • [1] ZHAO Zhongqiu, ZHENG Peng, XU Shoutao, et al. Object detection with deep learning: A review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3212–3232. doi: 10.1109/TNNLS.2018.2876865.
    [2] CHEN Yucheng, TIAN Yingli, and HE Mingyi. Monocular human pose estimation: A survey of deep learning-based methods[J]. Computer Vision and Image Understanding, 2020, 192: 102897. doi: 10.1016/j.cviu.2019.102897.
    [3] MUNEA T L, JEMBRE Y Z, WELDEGEBRIEL H T, et al. The progress of human pose estimation: A survey and taxonomy of models applied in 2D human pose estimation[J]. IEEE Access, 2020, 8: 133330–133348. doi: 10.1109/ACCESS.2020.3010248.
    [4] JIAO Licheng, ZHANG Ruohan, LIU Fang, et al. New generation deep learning for video object detection: A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(8): 3195–3215. doi: 10.1109/TNNLS.2021.3053249.
    [5] 杨小鹏, 高炜程, 渠晓东. 基于微多普勒角点特征与Non-Local机制的穿墙雷达人体步态异常终止行为辨识技术[J]. 雷达学报(中英文), 2024, 13(1): 68–86. doi: 10.12000/JR23181.

    YANG Xiaopeng, GAO Weicheng, and QU Xiaodong. Human anomalous gait termination recognition via through-the-wall radar based on micro-Doppler corner features and Non-Local mechanism[J]. Journal of Radars, 2024, 13(1): 68–86. doi: 10.12000/JR23181.
    [6] 金添, 宋勇平, 崔国龙, 等. 低频电磁波建筑物内部结构透视技术研究进展[J]. 雷达学报, 2020, 10(3): 342–359. doi: 10.12000/JR20119.

    JIN Tian, SONG Yongping, CUI Guolong, et al. Advances on penetrating imaging of building layout technique using low frequency radio waves[J]. Journal of Radars, 2021, 10(3): 342–359. doi: 10.12000/JR20119.
    [7] 崔国龙, 余显祥, 魏文强, 等. 认知智能雷达抗干扰技术综述与展望[J]. 雷达学报, 2022, 11(6): 974–1002. doi: 10.12000/JR22191.

    CUI Guolong, YU Xianxiang, WEI Wenqiang, et al. An overview of antijamming methods and future works on cognitive intelligent radar[J]. Journal of Radars, 2022, 11(6): 974–1002. doi: 10.12000/JR22191.
    [8] 夏正欢, 张群英, 叶盛波, 等. 一种便携式伪随机编码超宽带人体感知雷达设计[J]. 雷达学报, 2015, 4(5): 527–537. doi: 10.12000/JR15027.

    XIA Zhenghuan, ZHANG Qunying, YE Shengbo, et al. Design of a handheld pseudo random coded UWB radar for human sensing[J]. Journal of Radars, 2015, 4(5): 527–537. doi: 10.12000/JR15027.
    [9] ZHANG Dongheng, HU Yang, and CHEN Yan. MTrack: Tracking multiperson moving trajectories and vital signs with radio signals[J]. IEEE Internet of Things Journal, 2021, 8(5): 3904–3914. doi: 10.1109/JIOT.2020.3025820.
    [10] LI Yadong, ZHANG Dongheng, CHEN Jinbo, et al. Towards domain-independent and real-time gesture recognition using mmWave signal[J]. IEEE Transactions on Mobile Computing, 2023, 22(12): 7355–7369. doi: 10.1109/TMC.2022.3207570.
    [11] ZHANG Binbin, ZHANG Dongheng, LI Yadong, et al. Unsupervised domain adaptation for RF-based gesture recognition[J]. IEEE Internet of Things Journal, 2023, 10(23): 21026–21038. doi: 10.1109/JIOT.2023.3284496.
    [12] SONG Ruiyuan, ZHANG Dongheng, WU Zhi, et al. RF-URL: Unsupervised representation learning for RF sensing[C]. The 28th Annual International Conference on Mobile Computing and Networking, Sydney, Australia, 2022: 282–295. doi: 10.1145/3495243.3560529.
    [13] GONG Hanqin, ZHANG Dongheng, CHEN Jinbo, et al. Enabling orientation-free mmwave-based vital sign sensing with multi-domain signal analysis[C]. 2024 IEEE International Conference on Acoustics, Speech and Signal Processing, Seoul, Korea, Republic of, 2024: 8751–8755. doi: 10.1109/ICASSP48485.2024.10448323.
    [14] XIE Chunyang, ZHANG Dongheng, WU Zhi, et al. RPM 2.0: RF-based pose machines for multi-person 3D pose estimation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(1): 490–503. doi: 10.1109/TCSVT.2023.3287329.
    [15] YANG Shuai, ZHANG Dongheng, SONG Ruiyuan, et al. Multiple WiFi access points co-localization through joint AoA estimation[J]. IEEE Transactions on Mobile Computing, 2024, 23(2): 1488–1502. doi: 10.1109/TMC.2023.3239377.
    [16] WU Zhi, ZHANG Dongheng, XIE Chunyang, et al. RFMask: A simple baseline for human silhouette segmentation with radio signals[J]. IEEE Transactions on Multimedia, 2023, 25: 4730–4741. doi: 10.1109/TMM.2022.3181455.
    [17] GENG Ruixu, HU Yang, LU Zhi, et al. Passive non-line-of-sight imaging using optimal transport[J]. IEEE Transactions on Image Processing, 2022, 31: 110–124. doi: 10.1109/TIP.2021.3128312.
    [18] XIE Chunyang, ZHANG Dongheng, WU Zhi, et al. RPM: RF-based pose machines[J]. IEEE Transactions on Multimedia, 2024, 26: 637–649. doi: 10.1109/TMM.2023.3268376.
    [19] YU Cong, ZHANG Dongheng, WU Zhi, et al. MobiRFPose: Portable RF-based 3D human pose camera[J]. IEEE Transactions on Multimedia, 2024, 26: 3715–3727. doi: 10.1109/TMM.2023.3314979.
    [20] YU Cong, ZHANG Dongheng, WU Zhi, et al. Fast 3D human pose estimation using RF signals[C]. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing, Rhodes Island, Greece, 2023: 1–5. doi: 10.1109/ICASSP49357.2023.10094778.
    [21] MU Kangle, LUAN T H, ZHU Lina, et al. A survey of handy see-through wall technology[J]. IEEE Access, 2020, 8: 82951–82971. doi: 10.1109/ACCESS.2020.2991201.
    [22] SONG Yongkun, JIN Tian, DAI Yongpeng, et al. Through-wall human pose reconstruction via UWB MIMO radar and 3D CNN[J]. Remote Sensing, 2021, 13(2): 241. doi: 10.3390/rs13020241.
    [23] VASISHT D, JAIN A, HSU C Y, et al. Duet: Estimating user position and identity in smart homes using intermittent and incomplete RF-data[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2018, 2(2): 84. doi: 10.1145/3214287.
    [24] HSU C Y, HRISTOV R, LEE G H, et al. Enabling identification and behavioral sensing in homes using radio reflections[C]. 2019 CHI Conference on Human Factors in Computing Systems, Glasgow, Scotland UK, 2019: 548. doi: 10.1145/3290605.3300778.
    [25] FAN Lijie, LI Tianhong, YUAN Yuan, et al. In-home daily-life captioning using radio signals[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 105–123. doi: 10.1007/978-3-030-58536-5_7.
    [26] TIAN Yonglong, LEE G H, HE Hao, et al. RF-based fall monitoring using convolutional neural networks[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2018, 2(3): 137. doi: 10.1145/3264947.
    [27] AYYALASOMAYAJULA R, ARUN A, WU Chenfeng, et al. Deep learning based wireless localization for indoor navigation[C]. The 26th Annual International Conference on Mobile Computing and Networking, London, United Kingdom, 2020: 17. doi: 10.1145/3372224.3380894.
    [28] CAO Zhongping, DING Wen, CHEN Rihui, et al. A joint global-local network for human pose estimation with millimeter wave radar[J]. IEEE Internet of Things Journal, 2023, 10(1): 434–446. doi: 10.1109/JIOT.2022.3201005.
    [29] SENGUPTA A, JIN Feng, ZHANG Renyuan, et al. mm-Pose: Real-time human skeletal posture estimation using mmWave radars and CNNs[J]. IEEE Sensors Journal, 2020, 20(17): 10032–10044. doi: 10.1109/JSEN.2020.2991741.
    [30] ADIB F, HSU C Y, MAO Hongzi, et al. Capturing the human figure through a wall[J]. ACM Transactions on Graphics, 2015, 34(6): 219. doi: 10.1145/2816795.2818072.
    [31] AHMAD F, ZHANG Yimin, and AMIN M G. Three-dimensional wideband beamforming for imaging through a single wall[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(2): 176–179. doi: 10.1109/LGRS.2008.915742.
    [32] KONG Lingjiang, CUI Guolong, YANG Xiaobo, et al. Three-dimensional human imaging for through-the-wall radar[C]. 2009 IEEE Radar Conference, Pasadena, USA, 2009: 1–4. doi: 10.1109/RADAR.2009.4976932.
    [33] HOLL P M and REINHARD F. Holography of Wi-Fi radiation[J]. Physical Review Letters, 2017, 118(18): 183901. doi: 10.1103/PhysRevLett.118.183901.
    [34] ZHAO Mingmin, LI Tianhong, ABU ALSHEIKH M, et al. Through-wall human pose estimation using radio signals[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7356–7365. doi: 10.1109/CVPR.2018.00768.
    [35] JIANG Wenjun, XUE Hongfei, MIAO Chenglin, et al. Towards 3D human pose construction using WiFi[C]. The 26th Annual International Conference on Mobile Computing and Networking, London, United Kingdom, 2020: 23. doi: 10.1145/3372224.3380900.
    [36] ZHAO Mingmin, TIAN Yonglong, ZHAO Hang, et al. RF-based 3D skeletons[C]. 2018 Conference of the ACM Special Interest Group on Data Communication, Budapest, Hungary, 2018: 267–281. doi: 10.1145/3230543.3230579.
    [37] ZHENG Zhijie, PAN Jun, ZHANG Diankun, et al. Through-wall human pose estimation by mutual information maximizing deeply supervised nets[J]. IEEE Internet of Things Journal, 2024, 11(2): 3190–3205. doi: 10.1109/JIOT.2023.3294955.
    [38] 张锐, 龚汉钦, 宋瑞源, 等. 基于4D成像雷达的隔墙人体姿态重建与行为识别研究[J]. 雷达学报(中英文), 2025, 14(1): 44–61. doi: 10.12000/JR24132.

    ZHANG Rui, GONG Hanqin, SONG Ruiyuan, et al. Through-wall human pose reconstruction and action recognition using four-dimensional imaging radar[J]. Journal of Radars, 2025, 14(1): 44–61. doi: 10.12000/JR24132.
    [39] SONG Yongkun, DAI Yongpeng, JIN Tian, et al. Dual-task human activity sensing for pose reconstruction and action recognition using 4-D imaging radar[J]. IEEE Sensors Journal, 2023, 23(19): 23927–23940. doi: 10.1109/JSEN.2023.3308788.
    [40] ZHENG Zhijie, ZHANG Diankun, LIANG Xiao, et al. RadarFormer: End-to-end human perception with through-wall radar and transformers[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 35(10): 4319–4332. doi: 10.1109/TNNLS.2023.3314031.
    [41] WANG Fei, ZHOU Sanping, PANEV S, et al. Person-in-WiFi: Fine-grained person perception using WiFi[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 5452–5461. doi: 10.1109/ICCV.2019.00555.
    [42] YAN Kangwei, WANG Fei, QIAN Bo, et al. Person-in-WiFi 3D: End-to-end multi-person 3D pose estimation with Wi-Fi[C]. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2024: 969–978. doi: 10.1109/CVPR52733.2024.00098.
    [43] GENG Jiaqi, HUANG Dong, and DE LA TORRE F. DensePose from WiFi[OL]. https://arxiv.org/abs/2301.00250. 2022.
    [44] CAO Zhe, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 7291–7299. doi: 10.1109/CVPR.2017.143.
    [45] JOHNSON S and EVERINGHAM M. Clustered pose and nonlinear appearance models for human pose estimation[C]. 2010 British Machine Vision Conference, Aberystwyth, UK, 2010: 1–11.
    [46] CHEN Xianjie and YUILLE A. Parsing occluded people by flexible compositions[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 3945–3954. doi: 10.1109/CVPR.2015.7299020.
    [47] LI Wenbo, WANG Zhicheng, YIN Binyi, et al. Rethinking on multi-stage networks for human pose estimation[OL]. https://arxiv.org/abs/1901.00148. 2019.
    [48] BOULIC R, THALMANN N M, and THALMANN D. A global human walking model with real-time kinematic personification[J]. The Visual Computer, 1990, 6(6): 344–358. doi: 10.1007/BF01901021.
    [49] BOULIC R, REZZONICO S, and THALMANN D. Multi-finger manipulation of virtual objects[C]. ACM Symposium on Virtual Reality Software and Technology, Hong Kong, China, 1996: 67–74. doi: 10.1145/3304181.3304195.
    [50] JU S X, BLACK M J, and YACOOB Y. Cardboard people: A parameterized model of articulated image motion[C]. The 2nd International Conference on Automatic Face and Gesture Recognition, Killington, USA, 1996: 38–44. doi: 10.1109/AFGR.1996.557241.
    [51] JIANG Hao. Finding human poses in videos using concurrent matching and segmentation[C]. The 10th Asian Conference on Computer Vision, Queenstown, New Zealand, 2011: 228–243. doi: 10.1007/978-3-642-19315-6_18.
    [52] COOTES T F, TAYLOR C J, COOPER D H, et al. Active shape models-their training and application[J]. Computer Vision and Image Understanding, 1995, 61(1): 38–59. doi: 10.1006/cviu.1995.1004.
    [53] FREIFELD O, WEISS A, ZUFFI S, et al. Contour people: A parameterized model of 2D articulated human shape[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010: 639–646. doi: 10.1109/CVPR.2010.5540154.
    [54] URTASUN R and FUA P. 3D human body tracking using deterministic temporal motion models[C]. The 8th European Conference on Computer Vision, Prague, Czech Republic, 2004: 92–106. doi: 10.1007/978-3-540-24672-5_8.
    [55] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: A skinned multi-person linear model[J]. Seminal Graphics Papers: Pushing the Boundaries, 2023, 2: 88. doi: 10.1145/3596711.3596800.
    [56] SAITO Shunsuke, HUANG Zeng, NATSUME Ryota, et al. PIFu: Pixel-aligned implicit function for high-resolution clothed human digitization[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea, 2019: 2304–2314. doi: 10.1109/ICCV.2019.00239.
    [57] PONS-MOLL G, ROMERO J, MAHMOOD N, et al. Dyna: A model of dynamic human shape in motion[J]. ACM Transactions on Graphics, 2015, 34(4): 120. doi: 10.1145/2766993.
    [58] ZUFFI S and BLACK M J. The stitched puppet: A graphical model of 3D human shape and pose[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 3537–3546. doi: 10.1109/CVPR.2015.7298976.
    [59] JOO H, SIMON T, and SHEIKH Y. Total capture: A 3D deformation model for tracking faces, hands, and bodies[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8320–8329. doi: 10.1109/CVPR.2018.00868.
    [60] XU Hongyi, BAZAVAN E G, ZANFIR A, et al. GHUM & GHUML: Generative 3D human shape and articulated pose models[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 6184–6193. doi: 10.1109/CVPR42600.2020.00622.
    [61] CHEN V C, LI Fayin, HO S S, et al. Micro-Doppler effect in radar: Phenomenon, model, and simulation study[J]. IEEE Transactions on Aerospace and Electronic Systems, 2006, 42(1): 2–21. doi: 10.1109/TAES.2006.1603402.
    [62] 李柯蒙, 戴永鹏, 宋勇平, 等. 单通道超宽带雷达人体姿态增量估计技术[J]. 雷达学报(中英文), 2025, 14(1): 16–27. doi: 10.12000/JR24109.

    LI Kemeng, DAI Yongpeng, SONG Yongping, et al. Single-channel ultrawideband radar human pose-incremental estimation technology[J]. Journal of Radars, 2025, 14(1): 16–27. doi: 10.12000/JR24109.
    [63] 金添, 宋永坤, 戴永鹏, 等. UWB-HA4D-1.0: 超宽带雷达人体动作四维成像数据集[J]. 雷达学报, 2022, 11(1): 27–39. doi: 10.12000/JR22008.

    JIN Tian, SONG Yongkun, DAI Yongpeng, et al. UWB-HA4D-1.0: An ultra-wideband radar human activity 4D imaging dataset[J]. Journal of Radars, 2022, 11(1): 27–39. doi: 10.12000/JR22008.
    [64] HO Y H, CHENG J H, KUAN Shengyao, et al. RT-Pose: A 4D radar tensor-based 3D human pose estimation and localization benchmark[OL]. https://arxiv.org/abs/2407.13930. 2024.
    [65] AN Sizhe, LI Yin, and OGRAS U. mRI: Multi-modal 3D human pose estimation dataset using mmwave, RGB-D, and inertial sensors[C]. 36th International Conference on Neural Information Processing Systems, New Orleans, USA, 2022: 1988.
    [66] CHEN Anjun, WANG Xiangyu, ZHU Shaohao, et al. mmBody benchmark: 3D body reconstruction dataset and analysis for millimeter wave radar[C]. 30th ACM International Conference on Multimedia, Lisboa, Portugal, 2022: 3501–3510. doi: 10.1145/3503161.3548262.
    [67] LEE S P, KINI N P, PENG W H, et al. HuPR: A benchmark for human pose estimation using millimeter wave radar[C]. 2023 IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, USA, 2023: 5715–5724. doi: 10.1109/WACV56688.2023.00567.
    [68] GADRE A, VASISHT D, RAGHUVANSHI N, et al. MiLTOn: Sensing product integrity without opening the box using non-invasive acoustic vibrometry[C]. 21st ACM/IEEE International Conference on Information Processing in Sensor Networks, Milano, Italy, 2022: 390–402. doi: 10.1109/IPSN54338.2022.00038.
    [69] LI Yang, LIU Yutong, WANG Yanping, et al. The millimeter-wave radar SLAM assisted by the RCS feature of the target and IMU[J]. Sensors, 2020, 20(18): 5421. doi: 10.3390/s20185421.
    [70] CARUANA R. Multitask learning[J]. Machine Learning, 1997, 28(1): 41–75. doi: 10.1023/A:1007379606734.
  • 加载中
图(5) / 表(2)
计量
  • 文章访问数: 462
  • HTML全文浏览量: 259
  • PDF下载量: 176
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-09-16
  • 修回日期:  2024-11-07
  • 网络出版日期:  2024-11-26
  • 刊出日期:  2025-02-28

目录

/

返回文章
返回