-
摘要: 该文提出了一种新的多模态协同感知框架,通过融合激光雷达和相机传感器的输入来增强自动驾驶感知系统的性能。首先,构建了一个多模态融合的基线系统,能有效地整合来自激光雷达和相机传感器的数据,为后续研究提供了可比较的基准。其次,在多车协同环境下,探索了多种流行的特征融合策略,包括通道级拼接、元素级求和,以及基于Transformer的融合方法,以此来融合来自不同类型传感器的特征并评估它们对模型性能的影响。最后,使用大规模公开仿真数据集OPV2V进行了一系列实验和评估。实验结果表明,基于注意力机制的多模态融合方法在协同感知任务中展现出更优越的性能和更强的鲁棒性,能够提供更精确的目标检测结果,从而增加了自动驾驶系统的安全性和可靠性。Abstract: This paper proposes a novel multimodal collaborative perception framework to enhance the situational awareness of autonomous vehicles. First, a multimodal fusion baseline system is built that effectively integrates Light Detection and Ranging (LiDAR) point clouds and camera images. This system provides a comparable benchmark for subsequent research. Second, various well-known feature fusion strategies are investigated in the context of collaborative scenarios, including channel-wise concatenation, element-wise summation, and transformer-based methods. This study aims to seamlessly integrate intermediate representations from different sensor modalities, facilitating an exhaustive assessment of their effects on model performance. Extensive experiments were conducted on a large-scale open-source simulation dataset, i.e., OPV2V. The results showed that attention-based multimodal fusion outperforms alternative solutions, delivering more precise target localization during complex traffic scenarios, thereby enhancing the safety and reliability of autonomous driving systems.
-
1. 引言
作为现代通信、探测和测试系统中的核心部件,频率综合器能够在一定带宽范围内灵活输出高精度、高稳定的频率信号,广泛应用于无线通信、雷达探测、测试与计量、卫星等领域[1–4]。随着技术的发展,高频率、大带宽、低相噪及低杂散成为新一代高性能频率综合系统的必然演进方向。传统基于微波技术的频率综合技术采用低频晶体振荡器作为参考源,通过倍频锁相的方式产生高频信号,但是所产生的高频信号的相位噪声在倍频锁相过程中被快速恶化(20lgN, N为倍频因子),难以进一步提升。
相比之下,光子技术具有低噪声、低损耗和大带宽等关键优势,因此通过光子技术实现频率综合已获得人们的广泛重视[5–9]。光域实现微波频率综合技术主要包括双光频梳锁定技术[5],飞秒锁模激光器锁相技术[6],半导体激光器注入锁定技术[7]和基于光电振荡器(Opto-Electronic Oscillator, OEO)的锁相技术[8,9]等。双光频梳锁定技术和飞秒锁模激光器锁相技术本质上都需要选出两个光波长进行拍频,将拍频产生的微波信号作为频率综合器的参考信号。这两种技术都能产生高稳定的参考信号,但为了保证选出的两个波长的频率稳定性,需要对光频梳对或者锁模激光器进行复杂的控制,很难具有实用性。而基于半导体激光器的注入锁定技术[7]能够实现宽带频综信号产生,但是由于主光波长和从光波长之间无法严格相位锁定,因此产生的频综信号相位噪声性能较差。与前3种技术不同,基于OEO的频率综合技术采用OEO输出的高频、低相位噪声的微波频率作为参考信号,利用锁相环技术将频率综合器的输出信号和光电振荡频率进行相位锁定,进而实现宽带高性能的频率综合信号产生。基于该机理,Peng等人[8]利用锁相OEO实现了高频率分辨率的X波段频率综合器,输出频率范围覆盖8~10 GHz。该技术避免了传统倍频锁相技术引入的相噪恶化,但其OEO输出频率的相位噪声仅为–100 dBc/Hz@10 kHz,极大地限制了频率综合器性能的提升。此外,Beltchicov等人[9]基于振荡频率为10.2 GHz的OEO及锁相技术也实现了9~18 GHz的频率综合器。该系统通过频率合成输出的10 GHz信号相位噪声约为–120 dBc/Hz@1 kHz以及–140 dBc/Hz@10 kHz,具有很好的相噪性能。值得注意的是,该方案中采用的OEO相位噪声约为–122 dBc/Hz@1 kHz和–151 dBc/Hz@10 kHz,从根本上保证了频率综合器输出信号的频谱纯度及噪声性能。综上所述,基于超低相位噪声OEO的频率综合技术为实现高性能先进频率综合系统提供了有效新思路。
本文提出了一种基于级联相位调制器(Phase Modulator,PM)的注入锁定OEO及其频率综合系统。与传统的OEO[10–12]相比,本文利用相位调制技术展宽光谱并保持光功率恒定,降低振荡环路中光纤引入的受激布里渊散射[13]、自相位调制[14]以及四波混频[15]等非线性影响。采用注入信号和光电振荡信号分别独立调制的方式,隔离注入信号对振荡环路微波器件的反向干扰,从而消除微波链路中反射干扰对振荡信号的影响。双输出马赫曾德尔干涉器(Mach-Zehnder Interferometer,MZI)实现相位调制到强度调制的转化,之后通过平衡探测的方式消除系统共模强度噪声,大幅提升系统信噪比。此外,本文基于所提出的OEO,联合直接数字频率合成(Direct Digital frequency Synthesis, DDS)与锁相环(Phase-Locked Loop, PLL)的混合锁相技术,实现了宽带、高性能频率综合信号的产生。本文中,首先提出并分析基于级联相位调制器的注入锁定OEO的结构、机理及其性能,然后提出基于上述OEO的频率综合系统结构与原理,最后搭建基于级联相位调制器的注入锁定OEO的频率综合实验系统,并对其产生信号的性能开展研究与分析,证实所提OEO及其频综系统的可行性与技术优势。
2. 基于级联PM的注入锁定光电振荡器
图1所示为基于级联相位调制器的注入锁定OEO结构示意图,主要由光源,相位调制器(PM1, PM2),光纤,双输出MZI,平衡探测器(Balanced PhotoDetector, BPD),放大器,窄带带通滤波器(BandPass Filter, BPF),压控移相器(Voltage-Controlled Phase Shifter, VCPS),注入源以及锁相环等各部分组成。PM1将注入源输出的信号相位调制到光源输出的光载波上,输出的相位调制光信号在级联的PM2中相位调制上光电振荡信号,并输出级联相位调制后的光信号。PM2输出的光信号经过长光纤延时后,在双输出MZI中实现相位调制到强度调制的转化,输出两路差分的强度调制光信号,并在BPD中进行平衡探测,实现光信号到电信号的转化。平衡探测后的微波信号经过放大器、带通滤波器及压控移相器后连接至PM2的射频端口形成振荡环路。若注入源信号关闭,当反馈环路满足自由振荡条件后[16],OEO将输出频率为带通滤波器中心频率附近的振荡信号,但是自由振荡的OEO输出频率不固定,且边模抑制较差。
为了使OEO输出固定频率且具有高杂散抑制比,本文将注入源信号打开,调制到PM1上,并通过PM2、光纤、双输出MZI和BPD进入至光电振荡环路,且注入信号频率与带通滤波器的中心频率保持一致。得益于注入信号的牵引与对其它振荡模式的抑制作用,OEO将在注入信号频率处形成振荡,并在带通滤波器输出端口输出高杂散抑制比的振荡信号[10]。此外,为了提高环路信号的信噪比以及降低振荡信号的相位噪声,光源输出功率需要尽可能提高。但是基于传统强度调制的OEO方案,随着光源功率提高,进入到光纤中的强度调制光信号功率也将提升,容易激发光纤中的各类非线性效应[14,17],比如受激布里渊散射、自相位调制及四波混频等。本文在进入长光纤前采用相位调制方式,将光载波的能量分散到各个调制边带上,降低了光纤中受激布里渊散射的影响[17]。同时相位调制不影响输出光信号强度,保持光能量在光纤传播中不随时间变化,从而降低光纤克尔非线性引入的噪声影响。此外,为了提升OEO的频率稳定性,本文将OEO输出频率相位锁定到注入源信号上,即采用PLL技术将OEO的输出频率与注入源信号鉴相并将获得的误差信号控制VCPS的相位变化,从而反馈控制光电振荡环路的相位,最终实现OEO输出频率的稳定。值得注意的是,本文引入的双输出MZI级联平衡探测器的方法拥有两倍于基于传统强度调制OEO的光功率,光电转化后产生的微波功率提升6 dB[18],可大幅提升振荡信号的信噪比。接下来对其进行理论分析,令通过PM1, PM2以及光纤后,输入MZI的光场为
E(t)=E0exp[jωc(t−τ0)+jθ(t−τ0)] (1) 其中,E0为进入MZI的光场幅度,
ωc 为光载波角频率,θ(t) 为经过PM1和PM2后相位调制总和,τ0 为光纤引入的时延。假设双输出MZI的两臂之间引入的时延差为τd ,φd 为MZI中两臂引入的相位差,那么MZI两臂输出光场E1(t), E2(t)分别为(忽略MZI本征长度)E1(t)=√22[ejφdE(t−τd)+E(t)]E2(t)=√22[ejφdE(t−τd)−E(t)]} (2) 双输出MZI的两路输出光信号分别注入到BPD中,通过BPD转化成电信号,并输出差分后的光电流i(t),可表示为
i(t)=2ℜcos[θ(t−τ0)−θ(t−τ0−τd)+ωcτd+φd] (3) 其中,
ℜ 为BPD中单个探测器的响应度。由于光电振荡器输出的信号为单频信号,所以可以令θ(t)=βcos(ω0t) ,其中ω0 为振荡信号的角频率,β 为小信号调制系数。调节MZI的延时使得ω0τd=(2n−1)π ,其中n为整数,同时调节MZI的相对相位差使得ωcτd+φd=π/2 ,最终由式(3)可得(忽略高阶分量)i(t)=4ℜβsin(ωt−ωτ0) (4) 由式(2)、式(3)、式(4)式可得,BPD输出的信号比单路PD输出微波信号功率提升了4倍,从而大幅度提升了系统的信噪比。
根据图1的原理结构,搭建了基于级联PM的注入锁定OEO,输出信号频率为9.9999914 GHz,其结果如图2所示。图2(a)为OEO输出信号在频率范围为1 MHz、RBW为1 kHz的频谱图。由图2(a)可知,OEO输出信号杂散抑制比大于85 dB,表明该系统具有很低的杂散分量。这些杂散分量主要来自于光电振荡环路中残余的竞争模式。接下来对本文所提的OEO输出频率的相位噪声进行分析,如图2(b)中蓝色曲线所示,系统产生的光电振荡信号在1 kHz频偏处的相位噪声为–127.2 dBc/Hz, 10 kHz频偏处的相位噪声为–153.1 dBc/Hz,振荡模式模式间隔为46 kHz左右。作为对比,红色曲线为商用基于微波技术实现的高性能微波源(E8257D, Keysight)在同频点处的相位噪声曲线,其相位噪声为–105 dBc/Hz@1 kHz以及–114.4 dBc/Hz@10 kHz。对比分析可知,本文所提出的基于级联PM的注入锁定OEO在1 kHz和10 kHz频偏处的相位噪声比E8257D分别低22.2 dB和38.7 dB,表明本系统实现了超低相位噪声信号的产生。
为了分析光纤非线性效应对OEO相位噪声的影响,本文在相位调制器为小信号调制状态且输出光功率为15.5 dBm情况下,依次在环路光纤前端和后端增加光衰减器,测试不同光衰减量下的相位噪声情况。如图3所示,蓝色曲线和红色曲线分别为在环路光纤的前端和后端增加光衰减器、对应OEO在10 kHz频偏处的相位噪声随光衰减量的变化情况。对比两条曲线可知,当光衰减量从0~5 dB变化时,红色曲线对应的相噪变化较小,而蓝色曲线对应的相位噪声值比红色曲线有了极大的提升,且逐步接近–150 dBc/Hz。表明高功率的调制光信号激发了光纤中的非线性效应,严重地恶化了OEO的相位噪声。通过在光纤前端增加光衰减,降低进入光纤的光功率,可达到降低光纤非线性效应影响、提升OEO性能的效果。当光衰减量从5.0~8.8 dB变化时,蓝色曲线对应的OEO逐渐从最优的相位噪声恶化至–130 dBc/Hz左右,恶化的主要来源为环路衰减引起的信噪比损失。而红色曲线对应的相位噪声仍然比蓝色曲线高近20 dB,表明光纤非线性效应对相位噪声的影响在红色曲线中仍然表现显著。所以,为了实现最优化的相位噪声性能,需要提高系统信噪比同时尽可能降低光纤中非线性效应的影响。
3. 基于超低相噪OEO的频率综合系统
目前,实现频率综合器的主要方式包括直接模拟频率合成、DDS、混频法频率合成以及锁相环频率合成等几种途径[19]。结合第2节所提出的基于级联PM的注入锁定OEO,本文利用DDS与锁相环技术实现宽带、高性能频率综合系统,输出频率为5.9~12.9 GHz,其系统结构如图4所示。
基于级联PM的注入锁定OEO为本文所提出频率综合系统提供高性能参考信号。如图4所示,OEO输出的9.9999914 GHz信号通过功分器分为A, B, C 3路,其中A路输出信号与压控振荡器(Voltage-Controlled Oscillator, VCO)在混频器1中混频产生0.1~1.1 GHz的中频信号。B路输出信号经过10分频器分频后,产生多个次谐波分频分量,其中1 GHz, 2 GHz, 3 GHz的分频分量分别由对应的带通滤波器选出。频率为3 GHz的分频分量被选出用作DDS的外部参考时钟。DDS的输出频率通过编程控制,可实现0.2~1.2 GHz的频率输出。DDS输出信号与来自混频器1中的中频信号再次混频,输出频率为100 MHz的中频信号,并与C路的光电振荡频率100次分频后的信号一起输入至鉴相鉴频器中(Phase-Frequency Detector, PFD)。PFD输出的误差信号经由带宽为1 MHz的环路滤波器(Loop Filter, LF)提取,并反馈至VCO,进行频率稳定控制,从而实现VCO到OEO的相位锁定。当锁相环路稳定后,VCO可输出频率为8.9~9.9 GHz的信号。然后,通过将VCO输出信号与OEO的10分频信号中1 GHz, 2 GHz或3 GHz的分频分量在混频器3处混频,实现频率为5.9~12.9 GHz的频率输出。
此外,为了实现宽频谱范围内频率的快速切换,系统引入射频开关(SW1, SW2, SW3及SW4),并通过FPGA对其快速控制。由于频综系统中引入了多个混频器,混频器输出的交调分量将会恶化系统的杂散抑制度,因此在信号输出端引入带宽为500 MHz的带通滤波器组(BPF Group)对杂散信号进行滤除,抑制残余的杂散分量。本系统通过引入高频、超低相位噪声参考源,可实现频率综合器锁相环路中分频系数的大幅降低,避免相位噪声的倍频恶化,从而保证了系统信号的高性能输出。
4. 实验及结果分析
基于图4所示结构图,搭建了基于超低相位噪声OEO的频率综合器系统,其中OEO采用基于级联PM的注入锁定技术,输出频率与注入源频率同频(9.9999914 GHz)。OEO中激光器(Emcore 1782)输出波长为1550.2 nm,输出光功率为20 dBm。环路中光纤为单模光纤,类型为G652D,模场直径为9.3 μm。光纤长度约为4.4 km且注入至光纤中的光功率约为 13 dBm。为保证注入信号不对光电振荡器相位噪声造成影响,注入功率低于–15 dBm,对应信号的相位噪声为–118 dBc/Hz @1 kHz以及–122 dBc/Hz @10 kHz。此外,该频率综合系统主要还包括VCO(Hittite-HMC511), DDS(ADI-AD9914), PFD(Hittile-HMC439),分频器,混频器,低噪声放大器,带通滤波器,功分器和射频开关等。实验过程中,采用相噪分析仪(FSWP-50, R&S)对频率综合信号的频谱和相位噪声进行分析,使用实时示波器(Keysight DSOX93304,采样率80 GSa/s)对跳频信号进行采样与分析。
为了验证以基于级联PM的注入锁定OEO为参考源,锁相后VCO的输出信号性能,调节DDS参数,使其输出599.9914 MHz信号用于VCO的鉴相鉴频,从而使VCO输出9.4 GHz的微波信号,其频谱图如图5(a)所示。由图5(a)可知,VCO成功产生了频率为9.4 GHz的微波信号,且杂散抑制比在10.0 MHz的频率范围内达到74.3 dB。需要注意的是,在9.4 GHz频率两侧频偏大约1 MHz处有两个较高的噪声包络,该噪声包络主要由带宽为1 MHz的锁相环引入。此外,本文还对VCO输出9.4 GHz信号的相位噪声进行了分析,图5(b)给出了锁相前VCO输出相噪曲线(黑线),锁相后VCO输出相噪曲线(红线)以及OEO信号的相噪曲线(蓝线)。由图可知,锁相后输出信号的相位噪声在1 kHz和10 kHz频偏处分别为–115.3 dBc/Hz和–130.7 dBc/Hz,比锁定前信号的相位噪声分别低65.2 dB和47.3 dB,表明VCO输出信号锁相至OEO后相位噪声比锁相前有了极大的提升。值得注意的是,锁相后VCO信号的相位噪声相对于OEO相噪仍然有较大的差距,在1 kHz和10 kHz频偏处比OEO的相位噪声分别高11.9 dB和22.4 dB,其主要原因在于VCO本征噪声、DDS本征噪声和锁相环带内噪声的总噪底比OEO的噪底要高。为进一步降低VCO输出信号的相位噪声,可通过引入更低本征噪声的VCO和DDS,并优化锁相环的有源噪声。
改变DDS输出频率,VCO输出频率也会随之变化。图6为VCO输出信号频率为8.9~9.9 GHz、步进为0.1 GHz的相位噪声和杂散抑制情况。由图6(a)可知,VCO输出各频点在10 kHz频偏处的相位噪声值为–130 dBc/Hz左右,表明VCO锁相至超低相噪OEO后实现了宽带、低相噪信号的产生。图6(b)为VCO输出各频点的杂散抑制情况,从图中可知,各频点杂散抑制比都大于70 dB,说明该系统具有高频谱纯度。
由于VCO输出的频率范围有限,为进一步拓展频率综合系统的输出频率范围,将VCO的输出信号与OEO的10分频后的次谐波分量(分别为1 GHz, 2 GHz, 3 GHz)进行混频,从而实现了5.9~12.9 GHz的频率合成,其结果如图7所示。图7(a)为本文所提出频率综合系统输出频率为5.9~12.9 GHz、步进为1 GHz情况下的相位噪声曲线。由图7(a)可知,频率综合系统输出信号的相位噪声在5.9~12.9 GHz范围内具有高一致性,且在近频偏处相对于VCO有极大提升。图7(b)分析了该频率综合系统的在不同频率下、10 kHz频偏处的相位噪声值和杂散抑制情况。由图可得,其10 kHz频偏处相位噪声在5.9~12.9 GHz范围内均低于–125 dBc/Hz,最低能到–135 dBc/Hz,表明该系统在更大工作频率范围下仍然能保持低相位噪声的信号输出。值得注意的是,输出信号的杂散抑制比随频率在65~70 dB范围内变化,比图6(b)恶化了5 dB左右,主要原因在于混频器是非线性器件,混频后的信号中包含众多交调分量,恶化了系统杂散性能。此外,还对频率综合系统的跳频时间进行了分析,如图7(c)所示,从9.04 GHz到9.02 GHz的跳频时间低于1.48 μs,表明该系统具有快速跳频性能。
5. 结束语
本文提出一种基于级联PM的注入锁定OEO及其频率综合系统。该OEO利用相位调制输出光信号具有光谱宽、功率恒定的特点,降低了光纤中的非线性效应引入的强度噪声。还利用双输出MZI级联BPD的结构实现相位调制到强度调制的转化并有效提高了系统的信噪比。为了降低光电振荡信号的边模抑制比,采用在PM1中注入信号的方式,实现了注入锁定OEO,其输出频率为9.9999914 GHz,其相位噪声分别为–127.2 dBc/Hz@1 kHz和–153.1 dBc/Hz@10 kHz,比Keysight E8257D在相同频点、相同频偏处分别低22.2 dB和38.7 dB,具有超低相位噪声性能。此外,本文还基于所提出的超低相位噪声OEO构建了一个宽带频率综合系统。该频率综合系统采用DDS和PLL混合技术,实现了VCO锁相至OEO中,并输出8.9~9.9 GHz信号,且相位噪声保持在–130 dBc/Hz@10 kHz附近,杂散抑制比优于70 dB。最后,本文通过引入电混频器、带通滤波器组及射频开关,将频率综合系统的工作频率进行了拓展,实现了5.9~12.9 GHz的频率输出,对应的10 kHz频偏处相位噪声仍然为–130 dBc/Hz附近,跳频时间小于1.48 μs,且杂散抑制比优于65 dB。值得注意的是,通过改善或者引入更高性能VCO、DDS和锁相环,可进一步提升该频率综合系统的相位噪声性能。综上所述,本文所提出的基于级联PM的注入锁定OEO及其频率综合系统具有宽带、超低相位噪声、低跳频时间等特性,可应用于现代卫星通信、电子战系统、雷达探测以及高端仪器仪表等领域。
-
表 1 与SOTA算法的综合性能对比(%)
Table 1. Comprehensive performance comparison with SOTA algorithms (%)
算法 Default Culver city AP@0.5 AP@0.7 AP@0.5 AP@0.7 No Fusion 67.9 60.2 55.7 47.1 Early Fusion 89.1 80.0 82.9 69.6 Late Fusion 85.8 78.1 79.9 66.8 V2VNet[7] 89.7 82.2 86.8 73.3 Cooper[5] 89.1 80.0 82.9 69.6 F-Cooper[6] 88.7 79.1 84.5 72.9 AttFuse[8] 89.9 81.1 85.4 73.6 CoBEVT[15] 91.4 86.2 85.9 77.3 Ours-S 89.5 82.6 86.7 76.4 Ours-C 91.1 85.0 87.0 78.1 Ours-T 91.4 85.2 88.6 78.8 表 2 所提算法不同异构模态场景下的性能对比(%)
Table 2. Performance comparison of the proposed algorithm under different heterogeneous modal scenarios (%)
算法 Default Culver city AP@0.5 AP@0.7 AP@0.5 AP@0.7 Camera-only 43.9 28.1 19.0 8.6 LiDAR-only 90.9 82.9 85.9 75.4 Hybrid-C 70.7 58.1 58.9 44.5 Hybrid-L 87.8 78.6 76.6 63.6 -
[1] LIU Si, GAO Chen, CHEN Yuan, et al. Towards vehicle-to-everything autonomous driving: A survey on collaborative perception[EB/OL]. https://arxiv:abs/2308.16714, 2023. [2] HAN Yushan, ZHANG Hui, LI Huifang, et al. Collaborative perception in autonomous driving: Methods, datasets, and challenges[J]. IEEE Intelligent Transportation Systems Magazine, 2023, 15(6): 131–151. doi: 10.1109/MITS.2023.3298534 [3] REN Shunli, CHEN Siheng, and ZHANG Wenjun. Collaborative perception for autonomous driving: Current status and future trend[C]. 2021 5th Chinese Conference on Swarm Intelligence and Cooperative Control, Singapore, Singapore, 2023: 682–692. [4] 上官伟, 李鑫, 柴琳果, 等. 车路协同环境下混合交通群体智能仿真与测试研究综述[J]. 交通运输工程学报, 2022, 22(3): 19–40. doi: 10.19818/j.cnki.1671-1637.2022.03.002SHANGGUAN Wei, LI Xin, CHAI Linguo, et al. Research review on simulation and test of mixed traffic swarm in vehicle-infrastructure cooperative environment[J]. Journal of Traffic and Transportation Engineering, 2022, 22(3): 19–40. doi: 10.19818/j.cnki.1671-1637.2022.03.002 [5] CHEN Qi, TANG Sihai, YANG Qing, et al. Cooper: Cooperative perception for connected autonomous vehicles based on 3D point clouds[C]. 2019 IEEE 39th International Conference on Distributed Computing Systems (ICDCS), Dallas, USA, 2019: 514–524. [6] CHEN Qi, MA Xu, TANG Sihai, et al. F-cooper: Feature based cooperative perception for autonomous vehicle edge computing system using 3D point clouds[C]. 4th ACM/IEEE Symposium on Edge Computing, Arlington, USA, 2019: 88–100. [7] WANG T H, MANIVASAGAM S, LIANG Ming, et al. V2VNet: Vehicle-to-vehicle communication for joint perception and prediction[C]. 16th European Conference on Computer Vision, Glasgow, UK, 2020: 605–621. [8] XU Runsheng, XIANG Hao, XIA Xin, et al. OPV2V: An open benchmark dataset and fusion pipeline for perception with vehicle-to-vehicle communication[C]. 2022 International Conference on Robotics and Automation (ICRA), Philadelphia, USA, 2022: 2583–2589. [9] XU Runsheng, XIANG Hao, TU Zhengzhong, et al. V2x-ViT: Vehicle-to-everything cooperative perception with vision transformer[C]. 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 107–124. [10] LI Yiming, REN Shunli, WU Pengxiang, et al. Learning distilled collaboration graph for multi-agent perception[C]. 34th International Conference on Neural Information Processing Systems, Virtual Online, 2021: 29541–29552. [11] LI Yiming, ZHANG Juexiao, MA Dekun, et al. Multi-robot scene completion: Towards task-agnostic collaborative perception[C]. 6th Conference on Robot Learning, Auckland, New Zealand, 2023: 2062–2072. [12] QIAO Donghao and ZULKERNINE F. Adaptive feature fusion for cooperative perception using LiDAR point clouds[C]. 2023 IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, USA, 2023: 1186–1195. [13] ZHANG Zijian, WANG Shuai, HONG Yuncong, et al. Distributed dynamic map fusion via federated learning for intelligent networked vehicles[C]. 2021 IEEE International Conference on Robotics and Automation (ICRA), Xi’an, China, 2021: 953–959. [14] WANG Binglu, ZHANG Lei, WANG Zhaozhong, et al. CORE: Cooperative reconstruction for multi-agent perception[C]. IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 8710–8720. [15] XU Runsheng, TU Zhengzhong, XIANG Hao, et al. CoBEVT: Cooperative bird’s eye view semantic segmentation with sparse transformers[C]. 6th Conference on Robot Learning, Auckland, New Zealand, 2022: 989–1000. [16] HU Yue, LU Yifan, XU Runsheng, et al. Collaboration helps camera overtake LiDAR in 3D detection[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 9243–9252. [17] 党相卫, 秦斐, 卜祥玺, 等. 一种面向智能驾驶的毫米波雷达与激光雷达融合的鲁棒感知算法[J]. 雷达学报, 2021, 10(4): 622–631. doi: 10.12000/JR21036DANG Xiangwei, QIN Fei, BU Xiangxi, et al. A robust perception algorithm based on a radar and LiDAR for intelligent driving[J]. Journal of Radars, 2021, 10(4): 622–631. doi: 10.12000/JR21036 [18] CHEN Xiaozhi, MA Huimin, WAN Ji, et al. Multi-view 3D object detection network for autonomous driving[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 6526–6534. [19] VORA S, LANG A H, HELOU B, et al. PointPainting: Sequential fusion for 3d object detection[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 4603–4611. [20] LIANG Tingting, XIE Hongwei, YU Kaicheng, et al. BEVFusion: A simple and robust LiDAR-camera fusion framework[C]. 36th International Conference on Neural Information Processing Systems, New Orleans, USA, 2022: 10421–10434. [21] LIU Zhijian, TANG Haotian, AMINI A, et al. BEVFusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation[C]. 2023 IEEE International Conference on Robotics and Automation (ICRA), London, UK, 2023: 2774–2781. [22] JIAO Yang, JIE Zequn, CHEN Shaoxiang, et al. MSMDFusion: Fusing LiDAR and camera at multiple scales with multi-depth seeds for 3D object detection[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 21643–21652. [23] PRAKASH A, CHITTA K, and GEIGER A. Multi-modal fusion transformer for end-to-end autonomous driving[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 7073–7083. [24] XIANG Hao, XU Runsheng, and MA Jiaqi. HM-ViT: Hetero-modal vehicle-to-vehicle cooperative perception with vision transformer[EB/OL]. https://arxiv: abs/2304.10628, 2023. [25] READING C, HARAKEH A, CHAE J, et al. Categorical depth distribution network for monocular 3D object detection[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 8551–8560. [26] LANG A H, VORA S, CAESAR H, et al. PointPillars: Fast encoders for object detection from point clouds[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 12689–12697. [27] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6000–6010. [28] 郭帅, 陈婷, 王鹏辉, 等. 基于角度引导Transformer融合网络的多站协同目标识别方法[J]. 雷达学报, 2023, 12(3): 516–528. doi: 10.12000/JR23014GUO Shuai, CHEN Ting, WANG Penghui, et al. Multistation cooperative radar target recognition based on an angle-guided transformer fusion network[J]. Journal of Radars, 2023, 12(3): 516–528. doi: 10.12000/JR23014 [29] XU Runsheng, GUO Yi, HAN Xu, et al. OpenCDA: An open cooperative driving automation framework integrated with co-simulation[C]. 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, USA, 2021: 1155–1162. [30] DOSOVITSKIY A, ROS G, CODEVILLA F, et al. CARLA: An open urban driving simulator[C]. 1st Annual Conference on robot learning, Mountain View, USA, 2017: 1–16. -