暂时未有相关云产品技术能力~
暂无个人介绍
深度视觉模型在高风险领域有着广泛的应用。因此它们的黑匣子性质目前吸引了研究界的极大兴趣。论文在《可解释的人工智能》中进行了第一次调查,重点是解释深度视觉模型的方法和指标。涵盖了最新技术的里程碑式贡献,论文不仅提供了现有技术的分类组织,还挖掘了一系列评估指标,并将其作为模型解释的不同特性的衡量标准进行整理。在深入讨论当前趋势的同时,论文还讨论了这一研究方向的挑战和未来途径。
近年来,基于鸟瞰图(BEV)表示的感知任务越来越受到关注,BEV表示有望成为下一代自动驾驶车辆(AV)感知的基础。现有大多数的BEV解决方案要么需要大量资源来执行车载推理,要么性能不佳。本文提出了一种简单而有效的框架,称为Fast BEV,它能够在车载芯片上执行更快的BEV感知。为了实现这一目标,作者首先从经验上发现,BEV表示可以足够强大,而无需昂贵的基于transformer的变换或深度表示。
在本文中,我将探讨3D跟踪领域,并向您展示如何设计一个3D目标跟踪系统。我们将从平面的2D 开始,然后转移到3D,将看到2D 和3D 跟踪之间的区别。
点云的稀疏性指激光雷达的采样点覆盖相对于场景的尺度来讲,具有很强的稀疏性。例如,将目前主流的户外3D目标检测数据集KITTI[1]的点云投影到对应的RGB图像上,大约只有3%的像素才有对应的点云;VoxelNet[2]将获取的点云等间距的划分到体素空间,超过90%的体素是空的。稀疏性产生的原因包括远距离、遮挡和反光等。
3D检测器的部署是现实世界自动驾驶场景中的主要挑战之一。现有的基于BEV(即鸟瞰图)的检测器支持稀疏卷积(称为SPConv),以加快训练和推理,这为部署(尤其是在设备上应用)带来了困难。本文解决了从LiDAR点云中高效检测3D目标的问题,并考虑了模型部署。
这篇文章的价值就在于简单,对单目检测这个任务进行了拆解分析,对于刚接触这一领域的工作者十分友好,可以对单目检测建立一个初步的认识。并且,他的加强版模型MonoCon去年也曾拿过一段时间的KITTY榜首,证明了这套方法的有效性。
目相机使用来自单个视点的图像数据作为输入来估计对象深度,相比之下,立体视觉是基于视差和匹配不同视图的特征点,深度学习的应用也进一步提高了准确性。此外,SLAM可以建立道路环境模型,从而帮助车辆感知周围环境并完成任务。本文介绍并比较了各种目标检测和识别方法,然后解释了深度估计的发展,并比较了基于单目、立体和RGB-D传感器的各种方法,接下来回顾并比较了SLAM的各种方法。最后总结了当前存在的问题,并提出了视觉技术的未来发展趋势。
本文提出了一种基于LiDAR的多任务框架——一体感知网络(AOP-Net),该框架结合了3D检测和全景分割。论文开发了双任务3D主干,以从输入的LiDAR点云中提取全景和检测级特征。此外,还设计了一个新的2D主干,将多层感知器(MLP)和卷积层交织在一起,以进一步提高检测任务性能。最后提出了一种新的模块,通过恢复在3D主干中的下采样操作期间丢弃的有用特征来引导检测头。该模块利用估计的实例分割掩码从每个候选目标中恢复详细信息。AOP-Net在nuScenes基准上为3D目标检测和全景分割任务实现了最先进的性能。此外,实验表明,论文的方法很容易适应任何基于BEV的3D目标检测方法,并显著提高了其性
在过去几十年中,自主移动机器人领域取得了巨大的进步。尽管取得了重要里程碑,但仍有一些挑战有待解决。将机器人社区的成就汇总为综述,对于跟踪当前最先进的技术和未来必须应对的挑战至关重要。本文试图对自主移动机器人进行全面综述,涵盖传感器类型、移动机器人平台、仿真工具、路径规划和跟踪、传感器融合方法、障碍回避和SLAM等主题。论文的出发点主要有两方面。首先,自主导航领域发展很快,因此定期撰写综述对于让研究界充分了解该领域的现状至关重要。第二,深度学习方法已经彻底改变了包括自主导航在内的许多领域。因此,有必要对深度学习在自主导航中的作用进行适当的处理,这也是本文所涉及的。还将讨论未来的工作和研究差距。
在过去几十年中,自主移动机器人领域取得了巨大的进步。尽管取得了重要里程碑,但仍有一些挑战有待解决。将机器人社区的成就汇总为综述,对于跟踪当前最先进的技术和未来必须应对的挑战至关重要。本文试图对自主移动机器人进行全面综述,涵盖传感器类型、移动机器人平台、仿真工具、路径规划和跟踪、传感器融合方法、障碍回避和SLAM等主题。论文的出发点主要有两方面。首先,自主导航领域发展很快,因此定期撰写综述对于让研究界充分了解该领域的现状至关重要。第二,深度学习方法已经彻底改变了包括自主导航在内的许多领域。因此,有必要对深度学习在自主导航中的作用进行适当的处理,这也是本文所涉及的。还将讨论未来的工作和研究差距。
论文提出回归距离转换地图,因为它们在顶点之间提供了强大的空间关系和方向信息,而不是依赖于普通的分割方法。在nuScenes数据集上的综合实验表明,InstaGraM比HDMapNet高13.7mAP,并实现了与VectorMapNet相当的精度,推理速度提高了5倍。
本文提出了BEVGen,这是一个条件生成式模型,它合成了一组真实且空间一致的环视图像,这些图像与交通场景的BEV布局相匹配。BEVGen结合了一种新颖的交叉视图转换和空间注意力设计,学习相机和地图视图之间的关系,以确保它们的一致性。BEVGen可以精确地渲染道路和车道线,以及在不同的天气条件和时间生成交通场景。
Transformer首先应用于自然语言处理领域,是一种主要基于自我注意机制的深度神经网络。由于其强大的表示能力,研究人员正在寻找将transformer应用于计算机视觉任务的方法。
Transformer首先应用于自然语言处理领域,是一种主要基于自我注意机制的深度神经网络。由于其强大的表示能力,研究人员正在寻找将transformer应用于计算机视觉任务的方法。
车道线检测是自动驾驶与计算机视觉领域中的重要研究方向,3D车道线任务更是近几年的研究热点,下面为大家盘点下近三年的一些工作!
车道线检测是自动驾驶与计算机视觉领域中的重要研究方向,3D车道线任务更是近几年的研究热点,下面为大家盘点下近三年的一些工作!
本文介绍了一种新的大规模鱼眼数据集 FPD,旨在促进对现实环境中各种环视泊车情况的研究。值得注意的是,作者的FPD对不同的环视感知任务都显示出优秀的特点。此外,作者还提出了实时的失真不敏感的多任务鱼眼感知网络(FPNet) ,通过增强鱼眼失真操作和多任务轻量级设计来改善环视鱼眼 BEV 感知。大量的实验验证了作者的方法的有效性和数据集的异常可推广性。
本文介绍了一种新的大规模鱼眼数据集 FPD,旨在促进对现实环境中各种环视泊车情况的研究。值得注意的是,作者的FPD对不同的环视感知任务都显示出优秀的特点。此外,作者还提出了实时的失真不敏感的多任务鱼眼感知网络(FPNet) ,通过增强鱼眼失真操作和多任务轻量级设计来改善环视鱼眼 BEV 感知。大量的实验验证了作者的方法的有效性和数据集的异常可推广性。
设计一个高效但易于部署的3D主干来处理稀疏点云是3D目标检测中的一个基本问题。与定制的稀疏卷积相比,Transformers中的注意力机制更适合于灵活地建模长距离关系,并且更易于在现实世界应用中部署。
本文提出了一种Ledger概念,它通过Ledger信息的广播,在一个资源预留区间(RRI)内向网络中的每辆车传递碰撞信息。碰撞车辆知道它已经与其他车辆相撞,并将在下一个 SPS 期间重新选择。除此之外,其他协议都遵循 SPS。通过引入 Ledger,虽然牺牲了14.29% 的资源,但最终可以降低碰撞概率。本文使用蒙特卡罗模拟器对Ledger系统的性能进行了验证和分析。数值结果表明,遵循 SPS 协议,Ledger 系统可以使碰撞概率在一定数量 RRI 后收敛到零。
人类视觉可以从一个视觉场景执行不同的任务,如分类、分割、识别等。因此,多任务学习(MTL)研究是计算机视觉领域的热点。期望开发一个强大的视觉模型,以在不同的视觉场景中同时执行多个任务,有望高效工作。如图1所示,本文旨在开发一个强大的视觉模型同时学习多个任务,包括语义分割、人体部位分割、深度估计、边界检测、显著性估计和normal estimation。
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
3D车道anchor被投影到FV特征以提取其特征,这些特征包含良好的结构和上下文信息以进行准确的预测。作者进一步将Anchor3DLane扩展到多帧设置,以结合时间信息以提高性能。此外,作者还开发了一种全局优化方法,利用车道之间的等宽属性来减少预测的横向误差。在三种流行的3D车道检测基准上进行的大量实验表明,Anchor3DLane优于以前基于BEV的方法,并实现了SOTA性能。
在本文中,作者发现单目图像的不适定性会导致深度模糊。具体来说,具有不同深度的目标可以在2D 图像中以相同的边界框和相似的视觉特征出现。遗憾的是,网络不能准确地区分不同深度和这种非歧视性的视觉特征,导致不稳定的深度训练。为了促进深度信息的学习,作者提出了一个简单而有效的即插即用模块,一个边界框多目标(OBMO)。
本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。
本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。
论文基于大规模4Seasons数据集,提出了一种新的视觉SLAM和长期定位基准,用于在挑战条件下的自动驾驶。4Seasons提供了季节变化和不同的天气和照明条件导致的剧烈外观变化。尽管在类似条件的小规模数据集上推进视觉SLAM方面取得了重大进展,但仍缺乏代表自动驾驶真实场景的统一基准。
今天自动驾驶之心很荣幸邀请到逻辑牛分享深度学习部署的入门介绍,带大家盘一盘ONNX、NCNN、OpenVINO等框架的使用场景、框架特点及代码示例。
今天自动驾驶之心很荣幸邀请到逻辑牛分享深度学习部署的入门介绍,带大家盘一盘ONNX、NCNN、OpenVINO等框架的使用场景、框架特点及代码示例。
本文主要介绍一种基于毫米波雷达和相机后融合的3D目标检测算法——CenterFusion,原本是公司内部的一个技术方案,截取了其中的核心理论部分,所以看起来肯能有些严肃。
作为一种能够直接测量深度的传感器,其相较于Lidar存在较大的误差,因此利用雷达本身精度难以精确地将雷达结果与单目方法的3D估计相关联。本文提出了一种融合网络RADIANT来解决雷达-摄像机关联的挑战。通过预测雷达点到真实目标中心点的3D偏移,随后利用修正后的雷达点修正图像预测结果,使得网络在特征层和检测层完成融合。
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
激光雷达传感器可以提供物体准确的深度信息以及结构信息;但激光雷达传感器提供物体信息的距离比较有限,同时其获得的点云数据与相机传感器采集到的图像信息相比更加稀疏;
激光雷达传感器可以提供物体准确的深度信息以及结构信息;但激光雷达传感器提供物体信息的距离比较有限,同时其获得的点云数据与相机传感器采集到的图像信息相比更加稀疏;
本文介绍了首个基于NeRF的通用目标检测框架NeRF-RPN。给定预先训练的NeRF模型,NeRF-RPN旨在检测场景中目标的所有边界框。通过利用结合多尺度3D神经体积特征的新颖体素表示,论文证明了可以直接回归NeRF中目标的3D边界框,而无需在任何视点渲染NeRF。NeRF-RPN是一个通用框架,可用于检测没有类标签的目标。论文使用各种主干架构、RPN头设计和损失函数对NeRF-RPN进行了实验。所有这些都可以以端到端的方式进行训练,以估计高质量的3D边界框。为了促进NeRF目标检测的未来研究,论文构建了一个新的基准数据集,该数据集由合成数据和真实数据组成,并进行了仔细的标记和清理。
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
将多传感器模态和深度学习集成到同时定位和mapping(SLAM)系统中是当前研究的重要领域。多模态是在具有挑战性的环境中实现鲁棒性和具有不同传感器设置的异构多机器人系统的互操作性的一块垫脚石。借助maplab 2.0,这个多功能的开源平台,可帮助开发、测试新模块和功能,并将其集成到一个成熟的SLAM系统中。
环境的高精(HD)语义地图生成是自动驾驶的一个重要组成部分。现有方法通过融合不同的传感器模式(如激光雷达和相机),在这项任务中取得了良好的性能。然而,目前的工作基于原始数据或网络特征级融合,仅考虑短距离高精地图生成,限制了其部署到现实的自动驾驶应用中。在本文中,作者专注于在两个短距离(即30m以内)构建高精地图的任务,并预测长达90m的长距离高精地图,这是下游路径规划和控制任务所需的,以提高自动驾驶的流畅性和安全性。为此,作者提出了一个名为SuperFusion的新网络,在多个层次上实现了激光雷达和相机数据的融合。
环境的高精(HD)语义地图生成是自动驾驶的一个重要组成部分。现有方法通过融合不同的传感器模式(如激光雷达和相机),在这项任务中取得了良好的性能。然而,目前的工作基于原始数据或网络特征级融合,仅考虑短距离高精地图生成,限制了其部署到现实的自动驾驶应用中。在本文中,作者专注于在两个短距离(即30m以内)构建高精地图的任务,并预测长达90m的长距离高精地图,这是下游路径规划和控制任务所需的,以提高自动驾驶的流畅性和安全性。为此,作者提出了一个名为SuperFusion的新网络,在多个层次上实现了激光雷达和相机数据的融合。
论文使用最近发布的Oxford Radar RobotCar(ORR)数据集展示了所提出方法的优越性能。实验表明,RaLiBEV的精度大大优于其他最先进的方法。
对于拥有惯导的自动驾驶车辆而言,激光雷达到惯导/车体(以下简称激光雷达外参自标定)的方法对后续的感知、定位等下游应用具有非常重要的意义。对于这一问题,最容易想到的办法是同时跑激光里程计与惯导的里程计,并使用手眼标定的方法寻找这外参。这个方法最主要的问题是标定精度受制于激光雷达里程计的精度,对于当前量产的固态激光雷达而言,受制于有限的FOV,测距精度较差,抖动,以及多变的标定场景等问题,难以适配鲁棒且高精度的激光里程计用于外参标定。
准确的定位能力是自动驾驶的基础。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,几何模型依赖于复杂的参数调整,从而阻碍了大规模部署。本文提出了BEV定位器:一种使用多目相机图像的端到端视觉语义定位神经网络。具体地,视觉BEV(鸟瞰图)编码器提取多目图像并将其展平到BEV空间中。而语义地图特征在结构上嵌入为地图查询序列。然后,cross-model transformer将BEV特征和语义图查询关联起来。通过交叉注意力模块递归地查询自车的定位信息。最后,可以通过解码transformer输出来推断自车位姿。论文在大规模nuScenes和Qcraft数据集中评估了所提出的方法。
准确的定位能力是自动驾驶的基础。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,几何模型依赖于复杂的参数调整,从而阻碍了大规模部署。本文提出了BEV定位器:一种使用多目相机图像的端到端视觉语义定位神经网络。具体地,视觉BEV(鸟瞰图)编码器提取多目图像并将其展平到BEV空间中。而语义地图特征在结构上嵌入为地图查询序列。然后,cross-model transformer将BEV特征和语义图查询关联起来。通过交叉注意力模块递归地查询自车的定位信息。最后,可以通过解码transformer输出来推断自车位姿。论文在大规模nuScenes和Qcraft数据集中评估了所提出的方法。
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
与基于激光雷达的定位相比,基于视觉和数据融合的定位技术在提高精度方面的潜力约为2–5倍。基于激光雷达和视觉的定位可以通过提高图像配准方法的效率来降低计算复杂性。与基于激光雷达和视觉的定位相比,基于数据融合的定位可以实现更好的实时性能,因为每个独立传感器不需要开发复杂的算法来实现其最佳定位潜力。V2X技术可以提高定位鲁棒性。最后,讨论了基于定量比较结果的AVs定位的潜在解决方案和未来方向。
与基于激光雷达的定位相比,基于视觉和数据融合的定位技术在提高精度方面的潜力约为2–5倍。基于激光雷达和视觉的定位可以通过提高图像配准方法的效率来降低计算复杂性。与基于激光雷达和视觉的定位相比,基于数据融合的定位可以实现更好的实时性能,因为每个独立传感器不需要开发复杂的算法来实现其最佳定位潜力。V2X技术可以提高定位鲁棒性。最后,讨论了基于定量比较结果的AVs定位的潜在解决方案和未来方向。
本文引入了一个多模态数据集,用于具有远程感知的鲁棒自动驾驶。该数据集由176个场景组成,具有同步和校准的激光雷达(Lidar)、相机和毫米波雷达(Radar),覆盖360度视场。所收集的数据是在白天、夜间和下雨时在高速公路、城市和郊区捕获的,并使用具有跨帧一致标识符的3D边界框进行标注。此外,本文训练了用于三维目标检测的单模态和多模态基线模型。