收录于话题
基于YOLOv4的室内动态场景下ORB-SLAM3优化方法
蒋鹏程1,邱俊武2,陈衡锋1,
1. 中国铁路广州局集团有限公司站房建设指挥部,广州 510180;
2. 深圳迈嘉城科信息科技有限公司,深圳 518000;
3. 中国铁路通信信号上海工程局集团有限公司,上海 200040
摘 要:近年来,视觉同步定位与建图(simultaneous localization and mapping,SLAM)技术成为机器人和计算机视觉领域的研究热点。现有的主流算法通常只针对静态环境设计,当场景中出现动态物体时其算法的定位精准度和稳定性显著降低。本文提出一种改进的ORB-SLAM3(oriented FAST and rotated BRIEF SLAM3)方法。首先,在跟踪线程中采用了轻量化的YOLOv4(you only look once version 4)目标检测网络,对图像金字塔中的每一层图像进行处理,识别并移除动态特征点,进而提升位姿估计的精确度;其次,融合惯性测量单元的积分数据,提取关键帧中的相机内外参数信息,将深度图转换为三维彩色点云,通过拼接形成完整的场景点云地图;最后,进行验证评价。结果表明:本方法在室内动态场景中能有效排除动态特征点,增强相机定位的精度与稳定性;在实际测试场景中,平均距离误差在1.5 cm以内,可成功构建无动态物体干扰的激光点云地图。
关键词:视觉同步定位与建图;ORB-SLAM3;惯性测量单元;特征识别;深度学习
引用格式:蒋鹏程, 邱俊武, 陈衡锋, 章旭国, 陈佳鑫, 田壮. 2024. 基于YOLOv4的室内动态场景下ORB-SLAM3优化方法. 时空信息学报, 31(5): 596-604
Jiang P C, Qiu J W, Chen H F, Zhang X G, Cheng J X, Tian Z. 2024. Optimization of ORB-SLAM3 in indoor dynamic scenes based on YOLOv4. Journal of Spatio-temporal Information, 31(5): 596-604, doi: 10.20117/j.jsti.202405006
1 引 言
近年来,随着大型商业综合体、现代化办公大楼及科技园区的蓬勃发展,地下停车场的规模日益扩大。然而,这些空间普遍存在布局相似、标志物重复的特点,加之地下环境严重阻碍GPS信号的传输,导致传统定位方法失效(曹昌磊等,2023)。因此,用户在这种复杂环境中往往难以快速准确地找到自己的车辆,凸显了对停车场内车辆精确导航与定位技术的迫切需求。随着人工智能技术的发展,视觉同步定位与建图(simultaneous localization and mapping,SLAM)已成为移动机器人领域的核心定位技术(俞鑫楷等,2019;傅柳军等,2021)。尽管视觉传感器具有成本低廉、信息获取丰富等优势,但传统视觉SLAM在特定环境下仍面临挑战。例如,在重复性纹理环境中、相机运动幅度过大时,以及高动态场景变化的情况下,容易丢失关键信息并积累误差,导致定位精度降低(郑晓华等,2024)。
现有一些相关研究已取得丰富的成果,如ORB-SLAM(oriented FAST and rotated BRIEF SLAM)(Mur-Artal等,2015)、ORB-SLAM2(Mur-Artal和Tardós,2017)和LSD-SLAM(Engel等,2014)等(李浩东等,2022)。其中,ORB-SLAM2具有较好的系统稳定性和实时性,得到了广泛关注(徐少杰等,2021)。然而,ORB-SLAM2和现有大多优秀算法一样,在现实场景的应用上依然存在一些问题(傅柳军等,2021)。现有算法大多为了计算方便常将外部环境作为静态假设,忽略了真实环境中动态物体对 SLAM精度的影响,静态模型无法适应复杂多变环境(Saputra 等,2019;魏彤和李绪,2020)。
针对动态环境下的SLAM,目前主要有两种方法。第一种方法依赖于静态特征点进行位姿估计和地图构建。基于传统的几何方法,如帧差分法和背景减法(Cutler和Davis,2000;Cheng和Wang,2014),通过分析输入图像的像素识别环境中的动态物体。其中,光流法能够有效地识别场景中的运动物体,还能为三维重建提供丰富的场景数据。例如,Klappstein等(2009)通过光流法计算动态物体与场景光流运动的偏差,实现了对动态物体的分割;Derome等(2015)通过计算不同图像之间的残差来获取光流,确定动态物体。然而,光流法的应用受到亮度恒定的限制,易受到光线变化的影响。第二种方法是利用图像中的语义信息来检测和消除动态区域(赫英策等,2024;朱小凡等,2024)。Yu等(2018)基于 ORB-SLAM2 提出 DS-SLAM,引入了并行的语义分割线程,并采用Segnet网络进行动态物体的分割;尽管其提升了定位效果,但增加了系统的复杂性。Bescos等(2018)基于ORB-SLAM2提出DynaSLAM,通过多视角几何和像素级语义分割网络处理动态物体;但是需要大量的计算资源,难以满足实时性能的需求。Qi等(2023)和Chang(2022)采用了YOLO(you only look once)和光流法来消除潜在的动态物体;但未充分考虑光流法在不同环境光线变化下的敏感性。徐少杰等(2021)提出了一种用ORB-SLAM2结合YOLOv4目标检测网络筛选动态物体,并利用Segnet网络构建语义地图的方法,但实时性较差,且仅在空间有限的室内场景进行测试。ORB-SLAM3是最新一代的视觉SLAM算法,支持单目、双目和RGB-D相机,并集成惯性测量单元(inertial measurement unit,IMU),能在复杂动态场景中实现高精度定位和建图。其通过图像金字塔技术和稀疏优化方法,提高了特征点匹配精度和运行效率(Campos等,2021)。尽管可以使用随机采样一致性算法将动态物体上的特征点识别为异常值并进行过滤,但主要适用于动态元素较少、变化不大的场景;在高度动态环境中,当动态物体占据图像的大部分区域时,ORB-SLAM3提取的特征点可能大量来自这些移动的物体,导致系统精度显著降低,无法生成可靠的轨迹估计(傅柳军等,2021)。
因此,如何在提升精度的同时保证系统的实时性仍是视觉SLAM技术的一个挑战。本文通过融合轻量级的目标检测网络YOLOv4,提出一种改进的ORB-SLAM3方法,识别并移除潜在的动态目标,减少动态物体对位姿估计的影响,增强系统的整体稳定性。
2 研究方法
针对场景中动态变化所导致的用于定位的三维地图稳健性不足,本文采用了基于神经网络的目标检测模型YOLOv4,对每一帧影像进行动态目标的检测。YOLOv4具备实时性和高精度的特点,在MS COCO数据集上的平均精度(mean average precision, mAP)达到43.5%,并且拥有高达65帧每秒(frame per second, FPS)的检测速率(Bochkovskiy等,2020)。这意味着每秒能够处理65张图像中的目标。
PASCAL VOC数据集是计算机视觉领域中常用的标准数据集之一,主要用于对象检测、图像分割和图像分类(Everingham等, 2010)。采用 YOLOv4 作为目标检测网络,检测环境中动态物体,如地下停车场中的动态点主要包括车辆和行人。采用PASCAL VOC数据集结合人工标记车辆数据集训练YOLOv4,数据集共包含三种类别,分别为汽车(car)、卡车(truck)和人(person);训练后YOLOv4模型在这三个类别的识别准确率达到92%,结果如图2所示。
2)环境静态特征点筛选
使用的图像分辨率为1280个像素×720个像素,为了实现特征尺度不变性,对输入的图像构建了8层图像金字塔,如图3所示。与ORB-SLAM3的默认值保持一致,金字塔缩放系数取值1.2,对原始影像依次进行降采样。对每张图像进行特征点提取,参考Campos等(2021),数量设置为1000个。在每一层图像中进行一次动态目标识别,在目标区域内的特征点不进行记录,仅提取环境的稳健特征点。
这一初始估计虽然提供了高频率的位姿变化信息,但需要通过视觉信息进行进一步优化以消除积分误差。系统选取稳定的特征点及其对应的三维空间点进行位姿精化。通过相机投影模型,建立特征点和三维空间点之间的关系:
为了更精确地描述位姿变化,采用李群SE(3)和李代数se(3)表示,引入误差模型:
通过式(5)得到了最优的误差项,用于修正初始位姿估计。这种方法有效结合了IMU的高频率数据和视觉特征的精确定位能力,在动态环境中实现了稳健且精确的位姿恢复。
2.2 后端优化与场景地图构建
经上文所述处理,所获得的三维重建模型仅为局部地图。为构建全局三维地图,需运用回环检测技术。回环检测通过核对与校验同一特征点在同一地点的重复出现,实现局部地图的连接,进而构建出完整的全局地图。为减小误差,回环检测应避免像前端视觉里程计那样在连续的时间段内记录同一特征点的信息。
通过SLAM对摄像头实时定位恢复轨迹时,会得到每一帧相对第一帧的旋转平移参数文件。另外,还会对关键帧单独输出一份旋转平移参数文件,表示当前帧的位置,四元数Q中
对应于三维点的坐标,当前帧的姿态可由式(6)表示。坐标系采用的是ORB-SLAM3系统初始化成功那一帧的相机坐标系,也为坐标系原点。有
得到了每一关键帧相对于第一帧的旋转平移关系后,可以将每一帧的RGB-D相机生成的点云(图5(a)),乘以变换矩阵统一转换到相机坐标系中,拼接成完整的场景点云地图,如图5(b)所示。
3 实验及结果分析
3.1 实验数据
实验场景设置在地下停车场,采用手持电脑连接Azure Kinect DK相机的方式进行视频数据采集。相机设置为RGB-D模式,所采集的数据包括彩色图像、深度图像、红外影像,以及加速度计和陀螺仪信息,如图6所示。同时,利用GeoSLAM设备对整个停车场进行激光点云扫描,作为RGB-D建图的评定基准。
行走方向遵循顺时针绕行并最终返回至起点,形成一完整闭环。所使用的相机参数及ORB-SLAM3的主要参数配置:彩色分辨率1280个像素×720个像素;视频帧率30 FPS;IMU采集频次1600 Hz。在行走过程中,每组实验均匀采集5个位置已知的标记点(6(b)),以便于后续对定位精度的验证;每组采集两圈。制作两组视频数据集作为实验数据,见表1。
3.2 评价方法
实验采用平均距离法和标准差作为定位精度的量化评估指标,用于衡量待测点云与真实点云之间的差异程度。
1)平均距离法
令S和分别为两个同源单元中点子集,S为待检测点云,
为参考点云。计算S中的所有点与其在
中的最临近点距离的平均值或者最大值中的最小值,并将该值赋予S中的所有点。实验使用平均距离误差(mean distance error, MDE)来表示两个点云之间距离误差的平均水平(王伟玺等,2024)。
2)标准差
标准差是反映一组数据离散程度最常用的一种量化形式,为总体各单位标准值与其平均数离差平方的算术平均数的平方根:
3.3 三维点云拼接结果与精度评价
通过将Kinect DK相机在RGB-D模式下捕获的每帧深度图转换为点云数据,并计算每帧图像相对于首帧图像坐标系的转换矩阵,实现了三维点云的精确拼接,得到三维点云图(图7(b))。随后,将拼接完成的场景点云与GeoSLAM采集得到的激光点云(图7(a))进行配准处理,并计算点对点之间的距离误差,MDE优于0.2m,如图8所示。
3.4 位姿追踪结果与精度评价
为了直观评估相机轨迹与定位精度的测量结果,首先对构建的室内三维点云地图进行了顶部裁剪处理;其次,将相机轨迹导入处理后的地图中,以便观察和测量估计轨迹与预先设定的5个已知位置标记点在第一圈与第二圈位姿估计结果之间的距离。相机运动轨迹与点云地图叠加显示后的效果如图9所示。图10展示了三种视觉SLAM定位方案恢复的相机轨迹。在RGB-D模型ORB-SLAM3中,数据集2出现了误匹配,而单目惯导模型未出现该情况;这说明了IMU信息辅助的有效性。同时在图像内容快速变化的情况下,仍能依赖IMU信息进行轨迹跟踪,显示出较高的稳健性。通过对三种视觉定位方案恢复的相机轨迹进行比较,并计算在5个标记点处前后两圈定位点的误差,采用平均距离和标准差作为精度评定的指标,结果见表2。相较于改进前,本方法平均精度提升了68%;由于恢复相机轨迹,本文RGB-D模型定位精度相较于单目惯导模型提升了63.3%。
由于Kinect DK相机所搭载的IMU以1.6kHz的高频采集数据,与相机数据的融合提升了系统稳健性。在完整的室内实验数据集中,本文RGB-D模型恢复的激光点云与GeoSLAM所得激光点云之间的MDE为1.7 cm,优于单目惯导模型的4.63 cm,且标准差更低,见表2。本方法的MDE最小,且运行帧率为20 FPS,在保证实时性的前提下,能达到较高的定位精度和卓越的稳健性,MDE控制在1.5 cm以内。
得益于深度信息的融入,本文RGB-D模型的SLAM在场景尺度恢复和初始化过程中展现出更高的精确性与速度;在确保回环检测成功的前提下,其定位精度显著优于单目惯导模型。然而,该模型在相邻帧间跟踪线程中易出现信息丢失,尤其在纹理相似的场景中,易误判为回环现象。得益于IMU信息辅助,本方法在纹理相似的场景中有效地避免了回环匹配的误识别,且在图像内容快速变化的情况下,依然能够依靠IMU信息维持轨迹跟踪,显示出较强稳健性。此外,由于无需使用深度相机,本方法更为经济实惠。
曹昌磊, 陈志达, 龚小宇, 洪年祥. 2023. 定位传感器基站部署优化方案研究. 时空信息学报, 30(3): 450-456[Cao C L, Chen Z D, Gong X Y, Hong N X. 2023. Research on optimization of deployment plans for positioning sensor base stations. Journal of Spatio-temporal Information, 30(3): 450-456 (in Chinese)]
傅柳军, 龚烨, 李礼, 万伟, 姚剑. 2021. 面向高动态环境的ORB-SLAM3算法优化. 测绘地理信息, 46(S1): 93-96[Fu L J, Gong Y, Li L, Wan W, Yao J. 2021. Optimization of ORB-SLAM3 algorithm for high dynamic environment. Journal of Geomatics, 46(S1): 93-96 (in Chinese)]
赫英策,李禹萱,孙尚宇, 宋伟东. 2024.基于改进YOLOv8的前视影像的路面病害检测方法.时空信息学报,1-22.https://doi.org/ 10.20117/j.jsti.202405001.[2024-09-09][ He Y C, Li Y X, Sun S Y,Song W D. 2024. Pavement defect detection method for forward-looking images based on improved YOLOv8. Journal of Spatiotemporal Information Science, 1-22.https://doi.org/10. 20117/j.jsti.202405001.[2024-09-09](in Chinese)]
李浩东, 陶钧, 刘辰宇, 龙宇浩. 2022. 基于ORB-SLAM框架的直接法改进与对比. 测绘地理信息, 47(S1): 211-215[Li H D, Tao J, Liu C Y, Long Y H. 2022. Improvement and comparison of direct method based on ORB-SLAM framework. Journal of Geomatics, 47(S1): 211-215 (in Chinese)]
随银岭, 张宁, 秦志远, 童晓冲, 李贺, 赖广陵, 郭宇. 2020. 改进的基于累加投影图匹配的点云配准算法. 地理信息世界, 27(5): 17-22[Sui Y L, Zhang N, Qin Z Y, Tong X C, Li H, Lai G L, Guo Y. 2020. An improved point cloud registration algorithm based on cumulative projection matching. Geomatics World, 27(5): 17-22 (in Chinese)]
王伟玺, 黄鸿盛, 杜思齐, 李晓明, 谢林甫, 洪林平, 郭仁忠, 汤圣君. 2024. 面向虚拟地理环境构建的树木模型高保真三维重建. 遥感学报, 28(5): 1222-1231[Wang W X, Huang H S, Du S Q, Li X M, Xie L F, Hong L P, Guo R Z, Tang S J. 2024. Highly realistic 3D reconstruction method for tree models created for virtual geographic environments. National Remote Sensing Bulletin, 28(5): 1222-1231 (in Chinese)]
魏彤, 李绪. 2020. 动态环境下基于动态区域剔除的双目视觉SLAM算法. 机器人, 42(3): 336-345[Wei T, Li X. 2020. Binocular vision SLAM algorithm based on dynamic region elimination in dynamic environment. Robot, 42(3): 336-345 (in Chinese)]
徐少杰, 曹雏清, 王永娟. 2021. 视觉SLAM在室内动态场景中的应用研究. 计算机工程与应用, 57(8): 175-179[Xu S J, Cao C Q, Wang Y J. 2021. Application research of visual SLAM in indoor dynamic scenes. Computer Engineering and Applications, 57(8): 175-179 (in Chinese)]
俞鑫楷, 胡涛, 李响, 王继伟. 2019. 基于Lego机器人的低成本SLAM方法设计. 地理信息世界, 26(5): 86-89, 95[Yu X K, Hu T, Li X, Wang J W. 2019. A low-cost implementation of SLAM based on lego robot. Geomatics World, 26(5): 86-89, 95 (in Chinese)]
郑晓华, 耿鑫雷, 邓浩坤. 2024. 基于深度学习的室内动态场景下视觉SLAM技术研究. 测绘地理信息, 49(2): 51-55[Zheng X H, Geng X L, Deng H K. 2024. Deep learning-based visual SLAM technology for indoor dynamic scenes. Journal of Geomatics, 49(2): 51-55 (in Chinese)]
朱小凡, 胡璐锦, 王恺, 王坚. 2024. 基于SE-Mask-RCNN建筑遗产识别与空间可视化分析. 时空信息学报, 31(1): 50-56[Zhu X F, Hu L J, Wang K, Wang J. 2024. Architectural heritage recognition and spatial visualization analysis based on SE-Mask-RCNN. Journal of Spatio-temporal Information, 31(1): 50-56 (in Chinese)]
Bescos B, Fácil J M, Civera J, Neira J. 2018. DynaSLAM: Tracking, mapping, and inpainting in dynamic scenes. IEEE Robotics and Automation Letters, 3(4): 4076-4083
Bochkovskiy A, Wang C Y, Liao H Y M. 2020. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934
Campos C, Elvira R, Rodríguez J J G, M Montiel J M, D Tardós J. 2021. ORB-SLAM3: An accurate open-source library for visual, visual–inertial, and multimap SLAM. IEEE Transactions on Robotics, 37(6): 1874-1890
Chang Z Y, Wu H L, Sun Y L, Li C J. 2022. RGB-D visual SLAM based on Yolov4-tiny in indoor dynamic environment. Micromachines, 13(2): 230
Cheng Y H, Wang J. 2014. A motion image detection method based on the inter-frame difference method. Applied Mechanics and Materials, 490/491: 1283-1286
Cutler R, Davis L S. 2000. Robust real-time periodic motion detection, analysis, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8): 781-796
Derome M, Plyer A, Sanfourche M, Le Besnerais G. 2015. Moving object detection in real-time using stereo from a mobile platform. Unmanned Systems, 3(4): 253-266
Engel J, Sch?ps T, Cremers D. 2014. LSD-SLAM: Large-scale direct monocular SLAM. Lecture Notes in Computer Science. Cham: Springer International Publishing. 834-849
Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. 2010. The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2): 303-338
Klappstein J, Vaudrey T, Rabe C, Wedel A, Klette R. 2009. Moving object segmentation using optical flow and depth information. Wada T, Huang F, Lin S, eds. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg. 611-623
Mur-Artal R, Montiel J M M, Tardós J D. 2015. ORB-SLAM: A versatile and accurate monocular SLAM system. IEEE Transactions on Robotics, 31(5): 1147-1163
Mur-Artal R, Tardós J D. 2017. ORB-SLAM2: An open-source SLAM system for monocular, stereo, and RGB-D cameras. IEEE Transactions on Robotics, 33(5): 1255-1262
Qi H, Hu Z H, Xiang Y F, Cai D P, Zhao Y C. 2023. ATY-SLAM: A visual semantic SLAM for dynamic indoor environments. Lecture Notes in Computer Science. Singapore: Springer Nature Singapore. 3-14
Saputra M R U, Markham A, Trigoni N. 2019. Visual SLAM and structure from motion in dynamic environments. ACM Computing Surveys, 51(2): 1-36
Yu C, Liu Z X, Liu X J, Xie F G, Yang Y, Wei Q, Fei Q. 2018. DS-SLAM: A semantic visual SLAM towards dynamic environments//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain. 1168-1174
↓↓ 了解更多产业要闻 ↓↓
请将我设为星标★
来源:《时空信息学报》2024年第5期
>>协会通知
“企业家风采”“创新之声”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”“预见2024”等主题宣传(专栏)进行中,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享!