一种地图配准中特征点智能提取方法
韦远标,任福,杜清运
武汉大学资源与环境科学学院,武汉430079
摘 要:数学基础是地图的重要要素,地图配准是恢复地图数学基础的主要方式,目前地图图像配准方法多关注于图像特征的提取与匹配,未能有效利用图像特征点所对应的地理坐标信息。本文提出一种基于深度学习的特征点检测模型与非线性变换模型结合的地图图像配准方法,训练并使用YOLOv8-pose模型高效提取图像中易于视觉识别且地理坐标明确的特征点,利用其图像坐标和地理坐标代入加权最小二乘法求解非线性变换参数,实现无坐标地图图像的数学基础恢复。结果表明,本文方法在面对多样化制图方式(如不同投影、比例尺、符号系统等)和复杂成像条件(如旋转、透视畸变、噪声干扰等)影响下的地图图像,均能高效、精准地恢复其坐标系,配准精确率和召回率都超过90%,为地图图像融合其他含有坐标系的矢量与栅格数据,进行精确的空间知识理解、分析提供了新的技术思路。
关键词:地图图像配准;特征点提取;YOLOv8-pose模型;地图数学基础;地图投影
引用格式:韦远标, 任福, 杜清运. 2025. 一种地图配准中特征点智能提取方法. 时空信息学报, 32(3): 299-306
Wei Y B, Ren F, Du Q Y. 2025. An intelligent extraction method of feature points in map registration. Journal of Spatio-temporal Information, 32(3): 299-306, doi: 10.20117/j.jsti.202503009
1 引 言
数学基础是地图不可或缺的要素,读图者可以依次获取地图图像上地理要素的位置、空间关系等信息,使用计算机直接解析地图图像里的空间特征却十分困难(周熙然等,2022)。这导致历史书籍文献、数据库、互联网中的地图图像、视频里包含的浩瀚如海的空间信息及知识无法有效地挖掘和利用(任福等,2022)。恢复地图图像的数学基础,是将地图图像上若干离散点和对应的地理坐标通过数值逼近的理论和方法建立地图图像与已知投影间的关系式,即进行地图图像配准(李国藻等,1993)。其中,基于特征的配准方法是目前使用最为广泛的方法,主要包括特征检测和描述、特征匹配、图像变换模型解算三个步骤(叶沅鑫等,2022;张智浩,2022)。基于特征的图像配准关键在于计算配准对象在不同图像之间特征的相似性(王东峰,2002)。根据特征的抽象程度和提取难度,如表1中,图像配准可分为:①狭义配准,中、低级特征的图像特征;②广义配准,高级特征的语义特征。
地图图像之间即使针对相同的制图对象,中、低级的图像特征的差异仍比其他类别图像(如遥感影像、医学影像)大得多,不仅有图像质量差异、变换差异,还存在较大图像内容差异,如投影、比例尺等(王铮等,2022)。因此,设计一套充分考虑地图图像特征的配准方法十分必要。
当前,图像配准从传统的特征提取与匹配逐步发展出融合注意力机制(张泽瑞等,2024)、使用网格编码(夏列钢等,2020)、进行多种方法组合优化(随银岭等,2020;蓝秦隆等,2022)等新型技术框架,极大推动了图像配准算法在不同场景中充分发展。但是,将基于特征匹配的配准算法应用于地图配准主要还存在四个方面的挑战,具体包括:①对非线性变换(如投影畸变)的适应性差,例如,简单尺度不变特征变换(simple scale invariant feature transform,S-SIFT)能在图像经过旋转、缩放、仿射变换后进行配准,但无法应对地图配准中非线性投影变换和巨大设计差异(Wang等,2024);角点检测无法应对噪声、旋转变换(DeTone等,2017)。②需要人工参与配准过程,如邹展威等(2023)通过构建频率域特征粗配准结合迭代最近点(iterative closest point,ICP)算法的精配准,进行国土资源专题地图图片自动配准,但其中多数图像需要手动提取行政边界。③配准耗时长、实时性差,如利用深度卷积特征的图像配准算法(Yang等,2018)单次配准需15min。④仍面临单一深度学习模型无法适用地图差异过大的情况,如马瑞苑等(2024)分别使用SuperGlue、GlueStick、Patch2Pix算法进行了地图图像配准,发现SuperGlue算法对地图细部特征感知能力强,但制图区域过大会丢失全局信息;GlueStick算法对地图区域和比例尺变化的适应性更强,但对存在符号差异的地图配准精准度不高;Patch2Pix算法的匹配准确率随着地图制图区域的增大而增大,但易受地图相似要素的影响,难以实现局部地图与整体地图的特征点匹配。此外,地图图像资料还呈现多源异构的特点(王家耀,2017)。因此,特征识别提取模型必须能够兼容图像、视频、网页等多种地图格式的输入。
为了保证稳健性,配准模型存储体积需轻量化。YOLO系列图像检测模型自2015年发布以来不断优化迭代,其中,YOLOv8于2023年发布,以实时性为设计核心,能够在较短时间内完成目标检测,支持各类格式数据源的输入且模型体积较小,适合于实时目标检测任务(Varghese,2024)。YOLOv8模型系列还支持图像分割(Yang和Rong,2024)、特征点识别(Maji等,2022)、方向识别(Wang等,2024a,b)、分类(Mo等,2024)等多种图像检测任务。其中,对于地图配准中的特征点检测而言,YOLOv8-pose不仅具备强大的目标定位能力,还可为识别出的特征点进行分类,在识别过程中检测特征点的图像坐标并根据特征点标签关联其地理坐标信息,满足地图图像语义配准要求。因此,本文以无坐标地图图像及特征点训练标签为输入,通过YOLOv8-pose深度学习模型,自动识别并提取图像中选定的特征点;随后基于非线性几何变换模型,结合识别出的特征点图像坐标与地理坐标,通过加权最小二乘法解算变换参数;最终输出图像坐标与地理坐标之间的几何变换方程,实现地图图像数学基础的快速、高精度恢复。
2 研究方法
实验地图配准中特征点智能提取主要包括数据准备、模型应用及几何变换模型解算三个步骤,技术路线如图1所示。首先,对典型地图图像进行特征分析,选取具有地理语义的特征点;依据制图对象训练数据数量,分别采用数据标注法和自动制图法生产训练数据集,并针对不同制图风格和设计差异,通过仿射、非线性几何变换及图像增强等合成多样化的训练图像样本,生成配准特征点的训练标签集。其次,训练YOLOv8-pose模型,并利用训练结果识别特征点,获取图像坐标。最后,通过加权最小二乘法求解非线性几何变换参数,构建图像与地理坐标系之间的映射关系,完成地图图像的配准与数学基础恢复,获得可叠加标准空间数据的已配准地图图像。
2.1 YOLOv8-pose特征点识别模型
YOLOv8-pose模型拥有nano(n)、small(s)、medium(m)、large(l)、extra large(x)五个不同参数规模的版本。版本越高代表模型参数越多,考虑到地图图像内容的复杂性,实验使用参数量最大(290万个)的YOLOv8x-pose作为特征点识别模型。
实验地图配准任务要求特征提取和特征匹配同步进行,利用YOLOv8x-pose进行地图图像特征点的识别与提取,既满足多种地图格式的输入,也能克服传统相似性测度方法(如灰度平方和、归一化相关系数、互信息等)的局限,实现端到端特征提取与匹配。
在模型设计上,YOLOv8-pose特征点识别模型能够对目标点的位置进行检测,输出每个目标点图图面上的图像坐标、其对应的特征点名称标签和识别置信度分数,从而为地图图像配准算法解算变换方程参数提供稳定且准确的数据基础。
2.2 几何变换模型
在地图配准几何变换模型中,常用的刚体变换、仿射变换、投影变换等线性变换模型,无法应对不同地图图像中由于投影坐标系的选择不同、地图图像拍摄时镜头畸变、地图纸张折叠等非线性变换导致的图像形变。因此,实验选取二次变换和三次变换两个非线性变换模型,对比两者实际应用中的配准准确度,使用特征点提取匹配模型中的置信度作为权重,通过加权最小二乘法解算变换模型中的未知参数。
二次变换模型和三次变换模型分别为
式中,分别为变换模型中待使用加权最小二乘法求解的未知转换常量。二次变换模型求解全部未知参数至少需要五个不共线点的图像坐标和地理坐标,三次变换模型至少需要10个不共线点。
由于深度神经网络检测的不稳定性,选定的特征点中会出现漏检或检出置信度过低(实验中小于等于80%)的情况,这类识别出的无效点不参与变换模型参数的计算,设有效的图面点数量为n(n≥10),每个点在图像坐标系下的坐标为(x,y),对应的地理坐标系坐标(X,Y),模型检测的置信度为w,根据加权最小二乘法系数求解式(3)即可求得全部未知系数:
式中,A、B为系数矩阵;N为自变量矩阵,在二次变换模型中原理为式(4),在三次变换模型中为式(5);W为权重对角矩阵,代表检测模型给出的置信度;X、Y为因变量矩阵。根据解算出的两个系数矩阵,可实现任意图上点的图像坐标向真实地理坐标的转换。以三次变换模型为例,对于图像上任意点坐标可以利用式(6)获取地理坐标:
这可反推出地图图像的配准所需的几何变换模型参数,从而完整恢复其数学基础。
3 实验结果与分析
3.1 实验数据
为验证方法的有效性,实验数据选取中国地图、香港地图、武汉大学地图三个不同尺度的区域。
3.1.1 数据采集及生成
对于中国地图数据的采集,利用网络爬虫以中国地图、China MAP等关键词从Google、百度、Microsoft Bing三种搜索引擎中爬取了1000张图像,去除非中国地图图像后,最终以793幅地图图像作为实验数据,人工标注图像特征点,按照4︰1划分为训练集和验证集。
针对香港、武汉大学,这类地图数据量较少的区域,实验利用自动制图及特征点自动标注技术生产数据集。首先,计算识别区域边界的最小外包络矩形,并随机放大、缩小、位移该矩形,模拟出不同的制图范围;其次,利用在OSM(Open Street Map)中下载的地图识别区域中的道路、建筑、土地利用、自然区域、关注点、铁路、水域等数据,随机选取其中若干类绘制于地图上,绘制时采用随机点线面样式、随机设置各个图层的顺序、随机设置要素的坐标系、随机设置线要素和面要素的细节表示程度,并设置要素随机透明度,模拟出地图设计与地图内容的不同;再次,随机调用Open Street Map、Open Sea Map、Open Topo Map、Open Railway Map、World Street Map、World Imagery、World Gray Canvas等多个开源地图网络地图服务(web map service,WMS)模拟不同制图风格和制图主题,包括导航图、普通地图、海洋地图、铁路专题图、卫星图等,并根据制图范围的不同调用不同层级的地图服务,模拟制图综合水平的不同;最后,随机绘制几何图案、文字、图片图案,模拟地图中图标、注记等对底图的遮挡。自动标注通过制图范围和坐标系解算特征点在图像上的坐标,形成完整的数据集。最终制成香港地图1007幅,武汉大学地图1019幅,按照4︰1划分为训练集与验证集。
3.1.2 特征点选取与数据增强
在地图配准任务中,特征点的选择标准因应用场景和数据特性而异,目前尚无统一规范。实验选取控制点时遵循的原则为,选择地理空间分布均匀、易于识别、绝大多数图像都显式包含所有的控制点。在中国地图上选取了67个特征点,包括陆上国界角点27个、海岸线角点10个,以及省级界线交点30个,如图2(a)所示;在香港地图上选取了55个特征点,包括18个境界点、22个山脉及岛屿角点、15个道路角点,如图2(b)所示;在武汉大学地图上选取了10个特征点,其中包括道路交点6个、水系边界角点2个,森林边界角点1个,如图2(c)所示。采用1984世界大地测量系统(world geodetic system 1984,WGS-84)坐标系表述所选特征点的坐标。
标注时特征点共记录四个标签,包括点的图像横坐标、纵坐标、点的唯一名称(用于检索点的地理坐标)和可见性。其中,可见性分为三类,具体为:以0代表特征点在图外,图外点无图像特征,不参与训练;1代表特征点在图上但不可见,如被符号或图表等遮盖,位置没有角点或交点的特征;2代表特征点在图上且可见,位置为对应的角点或交点,以保证模型训练时降低对不可见点特征的学习权重,增强模型的检测精度。最终标记图上点108335个,另10371个图外点的横、纵坐标及可见性均自动填充为0。
为了增强最终特征点检测模型的泛化能力,并模拟地图图像在实际应用中可能出现的几何变换,实验进行多种数据增强。随机旋转角度0°~15°,模拟地图因摆放角度而产生的轻微旋转;随机缩放0~0.2倍,模拟地图因不同显示设备而出现的缩放差异;随机透视变换,模拟地图因拍摄视角变化而出现的透视畸变;通过多图片随机组合拼接,增加训练数据的多样性,并在训练后1/5阶段中关闭拼接,以避免模型在训练后期在对细粒度特征进行高精度学习时,拼接增强操作对特征定位的精确性产生干扰。
3.2 结果评价与分析
配准变换采用无偏估计的加权最小二乘法,配准准确度直接与YOLOv8-pose模型的准确度相关。YOLOv8x-pose能够稳定输出高于90%的精确率(precision,Pr)和召回率(recall,Re),可以准确提取并对特征点进行分类,模型的训练结果见表2。F1分数(F1 score,F1)是图像识别分类深度学习模型的一个常用衡量指标,用于综合评判模型的识别和分类的准确性;模型平均精度(mean average precision,mAP)是目标检测中常用的性能评估指标,mAP50衡量交并比(intersection over union,IoU)阈值0.5的平均精度,mAP50~95衡量IoU阈值0.5~0.95的平均精度。表2中YOLOv8x-pose模型在中国地图、香港地图和武汉大学地图三个样本中均表现优秀。其中,中国地图的F1达到95.257%,mAP50达到95.703%,香港地图、武汉大学地图的Pr、Re均超过99.5%。这说明YOLOv8x-pose模型在不同类型地图的特征点检测中具备良好的稳定性与泛化能力,同时模型数据量仅为118~136.3 MB,适合轻量化部署。
YOLOv8x-pose模型不仅在识别精确率和准确度上表现良好,整个配准时长也压缩到秒级。验证集的特征点平均提取耗时为127.65ms,其中包括图像预处理平均时长12.77ms;加权最小二乘法解算变换模型参数的平均耗时为56.89 ms。这说明基本能够实现实时地恢复地图图像数学基础。
此外,除验证集之外,还检验了结合YOLOv8x- pose特征点检测模型和三次变换模型的地图图像配准方法的效果(图3)。这些图像数据为网络上随机选取的一些地图相关图片,如照片或截图,包括地貌艺术图局部照片(图3(a))、墙体艺术地图照片(图3(b))、纵向压缩后的武汉大学网络导航图截图(图3(c))、网络艺术地图局部照片(图3(d))、包含香港的大湾区卫星图截图(图3(e))、香港导航图截图(图3(f))。六张无坐标基础的图像经过算法恢复数学基础后,分别叠加有坐标基础的中国境界线、香港境界线、武汉大学境界线矢量数据,以直观展示恢复精确度。图3(a)(b)(d)为同一制图对象不同制图符号(如色彩、注记等)和角度(如平面地图与地球仪)下的地图图像,图3(e)(f)为同一制图对象不同比例尺、不同类别(如卫星图与导航图)的地图图像。根据图3中配准后边界轮廓与图像地理要素的贴合情况,可看出,本文方法在应对不同投影坐标系、比例尺、制图范围、地图色彩、地图符号、地图注记等差异的地图图像配准,都能有较好的效果。
4 结 论
为解决地图图像因缺乏数学坐标基础而难以配准的问题,本文利用地图图像中特征点地理坐标这一语义特征进行图像配准,通过配准后特征点图像坐标和地理坐标获取变换参数,并通过参数反演地图的数学基础,解决了以往配准方法中依赖人工参与、无法估计非线性变换、配准时间过长、单一模型无法适用地图差异过大的问题。结果表明:本文方法在不同地图设计风格、比例尺、投影变换及复杂成像条件下,可实现稳定提取特征点并建立有效配准关系,能够稳定输出高于90%的精确率和召回率;整个配准时长也压缩到秒级,验证集的特征点平均提取耗时为127.65ms。研究成果可以将任意易错绘的区域或点坐标配准在待检地图图像上,避免了多次训练单一地理目标检测网络的不便,也可为像素级精准智能化地图提供技术参考。
面对过度扭曲变换的地图图像等边缘场景,本文方法仍存在一定的精度提升空间。下一步研究将通过进一步优化深度学习模型和变换算法,丰富训练数据样本类型,提升其在各类场景下恢复数学基础的准确性。
参考文献(References)
蓝秦隆, 邹进贵, 杨丁亮. 2022. 混合优化算法的点云配准. 测绘科学, 47(7): 119-125[Lan Q L, Zou J G, Yang D L. 2022. Point cloud registration based on hybrid optimization algorithm. Science of Surveying and Mapping, 47(7): 119-125 (in Chinese)]
李国藻, 杨启和, 胡定荃. 1993. 地图投影. 北京:解放军出版社[Li G Z, Yang Q H, Hu D Q.1993.Map Projection. Beijing: People's Liberation Army Press (in Chinese)]
马瑞苑, 王勇, 车向红, 杜凯旋. 2024. 典型深度学习算法在地图图像特征点匹配上的适用性分析. 测绘科学, 49(8): 173-180[Ma R Y, Wang Y, Che X H, Du K X. 2024. Analysis of the applicability of typical deep learning algorithms for map feature point matching. Science of Surveying and Mapping, 49(8): 173- 180 (in Chinese)]
任福, 翁杰, 王昭, 张琛, 游泽威. 2022. 关于智能地图制图的几点思考. 武汉大学学报(信息科学版), 47(12):2064-2068[Ren F, Weng J, Wang Z, Zhang C, You Z W. 2022. Some thoughts on smart cartography. Geomatics and Information Science of Wuhan University, 47(12):2064-2068(in Chinese)]
随银岭, 张宁, 秦志远, 童晓冲, 李贺, 赖广陵, 郭宇. 2020. 改进的基于累加投影图匹配的点云配准算法. 地理信息世界, 27(5): 17-22[Sui Y L, Zhang N, Qin Z Y, Tong X C, Li H, Lai G L, Guo Y. 2020. An improved point cloud registration algorithm based on cumulative projection matching. Geomatics World, 27(5): 17-22 (in Chinese)]
王东峰. 2002. 多模态和大型图像配准技术研究. 博士学位论文. 北京:中国科学院电子学研究所[Wang D F. 2002. A study on registration of multi-modal and huge-size images. Doctoral Dissertation. Beijing: Aerospace Information Research Institute, Chinese Academy of Sciences(in Chinese)]
王家耀. 2017. 时空大数据时代的地图学. 测绘学报, 46(10): 1226-1237[Wang J Y. 2017. Cartography in the age of spatio- temporal big data. Acta Geodaetica et Cartographica Sinica, 46(10): 1226-1237 (in Chinese)]
王铮, 刘纪平, 车向红, 王勇, 杜凯旋. 2022. 基于卷积神经网络的地图相似度匹配方法研究. 测绘科学, 47(7):169-175[Wang Z, Liu J P, Che X H, Wang Y, Du K X. 2022. Research on map similarity matching method based on convolutional neural network. Science of Surveying and Mapping, 47(7):169-175(in Chinese)]
夏列钢, 杨存建, 陈军, 胡晓东. 2020. 目标网格编码支持的多源遥感影像地理匹配. 地理信息世界, 27(4): 36-40[Xia L G, Yang C J, Chen J, Hu X D. 2020. A TGC-based approach for multi-source remote sensing image registration. Geomatics World, 27(4): 36-40 (in Chinese)]
叶沅鑫, 徐其志, 胡忠文. 2022. 多模态遥感图像配准. 北京: 科学出版社[Ye Y X, Xu Q Z, Hu Z W.2022. Multimodal Remote Sensing Image Registration. Beijing: Science Press (in Chinese)]
张泽瑞, 范大昭, 纪松, 董杨, 李东子, 刘杰. 2024. 结合注意力机制的卫星遥感影像立体匹配. 时空信息学报, 31(1): 41-49 [Zhang Z R, Fan D Z, Ji S, Dong Y, Li D Z, Liu J. 2024. Stereo matching of satellite remote sensing images based on attention mechanism. Journal of Spatio-temporal Information, 31(1): 41-49 (in Chinese)]
张智浩. 2022. 基于特征匹配的非刚性图像配准方法研究. 博士学位论文. 哈尔滨:哈尔滨工业大学[Zhang Z H.2022.Non-rigid image alignmment based on feature matching. Doctoral Dissertation. Harbin:Harbin Institute of Technology(in Chinese)]
周熙然, 李德仁, 薛勇, 汪云甲, 邵振峰. 2022. 地图图像智能识别与理解:特征、方法与展望. 武汉大学学报(信息科学版), 47(5): 641-650 [Zhou X R, Li D R, Xue Y, Wang Y J, Shao Z F. 2022. Intelligent map image recognition and understanding: Representative features, methodology and prospects, 47(5): 641-650 (in Chinese)]
邹展威, 赵东保, 张凯旋, 张克友. 2023. 面向国土空间规划“一张图”的国土资源专题地图图片的自动配准方法研究. 测绘工程, 32(2): 40-48[Zou Z W, Zhao D B, Zhang K X, Zhang K Y. 2023. Research on the automatic registration method of land and resources thematic map pictures for “one map” of territorial spatial planning. Engineering of Surveying and Mapping, 32(2): 40-48 (in Chinese)]
DeTone D, Malisiewicz T, Rabinovich A. 2017. SuperPoint: Self- supervised interest point detection and description. 1712.07629. https://arxiv.org/abs/1712.07629v4
Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110
Maji D, Nagori S, Mathew M, Poddar D. 2022. YOLO-pose: Enhancing YOLO for multi person pose estimation using object keypoint similarity loss//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New Orleans, LA, USA. 2636-2645
Mo H L, Qu Y M, Li X D, Wang Z B. 2024. Classification of liver tumors based on YOLOv8s-cls//2024 7th International Conference on Algorithms, Computing and Artificial Intelligence (ACAI). Guangzhou, China.1-5
Redmon J, Divvala S, Girshick R, Farhadi A. 2016. You only look once: Unified, real-time object detection//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. 779-788
Varghese R M S. 2024. YOLOv8: A novel object detection algorithm with enhanced performance and robustness//2024 International Conference on Advances in Data Engineering and Intelligent Computing Systems (ADICS). Chennai, India. 1-6
Wang H Y, Li C Q, Li Z J, Du Y B, Zhou Z Q, Wu J Z. 2024a. Breast ultrasound tumor detection based on improved YOLOv8s-OBB algorithm//2024 5th International Conference on Intelligent Computing and Human-Computer Interaction (ICHCI). Nanchang, China.120-125
Wang Y X, Huang Y J, Peng L Y, Wang M Y, Li W H, Jing M G, Zeng X Y. 2024b. S-SIFT: A simple SIFT algorithm with high efficiency//2024 IEEE 17th International Conference on Solid-State & Integrated Circuit Technology (ICSICT), 1-3
Yang C J, Rong J. 2024. Road segmentation algorithm based on improved YOLOv8-seg//2024 IEEE 4th International Conference on Electronic Technology, Communication and Information (ICETCI). Changchun, China. 1512-1516
Yang Z Q, Dan T T, Yang Y. 2018. Multi-temporal remote sensing image registration using deep convolutional features. IEEE Access, 6: 38544-38555
↓↓ 了解更多产业要闻↓↓
请将我设为星标★
>>协会通知
>>近期要闻
>>协会通知
>>近期要闻
>>协会通知
>>协会通知
>>协会通知
>>协会通知
>>近期要闻
>>近期要闻
>>近期要闻
“企业家风采”“民企之光”“创新之声”“精品成果秀”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”等主题宣传(专栏)长期征稿,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享