一种基于多尺度特征提取与区块匹配的跨视角图–图检索方法
丁利荣1,周子杰2,周纪2,王月星1,周相兵3
1. 中航(成都)无人机系统股份有限公司,成都 611730;
2. 电子科技大学 资源与环境学院,成都 611731;
3. 四川旅游学院 信息与工程学院,成都 610100
摘 要:在以无人机图像地理定位为目的跨视角图–图检索领域,Transformer还处于起步阶段,当前还缺少结合多尺度信息的高稳健性方法。本文提出一种Transformer区块匹配的地理定位(Transformer oblong matching for geo-localization,TomGeo)方法,用于无人机图像地理定位和基于图像区域导航的跨视角图–图检索。首先采用PVT(pyramid vision Transformer)作为特征编码器提取图像多尺度特征;其次基于图块特征进行区块分类、区块匹配,完成同一地点不同视角图像间相同实例区域的对应;最后通过显著区识别,增强跨视角图像中关键实例类别信息;并基于公开数据集University-1652,与已有方法进行精度评价。结果显示:①TomGeo检索无人机视角图像对应地的点卫星视角图像时,检索结果中召回率(recall@1,R@1)达到85.54%,平均精确率(average precision,AP)达到87.62%;检索卫星视角图像对应地点的无人机视角图像时,R@1达到91.43%,AP达到85.87%。②相较于已有方法,各项评价指标均具优势。研究成果可为无人机在特殊情况下的使用和低空经济发展提供技术支撑。
关键词:跨视角;无人机;地理定位;图–图检索;Transformer;区块匹配;多尺度特征
引用格式:丁利荣, 周子杰, 周纪, 王月星, 周相兵. 2025. 一种基于多尺度特征提取与区块匹配的跨视角图–图检索方法. 时空信息学报, 32(1): 62-72
Ding L R, Zhou Z J, Zhou J, Wang Y X, Zhou X B. 2025. A cross-view image-to-image retrieval method based on multi-scale feature extraction and patch matching. Journal of Spatio-temporal Information, 32(1): 62-72, doi: 10.20117/j.jsti. 202501008
1 引 言
随着遥感平台多样化和低成本化发展,遥感数据可用性已经逐渐提升,随之需要面临的问题是如何处理这些多源、海量、多变的遥感数据(谢三五等,2022)。无人机作为遥感数据获取最便捷的平台之一,近年来已得到迅速发展和广泛使用,获取的数据在民用、军用等诸多领域均有重要意义(敖其勇等,2023;刘欣怡等,2023;刘建歌等,2024)。无人机图像地理定位是分析和处理无人机图像,并与某个地理坐标系统产生映射关系,从而获取无人机图像特定区域地理位置的过程。基于跨视角图像检索的无人机地理定位,是在无人机全球导航卫星系统(global navigation satellite system,GNSS)信号被遮挡或因多路径效应产生位置误差的情况下,在带有精确地理标签的遥感图像(无人机影像或高清卫星影像)数据库中,检索出与当前无人机图像隶属于同一地点的图像,并将对应地理标签赋予无人机图像,实现对无人机图像的地理定位(Chi等,2016)。基于跨视角图–图检索技术的无人机图像地理定位可以直接服务于环境检测、城市物流、无人机特种作业及相关军事应用,是发展低空经济的有力技术支撑之一(朱强等,2022)。
鉴于跨视角图–图检索地理定位的重要性,一系列方法已经形成。早期,尺度不变特征转换(scale-invariant feature transform,SIFT)和加速稳健特征(speeded-up robust features,SURF)算法使用手工方式来提取图像特征,但手工提取图像特征导致精确度不够,在跨视角情况下尤为严重,严重影响图像检索精度(Lowe,2004;Bay等,2008)。随着人工智能的飞速发展,基于深度学习的图像特征提取方法解决了手工提取图像特征面临的限制,基于深度学习的跨视角图–图检索无人机图像地理定位方法也因此得以飞速发展(彭文祥和张德英,2024)。Workman等(2015)将多个视角的图像特征通过联合语义映射到同一空间,通过训练拉近不同视角图像特征在公共空间中的距离,利用度量学习完成算法训练。Zheng等(2020)基于Google Earth建立了覆盖卫星、无人机、街景视角的图像数据集University-1652,并使用孪生神经网络作为不同视角的图像特征提取器,通过实例损失函数拉近不同视角之间的特征距离,实现了两个视角的图–图检索。Ding等(2021)基于地点分类思想提出了位置分类法(location classification method,LCM),进一步提升了无人机与卫星图像的图–图检索精度。Lin等(2022)进一步引入单元减法模块挖掘局部代表性关键点,取得了较好的效果。Wang等 (2022)对图像进行环形划分,在特征提取的过程中更加注重图块间的上下文信息,在多个数据集上提高了检索精度。Wang等(2024)提出了动态加权去相关正则化(dynamic weighted decorrelation regularization,DWDR)技术,来解决跨视角图像地理定位中图像特征冗余问题。基于深度学习的方法大多以卷积神经网络(convolutional neural network,CNN)为特征提取器,在特征提取过程中难以考虑不同视角图像存在的方向和角度差异。此外,其更关注细粒度局部信息,无法从图像整体角度关注关键目标周围环境对图–图检索精度提升的作用(李朝勇等,2023)。同时,部分研究发现可以利用Transformer注重上下文信息的自注意力机制和融入位置编码。例如,Dai等(2022)利用视觉Transformer作为特征提取器,在关注全局上下文信息时挖掘细粒度信息;Zhao等(2024)提出了一种基于Transformer的特征聚合与梯度引导(Transformer-based feature aggregation and gradient guidance,TransFG)方法,进一步证明了Transformer在图–图检索中的作用。
在以无人机图像地理定位为目的跨视角图–图检索领域,Transformer还处于起步阶段,当前还缺少结合多尺度信息的高稳健性方法。为进一步提升跨视角图–图检索精度,本文提出一种基于Transformer区块匹配的地理定位(Transformer oblong matching for geo-localization,TomGeo)方法。首先将视觉Transformer(vision Transformer,ViT)中采用的固定尺寸的特征图优化为金字塔结构的多尺寸特征图,通过对不同尺寸特征图进行整合,达到采用多尺度特征的目的;其次完成特征提取后,基于ViT图块分割和位置编码的特性,匹配两种视角图像在相同实例区域的区块关系;最后识别注意力显著区域以增强不同视角图像视野中关键实例信息。
2 研究数据
实验数据来源于Zheng等(2020)发布的公开数据集University-1652。University-1652数据集包含全球72所大学中1652个建筑(1652个地点),每个建筑包含卫星、无人机(unmanned aerial vehicle,UAV)、街景共三个视角的图像(图 1);每处建筑包含一幅卫星视角图像、54幅不同角度和高度的无人机视角图像,以及一幅或更多的街景视角图像。实验数据为UAV和卫星视角图像。卫星视角图像接近垂直拍摄,UAV视角图像为倾斜拍摄。
卫星视角图像的地理标签来自Google Earth。Google Earth中卫星视角图像有较高的分辨率,University-1652数据集中每处建筑对应的卫星图像空间分辨率为0.27~1.07 m,这与UAV视角图像在空间分辨率上是相近的(Zheng等,2020)。
将University-1652数据集划分为训练集和测试集。其中,训练集覆盖33所大学的701座建筑共计50195幅图像,包括37854幅UAV视角图像、701幅卫星视角图像;测试集覆盖39所大学的951座建筑。情形1,以UAV视角图像作为查询图像在卫星视角图像库中检索对应地点卫星视角图像时,查询图像共计37855幅UAV视角图像、检索库中701幅真实匹配的卫星视角图像和250幅卫星视角干扰图像。情形2,以卫星视角图像作为查询图像在UAV视角图像库中检索对应地点UAV视角图像时,查询图像共计701幅卫星视角图像、检索库中存在37855幅真实匹配的UAV视角图像和13500幅UAV视角干扰图像。其划分结果如表1所示。
3 研究方法
TomGeo流程示意图如图2所示。TomGeo采用孪生的深度网络对UAV视角图像和卫星视角图像分别进行特征提取、区块分类、区块匹配及显著区识别后,利用度量学习损失函数(Liu等,2017)拉近两种视角图像在同一地点的特征距离。在网络学习过程中,特征提取过程的目的是通过多层网络获取图像特征位置、上下文、纹理、颜色、形状等信息的高层语义特征;区块分类是将Transformer提取的图像特征块基于类别注意力权重映射进行类别区分;区块匹配是对不同视角完成区块分类的图像特征块在同一实例区域进行匹配;显著区域识别是根据图块特征的注意力权重排序,裁剪排序靠后的非显著区域后对剩余的显著区域特征进行扩充;整个过程基于分类和度量学习完成优化。
3.1 特征提取
实验采用PVT(pyramid vision Transformer)作为图像特征提取的骨干网络(Wang等,2021)。与传统的ViT的柱状结构相比,PVT在特征提取过程中结合了残差网络(residual network,ResNet)结构中的四阶段金字塔结构。PVT将固定尺寸特征提取优化为分阶段、多尺度的特征提取,并融合不同阶段的多尺度特征提取结果,得到包含更多语义信息的特征输出。PVT特征提取的每一个阶段包含区块编码、位置编码、Transformer编码、特征图尺度缩减四个步骤。其中,区块编码将原始图像划分为多个均一的子图块,接着以像素为单位展平子图块并进行线性投影,每个子图块形成一个一维编码向量。区块编码过程虽然完整获取了子图块特征信息,但并未顾及子图块在原始图像中的位置信息。而在不同视角图像实例区域划分过程中,位置信息又尤为重要。因此,PVT在区块编码过程中为每个子图块设置了位置编码,参与后续模型训练。具体步骤为:
(1)将维度为H×W×3的原始UAV和卫星视角图像均匀划分为尺寸4个像素×4个像素的子图块,子图块数量为(H×W)/42,子图块经过展平和线性投影处理后获得尺寸为(H×W)/42×C1图块编码,其中,C1为子图块的一维编码向量长度;
(2)将图块编码和位置编码输入Transformer特征提取模块,重塑维度后得到尺寸为H/4×W/4×C1的一阶段特征图f1;
(3)将f1切分为2×2的子图块并经过展平和线性投影处理,重复步骤(2),得到维度为H/8×W/8×C2的特征图f2;
(4)将f2切分为2×2的子图块并经过展平和线性投影处理,重复步骤(2),得到维度为H/16×W/16× C3的特征图f3;
(5)将f3切分为2×2的子图块并经过展平和线性投影处理,重复步骤(2),得到维度为H/32×W/32×C4的特征图f4,并将f4作为图像编码器最终提取的图像高层特征Ir。
3.2 区块分类
区块分类过程是基于类别注意力权重映射对图像中的区块进行分类。区块分类以特征提取结果为基础,对每一批次图像特征的提取过程为
式中,Ir∈RN×L为PVT编码后全部图块特征,N表示一幅原始图像编码后的图块数量,L表示子图块的特征向量长度;F为特征提取器PVT;为第i个输入图块,i=1,2,…,N。
参考类激活映射的思想(Si等,2022)对图像中的区块进行分类。与类激活计算特征图和分类器权重之间线性组合方式不同,实验利用图块特征向量中各个特征值的平均池化结果,来计算区块整体的注意力值,并根据每个图块的贡献程度进行排序分类。图块特征提取结果的注意力值计算方式为
式中,Vq为第q个图块的注意力值;xj为第q个图块特征向量中第j个特征值;M为图块特征向量的维度。
图块注意力值计算完成后,对计算的N个图块注意力值进行升序排序,排序完成后根据预先设定的类别数量n对图块排序进行分区。每个类别对应的图块数:
因此,可将Ir按排序结果分为n个区域,每个图块均可以映射到某个区域即某个实例类。
区块分类可以表征图像中每个图块对类别的重要性,有助于模型在学习过程中判断建筑物、道路和树木等不同实例类别所处区域。例如,在图3中区块分类完成后,特征图分为前景和背景,根据注意力值的排序分类结果,分别标记。
3.3 区块匹配
对UAV和卫星视角图像在同一实例区域的图块进行特征匹配,可以提高跨视角图–图检索精度,有利于UAV图像地理定位精度提升。实验将两种视角中图像的实例设置为建筑、树木和道路,在每个实例计算区域内进行特征聚合:
式中,Ei∈RN×L为第i个实例的区域特征;为第i个区域的第j个图块特征向量;Ni为第i个区域的图块数量。
通过提取每个区域所有图块特征并采用平均池化操作聚合得到区域特征Ei,将区域特征输入分类层中对每个实例区域进行分类。分类完成后,在一个批次的图像中进行区块匹配。对于同一点的UAV视角图像和卫星视角图像,建立实例区域之间的匹配关系。具体而言,需对同一地理位置的两种视角图像找到对应的建筑、树木或道路等实例区域,将其各自属于同类别的区域特征进行关联分组,即建筑U和建筑S、树木U和树木S、道路U和道路S,其中,U表示UAV图像,S表示卫星图像。同一地理位置条件下不同视角图像区块匹配如图4所示。两种视角的图像均划分为三个类别,使用不同颜色表示UAV视角和卫星视角图像间的区块匹配过程。
为使模型对同实例类别识别更准确,使用了三元组损失函数(Liu等,2017)作为度量学习损失函数。三元组损失函数通过比较锚点样本、正样本和负样本之间的距离,优化对实例类别的识别。核心目标是使锚点样本与正样本(属于同一实例类别)在特征空间中的距离尽可能小,并使锚点样本
与负样本(属于不同实例类别)的距离尽可能大。设EUi为无人机特征图锚点图块的特征向量,ESi为与锚点属于同一实例类别的卫星特征图图块的特征向量,ESj为与锚点属于不同实例类别的负样本图块的特征向量。匹配优化函数见式(7),EUi、ESi、ESj分别对应其中的A、P、N。
3.4 显著区识别
当人工进行跨视角图–图检索时,通常会优先注意两种视角图像中的关键区域和重叠区域,本文称之为显著区,紧接着在显著区内通过关键目标来确定UAV视角图像和卫星视角图像属于同一地理位置,从而实现图像匹配,完成跨视角图–图检索任务(Zhu等,2022)。UAV视角图像和卫星视角图像在拍摄角度、高度等方面受到限制,两者各自涵盖区域均有限。其中,UAV视角图像中部分道路因视角原因被遮挡,而对应道路在卫星视角图像中清晰可见。在两种视角图像中不能同时存在的实例区域对计算两种视角图像特征的相似度贡献微弱,甚至在某些情形下会降低同一地点两种视角图像特征的相似性。
为提高跨视角图–图检索精度,在特征提取完成后通过裁剪低注意力区域来增强显著区信息。实验采用Transformer作为特征提取器,其特征提取分图块进行,因此可以实现分散区域剪裁。基于上文所述图块注意力值的排序结果,裁剪掉属于最后一个类别的图块。裁剪完成后图块数量占原始数量的比例为α(α≤1)。为使在裁剪后的特征图中突出显著区信息,对保留的特征图进行区域扩充,使维度和原始特征图上保持一致。扩充过程使用双线性插值法完成,显著区扩充可以获取更多的细节特征:
式中,(x,y)为x在直线上的y值;(x0,y0)和(x1,y1)为插值位置距离最近的两个点。
3.5 损失函数
TomGeo中应用度量学习损失函数和分类学习损失函数作为损失函数。分类学习损失函数使用交叉熵损失,输入图块特征经过模型网络前向传播和Sigmoid归一化得到多分类概率值l,对概率预测值l与真实标签进行交叉熵的计算(Hadsell等,2006):
式中,li为第i个类别的真实标签值;为第i个类别的预测概率值;n为类别数。LCE越小表示预测准确性越高,通过不断优化交叉熵损失,使相同地理位置的多视角图像图块分类结果更接近真实情况。
度量学习中应用三元组损失函数(Liu等,2017)。实验过程是在某批次样本中随机选取某个样本为锚点A,选取与A属于同类的样本记作正样本P,与A不同类的样本记作N。在区块匹配过程中,选取UAV视角图像的某一区域c为锚点,与c距离最近的为对应地点卫星视角图像中的对应区域c,其他区域则应与c距离较远。三元组损失函数可表达为(Liu等,2017)
式中,d为欧几里得距离;为边界阈值,用于平衡正负样本与锚点样本间的距离偏差,依据真实情况设定。
3.6 参数设置
TomGeo基于Pytorch深度学习框架开发,在NVIDIA RTX3080 GPU上进行训练和测试。ImageNet上预训练的图像分类权重PVT_v1_middle为TomGeo主干网络。原始图像尺寸重采样为256个像素×256个像素并进行图像增强后输入网络。优化器采用动量为0.5,以及权值衰减系数0.0005的随机梯度下降(stochastic gradient descent,SGD)。批量大小32、学习率0.01,且在迭代100次后衰减到0.001,Epoch设置120。在区块匹配过程中三元组损失边界阈值设置0.3。使用召回率(recall@K,R@K)和平均精确率(average precision,AP)作为算法评价指标(Chun等,2021;Zhu等,2023)。
4 结果与分析
为验证方法可行性,基于University-1652数据集与已有方法Instance Loss(Zheng等,2020)、LCM(Ding等,2021)、RK-Net(Lin等,2022)、LPN(Wang等,2021)、FSRA(Dai等,2022)、LPN+DWDR(Wang等,2024)、TransFG(Zhao等,2024)进行精度比较。不同方法的结果见表2。
由表2知,与已有方法相比,本方法的精度评价指标值均有提高。情形1,本方法R@1为85.54%,AP为87.62%;情形2,R@1为91.43%,AP为85.87%。相较于同样采用PVT作为特征编码器的FSRA,情形1、情形2的R@1分别提升了3.38%、4.65%,AP分别提升了4%、5.41%;与其他使用CNN的方法相比,精度提升更为明显;与LPN+DWDR相比,情形1、情形2的R@1分别提升了4.03%、3.13%,AP分别提升了3.51%、6.49%;相较于同样ViT的TransFG相比,也都有一定程度的提升。
为更加直观展示方法效果,图5~6分别展示了情形1、情形2在测试集上部分地点的图–图检索结果。在情形1中,根据UAV视角图像与检索得到的卫星图像之间的特征距离进行排序,排序前5的卫星视角图像如图5所示。可以看出,排序第1的卫星视角图像均与UAV视角图像属于同一地点,排序靠后的卫星视角图像虽然与输入的查询图像在地理位置上相近或有相似的地物特征,但本方法依旧能够准确地识别和检索出与查询图片关联的图像。
在情形2中,将根据卫星视角图像与检索得到的UAV视角图像之间的特征距离进行排序,排序前5的UAV视角图像如图6所示。可以看出,排序前5的UAV视角图像均与输入的卫星视角图像属于同一地点。究其原因,对于某一地点,数据集中包含该地点一幅卫星视角图像和54幅UAV视角图像;然而,本方法在排序前5幅图像中仍可以稳定地检索出属于该地点的UAV视角图像。这能够说明其在情形2中具备有效性。
5 消融实验
为全面评估方法性能,进行消融实验。从主干网络、模块结构及损失函数方面,进行如下分析。
5.1 主干网络对比
实验分别使用VGG-16(Liu 和 Deng,2015)、ResNet-50(He等,2016)、ViT(Dai等,2022)作为主干网络进行了比较评价。使用不同主干网络的性能结果如表3所示。其中,VGG-16作为模型骨干网络时,精度最差,即使与同属CNN的ResNet-50相比,R@1仍然低10%左右;究其原因,VGG(visual geometry group)网络层数较少,无法提取图像更高级别的语义信息,而ResNet-50有较多的网络层数,可以提取更高级别语义信息。同时,关注粗粒度和细粒度特征,以及融入位置信息的ViT作为骨干网络时,相较于ResNet-50的精度又有明显提升,R@1、AP分别提升了约10%、8%。本方法中PVT在进一步结合CNN和Transformer的优势后,精度相较于ViT进一步的提高。这说明PVT为本方法中最优主干网络。
图7进一步展示了基于CNN的ResNet-50和基于Transformer的PVT在提取UAV视角图像时对实例的关注重点。ResNet-50特征提取过程中仅关注图像核心区域,无法考虑在跨视角图–图检索任务中背景环境和相邻建筑物对匹配过程的作用;PVT在特征提取过程中可以关注更广阔的区域,不仅对建筑物赋予了高权重,还对核心建筑物周边的树木、道路等上下文信息也给予了一定程度的关注。
5.2 模块作用与损失函数效果分析
本方法包含多个模块,对其作用进行了进一步验证。将完成特征提取后直接进行分类的网络记为Baseline,区块分类+区块匹配模块记为BCA,显著区识别模块记为SARM。Baseline、Baseline+BCA、Baseline+BCA+SARM三种情况下的模型检索精度如表4所示。在Baseline上加入BCA后,情形1的R@1、AP分别相较于Baseline提升了10.93%、9.96%。究其原因,在网络中,通过区块分类可以准确定位不同实例在图像中的位置;通过区块匹配,可以进一步将属于同一地点的UAV视角图像和卫星视角图像中同类实例图块进行对准,有助于后期拉近同一地点两种视角图像的特征距离。此外,进一步添加SARM后,训练相同的轮数后,结果显示精度又有一定程度的提升,情形1、情形2的R@1和AP分别均提升1%左右。因此,用SARM裁剪注意力较低的区域对于提升本方法的整体精度是有益的。
此外,还使用不同度量学习损失函数评价模型精度。由表5知,总体来说,本方法使用边界阈值为0.3的三元组损失函数时,拥有相对最优精度;加权软边际三元组损失函数的模型精度较三元组损失稍有下降;使用对比损失时,精度指标均出现了明显下降,效果最差;当三元组损失边界阈值为0.5时,精度也出现了明显下降。因此,三元组损失可以优先拉近同类特征间的距离,放大异类特征间的距离,三元组损失(α=0.3)是相对最适合的损失函数。
综上所述,与已有大多采用CNN,如ResNet(He等,2016),或普通ViT(Dai等,2022)作为编码器的方法不同,本方法将PVT引入了跨视角图–图检索领域。PVT具有的渐进式下采样与空间缩减注意力能力显著优化了细粒度特征提取能力,全局感受野与局部细节保留的平衡性(表3)也相较于传统编码器具备更明显的优势。此外,耦合区块分类和区块匹配等原本独立的模块,以跨视角图–图检索任务为驱动,通过使用统一的损失函数完成模块间的动态互补,实现了较好的跨视角图–图检索效果。
6 结 论
当UAV由于外界影响处于卫星定位拒止或定位产生较大偏差时,通过在带有精确地理定位标签的卫星视角图像数据库中检索与UAV视角图像处于同一地理位置的卫星视角图像,可以实现无人机图像定位。目前,在以无人机图像地理定位为目的跨视角图–图检索领域,还缺少结合多尺度信息的高稳健性方法。本文基于Transformer网络提出了一种可用于无人机图像地理定位和基于图像区域导航的跨视角图–图检索方法TomGeo。
(1)TomGeo基于PVT实现了多尺度特征融合,通过区块分类、区块匹配和显著区识别进一步弥补了在跨视角图–图检索过程中,关键地物在不同视角图像中的位置差异和上下文信息利用较少的不足。
(2)在公开数据集University-1652,根据UAV视角图像检索对应地点卫星视角图像时,TomGeo的R@1为85.54%、AP为87.62%。根据卫星视角图像检索对应地点UAV视角图像时,R@1为91.43%,AP为85.87%。
研究表明,TomGeo在UAV和卫星视角的跨视角图–图检索中表现优异,可以为无人机图像地理定位和无人机区域导航提供支撑,有益于无人机在特殊情况下的使用和低空经济的发展。
本文虽然考虑了位置差异和上下文信息对图–图检索结果的影响,但网络结构采用共享权重的孪生网络结构,未考虑难样本在两种检索情形下的特殊性。未来研究将聚焦于在两种检索情形下难样本学习和难样本检索的特殊性,以提高图–图检索精度。
参考文献(References)
敖其勇, 潘国兵, 龚洲, 袁小彬, 熊延, 陈昌文. 2023. 无人机斜面贴近摄影测量的三维航线规划研究. 时空信息学报, 30(4): 500-507 [Ao Q Y, Pan G B, Gong Z, Yuan X B, Xiong Y, Chen C W. 2023. Research on 3D route planning of UAV slope nap-of-the-object photogrammetry. Journal of Spatio-temporal Information, 30(4): 500-507 (in Chinese)]
李朝勇, 张成, 韦海丹. 2023. 基于多尺度特征融合网络的路面裂缝分割方法研究. 时空信息学报, 30(3): 425-430 [Li C Y, Zhang C, Wei H D. 2023. Research on road crack segmentation method based on multi-scale feature fusion network. Journal of Spatio-temporal Information, 30(3): 425-430 (in Chinese)]
刘建歌, 王馨爽, 耿伟, 万翔. 2024. 基于无人机遥感的建筑工程建设进度监测评估. 时空信息学报, 31(4): 562-572 [Liu J G, Wang X S, Geng W, Wan X. 2024. Monitoring and evaluation methods for construction project progress based on unmanned aerial vehicle remote sensing. Journal of Spatio-temporal Information, 31(4): 562-572 (in Chinese)]
刘欣怡, 张永军, 范伟伟, 王森援, 岳冬冬, 刘梓航, 贾琛, 景慧莹, 钟佳辰. 2023. 无人机倾斜摄影三维建模技术研究现状及展望. 时空信息学报, 30(1): 41-48 [Liu X Y, Zhang Y J, Fan W W, Wang S Y, Yue D D, Liu Z H, Jia C, Jing H Y, Zhong J C. 2023.3D modeling based on UAV oblique photogrammetry: Research status and prospect. Journal of Spatio-temporal Information, 30(1): 41-48 (in Chinese)]
彭文祥, 张德英. 2024. 基于LSTM与Transformer的地面沉降智能预测方法研究——以上海市为例. 时空信息学报, 31(1): 94-103 [Peng W X, Zhang D Y. 2024. Research on land subsidence intelligent prediction method based on LSTM and Transformer: A case study of Shanghai. Journal of Spatio-temporal Information, 31(1): 94-103 (in Chinese)]
谢三五, 周曦冰, 成晓英, 韩倩文. 2022. 多源遥感影像预处理软件的设计与开发. 地理空间信息, 20(5): 132-134 [Xie S W, Zhou X B, Cheng X Y, Han Q W. 2022. Multi-source remote sensing image preprocessing software design and development. Geospatial Information, 20(5): 132-134 (in Chinese)]
朱强, 宋传峰, 刘思敏. 2022. 北斗卫星导航系统静态精密单点定位精度分析—— 以我国南部地区为例. 地理空间信息, 20(9): 45-49 [Zhu Q, Song C F, Liu S M. 2022. Accuracy analysis of BDS static PPP: A case study in Southern China. Geospatial Information, 20(9): 45-49 (in Chinese)]
Bay H, Ess A, Tuytelaars T, van Gool L. 2008. Speeded-up robust features (SURF). Computer Vision and Image Understanding, 110(3): 346-359
Chi M M, Plaza A, Benediktsson J A, Sun Z Y, Shen J S, Zhu Y Y. 2016. Big data for remote sensing: Challenges and opportunities. Proceedings of the IEEE, 104(11): 2207-2219
Chun S, Oh S J, Sampaio de Rezende R, Kalantidis Y, Larlus D. 2021. Probabilistic embeddings for cross-modal retrieval//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA. 8411-8420
Dai M, Hu J H, Zhuang J D, Zheng E H. 2022. A Transformer-based feature segmentation and region alignment method for UAV-view geo-localization. IEEE Transactions on Circuits and Systems for Video Technology, 32(7): 4376-4389
Ding L R, Zhou J, Meng L X, Long Z Y. 2021. A practical cross-view image matching method between UAV and satellite for UAV-based geo-localization. Remote Sensing, 13(1): 47
Hadsell R, Chopra S, LeCun Y. 2006. Dimensionality reduction by learning an invariant mapping//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). New York, NY, USA.1735-1742
He K M, Zhang X Y, Ren S Q, Sun J. 2016. Deep residual learning for image recognition//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. 770-778
Lin J L, Zheng Z D, Zhong Z, Luo Z M, Li S Z, Yang Y, Sebe N. 2022. Joint representation learning and keypoint detection for cross-view geo-localization. IEEE Transactions on Image Processing, 31: 3780-3792
Liu H, Feng J S, Qi M B, Jiang J G, Yan S C. 2017. End-to-end comparative attention networks for person re-identification. IEEE Transactions on Image Processing, 26(7): 3492-3506
Liu S, Deng W. 2015. Very deep convolutional neural network based image classification using small training sample size// 2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR), 730-734
Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110
Si W J, Luo J J, Deng Z A. 2022. Multi-label hybrid radar signal recognition based on a feature pyramid network and class activation mapping. IET Radar, Sonar & Navigation, 16(5): 786-798
Wang T Y, Zheng Z D, Yan C G, Zhang J Y, Sun Y Q, Zheng B L, Yang Y. 2022. Each part matters: Local patterns facilitate cross-view geo-localization. IEEE Transactions on Circuits and Systems for Video Technology, 32(2): 867-879
Wang T Y, Zheng Z D, Zhu Z J, Sun Y Q, Yan C G, Yang Y. 2024. Learning cross-view geo-localization embeddings via dynamic weighted decorrelation regularization. IEEE Transactions on Geoscience and Remote Sensing, 62: 5647112
Wang W H, Xie E Z, Li X, Fan D P, Song K T, Liang D, Lu T, Luo P, Shao L. 2021. Pyramid vision Transformer: A versatile backbone for dense prediction without convolutions//2021 IEEE/CVF International Conference on Computer Vision (ICCV), 548-558
Workman S, Souvenir R, Jacobs N. 2015. Wide-area image geolocalization with aerial reference imagery//2015 IEEE International Conference on Computer Vision (ICCV), 3961-3969
Zhao H, Ren K Y, Yue T Y, Zhang C, Yuan S. 2024. TransFG: A cross-view geo-localization of satellite and UAVs imagery pipeline using Transformer-based feature aggregation and gradient guidance. IEEE Transactions on Geoscience and Remote Sensing, 62: 4700912
Zheng Z D, Wei Y C, Yang Y. 2020. University-1652: A multi-view multi-source benchmark for drone-based geo-localization// Proceedings of the 28th ACM International Conference on Multimedia, 1395-1403
Zhu R Z, Yin L, Yang M Z, Wu F, Yang Y C, Hu W B. 2023. SUES-200: A multi-height multi-scene cross-view image benchmark across drone and satellite. IEEE Transactions on Circuits and Systems for Video Technology, 33(9): 4825-4839
Zhu S J, Shah M, Chen C. 2022. TransGeo: Transformer is all you need for cross-view image geo-localization//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. 1152-1161
↓↓ 了解更多产业要闻 ↓↓
请将我设为星标★
来源:《时空信息学报》2025年第1期
关于2025年度国家科学技术奖提名遴选工作的通知 关于请填报地理信息企业境外业务发展状况调查问卷的函 关于做好教育培训和交流研讨工作的通知 关于召开2025空间智能软件技术大会通知(第一号) 关于持续开展地理信息产业投融资需求征集和对接工作的通知 关于举办“GIS最前线”2025国土空间实景的数据治理与数据资产建设培训班的通知 关于缴纳会费的通知
陈军院士:时空型混合智能计算是必然趋势 从“飞起来”到“飞得好” 低空经济需跃过几道关 中国科学家实现1.36公里外毫米级高分辨成像技术 浙江省自然资源厅党组书记、厅长邢志宏:推动转型升级 打造数字引擎 争创国家测绘地理信息创新发展先行区 民营经济促进法共有26处使用了“平等”“公平”“同等”的表述
“企业家风采”“民企之光”“创新之声”“精品成果秀”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”等主题宣传(专栏)长期征稿,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享