“时空智能遥感”专题编委会:
张继贤 国家基础地理信息中心、莫干山地信实验室
闫 利 武汉大学
顾海燕 中国测绘科学研究院
专题其他文章:
融合空间感知与多尺度特征的城市点云语义分割方法
王恩杰1,林特思1,金子皓1,梁皓轩1,张丰1,2
1. 浙江大学 地球科学学院,杭州 310058;
2. 自然资源部时空信息与智能服务重点实验室,北京 100830
摘 要:点云语义分割作为三维场景理解的重要任务之一,在智慧城市、智能化测绘等领域具有重要的应用价值。然而,现有分割网络在应对复杂城市场景时,易出现空间关系建模不准确、多尺度语义提取不充分等问题。因此,提出一种融合空间感知与多尺度特征的城市级点云语义分割方法LoGNet(local and global network)。通过联合编码点云的几何坐标、颜色属性与上下文语义关系,提升对地物形态差异、光谱特征与空间关联的表达能力;将可学习的空间距离权重与语义相似度共同引入邻域建模,实现基于结构特征与外观属性的精细聚合;构建轻量级的局部–全局双路径特征融合框架,通过点维度与通道维度的全局特征生成方式,强化跨尺度语义一致性与边界解析能力。在Toronto-3D、SensatUrban、STPLS3D 公开数据集,与已有常用方法的比较实验表明:LoGNet在三个公开数据集的总体精度分别达97.5%、94.3%、75.0%,均表现最优;在SensatUrban数据集,相较于基线模型,LoGNet的OA、mIoU分别提升了4.5%、10%,在建筑、铁轨、马路等中大型结构性类别,取得了最高得分;对识别极小目标类别,也有显著优势。
关键词:点云;语义分割;城市场景;特征融合;空间感知
引用格式:王恩杰, 林特思, 金子皓, 梁皓轩, 张丰. 2026. 融合空间感知与多尺度特征的城市点云语义分割方法. 时空信息学报, 33(1): 78-89
Wang E J, Lin T S, Jin Z H, Liang H X, Zhang F.2026. A semantic segmentation method for urban point clouds combining spatial perception and multi-scale features. Journal of Spatio-temporal Information, 33(1): 78-89, doi: 10.20117/j.jsti. 202601011
1 引 言
近年来,实景三维中国建设不断推进,高精度空间数据在低空经济、城市治理与规划等领域的重要性日益凸显(陈军等,2025)。三维激光扫描、倾斜摄影、车载移动测量等技术快速发展,为大范围城市三维场景提供了海量点云数据支持。高质量的三维点云数据现已广泛应用于智慧城市(余文辉等,2020)、现代农业(张园园等,2025)、智能化测绘(陈军等,2023;刘忠贞等,2021)等领域。
作为自动化解译的重要路径,点云语义分割自动识别不同地物类型,实现精细化建模与对象级表达,成为推动空间信息生产智能化的关键环节。近期,受益于深度学习的快速发展,其在结构相对规则、尺度相对有限的小范围场景中取得了显著进展(Li等,2024;Tang等,2024)。然而,直接将现有方法应用于大规模城市级三维点云场景,仍面临巨大挑战:城市点云数据通常包含亿级规模的三维点,覆盖范围广泛、对象多、尺度大、分布复杂、类别不均衡(Jiang等,2025);受限于采集设备与复杂城市工况条件,城市点云数据普遍存在边界区域噪声密集、密度变化大等问题,显著增加了分割任务的难度(Zeng等,2024)。
点云语义分割方法主要包括基于RGB-D图像(Wu等,2024;Yang等,2022)、基于投影(Ali等,2021;Zhang等,2020)、基于体素(杨军和张琛,2024;Zhou和Tuzel,2018),以及基于点的方法。其中,面对几何结构复杂且尺度差异显著的城市级点云,点方法无须结构化预处理,更易刻画原始空间关系,因此在城市级点云处理中优势更为明显。例如,Charles等(2017)提出了PointNet,利用对称函数解决点云无序性的问题;但缺乏邻域关系建模,难以适应复杂场景。进一步地,Qi等(2017)引入分层采样与局部特征聚合,提出了PointNet++;但对几何细节表达依旧不足。随后,Thomas等(2019)提出了核点卷积(kernel point convolution,KPConv),利用可学习KPConv在连续空间中显式建模局部几何关系;其结构表达更强但计算成本高。Hu等(2020)提出了RandLA-Net,其高效的随机采样策略,实现轻量化特征聚合;但模型对复杂结构的表达仍有限。Lu等(2025)提出了3DLST,通过引入动态语义聚合模块,来提高特征表达灵活性;但对颜色–几何协同信息利用不足,在城市场景中的精细分割仍存在提升空间。近年来,提升点云语义分割精度的研究主要聚焦于多尺度协同建模与多源特征融合两条路径。一是,在多尺度协同建模方面,例如,Zhang等(2022)提出了LLGF-Net,采用Transformer 融合框架,增强特征的上下文建模能力;但在光照变化、遮挡或结构相似物体区分方面表现有限。Li等(2025)构建了LCL_FDA,通过双注意力聚合进行跨尺度结构表达;但网络全局特征提取方式较为粗糙,边界刻画能力不足。Miao等(2024)提出了MSSPTNet,采用超补丁结构并引入全局建模;但依赖阈值与区域生长参数,计算开销较大。二是,在多源特征融合方面,例如,Chen等(2024)提出了GeoSegNet,关注几何与外观信息的联合编码表达;但仍存在对相似几何或颜色特征物体分类不准的问题。Zeng等(2024)提出了LACV-Net,通过局部自适应特征增强模块和多尺度全局建模模块,实现了几何、颜色和语义特征的融合;但模型结构复杂,全局信息在深层次特征中的建模仍不充分。总体上,上述研究仍停留于简单拼接式特征融合,尚缺乏适用于城市场景的深层几何–颜色–语义协同建模机制与跨尺度特征一致性表达框架。
城市点云本身具有高度复杂的空间结构,邻域关系不仅受局部几何或外观特征影响,还与空间位置分布密切相关。地理加权回归(geographically weighted regression,GWR)强调空间非平稳性,邻近样本对目标位置的影响更强,而远距离样本的贡献随之衰减(Brunsdon 等,1996)。其空间权重机制与点云邻域关系的建模需求高度契合。因此,本文将可学习的 GWR 空间权重引入点云特征聚合,使邻域点的贡献能够根据空间邻近性与局部结构差异动态调整,从而提升局部特征的空间敏感性与语义判别能力。针对城市场景提出城市级点云语义分割方法LoGNet(local and global network)。首先,联合编码点云的几何坐标、颜色属性与上下文语义关系,提升对地物形态差异、光谱特征与空间关联的表达能力;其次,将可学习的GWR空间权重与语义相似度共同引入邻域建模,实现基于结构特征与外观属性的精细聚合;最后,构建轻量级的局部–全局双路径特征融合框架,通过点维度与通道维度的全局特征生成方式,来强化跨尺度语义一致性与边界解析能力。
2 研究方法
LoGNet整体结构示意图如图1所示,由编码器、解码器、分类器三部分构成。在编码器,针对城市级点云数据规模庞大、结构复杂的特点,采用随机下采样机制逐层减少点云数量,大幅提升计算效率。为充分提炼城市点云特征,设计多特征融合(multi-feature fusion,MF)模块,聚合几何、颜色与上下文特征,从多维度增强点云的邻域表达能力。在解码器,借助最近邻插值方式上采样逐层恢复点云的空间分辨率。为提升语义信息传递的连续性与完整性,参考U-Net(Ronneberger等,2015),将编码层与解码层跳跃连接,进一步增强上下文建模能力。最终,分类器输出每个点的类别预测分数。
2.1 多特征融合模块
MF模块充分聚合邻域信息,对输入的点云逐点进行处理,结构示意图如图2所示。首先,通过空间–颜色聚合(spatial-color fusion,SCF)模块,对每个点及其邻域进行空间颜色联合编码,以增强局部结构与颜色信息的表达能力;其次,将编码后的特征输入地理感知注意力(geo-aware attention,GAA)模块,利用空间距离与特征相似度生成注意力权重,实现局部特征聚合;最后,将聚合结果与全局上下文增强(global context enhancement,GCE)模块得到的全局特征进行拼接,输出增强后的点云特征。
1)空间–颜色聚合模块
城市场景点云通常存在几何结构相似而颜色特征不同的对象,如道路与斑马线等,仅依赖几何或颜色单一信息,无法充分刻画复杂的局部结构。 SCF模块在编码阶段通过逐层注入并更新中心点与邻域的几何差异、颜色差异及欧几里得距离,以增强点云局部特征表达可分性。
如图3所示,在特征构建阶段,对输入网络中的每个过K最近邻操作获得邻域,由此形成中心点
与其邻域点之间的局部空间关系。计算
与第K个邻点的颜色差异
、几何差异
、三维欧几里得距离
,将三者级联得到空间颜色关系向量。输入MLP后,提取得到中心点与邻域之间的相对关系表示:
将关系编码与原始邻域输入特征
在通道维度上进行拼接,得到增强后的特征向量
。最终输出一组新的邻域特征向量
。
2)地理感知注意力模块
在城市场景中,点云数据空间分布不均,结构复杂,涵盖建筑、道路、行人等多类目标,邻域与中心点之间的几何与语义特征存在较大差异。几何信息有助于刻画空间结构,语义特征则提供类间判别的高层抽象,二者对建模点间关联均具重要意义。
为合理建模局部邻域中各点对中心点的贡献程度,提出GAA模块,融合GWR思想与注意力机制,从几何关系和语义特征两个角度刻画邻域点对中心点的贡献。具体地,将其迁移为一种可学习的几何权重约束方式:根据欧几里得距离动态生成几何权重,令空间上更接近、结构更相关的邻域点获得更大贡献,而距离较远或可能属于不同结构的点自动被抑制;考虑到点云中空间结构复杂且密度不均,采用高斯核构造几何权重,衡量邻域点对中心点pi的几何贡献。几何权重定义为
式中,为欧几里得距离;σ为可调带宽参数,经多次模型训练,实验取值0.3。
完成几何权重的建立后,进行语义权重的建立。对语义特征相近的邻域点赋予更高权重,并抑制差异较大的无关区域。具体地,对SCF模块输入的特征,引入共享
,用于学习特征的重要性得分,得到特征语义权重:
式中,W为自适应刻画语义重要性的可学习参数,用于在训练过程中自适应刻画不同特征在语义判别中的相对重要性。
因此,得到的混合权重在空间结构的显式约束下,用于衡量各邻域点对中心点的贡献:
式中,W为自适应刻画语义重要性的可学习参数,用于在训练过程中自适应刻画不同特征在语义判别中的相对重要性。
因此,得到的混合权重在空间结构的显式约束下,用于衡量各邻域点对中心点的贡献:
在计算效率方面,GAA模块的几何权重仅依赖欧几里得距离,无须复杂矩阵乘法;语义权重采用共享 MLP,可在不增加显存的情况下高效推理。
3)全局上下文增强模块
城市点云涵盖从建筑到行人等多尺度目标,大到一个功能区、街区,小到一棵树、行人,呈现出明显的多尺度、多语义层次特性。局部邻域通常难以感知远距离关联,易在大结构解析上出现歧义,引入全局上下文信息对保持语义一致性至关重要。
为增强单个点的语义理解能力与全局结构感知能力,提出GCE模块,在点级聚合的基础上,分别从通道维与点维提取互补的上下文信息,补充局部特征中缺失的全局信息,提升特征表达完整性,结构示意图如图4所示。对单点进行K最近邻操作,并通过最大池化获取局部表征向量。将
分别沿通道维与点维进行最大池化操作,得到通道维度最大池化向量
、点维度最大池化向量
,考虑两者互补性,设计融合策略得到全局增强特征
。有
式中,为调和平均函数,融合通道维度特征与点维度特征。将
与GAA模块输出的局部加权特征进行拼接操作,得到最终的多尺度融合特征。
2.2 联合损失函数
城市场景点云中存在类别分布不均和边界区域判别困难等问题,模型在少数类识别或边界细节刻画方面表现不佳。为提升语义分割精度,设计联合损失函数,综合考虑类别不均性与边界判别性,兼顾主体结构类别与边界细节的学习。
针对城市点云长尾分布特性,引入加权交叉熵损失函数,以类别样本数的倒数为权重,增强模型对低频类别的关注程度:
式中,wc为类别c的损失权重;yc、分别为真实标签、预测概率。
为进一步提升模型对语义边界区域的刻画能力,设计边界损失函数,增强特征聚合过程中语义边界敏感性,提升边界类别分离度(图5)。计算特征差异,反映邻域与中心点之间的特征差异,并将
归一化得到权重:
随后,利用权重对局部差异进行加权汇聚,结合原始特征
和正则项
,构造边界损失函数:
最终,对包含N个编码层最终损失定义为
3 实验与结果分析
基于TensorFlow框架实现,实验环境为RTX4090 GPU(24 GB显存)、Intel Core i7-12700KCPU、操作系统 Ubuntu 20.04。在训练过程中设置最大epoeh为100,最近邻K取值16,使用Adam优化器,学习率设置0.01,并采用余弦退火函数逐渐衰减,衰减率设置0.95。在数据预处理时,将整个场景划分为若干大小一致、互不重叠的三维子块,在每个子块内部进行体素化栅格处理,仅保留每个体素单元内具有代表性的点,以降低点云冗余度、压缩数据规模并提升计算效率。在下采样部分,每层随机选择25%的点云。点云分辨率(N →N/4→N/16→N/ 64→N/256)逐渐下降,特征维度(8→32→128→ 256→512)逐渐上升。
3.1 数据集与评价指标
为评估方法在复杂城市场景中的语义分割与泛化能力,选取 Toronto-3D、SensatUrban、STPLS3D三个具有代表性的大规模城市点云公开数据集进行实验。三者覆盖多样语义类别与典型城市场景,具备较强的泛化性和代表性。Toronto-3D数据集采集地为加拿大多伦多,包含八类语义标签,点云密度高、结构规则,适用于评估模型在道路与街景环境下的语义解析能力(Tan等,2020)。SensatUrban数据集采集地为英国典型城市区域,包含13类语义标签,场景尺度大、结构复杂,适用于检验模型在大范围城市环境中的泛化性能(Hu等,2022)。
STPLS3D数据集是一个大规模、融合真实与合成数据的城市景观三维点云数据集,包含多样化的地形、建筑风格和植被类型,适用于评估模型在跨域泛化、风格迁移、复杂场景适应性上的稳健性表现(Chen等,2022)。
采用总体精度(overall accuracy,OA)、交并比(intersection over union,IoU)、平均IoU(mean IoU,mIoU)作为评估指标。为更好地评估模型在语义边界区域的分割性能,反映模型在边界区域的解析能力,引入边界IoU(boundary IoU,BIoU),通过衡量预测边界与真实边界之间的重叠程度,反映模型在边界区域的解析能力(Tang等,2022):
式中,为点云中所有待分类的点的集合;li、pi分别为中心点xi的真实语义标签、预测语义标签;lj、pj分别为邻域点xj的真实语义标签、预测语义标签。当在中心点xi的邻域Ni中存在任意点xj满足lj ≠ li时,xi位于真实边界区域,将其归入Bt;当邻域中存在pj ≠ pi时,xi位于预测边界区域,归入Bp。
3.2 在不同数据集的结果分析
为保证对比结果更有意义,在三个数据集中统一采用 RandLA-Net(Hu等,2020),作为通用基线。RandLA-Net是目前大规模点云语义分割中应用范围最广、工程化部署最多的轻量级模型,已成为主流城市场景的标准参考。同时,具备代表性的几何建模框架KPConv(Thomas等,2019),常被用于检验后续方法的性能提升,实验在SensatUrban、STPLS3D 数据集中亦将其纳入对比基线。此外,为更准确地评估方法在不同城市场景下的性能优势,针对不同数据集的特点,分别在 Toronto-3D、SensatUrban 、STPLS3D 数据集,选取近期表现优秀的3DLST(Lu等,2025)、DG-Net(Liu等,2024)、LACV-Net(Zeng等,2024)作为对比模型。
1)Toronto-3D数据集
由表1可知,LoGNet与其他模型在Toronto-3D数据集的定量对比结果。LoGNet在OA、mIoU均取得当前最优结果。其中,相较于RandLA-Net(Hu等,2020),LoGNet在OA、mIoU分别提升了3.1%、1.2%。图6展示了LoGNet与RandLA-Net的语义分割结果。图6(d)中,能够准确还原道路与路标、建筑与植被等相邻类别之间的边界结构;(c)中,在道路标记、线状结构等几何高相似性区域中表现出明显劣势。究其原因,RandLA-Net(Hu等,2020)难以充分捕捉局部语义特征差异,在缺乏光谱信息支持下对道路场景的分割能力表现得尤为不足;而本文引入SCF模块能够充分利用颜色信息增强局部差异建模,显著提升了几何结构相似区域的边界清晰度与类别分离度。
2)SensatUrban数据集
由表2可知,LoGNet与其他模型在SensatUrban数据集的定量对比结果,LoGNet均取得当前最优结果。相较于RandLA-Net(Hu等,2020),LoGNet分别在OA、mIoU提升了4.5%、10%;并在建筑、铁轨、马路等中大型结构性类别,取得了最高得分;对于单车这一极小目标类别,相较于其他方法有显著改进。图7展示了LoGNet在SensatUrban数据集的语义分割可视化结果。LoGNet在边界保持性、结构连续性及语义一致性方面表现更优,能准确划分建筑、街道、桥梁等结构之间的边界(图7(d)),而在(c)中则易出现边界模糊与误分问题,限制了其在真实场景中的应用泛化能力。这主要得益于所引入的全局上下文增强模块,有效融合了局部几何结构与全局语义信息,增强了模型对复杂城市场景的建模能力。
3)STPLS3D数据集
由表3可知,LoGNet与其他模型在STPLS3D数据集的定量对比结果。相较于KPConv(Thomas等,2019),LoGNet分别在OA、mIoU提升了4.3%、3.7%,几乎在所有类别中都取得了最高得分。为了直观比较不同方法的分割质量,图8展示了KPConv与LoGNet在STPLS3D数据集的语义分割结果,其中,(c)中出现了明显的错误分割区域。究其原因,在相同实验条件下,引入的GAA模块能够更加充分地建模邻域点之间的几何与语义依赖关系,令物体边缘与细长结构的预测更加贴合真实形状,如图8(d)所示。
3.3 消融实验
为系统分析各个模块及其内部结构对模型整体性能的影响,在Toronto-3D数据集设计消融实验,重点探讨SCF、GAA、GCE模块对精度的影响,以更好地评估各模块在模型性能提升中的作用。由表4可知各模块对模型性能的影响,分别去除SCF、GAA、GCE模块后,模型的分割精度分别下降了8.85%、2.3%、1.32%。这说明,各模块在不同层次的信息提取过程中相互补充,有效提升了模型对复杂城市场景的语义建模与分割能力。
此外,为探讨SCF模块中不同编码策略对模型性能的影响,设计六种不同的编码方案。不同编码策略对SCF模块性能的影响见表5。仅使用颜色信息时(A1),mIoU仅为71.85%,性能明显偏低,颜色信息主要提供物体色信息,在缺乏空间结构约束的情况下易受到光照变化等因素干扰,模型难以区分相似外观的目标。仅使用几何位置信息时(A2),mIoU提升至80.73%,说明空间结构对语义辨识具有更高稳定性;然而,对于有相似空间分布、语义不同的区域,如道路与斑马线,仅依赖几何位置仍难以实现精准区分。将颜色与空间信息联合编码时(A5),mIoU进一步提升至82.1%,两类互补特征能够共同增强目标区分能力。此外,引入距离信息也能带来性能提升。相较于仅使用颜色差(A1)、几何差(A2),在其基础上分别引距离项后,mIoU分别提升了0.88%、1%。最终,同时融合颜色差、几何差与距离(A6),模型获得了最高得分,表明了SCF模块编码的简洁性与有效性。
由表6可知,GAA模块中不同组成部分对分割性能的影响。以最大池化操作替代模块时,模型性能最差。当分别移除GWR、注意力机制时,mIoU下降了1.68%、1.04%。值得注意的是,GWR对性能的影响略高于注意力机制,表明GWR在建模地理空间权重、空间复杂关系方面发挥了关键作用。结果表明,距离空间和语义特征空间的信息对模型均有显著影响,二者的协同作用能够更充分地建模局部空间关系和特征关系,从而有效提升分割性能。
为验证联合损失函数的有效性,设计两组对比实验:一组保留完整损失函数;另一组仅保留加权交叉熵损失函数。由表7可知,联合损失函数将mIoU提升至82.96%、BIoU大幅提升至46.82%。这说明,引入边界约束有助于引导模型关注边界邻域的细节信息,提升边界区域的解析能力与结构识别精度,从而提高了整体语义分割精度。
在 LoGNet的多特征融合模块中,邻域聚合的特性尤为关键。参数K表示每个中心点在局部邻域内选取的邻居数量,其取值将直接影响分割性能。由表8可知,当K取较小值8时会导致邻域信息不足,而K取较大值24、32则可能引入不相关点或噪声,削弱特征表达的判别性。因此,最优邻域规模约为16。
4 结 论
针对现有方法在城市点云场景语义分割中空间感知不足、多源特征融合不充分等关键问题,本文通过深度挖掘几何、颜色与上下文三重特征,采用局部–全局双路径架构充分聚合多尺度信息,提出了新型语义分割网络 LoGNet。引入空间–颜色聚合模块,实现了几何结构与外观信息的有效融合;设计了地理感知注意力模块,动态建模不同区域之间的语义联系;随后提出了全局上下文增强模块,以提升模型对宏观结构的理解能力。在此基础上,提出联合损失函数,有效提升了模型对少数类别及语义边界区域的识别能力。实验结果表明,相较于已有优秀方法,LoGNet在Toronto-3D、SensatUrban、STPLS3D典型城市级点云公开数据集均取得优秀性能,验证了本文方法的有效性与泛化性。总体而言,LoGNet有助于提升城市点云语义分割的准确性,可为三维城市建模与实景三维建设提供有力的技术支撑。
需要指出的是,本研究在两个方面仍存在不足之处。一是对颜色特征的依赖程度较高,在光照变化或颜色失真条件下性能可能下降;二是模型在不同城市仍会受到跨域差异的影响。后续研究将聚焦于多模态协同及跨域泛化机制,以提升模型在更复杂、更多样化真实场景中的适应性,从而推动城市点云语义理解的实际落地。
↓↓ 了解更多产业要闻↓↓
请将我设为星标★
>>协会通知
>>近期要闻
>>协会通知
>>近期要闻
>>协会通知
>>协会通知
>>协会通知
>>近期要闻
>>近期要闻
>>近期要闻
>>近期要闻
>>近期要闻
“企业家风采”“民企之光”“创新之声”“精品成果秀”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”等主题宣传(专栏)长期征稿,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享
