多源遥感数据实景三维立体化重构技术与发展
刘欣怡1,2,张永军1,2,岳冬冬1,范伟伟1,万一1,2,
李廷赟1,钟佳辰1,刘嘉豪1,刘校安1
1. 武汉大学 遥感信息工程学院,武汉 430079;
2. 自然资源部粤港澳大湾区自然资源数据协同应用工程技术创新中心,广州 510075
摘 要:实景三维立体化重构技术依托多源遥感数据的时空互补、多视协同等优势,通过融合多传感器观测数据获取高精度、多维度时空数据,为实景三维模型数据供给与应用提供基础,是实景三维中国数智化建设的主体技术之一。当前研究在异源数据智能配准、几何重建与语义理解等关键环节取得突破,但仍面临跨平台数据时空基准不统一、复杂场景自适应建模能力不足等挑战。本文系统梳理多源遥感数据驱动的实景三维模型立体化重构技术体系,重点介绍实景三维模型立体化重构的主要数据源与实现路径,深入剖析当前仍存在的瓶颈问题,并从生成式AI驱动建模、动态场景时序重建、多源数据协同利用、应用驱动产品衍生等方面讨论立体化重构技术的最新前沿与发展趋势。
关键词:实景三维中国;立体化重构;多源遥感数据;模型重建;地理场景建模;地理实体建模
引用格式:刘欣怡, 张永军, 岳冬冬, 范伟伟, 万一, 李廷赟, 钟佳辰, 刘嘉豪, 刘校安. 2025. 多源遥感数据实景三维立体化重构技术与发展. 时空信息学报, 32(1): 20-30
Liu X Y, Zhang Y J, Yue D D, Fan W W, Wan Y, Li T Y, Zhong J C, Liu J H, Liu X A. 2025. Technology and development for reconstruction of 3Drealistic geospatial landscape model from multi-source remote sensing data. Journal of Spatio-temporal Information, 32(1): 20-30, doi: 10.20117/j.jsti.202501011
1 引 言
实景三维是对人类生产、生活、生态空间进行真实化、立体化、时序化反映和表达的数字虚拟空间,能够为经济社会发展和各部门信息化提供统一的空间基底。美国、法国、德国等发达国家在三维基础测绘领域进行市场化建设方面起步较早,已建立了纽约、巴黎、柏林等多个城市级实景三维平台,在导航、应急响应、城市规划等领域得到了广泛的应用(张莉等,2022)。微软、谷歌等大型公司积极参与三维地理信息市场,推出了如Google Earth、Bing Maps 3D等地图平台,将城市信息的三维可视化作为其公共地图服务的一部分。近年来,随着我国城市化进程的加速和经济的持续增长,实景三维和数字孪生建模已成为数字经济与智慧社会建设发展的基本需求。2024年7月《中共中央国务院关于加快经济社会发展全面绿色转型的意见》明确指出,加快数字化绿色化协同转型发展,推进实景三维中国建设与时空信息赋能应用。“十四五”期间,我国前瞻性地部署了实景三维中国建设项目,已形成“实体化建模–立体化重构–真实化表达–知识化服务”的完整技术体系和以“地理场景–地理实体–地理实景”为核心的产品体系,为数字中国、美丽中国建设提供了重要战略支撑(陈军等,2024)。
实景三维立体化重构技术包括多源数据采集与处理、实景三维数据生产与更新、产品质量控制与汇集管理等步骤。由于光学影像、合成孔径雷达(synthetic aperture radar,SAR)影像、激光雷达(light detection and ranging,LiDAR)等多平台多源异构遥感数据在几何结构、辐射特性、时空分辨率等方面存在较大差异,仅依赖单一数据源的三维重建方式难以完整刻画重建对象的复杂细节。充分发挥多源异构数据在几何结构、光谱信息及时空分辨率方面的互补优势,是提升实景三维立体化重构精度与完善性的有效途径。本文重点介绍多源数据融合、地理场景与地理实体数据生产等实景三维建设过程中的技术要点,深入探讨多源数据协同建模的技术挑战与前沿趋势。此外,还从实景三维模型生产中的数据源与主要生产流程出发,探索新兴技术对实景三维模型重建技术瓶颈的突破点,并对未来发展趋势进行分析与展望。
2 立体化重构数据源与实现路径
立体化重构流程涵盖多源数据采集与预处理、三维数据生产、产品质量控制、数据更新及成果管理五个主要环节,通过空天地一体化采集手段整合光学影像、激光点云、SAR影像等多源数据,统一空间参考与数据格式,为后续处理奠定规范化基础。在数据生产阶段生成地理场景数据,如数字正射影像图(digital orthophoto map,DOM)、数字高程模型(digital elevation model,DEM)、Mesh数据,与地理实体数据,如建筑物多细节层次(level of detail,LOD)模型,实现从基础地理信息到高精度三维数据的转换。质量控制贯穿生产全过程,通过严格检查与检验确保成果精度与可靠性。数据更新采用时序更新和按需更新等方式,结合变化发现与数据融合实现立体化数据的动态维护。成果管理以“只测一次,多级复用”为原则,采用时序化管理与分级汇集机制有效提升数据共享效率并避免重复生产。立体化重构流程如图1所示。
2.1 实景三维立体化重构数据源
数据采集与预处理是地理实体数据生产的关键基础环节(陈军等,2022)。实景三维立体化重构数据源包括光学影像、三维激光点云数据,以及SAR影像数据等,随着传感器技术和物联网技术的快速发展,多源、多模态的数据类型不断涌现,物联网设备生成的大量实时数据和历史基础地理数据,经过有效筛选与处理,也成为地理实体数据生产和更新的重要数据来源,为动态维护与高效生产提供了可靠保障。
光学影像包括卫星影像、航空影像及近景摄影影像。卫星影像依靠卫星平台采集,经过解扰、解密、解压及分景等预处理工序(王密和杨芳,2019);后续可用于大面积地理信息监测,为地形级地理实体数据生产筑牢根基。航空影像涵盖数字航空摄影、倾斜航空摄影,历经航摄设计、飞行质量把控等流程,契合城市级地理实体数据生产需求,能清晰展现城市地貌特征。近景摄影影像聚焦 300 m以内目标,借助摄像机检校、摄影站布设等精细操作,在部件级地理实体数据生产中发挥重要作用,可精准抓取小范围目标的形态与几何特性(李德仁等,2016)。
LiDAR点云数据包括航空激光点云、地面激光扫描两种类型。航空激光点云由遥感平台搭载激光扫描系统获取,处理流程包括航带规划、点云解算和去噪处理。地面激光扫描利用高精度扫描仪采集地物表面的三维信息,在城市三维重建中应用广泛;此外,移动激光扫描(mobile laser scanning,MLS)系统结合激光扫描、影像采集及业务点(point of service,POS) 系统,能高效获取彩色点云数据,提升数据生产的效率与精度。
SAR 影像数据分为卫星、航空两类。卫星 SAR影像数据通过解扰、解密和解压处理获取原始雷达回波数据,再经聚焦成像、滤波与影像增强等步骤生成最终产品(张过等,2019)。航空 SAR影像数据依赖航空平台,通过成像处理、误差补偿和影像配准等流程完成高精度影像的预处理,拓宽了在地理场景构建中的应用范围。此外,还可通过合成孔径雷达干涉测量(interferometric synthetic aperture radar,InSAR)技术提取地表形变点云,与光学点云融合以增强复杂地形建模能力。
2.2 实景三维地理场景数据生产
地理场景是在现实地理世界中客观存在的自然或人文景观,包括地形、城市空间等。地理场景数据产品则是通过对这些自然或人文景观进行数字化描述、融合建模、一体化存储和真实化表达,所形成的一类全新的、独立存储的地理空间数据产品。核心目标是表达地形地貌、城市地物的空间形态和表面纹理等信息,具有真实化、立体化的特征,但不具备实体化的特点,且通常不包含语义信息。地理场景数据产品主要用于三维浏览、空间量算,以及为其他地理信息系统(geographic information system,GIS)提供空间基底,满足用户对地理环境的空间感知需求。依据表现内容的差异,地理场景数据产品可分为地形场景数据产品和城市场景数据产品两类。
地理场景数据包括DEM、DSM、DOM及Mesh等多种形式。其中,Mesh数据具有丰富的几何表达能力,可以同时呈现地形、建筑等地物的结构与纹理,适用于精细化的三维建模和可视化分析。本文重点探讨Mesh数据的生产方法。
1)基于多视角立体视觉的Mesh三维模型生产
多视角立体视觉 (multiple view stereo,MVS)能够从多幅具有重叠区域的二维图像中恢复场景的三维几何结构,广泛应用于单目影像深度恢复、卫星影像高度估计等三维重建任务。Mesh三维模型的生成依赖多视航空影像、外业像控资料、定位测姿系统(position and orientation system,POS)数据及相机参数等多种基础数据(李德仁等,2016)。生产流程包括多视影像匹配、空中三角测量、不规则三角网(triangulated irregular network,TIN)模型构建,以及自动纹理映射等步骤(Peters 等,2022),最终生成三维模型。然而,传统基于图像特征匹配的运动恢复结构(structure from motion,SfM)方法(Sch?nberger 和Frahm,2016)难以利用图像上的所有信息进行优化,且三维重建中的多个子问题会带来误差的积累,难以处理照明变化、低纹理区域和非朗伯表面等复杂环境。
近年来,随着深度学习技术的引入为上述难题提供了新的解决方案。基于学习的MVS方法能够利用神经网络进行端到端的几何优化,通过全局像素级别的信息整合,显著提升重建精度与稳健性,这为三维重建效果超越传统方法带来了可能 (许威威等,2021)。其中,MVSNet(Yao 等,2018)构建三维代价体实现像素级几何推理,CVP-MVSNet(Yang等,2022)通过级联策略大幅减少内存消耗;TransMVSNe(Ding 等,2022)通过引入Transformer建模跨视图全局依赖,使得在DTU数据集平均误差降至0.3 mm。进一步地,DUSt3R(Wang 等,2024)利用基于 Transformer 架构的神经网络预测两个密集三维点云,联合解决相机校准和三维重建问题,实现了从非约束的图像集合中直接恢复对应的相机坐标系下面的三维点位置信息。MASt3R(Leroy 等,2025)在 DUSt3R的基础上新增了一个密集局部特征回归头,并设计了一种基于对比学习的损失函数有效鼓励多视图局部描述符之间保持一致性,不仅保证了极端视点变化情况下的匹配稳健性,还显著提高了匹配精度。此外,MASt3R(Leroy 等,2025)还可扩展至大规模场景重建,如 MASt3R-SfM(Duisterhof 等,2024),通过稳健匹配网络直接输出高置信度的几何关心,完全摒弃了传统 SfM方法流程粗差剔除对随机抽样一致性(random sample consensus,RANSAC)的依赖。
2)基于3D高斯溅射的Mesh三维模型生产
近年来,3D高斯溅射(3D Gaussian splatting,3DGS)方法(Kerbl等,2023)凭借高视觉保真度与实时渲染能力,已成为新视角合成领域的前沿技术,并逐步扩展至三维重建任务中。3DGS方法通过显式的点云结构结合可微分光栅化实现场景构建与渲染,但其离散的场景结构表示与高斯基元的椭球属性易导致多视角几何不一致性,难以保证几何重建精度。为此,SuGaR方法(Guédon和 Lepetit,2024)通过引入表面对齐正则化项,约束高斯基元分布贴合场景几何表面,进而支持通过泊松重建等方法从优化后的高斯场景结构中提取显式网格。尽管该方法实现了表面感知的三维重建,但强制性的高斯基元与表面的绑定机制会导致渲染质量退化。为从根本上克服多视角几何不一致性问题,2DGS方法(Huang 等,2024)创新性地将三维高斯基元压缩为二维高斯圆盘,结合射线–溅射交点以精确化光栅化技术,在保持实时渲染效率的同时提升多视角几何一致性。为优化重建质量,2DGS方法(Huang 等,2024)引入两种正则化损失,分别为:深度约束通过最小化高斯基元在射线方向上的深度分布离散程度,促使其在深度维度上更加集中;法线一致性损失则通过对齐高斯基元法线方向与深度梯度的方向确保2DGS基元对齐实际物体表面。PGSR(Chen 等,2024a)进一步改进高斯平面表示框架,通过将3D高斯基元投影在二维平面实现无偏深度渲染,结合单视角局部平面假设与多视角几何–光度一致性约束,显著降低了传统a 混合带来的深度估计偏差;并提出曝光补偿模型,缓解光照变化对重建的影响。
大规模场景重建涉及构建地理空间尺度的精细化场景三维模型,核心挑战源于海量数据处理的复杂性、对几何精度与场景复杂度的双重需求,以及跨尺度特征耦合的固有困难。现有基于3DGS方法在大规模场景中难以准确地重建复杂的几何细节,且容易产生显著的失真伪影现象。为此,VastGaussian(Lin 等,2024)采用分治策略,将场景分割为多个子区域独立优化,有效地保证了训练收敛,且每个子区域都能获得足够的致密化,但由于缺乏跨区域协同优化机制导致子区域接缝处几何与颜色不连续。GigaGS(Chen 等,2024b)提出基于空间互可见性的动态分区策略,通过引入结合多LOD的多视图光度和几何一致性约束协调不同尺度细节,并行优化架构显著降低了GPU内存消耗。DoGaussian(Chen 和 Lee,2024)设计递归式场景分割,将场景分解为平衡且重叠的块,并通过交替方向乘子法(alternating direction method of multipliers,ADMM)实现分布式训练,采用自适应惩罚参数与过松弛技术平衡局部优化及全局一致性。当前方法虽展现了3DGS在大规模重建中的潜力,但在跨区域融合、内存管理机制、场景规模与细节精度的权衡等方面仍存在局限。
2.3 实景三维地理实体数据生产
地理实体是现实世界中具有空间位置、客观存在并可相互区分的地理对象。地理实体数据产品通过对象化建模,反映地理实体的空间、关系、属性和时间特征;具备查询统计、关联分析和信息挖掘功能,并可挂接社会经济信息,成为信息汇集与融合的时空枢纽。为实现标准化的地理实体数据生产,目前主流的技术路线包括模型驱动、数据驱动两种建模思路。
(1)模型驱动方法采用自上而下的策略,通常基于预定义的模板库或规则假设来匹配输入数据,并通过模板匹配获得最佳模型或模型组合。例如,曼哈顿世界假设(Coughlan和Yuille,1999)限制了建筑表面在三个正交方向上的朝向,以轴对齐的多立方体表示建筑实体模型,被广泛应用于低LOD的结构化重建(Vanegas等,2012;Henn等,2013;Li等,2016)。对于更高LOD的建模需求,建筑物屋顶常被预定义为规则的模板形状,通过匹配组合屋顶模板库中的参数化模型可重建最终的建筑模型(Huang 等,2013;Li 等,2022)。然而,由于地理实体形状的多样性,很难用一套通用的模板库或规则来表达所有的形状,此外,庞大的模板库也会导致搜索效率的急剧下降。
(2)数据驱动方法通常采用自下而上的策略,利用提取的基元重建三维模型。一般来说,数据驱动方法可以分为两个阶段。第一阶段,通过点云分割或聚类算法从原始地理场景数据中提取平面基元,目前已提出了很多平面分割方法能够准确提取三维平面基元(Rabbani 等,2006;Schnabel 等,2007;Yu和Lafarge,2022)。第二阶段,可根据平面基元的连接性或空间划分重建结构化模型。其中,基于平面连接性的方法通过分析平面形状之间的相邻关系建立各个几何形状之间的连接图,并从中提取适当的几何基元来组装最终的实体模型(Chen和Chen,2008;van Kreveld 等,2011);此类方法对平面质量和拓扑连接关系十分敏感,基元间的错误连接关系会影响最终的模型重建结果。相比之下,基于空间划分的方法对于具有挑战性的数据更加稳健,如Bauchet 等(2020)用检测到的平面基元将三维空间分割成一组冗余的凸多面体,然后从分割结果中提取模型表面对应的多边形网格模型;此类方法灵活性较强,但在处理复杂结构时计算复杂度较高,在计算效率与内存需求方面面临挑战。
得益于深度学习方法的迅猛发展,近期,还出现了许多基于深度学习框架进行大规模城市三维实体模型重建的工作,如基于Transformer(Nash 等,2021;Liu 等,2024)、图神经网络(Chen 等,2024c)、卷积神经网络(Genova 等,2019;Deng 等,2020)等。此类方法的优点是能够进行大面积的城市三维模型重建,但通常需要大量的训练数据用于提升模型在不同数据条件下的泛化性。此外,地理实体的紧凑表面模型也可通过简化密集三角网模型获得,旨在模型保留细节与紧凑性之间达到平衡,主要包括基于几何的近似方法(Cohen-Steiner 等,2004;Calderon和Boubekeur,2017)、结构感知方法(Salinas 等,2015;Bouzas 等,2020)和内在误差分析方法(Garland和Heckbert,1997;Liu 等,2023a)等。此类方法中网格简化通常需要完整且拓扑正确的高精度网格作为输入,且网格简化结果具有很大的不确定性,限制了其在地理实体建模中的应用场景。
随着三维建模算法的快速迭代和地理实体模型需求的不断增长,国内已涌现出多种用于地理实体数据建模的平台。根据2023年中国地理信息产业协会《关于发布实景三维相关软件测评结果的公告》(中地信协〔2023〕48号),多项软件具备了三维或二维表达的基础地理实体数据采集生产能力,但总体上建模手段仍以人工手动勾绘或半自动人机交互为主。国际上也有许多代表性平台(Kelly,2021;Markovi? 等,2024),涵盖了模型驱动建模、深度学习建模、参数化建模和自动化建模等不同技术路线。国际地理实体数据生产的代表性平台如图2所示,进一步展示了建模系统的典型特性,并在数据精度、细节表达和处理效率方面的差异进行了比较,这些系统适用于不同的建模需求。虽然当前大多数实体重建方法致力于实现全自动建模,但由于地理实体复杂的拓扑结构及输入数据的不完备性,在实际应用中仍面临诸多挑战。其中,精细模型重建与大范围重建之间的平衡,以及模型质量与可扩展性之间的权衡已成为亟待解决的核心问题。为了缓解这些问题,在实际生产中通常采用人工干预的半自动化建模方式,在提高建模精度的同时,以兼顾效率与可扩展性。总体而言,三维建模技术的发展正呈现出自动化与人工干预相结合的多元化趋势。未来,需要在算法优化、效率提升和模型质量之间寻找更优的平衡点,以满足不同应用场景下日益增长的建模需求。
3 立体化重构挑战与发展趋势
3.1 生成式AI驱动建模
传统的三维重建依赖于几何与光学模型,通常采用空中三角测量(简称空三)与像素级密集匹配等方法。而基于深度学习的多视图几何重建结合了多尺度特征学习与适应性采样,在稀疏数据和复杂场景下展现出更好的重建能力(Leroy 等,2025)。近年来,生成式人工智能(artificial intelligence generated content,AIGC;又称生成式AI)在三维建模与城市级应用领域取得了重要突破,三维内容生成呈现从低维到高维、从静态到动态的演进趋势,尤其在文本到图像(Text-to-Image)、图像到三维(Image- to-3D),以及文本到三维(Text-to-3D)等任务上进展显著,为实景三维模型重建带来了新的发展机遇。
Text-to-Image作为 AIGC 的基础技术,结合 CLIP(Radford 等,2021)及扩散模型(Ho 等,2020),已能生成高质量图像,如 DALLE(Ramesh 等,2021)和 Stable Diffusion(Rombach 等,2022)等方法能够精准地捕捉文本语义并映射至像素空间。在此基础上,Image-to-3D技术利用神经辐射场(neural radiance field,NeRF)方法(Mildenhall 等,2020)、高斯溅射(Gaussian splatting,GS)方法(Kerbl 等,2023)等,使得二维图像能够直接升维为三维模型,降低了传统 3D 建模的成本。例如,Zero-1- to-3(Liu 等,2023b)通过单张图像即可生成多视角一致的 3D 结构。进一步的研究推动了Text-to- 3D技术的发展,如 DreamFusion(Poole 等,2022)、 Shap-E(Jun和Nichol,2023)结合扩散模型与三维表征,采用分数蒸馏采样(score distillation sampling,SDS)方法(Poole 等,2022)优化 3D 生成。此类方法仍面临训练时间长、颜色一致性不足等问题。尽管 AIGC 在 3D 建模中取得突破,但仍存在数据需求高、渲染效率受限等挑战。在城市级建模任务中,模型需要大量标注数据以学习场景特征,否则,可能导致不合理的生成结果(Wei 等,2023;Ham 等,2024)。
总体而言,生成式人工智能在 3D 建模领域展现出广阔的应用前景,结合神经辐射场、3D 高斯溅射等可微渲染技术,使得轻量化三维结构建模与大规模三维场景渲染成为可能。当前的研究已初步推动 AIGC 在建筑设计、城市规划等方面的应用,如CityDreamer(Xie 等,2024)、Sat2Scene(Li 等,2024b)可利用文本或卫星影像生成城市级三维场景,渲染的城市三维场景如图3所示。然而,在数据获取、计算效率、渲染优化等方面仍需进一步探索,以提升模型的工程实用性,实现更高效、可扩展的三维场景建模。
3.2 动态场景时序重建
实景三维模型应能对数字空间进行时序化表达,但现有方法主要依赖多期数据叠加或局部替换,难以实现不同时相数据的无缝重建与渲染。虽然前沿研究结合可微渲染技术能够对视频数据进行连续场景重建,但主要适用于小范围动态场景,且对帧率要求较高。当前在实景三维的动态时序表达方面仍面临诸多挑战。
1)长时间间隔的时序变化建模
城市场景的不同时相数据时间间隔较长,变化大且不具备连续性,使得三维几何结构的时变信息难以恢复。例如,季度级的建筑扩建或拆除难以通过多期数据叠加有效建模,导致重建结果无法真实反映动态变化。NeRF方法在动态时序建模方面也受限于静态场景假设,难以适应长时间跨度的变化。利用AIGC技术来模拟可能的变化可以缓解时序变化问题(Nie 等,2019)。基于大量历史数据训练生成式模型,学习城市建筑和地物在不同时间段的变化模式,在遇到长间隔变化时,可通过模型补全缺失的变化信息,恢复三维几何结构的时变信息(Yu 等,2024)。
2)动态场景的几何与纹理一致性
不同时相数据的几何与纹理难以保证一致,容易导致重建结果中的抖动或不连续变化。深度学习驱动的图像配准和融合算法可自动识别特征点,实现精确配准并减少几何变形。同时,生成式对抗网络(generative adversarial networks,GAN)可优化纹理(Isola 等,2017),减少时间变化引起的纹理失真。
3)数据稀疏性与多视角补全
动态场景的学习通常依赖完备视角数据,但实际应用中单目或稀疏输入的精度有限。结合AIGC技术可弥补数据不足,例如,利用条件生成网络生成补充视角数据(Mirza 和 Osindero,2014;Zhu 等,2017),提升模型的重建精度。通过结合Street Gaussians(Yan 等,2025)、Driving Gaussian(Zhou 等,2024)等方法,能够从稀疏或不完备的数据中生成更多视角的补充数据,从而为模型提供丰富的时空信息,显著提升模型的精度与细节表达。
4)刚性与非刚性变化的统一建模
城市场景的动态变化包括刚性(建筑扩建或拆除)、非刚性(植被生长、人群活动)变化,现有方法难以统一建模。分层建模方法可分别处理刚性和非刚性部分,例如,Zhang 等(2021)对刚性部分采用几何建模,非刚性部分结合物理模拟或深度学习,最终通过融合技术整合两类建模结果。虽然Gaussian-Mesh(Li 等,2024a)通过结合高斯分布与网格表示,实现动态物体建模,在一定程度上提升了动态场景建模能力,但难以适应低帧率数据。
总体而言,尽管生成式 AI、几何配准、融合技术和多视角补全等方法在动态时序建模方面取得了一定进展,但仍需进一步探索高效、稳健的时序重建方法,以适应城市场景长时间跨度的动态变化,并提升几何一致性与纹理保真度。
3.3 多源数据协同利用
尽管多传感器发展成熟,高质量实景三维模型重建已有充分的数据基础,但满足全域大范围模型重建精度要求的点云与影像数据获取仍然面临成本高,且受空域、天气等因素影响,数据质量、现势性难以保障的问题(高玉久等,2024)。一方面,除了现有成熟处理的机载激光点云、航空航天光学影像数据之外,其他非标准采集数据也应灵活纳入生产流程(Wen 等,2019)。例如,历史存量4D产品、街景影像、铁塔数据、物联感知数据、众源地理信息数据等。另一方面,当前多源数据预处理的流程复杂,如多模态数据的配准自动化程度不足,进一步导致多源数据的采集和预处理成本过高,而融合后数据对建模质量提升有限,未能充分发挥多模态数据之间的互补优势。因此,仍需探索以已有实景三维数据为基础框架,搭建天空地遥感众源数据一体化数据生成平台,解决多源数据几何定位、分辨率不一致等问题,挖掘多源数据对模型结构的作用,实现众源数据协同利用提升实景三维立体化重构精度与生产效率。
3.4 应用驱动产品衍生
随着实景三维产品体系、技术体系搭建的日益完善,各省市传统4D产品、实景三维Mesh模型、城市三维模型(LOD1.3级)等数据生产任务顺利开展,针对实景三维数据大规模应用的研究已提上日程。2024年8月,自然资源部联合国家数据局颁布了《2024年实景三维数据赋能高质量发展创新应用典型案例发布》,覆盖了自然资源管理、赋能政府决策、助力数字经济发展、服务百姓美好生活、服务数字文化建设和支撑数字生态文明共六类应用场景,探索了实景三维数据在不同领域场景的应用路径,显示了实景三维模型重要应用潜力。如何保持实景三维数据新鲜度,用好实景三维数据是决定实景三维中国建设是否可持续的重要因素。
当前实景三维模型立体化重构仍然以标准化数据生产为主,从模型表达上缺乏一定的灵活性与容错性。以赋能建筑物光伏潜力评估与用户用光伏施工方案设计为例,以粗粒度LOD1.3级或LOD2.2级别三维模型为基础,可作为光伏潜力的重要依据,而在辅助施工阶段,则应以屋顶平面、障碍物等构件的精确提取为首要建模对象,辅助分析屋顶平面、障碍物、太阳照射条件之间的关系,生成面向光伏评估应用的专题产品。构建实景三维基础模型与应用模型标准范式,并与模型重建方法衔接,形成面向应用的标准化衍生产品是需要重点考虑的问题。
4 结 语
本文总结了当前实景三维立体化重构的主要数据源与实现途径,以典型实景三维地理场景、地理实体模型为例,分析了当前生产流程中的主要问题,并探讨了立体化重构的新技术与发展趋势。生成式人工智能、可微渲染框架的快速发展与工程化应用为解决立体化重构技术瓶颈注入了新的突破点,如何利用新技术解决传统实景三维立体化重构生产技术路线,并在动态时序场景模型重建、多源数据协同利用等方面展开研究,探索面向应用的模型表达方式与实现路径,以切实发挥实景三维模型数据要素价值,赋能数字中国、美丽中国建设与经济社会高质量发展。
参考文献(References)
陈军, 刘建军, 田海波. 2022. 实景三维中国建设的基本定位与技术路径. 武汉大学学报(信息科学版), 47(10): 1568-1575 [Chen J, Liu J J, Tian H B. 2022. Basic directions and technological path for building 3D realistic geospatial scene in China. Geomatics and Information Science of Wuhan University, 47(10): 1568-1575 (in Chinese)]
陈军, 田海波, 高崟, 张元杰, 刘万增, 武昊, 张宏伟, 黄蔚, 刘建军. 2024. 实景三维中国的总体架构与主体技术. 测绘学报,1-20. https://kns.cnki.net/kcms/detail/11.2089.P.20240417. 0946.002.html.[2024-10-18][Chen J, Tian H B, Gao Y, Zhang Y J, Liu W Z, Wu H, Zhang H W, Huang W, Liu J J. 2024. The overall framework and main technology of real-life three-dimensional China. Acta Geodaetica et Cartographica Sinica, 1-20. https:// kns.cnki.net/kcms/detail/11.2089.P.20240417.0946.
002.html. [2024-10-18] (in Chinese)]
高玉久, 张亮, 梁静. 2024. 无人机倾斜摄影测量在城市建筑实景三维模型重建中的应用. 科技与创新, (9): 191-193 [Gao Y J, Zhang L, Liang J. 2024. Application of UAV tilt photogrammetry in 3D model reconstruction of urban buildings. Science and Technology & Innovation, (9): 191-193 (in Chinese)]
李德仁, 肖雄武, 郭丙轩, 江万寿, 时月茹. 2016. 倾斜影像自动空三及其在城市真三维模型重建中的应用. 武汉大学学报(信息科学版), 41(6): 711-721 [Li D R, Xiao X W, Guo B X, Jiang W S, Shi Y R. 2016. Oblique image based automatic aerotriangulation and its application in 3D city model reconstruction. Geomatics and Information Science of Wuhan University, 41(6): 711-721 (in Chinese)]
王密, 杨芳. 2019. 智能遥感卫星与遥感影像实时服务. 测绘学报, 48(12): 1586-1594 [Wang M, Yang F. 2019. Intelligent remote sensing satellite and remote sensing image real-time service. Acta Geodaetica et Cartographica Sinica, 48(12): 1586-1594 (in Chinese)]
许威威, 周漾, 吴鸿智, 过洁. 2021. 可微绘制技术研究进展. 中国图象图形学报, 26(6): 1521-1535 [Xu W W, Zhou Y, Wu H Z, Guo J. 2021. Differential rendering: A survey. Journal of Image and Graphics, 26(6): 1521-1535 (in Chinese)]
张过, 蒋永华, 李立涛, 邓明军, 赵瑞山. 2019. 高分辨率光学/SAR卫星几何辐射定标研究进展. 测绘学报, 48(12): 1604-1623 [Zhang G, Jiang Y H, Li L T, Deng M J, Zhao R S. 2019. Research progress of high-resolution optical/SAR satellite geometric radiometric calibration. Acta Geodaetica et Cartographica Sinica, 48(12): 1604-1623 (in Chinese)]
张莉, 洪亮, 薄立明. 2022. 湖北省实景三维建设路线研究. 城市勘测, (6): 15-18 [Zhang L, Hong L, Bo L M. 2022. Research on the construction route of 3D real scene in Hubei Province. Urban Geotechnical Investigation & Surveying, (6): 15-18 (in Chinese)]
Bauchet J P, Lafarge F. 2020. Kinetic shape reconstruction. ACM Transactions on Graphics, 39(5): 1-14
Bouzas V, Ledoux H, Nan L L. 2020. Structure-aware building mesh polygonization. ISPRS Journal of Photogrammetry and Remote Sensing, 167: 432-442
Calderon S, Boubekeur T. 2017. Bounding proxies for shape approximation. ACM Transactions on Graphics, 36(4): 1-13
Chen D P, Li H, Ye W C, Wang Y F, Xie W J, Zhai S J, Wang N, Liu H M, Bao H J, Zhang G F. 2024a. PGSR: Planar-based Gaussian splatting for efficient and high-fidelity surface reconstruction. IEEE Transactions on Visualization and Computer Graphics, 1-22
Chen J Y, Ye W C, Wang Y F, Chen D P, Huang D, Ouyang W L, Zhang G F, Qiao Y, He T. 2024b. GigaGS: Scaling up planar-based 3D Gaussians for large scene surface reconstruction. 2409.06685. https: //arxiv.org/abs/
2409.06685v1.[2024-12-28]
Chen J, Chen B Q. 2008. Architectural modeling from sparsely scanned range data. International Journal of Computer Vision, 78(2): 223-236
Chen Y, Lee G H. 2024. DOGS: Distributed-oriented Gaussian splatting for large-scale 3D reconstruction via Gaussian consensus. 2405.13943. https: //arxiv.org/abs/2405.13943v2.[2024-12-31]
Chen Z Y, Shi Y L, Nan L L, Xiong Z T, Zhu X X. 2024c. PolyGNN: Polyhedron-based graph neural network for 3D building reconstruction from point clouds. ISPRS Journal of Photogrammetry and Remote Sensing, 218: 693-706
Cohen-Steiner D, Alliez P, Desbrun M. 2004. Variational shape approximation. ACM Transactions on Graphics, 23(3): 905-914
Coughlan J M, Yuille A L. 1999. Manhattan World: Compass direction from a single image by Bayesian inference//Proceedings of the Seventh IEEE International Conference on Computer Vision. Kerkyra, Greece. 941-947
Deng B Y, Genova K, Yazdani S, Bouaziz S, Hinton G, Tagliasacchi A. 2020. CvxNet: Learnable convex decomposition//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. 31-41
Ding Y K, Yuan W T, Zhu Q T, Zhang H T, Liu X Y, Wang Y J, Liu X. 2022. TransMVSNet: Global context-aware multi-view stereo network with transformers//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA.8575-8584
Duisterhof B, Zust L, Weinzaepfel P, Leroy V, Cabon Y, Revaud J. 2024. MASt3R-SfM: A fully-integrated solution for unconstrained structure-from-motion. 2409.19152. https://arxiv.org/abs/2409. 19152v1[2025-01-22]
Garland M, Heckbert P S. 1997. Surface simplification using quadric error metrics//Proceedings of the 24th Annual Conference on Computer Graphics and Interactive Techniques - SIGGRAPH ’97. Not Known. 209-216
Genova K, Cole F, Vlasic D, Sarna A, Freeman W, Funkhouser T. 2019. Learning shape templates with structured implicit functions//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea. 7153-7163
Guédon A, Lepetit V. 2024. SuGaR: Surface-aligned Gaussian splatting for efficient 3D mesh reconstruction and high-quality mesh rendering//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA.5354-5363
Ham Y, Michalkiewicz M, Balakrishnan G. 2024. DRAGON: Drone and ground Gaussian splatting for 3D building reconstruction// 2024 IEEE International Conference on Computational Photography (ICCP). Lausanne, Switzerland. 1-12
Henn A, Gr?ger G, Stroh V, Plümer L. 2013. Model driven reconstruction of roofs from sparse LIDAR point clouds. ISPRS Journal of Photogrammetry and Remote Sensing, 76: 17-29
Ho J, Jain A, Abbeel P.2020.Denoising diffusion probabilistic models// 34th Conference on Neural Information Processing Systems.Vancouver, Canada. 6840-6852
Huang B B, Yu Z H, Chen A P, Geiger A, Gao S H. 2024.2D Gaussian splatting for geometrically accurate radiance fields//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA. 1-11
Huang H, Brenner C, Sester M. 2013. A generative statistical approach to automatic 3D building roof reconstruction from laser scanning data. ISPRS Journal of Photogrammetry and Remote Sensing, 79: 29-43
Isola P, Zhu J Y, Zhou T H, Efros A A. 2017. Image-to-image translation with conditional adversarial networks//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. 5967-5976
Jun H, Nichol A. 2023. Shap-E: Generating conditional 3D implicit functions. 2305.02463. https: //arxiv.org/abs/2305.02463v1
Kelly T. 2021. CityEngine: An introduction to rule-based modeling. Urban Informatics, 637-662
Kerbl B, Kopanas G, Leimkuehler T, Drettakis G. 2023.3D Gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics, 42(4): 1-14
Leroy V, Cabon Y, Revaud J. 2025. Grounding image matching in3D withMASt3R. Computer Vision–ECCV 2024. Cham: Springer Nature Switzerland, 71-91
Li L, Song N, Sun F, Liu X Y, Wang R S, Yao J, Cao S S. 2022. Point2Roof: End-to-end 3D building roof modeling from airborne LiDAR point clouds. ISPRS Journal of Photogrammetry and Remote Sensing, 193: 17-28
Li M L, Nan L L, Liu S C. 2016. Fitting boxes to Manhattan scenes using linear integer programming. International Journal of Digital Earth, 9(8): 806-817
Li Z Q, Chen Y M, Liu P D. 2024a. DreamMesh4D: Video-to-4D generation with sparse-controlled Gaussian-Mesh hybrid representation. 2410.06756. https: //arxiv.org/abs/2410.06756v1
Li Z Y, Li Z Q, Cui Z P, Pollefeys M, Oswald M R. 2024b. Sat2Scene: 3D urban scene generation from satellite images with diffusion//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA.7141-7150
Lin J Q, Li Z H, Tang X, Liu J Z, Liu S Y, Liu J Y, Lu Y D, Wu X F, Xu S C, Yan Y L, Yang W M.2024. VastGaussian: Vast 3D Gaussians for large scene reconstruction//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. 5166-5175
Liu H D, Gillespie M, Chislett B, Sharp N, Jacobson A, Crane K. 2023a. Surface simplification using intrinsic error metrics. ACM Transactions on Graphics, 42(4): 1-17
Liu R S, Wu R D, Van Hoorick B, Tokmakov P, Zakharov S, Vondrick C. 2023b. Zero-1-to-3: Zero-shot one image to 3D object//2023 IEEE/CVF International Conference on Computer Vision. Paris, France. 9264-9275
Liu Y J, Obukhov A, Wegner J D, Schindler K. 2024. Point2Building: Reconstructing buildings from airborne LiDAR point clouds. ISPRS Journal of Photogrammetry and Remote Sensing, 215: 351-368
Markovi? V, Poti? I, ?or?evi? D, Stojkovi? S, Drobnjak S. 2024. LiDAR and maps blend for rural decision support. Transactions in GIS, 28(6): 1683-1704
Mildenhall B, Srinivasan P P, Tancik M, Barron J T, Ramamoorthi R, Ng R. 2020. NeRF: Representing scenes as neural radiance fields for view synthesis. Computer Vision – ECCV 2020. Cham: Springer International Publishing.405-421
Mirza M, Osindero S.2014. Conditional generative adversarial nets. Computer Science, 2672-2680
Nash C, Ganin Y, Eslami S M A, Battaglia P W. 2021.PolyGen: An autoregressive generative model of 3D meshes//37th International Conference on Machine Learning: ICML 2020, 10-15
Nie G Y, Liu Y, Wang C, Liu Y, Wang Y T. 2019. Exploring stereovision-based 3-D scene reconstruction for augmented reality//2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR). Osaka, Japan. 1100-1101
Peters R, Dukai B, Vitalis S, van Liempt J, Stoter J. 2022. Automated 3D reconstruction of LOD2 and LOD1 models for all 10 million buildings of the Netherlands. Photogrammetric Engineering & Remote Sensing, 88(3): 165-170
Poole B, Jain A, Barron J T, Mildenhall B. 2022.DreamFusion: Text-to-3D using 2D diffusion. arXiv preprint arXiv: 2209.14988
Rabbani T, Van Den Heuvel F, Vosselmann G.2006.Segmentation of point clouds using smoothness constraint.ISPRS Commission V Symposium Image Engineering and Vision Metrology, 36(5): 248-253
Radford A, Kim J W, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J.2021. Learning transferable visual models from natural language supervision//Proceedings of 2021 International Conference on Machine Learning, 8748-8763
Ramesh A, Pavlov M, Goh G, Gray S, Voss C, Radford A, Chen M, Sutskever I.2021.Zero-Shot Text-to-Image generation//Proceedings of the International Conference on Machine Learning, 8821-8831
Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B. 2022. High-resolution image synthesis with latent diffusion models// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. 10674-10685
Salinas D, Lafarge F, Alliez P. 2015. Structure-aware mesh decimation. Computer Graphics Forum, 34(6): 211-227
Schnabel R, Wahl R, Klein R. 2007. Efficient RANSAC for point-cloud shape detection. Computer Graphics Forum, 26(2): 214-226
Sch?nberger J L, Frahm J M. 2016. Structure-from-motion revisited// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. 4104-4113
van Kreveld M, van Lankveld T, Veltkamp R C. 2011. On the shape of a set of points and lines in the plane. Computer Graphics Forum, 30(5): 1553-1562
Vanegas C A, Aliaga D G, Benes B. 2012. Automatic extraction of Manhattan-World building masses from 3D laser range scans. IEEE Transactions on Visualization and Computer Graphics, 18(10): 1627-1637
Wang S Z, Leroy V, Cabon Y, Chidlovskii B, Revaud J. 2024. DUSt3R: Geometric 3D vision made easy//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. 20697-20709
Wei Y, Vosselman G, Yang M Y. 2023. BuilDiff: 3D building shape generation using single-image conditional point cloud diffusion models//2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Paris, France. 2902-2911
Wen X D, Xie H, Liu H, Yan L. 2019. Accurate reconstruction of the LOD3 building model by integrating multi-source point clouds and oblique remote sensing imagery. ISPRS International Journal of Geo-Information, 8(3): 135
Xie H Z, Chen Z X, Hong F Z, Liu Z W. 2024. CityDreamer: Compositional generative model of unbounded 3D cities//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. 9666-9675
Yan Y Z, Lin H T, Zhou C X, Wang W J, Sun H Y, Zhan K, Lang X P, Zhou X W, Peng S D. 2025. Street Gaussians: Modeling dynamic urban scenes with Gaussian splatting. Computer Vision – ECCV 2024. Cham: Springer Nature Switzerland. 156-173
Yang J Y, Mao W, Alvarez J M, Liu M M. 2022. Cost volume pyramid based depth inference for multi-view stereo. IEEE Transactions on Pattern Analysis and Machine Intelligence, 4748-4760
Yao Y, Luo Z X, Li S W, Fang T, Quan L. 2018. MVSNet: Depth inference for unstructured multi-view stereo. Computer Vision – ECCV 2018. Cham: Springer International Publishing. 785-801
Yu H X, Duan H Y, Hur J, Sargent K, Rubinstein M, Freeman W T, Cole F, Sun D Q, Snavely N, Wu J J, Herrmann C. 2024. WonderJourney: Going from anywhere to everywhere//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. 6658-6667
Yu M L, Lafarge F. 2022. Finding good configurations of planar primitives in unorganized point clouds//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. 6357-6366
Zhang J, Liu Y, Wang Z. 2021.Integration of rigid and non-rigid change detection in urban 3D models using multi-temporal LiDAR data. ISPRS Journal of Photogrammetry and Remote Sensing, 178: 141-155
Zhou X Y, Lin Z W, Shan X J, Wang Y T, Sun D Q, Yang M H. 2024. DrivingGaussian: Composite Gaussian splatting for surrounding dynamic autonomous driving scenes//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. 21634-21643
Zhu J Y, Park T, Isola P, Efros A A. 2017. Unpaired image-to-image translation using cycle-consistent adversarial networks//2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. 2242-2251
↓↓ 了解更多产业要闻 ↓↓
请将我设为星标★
来源:《时空信息学报》2025年第1期
>>协会通知
关于召开2025空间智能软件技术大会通知(第一号) 关于开展2025年地理信息相关软件测评工作的预通知 关于持续开展地理信息产业投融资需求征集和对接工作的通知 关于举办“GIS最前线”2025国土空间实景的数据治理与数据资产建设培训班的通知 关于缴纳会费的通知
“企业家风采”“民企之光”“创新之声”“精品成果秀”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”等主题宣传(专栏)长期征稿,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享!