首页 > 最新动态 > 时空信息学报丨大模型技术赋能时空计算服务的思路与实践

最新动态

时空信息学报丨大模型技术赋能时空计算服务的思路与实践

2026-02-2896

《时空信息学报》是由自然资源部主管，国家基础地理信息中心、中国地理信息产业协会、黑龙江测绘地理信息局共同主办的中文学术期刊，双月刊。为分享最新研究成果，搭建学术交流平台，中国地理信息产业协会公众号开设“时空信息学报”专栏，独家刊载《时空信息学报》论文，供广大读者研阅。欢迎产学研用各界关注、分享！

大模型技术赋能时空计算服务的思路与实践

沈妙¹，陈露元²，李然³，张丰^1,4，朱强²

1. 浙江大学地球科学学院，杭州 310058；
2. 浙江大学计算机科学与技术学院，杭州 310058；
3. 国家基础地理信息中心，北京 100830；
4. 自然资源部时空信息与智能服务重点实验室，北京 100830

摘要：时空信息作为国家战略层面的新型基础设施，其时空计算服务的精准化与自主化是支撑数字经济发展和数字中国建设的关键需求。然而，当前时空计算服务面临多源异构数据难以统一整合、多样分散工具链存在兼容壁垒、多元动态场景需求高度碎片化的严峻挑战。这导致时空计算服务固化、效率低下且缺乏跨域协同能力。大模型技术凭借强大的语义理解、跨模态融合与智能推理能力，为解决上述挑战提供了新思路。本文系统梳理大模型技术及智能体的演化，探讨时空垂类大模型、时空计算服务智能体两条大模型技术赋能时空计算服务的路径，并分别在三维空间感知、耕地保护时空场景下对赋能路径进行实践。

关键词：时空计算服务；大模型；智能体；时空垂类大模型；时空计算服务智能体

引用格式：沈妙, 陈露元, 李然, 张丰, 朱强. 2025. 大模型技术赋能时空计算服务的思路与实践. 时空信息学报, 32(6): 620-629
Shen M, Chen L Y, Li R, Zhang F, Zhu Q. 2025. Empowering spatiotemporal computing services with large model technologies: Methods and applications. Journal of Spatio-temporal Information, 32(6): 620-629, doi: 10.20117/j.jsti.202506003

1 引言

时空智能是以高质量时空信息为基础，通过现实世界与数字世界的“全域、全量、全息、动态”同构映射，利用时空大数据分析、人工智能等技术，实现时空感知、时空认知和时空计算（陈军等，2023）。时空信息作为国家战略层面不可或缺的新型基础设施，时空计算服务的精准化和自主化已成为数字经济发展和数字中国建设的新需求（刘万增和陈军，2024）。

我国正处于数字化转型的重要时期，时空数据的爆炸式增长为时空计算服务提供了坚实的基础。然而，在实际应用场景中，现有的时空计算服务仍存在以下瓶颈与挑战：数据海量、多源、异构；工具多样、分散、割裂；场景复杂、多变、动态。数据层面，时空计算需要依赖多种数据源来获取地理、遥感、气象等数据。然而，这些数据源可能分散在不同的机构、部门或企业中，在数据格式、数据质量、数据接口等方面存在较大差异，难以统一整合与建模。工具层面，时空计算服务需要使用多种技术工具、算法、云平台来处理和分析数据，如地理信息系统（geographic information system，GIS）、遥感影像处理、空间统计等。这些基础工具可能来自不同的供应商或开发者，存在技术平台互相割裂的问题，导致不同工具之间难以兼容、难以统一计算，将使得学习和使用成本大幅增加。场景层面，不同的应用场景对时空信息的个性化需求有较大差异，如城市规划需要关注人口分布和交通流量，环境监测需要关注空气质量和水资源。应用需求的差异导致了时空计算服务的碎片化，需要根据具体场景提出定制化和专业化的解决方案。这些挑战使得时空计算服务呈现服务固化和效率低下的特点。多数服务面向单一时空业务场景，缺乏跨域共享、动态协同的建模与泛化分析能力，导致其可复用性差。因此，亟需重构测绘领域时空计算服务体系，进一步连接数据资源、算法、算力和应用工具，构建起时空智能的智能化服务底座，从而驱动测绘行业从数字化向智能化的转型升级，实现时空计算服务的提质增效。

人工智能作为全方位影响人类社会的颠覆性技术，经历了专家系统、机器学习、深度学习到大模型的发展阶段，每个阶段都给时空计算服务带来了技术创新与范式变革，助推测绘领域从数字化到智能化阶段的飞跃（杨必胜等，2023）。大模型作为数据、模型与算力的工程性整合体，具备强大的大数据处理能力、跨模态应用泛化能力及对复杂问题的理解能力，有助于解决现阶段时空计算服务因跨模态数据融合及语义一致化问题所导致的智能化决策不足的困境。因此，本文面向时空计算服务的精准化和自主化的新需求，针对当前时空计算服务所面临的数据、工具、场景三个层面的挑战，讨论大模型技术赋能时空计算服务的途径，并开展技术赋能实践。

2 大模型技术演化

大模型通常指参数规模极其庞大、基于深度学习、在海量无标注数据上进行预训练，并展现出强大通用任务处理能力的基础模型。图1展示了大模型的主要技术演化过程和重要节点。2017年Transformer架构通过自注意力机制突破序列限制，实现高效并行与长程依赖建模，为处理海量文本数据提供了强大的基础引擎（Vaswani等，2017）。Transformer模型性能随规模持续提升，2020年问世的GPT-3 拥有庞大的参数规模（1750亿参数），突破了大规模预训练的极限，表现出显著的少镜头和零镜头学习能力，其生成能力扩展到创意写作、编码和推理任务（Kaplan等，2020）。2022年ChatGPT通过监督微调（supervised fine-tuning，SFT）、基于人类反馈强化学习（reinforcement learning from human feedback，RLHF）等技术提高与人类意图的一致性并减少幻觉，以对话界面实现技术产品化跨越，引爆全球应用生态（Ouyang等，2022）。

生成大模型，如GPT-3、GPT-4，多依赖启发式思维，精通文本生成等任务，缺乏更深层次的推理和解决问题的能力（Hagendorff等，2022）。思维链技术引导模型将复杂的问题分解为更小、更易于管理的步骤，提升大模型的推理能力（Wei等，2022）。模型思考能力训练方案主要分为SFT、RLHF两类（Ouyang等，2022；Bai等，2022）。其中，SFT使用更强大的思考系统，如人类、推理大模型等系统，生成的高质量思维链数据直接引导模型模仿数据中所体现的思考过程。其实现简单、技术成熟，但对数据质量敏感，数据集准备困难。RLHF训练奖励模型，并使用各种策略优化算法，如PPO（Schulman等，2017）、GRPO（Guo等，2025）等，使模型在训练中自行探索思维链的构建。其实现困难、训练复杂，但数据集准备较为简单，可以使模型“顿悟”并增强自我反思能力。

2.1 由通到专的大模型发展路径

大模型的飞速发展开启了人工智能的新纪元。然而，通用大模型在处理高度专业化领域的任务时，存在对领域特有的术语体系理解不够精准、缺乏专业推理模式、知识更新滞后等问题（Griot等，2025；Khan等，2025；Ling等，2024）。这使得通用大模型难以满足专业场景的严苛要求（Yang等，2025）。因此，发展领域专用模型十分必要。

从通用大模型到领域大模型面临多重挑战。数据方面，高质量、大规模的领域语料稀缺且获取困难，而合成数据又需要严格的验证机制确保准确性。架构方面，通用大模型的结构难以承载专业领域的复杂逻辑，需要设计领域原生组件或改造推理机制。模型评估方面，通用大模型的通用评价指标，如文本流畅度，无法反映模型的专业能力，亟需构建领域基准。部署效率方面，专业模型通常需要在资源受限的环境中高效运行，要求通过稀疏计算、量化等手段实现轻量化，并满足具体场景的毫秒级响应需求。

从通用大模型到领域大模型的技术发展主要包括三个阶段（Yang等，2025）。早期领域大模型的构建采用微调适配策略，即在通用模型基础上，使用领域数据进行微调（Lu等，2025；Luo等，2025）。方法简单易行，但对知识深度和推理能力的提升有限。随后领域大模型尝试引入面向特定领域的模块来增强模型能力，如BloombergGPT加入了理解市场动态的时序嵌入层（Wu等，2023）。这一阶段同时注重参数效率，较小规模但精心设计的模型可以超越更大规模的通用模型。最新阶段聚焦混合系统，将大语言模型（large language model，LLM）与符号知识库和动态学习机制深度融合，能更好地支持实时知识更新和跨任务泛化（Xu等，2024）。

目前，在医疗、金融、法律等领域已开展领域大模型构建实践（Liu等，2023；Shu等，2024；Zhang等，2025）。例如，医疗领域大模型WTS（way- to-specialist），通过创新的多阶段专家调优策略，仅用30亿参数即能提供专科医生级别的诊断建议，对弥补基层医疗资源不足具有重要应用价值（Zhang等，2025）。法律领域大模型LawLLM 具备强大的法律文本理解和文书生成能力，可自动化生成法律文件、支持类案检索，显著减轻了律师的基础工作负担（Shu等，2024）。

2.2 新一代智能体

智能体（agent）作为人工智能的核心载体，其概念与实践经历了显著的演进。早期智能体可追溯至规则驱动的专家系统和反应式多智能体系统，其虽具备基础任务处理能力，但受限于静态规则，自主性及环境适应性有限（Hughes等，1990；Sycara，1998）。LLM技术的突破推动智能体范式发生根本性变革，催生出以LLM为认知引擎，通过感知–规划–执行循环实现目标驱动的新一代智能体。新一代智能体依赖LLM，结合记忆模块、工具模块、推理规划模块等多个关键组件协同工作，实现独立理解用户意图、规划并执行复杂任务序列，最终达成目标（Weng，2023）。

LLM作为新一代智能体核心的“大脑”，承担着理解指令、进行逻辑推理、将复杂目标拆解为可执行子任务、制订行动计划，以及根据反馈进行自我反思和修正的核心职责。为了维持状态和上下文感知，智能体需要强大的记忆模块。这个模块包括存储当前任务状态和对话历史的短期记忆，以及利用向量数据库或知识图谱等技术实现的长期记忆。更高级的智能体还可能具备反思记忆，记录成功或失败的经验以优化未来决策。然而，LLM本身的知识和能力是静态且有限的。为了执行具体操作，新一代智能体必须能够调用外部工具和应用程序编程接口（application programming interface，API）。这极大地扩展了其能力边界，使其能够执行搜索网络、运行代码、读写文档等实际任务。为高效、有序地管理这些任务执行过程，推理规划模块至关重要。其通常包含一个规划器和一个执行器，并通过循环控制机制根据中间结果动态调整计划。

现有通用型新一代智能体，如AgentGPT、GodMode、AutoGPT等，具有自主汇集互联网信息并生成适应语境的高质量文本的能力（Wang等，2024）。通用型智能体已成为各行业的热点方向，并逐渐分化出了领域智能体。例如，在医疗健康领域，智能体可以辅助医生进行更精确的病情诊断和处方推荐（Li等，2023）。

3 大模型技术赋能时空领域

大模型具有强大的语义理解、跨模态融合与智能推理能力，可系统性破解时空计算服务面临的多源异构数据难以统一整合、多样分散工具链存在兼容壁垒、多元动态场景需求高度碎片化三大核心难题，推动时空计算服务向智能化、一体化方向发展。大模型技术赋能时空计算服务可分为两条路径，即时空垂类大模型和时空计算服务智能体。

3.1 时空垂类大模型

时空垂类大模型是指聚焦某一类时空领域，如城市交通、气候预测，通过大模型的语义理解与跨模态融合能力，构建高精度、高专业度的时空智能模型。大模型在处理时空问题上面临多源异构数据表征不足、跨模态数据难以融合、时空约束缺失、时空专业知识融合不足等挑战。时空垂类大模型赋能时空计算服务可从数据、应用场景两方面开展。

针对多源异构的时空数据，时空垂类大模型的构建思路各不相同。对于时间知识图谱，提示工程将结构化知识转化为LLM可处理的自然语言任务，提升事件预测可解释性（Chen等，2023a；Xu等，2023b）。例如，GPT-NeoX-ICL从时间知识图谱中检索相关事实，并以四元组格式构建提示（Lee等，2023）。对于时空图数据，主要通过建模节点邻接关系与空间拓扑结构，将时空依赖注入LLM（Chen等，2023b；Liu等，2024，2025）。例如，GATGPT通过图神经网络对空间邻接关系进行编码再以序列形式构建提示输入GPT（Chen等，2023b）；ST-LLM+直接将邻接矩阵嵌入 LLM 注意力机制，使结构化时空图信息在模型内部推理过程中持续发挥作用（Liu等，2025）。对于视频数据，模型可通过多模态对齐解决时空视觉表征与文本语义的协同问题（Zhang等，2023；Xu等，2023a）。例如，Video-LLaVA使用视频Q-former捕捉视觉场景的时间变化，音频Q-former整合视听信号，并通过训练使视觉和音频编码器的输出与LLM的嵌入空间对齐（Zhang等，2023）。随着实景三维建设的发展，时空垂类大模型面临从二维到三维拓展的机遇与挑战。当前三维大模型的构建主要呈现三条技术路径。一是，基于3D的模型直接处理点云、体素或网格数据，依托三维卷积、图神经网络等架构学习空间几何关系（Chen等，2024a，2024b，2024c）。二是，基于2.5D的模型融合多视角二维图像与三维位置编码构建联合表征（Zhu等，2024；Zheng等，2025）。三是，基于2D的模型则彻底规避三维数据输入，仅凭二维图像激活视觉语言大模型的隐式空间推理能力，借助透视原理、相对尺寸等几何先验间接理解三维关系（Li等，2024）。三类方法在精度、效率与成本之间呈现明显权衡关系。

不同的应用场景对于时空计算服务的个性化需求不同。目前在交通预测、城市管理、气象预警和应急响应等多个时空场景已有探索。综合已有时空领域垂类大模型，时空垂类大模型构建多以预训练模型为底座，通过动态知识引导实现领域自适应，采用参数高效微调解决多任务冲突，最终通过专用输出层和并行架构支持工业级部署。其中，动态知识引导以提示学习为主，如基于时空记忆池生成自适应提示（Tang等，2025）、基于强化学习优化的提示路由器动态组合实例级提示（Leng等，2025）等。

3.2 时空计算服务智能体

智能体是解决时空计算服务智能化不足的关键。专家系统等早期智能体已在地形信息提取（Goodenough等，1987）、遥感图像分类（Wang 和Jamshidi，2005）等领域得到广泛应用。尽管基于专家系统的时空计算服务技术取得了良好的成果，但其依赖简单规则或先验知识构建，通常只能在指定或封闭的环境中工作，缺乏对复杂信息的推理能力。测绘领域已有一些着眼于大模型赋能的时空信息自主化服务的尝试。例如，Autonomous GIS 框架面向矢量数据建立了基于 LLM 推理核心的 GIS智能时空数据自助服务平台（Li 和 Ning，2023）。Autonomous GIS 框架验证了智能时空服务平台在测绘领域发展的可行性，但框架本身还存在诸多不成熟之处，如其时空智能自主式服务仍处于大模型指导小模型的阶段，缺少大小模型之间的协同演化能力。

实现时空计算服务自主化构建的难点在于自动理解场景目标、自主解耦任务步骤、从任务执行过程获取反馈并自我调整。以GPT为代表的大模型技术展现出强大的语言理解、知识获取和持续学习能力，可作为“大脑”为时空智能的自主构建、人机交互和协同演化提供核心支撑，从而增加智能体的决策、推理和交互能力。然而，面向多元、复杂、动态的时空场景，信息呈现多维描述、尺度效应和时空耦合机理等时空特性，如何将决策、推理、记忆、演化等时空要素融入GPT，形成时空型GPT，突破时空智能自主化服务的天花板，必须独辟蹊径。

新一代智能体以LLM为“大脑”，由规划、记忆、工具组件辅助运行。新一代智能体能够在环境中自主感知、决策与行动，并通过持续学习理解情境和优化行为，从而更好地完成给定的任务或目标。这为时空计算服务提供了新思路。参考新一代智能体的架构，面向时空计算服务需求构建时空计算服务智能体。时空计算服务智能体细化了记忆、工具和规划模块，并加强了执行模块的设计。时空计算服务智能体架构如图2所示。

1）记忆模块

记忆是时空计算服务智能体存储和保存时空数据与知识的能力，主要为智能决策提供依据和参考。记忆可以分为瞬时记忆、工作记忆、长期记忆三个不同层次，每个层次的记忆分别对应不同的数据及知识的特点与功能。瞬时记忆用于暂时存储当前感知到的信息，可以帮助智能体处理实时的时空数据，如图像、视频、点云等，并捕捉时空数据的动态变化和关联关系。工作记忆用于短期保留近期发生的事件或事实，可以帮助智能体维持时空智能体的状态，如位置、方向、目标等，以进行复杂的推理和决策。长期记用于长久保存过去经历或学习的内容，可以帮助智能体构建时空世界的模型和规律，如地图、路线、策略等，以更好地学习和利用时空规律及模式。

2）工具模块

工具是时空计算服务智能体利用外部资源和技术来扩展与增强自身能力的手段。其可以帮助智能体处理不同类型和形式的时空数据与知识，提高智能体的表达和创造能力。借鉴人类的工具使用能力，为智能体设计多类型工具的协同使用能力，包括时空场景下的感知模型、认知模型和表达模型。感知模型主要用于捕获和处理时空数据，并提取对应的特征和关系，帮助智能体构建对时空世界的初步认知。认知模型主要用于构建时空概念和规则，帮助智能体形成对时空世界的抽象理解。表达模型主要用于生成能够表达特定时空信息的时空描述或可视化结果，如图形、文字、语音等，帮助智能体展示对时空世界的主观感受。根据不同的时空数据和任务，用户可以选择或组合上述模型，通过协同交互以达到最佳的效果。

3）规划模块

规划是时空计算服务智能体根据目标和环境制订合理行动方案的能力，以适应时空场景的变化。为提高任务规划的合理性，需要结合时空场景下的数据和任务特点，以思维链等提示工程为技术基础，将时空知识、约束规范和行为反馈注入大模型，引导智能引擎优化并增强在时空场景下的规划能力，包括目标分解、方案构建、自我反思和自我批评。目标分解是指将复杂的目标分解为简单子目标的能力，可以帮助智能体降低规划难度和复杂度。方案构建是指模型根据任务制订不同方案，并对不同的行动序列进行预测和比较的能力，可以帮助智能体选择最优的行动方案。自我反思是指模型对自身的状态和行为进行评估与调整的能力，可以帮助智能体提高自身的性能和稳定性。自我批评是指模型对自身的错误和缺陷进行识别与改进的能力，可以帮助智能体提高自身的可靠性和稳健性。

4）执行模块

执行能力是控制时空计算服务智能体实施行动方案，基于规划和反馈的结果进行自主行为与优化迭代，完成测绘任务并与时空世界进行交互的能力。为了实现自主执行，需要为时空计算服务智能体设计不同类型的执行方案，包括感知–动作循环、多智能体协作、环境适应和迁移学习。感知–动作循环是指模型根据所感知到的时空数据来产生相应的动作，并根据动作所产生的影响来更新感知的能力，可以帮助智能体形成对时空世界的动态控制。多智能体协作是指智能体与其他时空模型进行信息交换和任务协调的能力，可以帮助模型提高对时空世界的社会影响。环境适应是指模型根据时空世界中不同的环境条件进行调整和变化的能力，可以帮助智能体提高对时空世界的物理影响。迁移学习是指模型将在一个时空域中所学习到的知识和技能应用到另一个时空域中的能力，可以帮助智能体提高对时空世界的泛化影响。不同执行方案的相互协作使得智能体能够适应更多、更复杂的测绘任务。

4 时空赋能实践案例

为进一步探究大模型技术赋能时空领域在实际应用场景下的潜力，分别针对时空垂类大模型和大语言模型驱动的时空计算服务智能体两种路径进行实践。在具体实践案例的选择上，充分考虑笔者团队在三维空间感知耕地保护智能体等方面的研究积累，最终选择在三维场景、耕地保护场景下进行大模型技术赋能时空领域的实践，以验证赋能思路的可行性。

4.1 三维空间感知大模型

在三维空间感知任务中，单一模型通常难以兼顾方向定位、物体计数与尺度估计等多元需求。

Route3D 框架通过异构模型协同与动态路由机制，为三维大模型落地提供了创新实践方案。Route3D框架集成了三类技术范式的专家模型。其中，基于3D的模型，如 LEO、Chat-Scene，直接处理点云数据，凭借实例分割与位置编码在方向感知和物体计数任务中表现卓越，但尺度估计能力严重不足。基于2.5D的模型，如LLaVA-3D、Video-3D LLM，融合多视角图像与三维位置嵌入，在横向方向任务中性能较好，综合表现却较弱。基于2D的模型，如 LLaVA-Next-Video-7B，仅依赖二维输入即激活潜在空间推理能力，在尺度估计和距离比较任务中显著领先，但因缺乏深度信息导致纵向定位准确率骤降。

为解决上述模型的能力割裂问题，Route3D 引入轻量级Q-Router路由模块，如图3所示。该模块解析输入问题的语义特征，通过多层感知器（multilayer perceptron，MLP）生成K维置信向量，动态调度最优模型执行任务。例如，将方向问题路由至三维专家，尺度问题路由至二维专家。路由决策仅增加不足 1% 的计算开销，实现毫秒级响应。在三维评测空间感知基准（spatial awareness benchmark，SA-Bench）上的实验，验证了有效性，移除任一类模型均导致性能下降。而动态路由机制使模型间优势互补，在方向任务中纠正三维模型的方位错误，在尺度任务中弥补二维模型的深度偏差，最终推动整体准确率提升。

Route3D 开辟了低成本高稳健的三维感知路径，无须训练新模型，仅通过集成开源大模型与轻量路由，即可构建超越统一模型性能上限的系统。其模块化设计支持灵活扩展专家池，新增神经辐射场（neural radiance field，NeRF）处理隐式表征，可快速适配机器人导航、AR交互等场景。

4.2 耕地保护智能体

耕地保护智能体为时空计算服务智能体在耕地保护场景下的具体化应用。耕地保护智能体由记忆、工具、规划和执行四大模块协同构成，构建过程分为资源库构建、单智能体构建和多智能体协同三个阶段。时空计算服务智能体构建路线如图4所示。

1）资源库构建

耕地保护资源库包括耕地服务数据库、知识库和工具库。构建过程首先对耕地遥感影像、土壤监测数据等原始时空数据进行治理，通过数据清洗、空间配准及多模态融合确保数据的时效性与空间拓扑一致性。基于治理后的高质量数据，构建三类核心资源库。其中，数据库存储结构化耕地数据，并嵌入时空校准能力；知识库通过向量化与图谱化技术，将耕地保护规则性知识转化为可计算的知识体系，并利用检索增强生成（retrieval augmented generation，RAG）和微调技术实现政策动态更新；工具库集成耕地专用分析模型及数据治理工具，并嵌入领域规则约束。三者形成数据输入、规则引导、能力执行的闭环支撑体系，为智能体提供全链路支持。

2）单智能体构建

单智能体构建是一个系统化、闭环化的过程，目的是在耕地保护场景内打造能够独立、高效并提供专业服务的智能体。单智能体构建包含垂类模型构建、工具库的深度利用、跨领域的知识模块构建三类。一是，垂类模型构建过程中，数据库为基础模型的指令微调提供核心资源，通过模态融合技术与微调策略，形成垂类模型。对于时空计算服务智能体下不同的单智能体，垂类模型不仅强化了耕地保护领域知识，还需根据感知、认知与表达等具体任务，分别适配不同的数据源、模态融合方式。二是，工具库的深度利用通过提示工程建立人机意图桥梁，结合路径优化和模型适配技术，提高工具调用效率与执行质量，实现智能体任务执行的高效性和通用性。三是，跨领域的知识模块构建则依托 RAG、深度语义检索及知识关联评估技术，实现知识的精准提取、关联优化与跨领域融合，构建智能体的记忆模块，提升内容生成的准确性、灵活性和场景适应能力。三者深度耦合，使智能体能够按序解析指令、规划任务并生成可理解输出。同时，认知反馈与自我反思机制构成持续进化闭环：认知反馈使智能体能够基于与用户和环境的交互获取外部信息，并据此调整认知模式和行为策略；自我反思机制对智能体自身的性能和决策进行内省分析，识别不足并进行优化。通过这一内外信息的双向流动，智能体在使用中不断提升认知、策略和任务执行能力，同时推动底层数据、工具和知识库的迭代升级，实现单智能体的自适应、可持续发展与智能化跃迁。

3）多智能体协同

多智能体系统通过思考、执行、观察循环框架实现复杂任务的高效协同与持续演化。思考阶段，耕地保护GPT解析任务目标，分解子任务，并规划智能体组合；执行阶段，智能体群按规划开展协同作业，如感知智能体通过卫星影像解译地表变化，认知智能体关联土地利用分类，表达智能体自动输出耕地保护方案，过程中动态适应数据更新与规则调整；观察阶段，分析任务效果与环境反馈，优化协作策略，并将典型模式沉淀至知识库，推动群体能力持续演化。

耕地保护智能体通过将多源时空数据、政策规则与专业知识深度融合，为耕地保护提供了具备自主感知、理解与决策能力的新型智能支撑体系。耕地保护智能体以记忆、工具、规划与执行四大模块协同运作，实现对耕地变化的主动识别、对政策要求的可计算化解析，以及对治理方案的自动生成与持续优化，推动耕地保护从传统的被动监测走向主动认知，从碎片化分析走向系统化治理。该智能体显著提升了非农化风险识别、适宜性评价、整治规划与效益分析等关键任务的效率及精准度，为高标准农田建设和耕地资源安全提供了持续、可靠且智能的技术支撑。

5 结语

大模型具备强大的大数据处理能力、跨模态应用泛化能力，以及对复杂问题的理解能力，有助于解决现阶段时空计算服务智能化决策不足的困境。本文系统探讨了大模型技术赋能时空计算服务的创新思路与实践路径，旨在应对当前时空计算服务所面临的数据异构性、工具链割裂及场景碎片化三大核心挑战，推动测绘领域向智能化、自主化转型升级。

本文针对时空垂类大模型和时空智能体两种大模型技术赋能时空计算服务的路径，分析了现有垂类大模型和智能体的构建方法，基于已有方法，探讨了时空垂类大模型和时空计算服务智能体的构建思路。进一步地，以三维空间感知、耕地保护等具体时空场景为例，进行了时空垂类大模型和时空计算服务智能体的实践，验证了大模型技术赋能的可行性。本文为时空计算服务从数字化迈向智能化提供了可行的思路，有助于时空计算服务的精准化和自主化发展，以满足数字经济发展和数字中国建设的新需求。

参考文献（References）

陈军, 王艳慧, 武昊, 刘万增. 2023. 时空信息赋能高质量发展的基本问题与发展方向. 时空信息学报, 30(1): 1-11[Chen J, Wang Y H, Wu H, Liu W Z. 2023. Basic issues and development directions of high-quality development empowered by spatio-temporal information. Journal of Spatio-temporal Information, 30(1): 1-11 (in Chinese)]

刘万增, 陈军. 2024. 时空信息的基本内涵与赋能机理. 地理学报, 79(5): 1099-1114[Liu W Z, Chen J. 2024. The basicconnotation and empowerment mechanism of spatio-temporal information. Acta Geographica Sinisca, 79(5): 1099-1114 (in Chinese)]

杨必胜, 陈一平, 邹勤. 2023. 从大模型看测绘时空信息智能处理的机遇和挑战. 武汉大学学报(信息科学版), 48(11): 1756-1768 [Yang B S, Chen Y P, Zou Q. 2023. Opportunities and challenges of spatiotemporal information intelligent processing of surveying and mapping in the era of large models. Geomatics and Information Science of Wuhan University, 48(11): 1756-1768 (in Chinese)]

Bai Y T, Kadavath S, Kundu S, Askell A, Kernion J, Jones A, Chen A N, Goldie A, Mirhoseini A, McKinnon C, Chen C, Olsson C, Olah C, Hernandez D, Drain D, Ganguli D, Li D, Tran-Johnson E, Perez E, Kerr J, Mueller J, Ladish J, Landau J, Ndousse K, Lukosuite K, Lovitt L, Sellitto M, Elhage N, Schiefer N, Mercado N, DasSarma N, Lasenby R, Larson R, Ringer S, Johnston S, Kravec S, El Showk S, Fort S, Lanham T, Telleen-Lawton T, Conerly T, Henighan T, Hume T, Bowman S R, Hatfield-Dodds Z, Mann B, Amodei D, Joseph N, McCandlish S, Brown T, Kaplan J. 2022. Constitutional AI: Harmlessness from AI feedback. arXiv: 2212.08073. https://arxiv.org/abs/2212.08073

Chen J, Ma L Y, Li X H, Thakurdesai N, Xu J P, Cho J H D, Nag K, Korpeoglu E, Kumar S, Achan K. 2023a. Knowledge graph completion models are few-shot learners: An empirical study of relation labeling in E-commerce with LLMs. arXiv: 2305.09858. https://arxiv.org/abs/2305.09858

Chen S J, Chen X, Zhang C, Li M S, Yu G, Fei H, Zhu H Y, Fan J Y, Chen T. 2024a. LL3DA: Visual interactive instruction tuning for omni-3D understanding, reasoning, and planning//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 26418-26428

Chen Y K, Wang X Z, Xu G D. 2023b. GATGPT: A pre-trained large language model with graph attention network for spatiotemporal imputation. arXiv: 2311.14332. https://arxiv.org/abs/2311.14332

Chen Y L, Yang S, Huang H F, Wang T, Xu R S, Lyu R Y, Lin D H, Pang J M. 2024b. Grounded 3D-LLM with referent tokens. arXiv: 2405.10370. https://arxiv.org/abs/2405.10370

Chen Y L, Cheng X Z, Huang H F, Huang R J, Liu L P, Pang J M, Wang T, Wang Z H, Xu R S, Zhao Y, Zhao Z. 2024c. Chat-scene: Bridging 3D scene and large language models with object identifiers. Advances in Neural Information Processing Systems 37. 113991-114017

Corchado J M, Bajo J, de Paz Y, Tapia D I. 2008. Intelligent environment for monitoring Alzheimer patients, agent technology for health care. Decision Support Systems, 44(2): 382-396

Goodenough D, Goldberg M, Plunkett G, Zelek J. 1987. An expert system for remote sensing. IEEE Transactions on Geoscience and Remote Sensing, GE-25(3): 349-359

Griot M, Hemptinne C, Vanderdonckt J, Yuksel D. 2025. Large Language Models lack essential metacognition for reliable medical reasoning. Nature Communications, 16: 642

Guo D Y, Yang D J, Zhang H W, Song J X, Wang P Y, Zhu Q H, Xu R X, Zhang R Y, Ma S R, Bi X, Zhang X K, Yu X K, Wu Y, Wu Z F, Gou Z B, Shao Z H, Li Z S, Gao Z Y, Liu A X, Xue B, Wang B X, Wu B C, Feng B, Lu C D, Zhao C G, Deng C Q, Ruan C, Dai D M, Chen D L, Ji D J, Li E H, Lin F Y, Dai F C, Luo F L, Hao G B, Chen G T, Li G W, Zhang H, Xu H W, Ding H H, Gao H Z, Qu H, Li H, Guo J Z, Li J S, Chen J C, Yuan J Y, Tu J H, Qiu J J, Li J L, Cai J L, Ni J Q, Liang J, Chen J, Dong K, Hu K, You K C, Gao K G, Guan K, Huang K X, Yu K, Wang L A, Zhang L C, Zhao L, Wang L T, Zhang L Y, Xu L, Xia L Y, Zhang M C, Zhang M H, Tang M H, Zhou M X, Li M, Wang M J, Li M M, Tian N, Huang P P, Zhang P, Wang Q C, Chen Q Y, Du Q S, Ge R Q, Zhang R S, Pan R Z, Wang R J, Chen R J, Jin R L, Chen R Y, Lu S H, Zhou S Y, Chen S H, Ye S F, Wang S Y, Yu S P, Zhou S F, Pan S T, Li S S, Zhou S, Wu S Q, Yun T, Pei T, Sun T Y, Wang T, Zeng W D, Liu W, Liang W F, Gao W J, Yu W Q, Zhang W T, Xiao W L, An W, Liu X D, Wang X H, Chen X K, Nie X T, Cheng X, Liu X, Xie X, Liu X C, Yang X Y, Li X Y, Su X C, Lin X H, Li X Q, Jin X Y, Shen X J, Chen X S, Sun X W, Wang X X, Song X N, Zhou X Y, Wang X Z, Shan X X, Li Y K, Wang Y Q, Wei Y X, Zhang Y, Xu Y H, Li Y, Zhao Y, Sun Y F, Wang Y H, Yu Y, Zhang Y C, Shi Y F, Xiong Y L, He Y, Piao Y S, Wang Y S, Tan Y X, Ma Y Y, Liu Y Y, Guo Y Q, Ou Y, Wang Y D, Gong Y, Zou Y H, He Y J, Xiong Y F, Luo Y X, You Y X, Liu Y X, Zhou Y Y, Zhu Y X, Huang Y P, Li Y H, Zheng Y, Zhu Y C, Ma Y X, Tang Y, Zha Y K, Yan Y T, Ren Z Z, Ren Z H, Sha Z L, Fu Z, Xu Z A, Xie Z D, Zhang Z Y, Hao Z W, Ma Z C, Yan Z G, Wu Z Y, Gu Z H, Zhu Z J, Liu Z J, Li Z L, Xie Z W, Song Z Y, Pan Z Z, Huang Z, Xu Z P, Zhang Z Y, Zhang Z. 2025. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature, 645(8081): 633-638

Hagendorff T, Fabi S, Kosinski M. 2022. Thinking fast and slow in large language models. arXiv: 2212.05206. https://arxiv.org/abs/ 2212.05206

Hughes C A, Gose E E, Roseman D L. 1990. Overcoming deficiencies of the rule-based medical expert system. Computer Methods and Programs in Biomedicine, 32(1): 63-71

Kaplan J, McCandlish S, Henighan T, Brown T B, Chess B, Child R, Gray S, Radford A, Wu J, Amodei D. 2020. Scaling laws for neural language models. arXiv: 2001.08361. https://arxiv.org/abs/ 2001.08361

Khan K, Sharma P, Mehta A, Gupta N, Narayanan R. 2025. DySK-attn: A framework for efficient, real-time knowledge updating in large language models via dynamic sparse knowledge attention. arXiv: 2508.07185. https://arxiv.org/abs/2508.07185

Lee D H, Ahrabian K, Jin W, Morstatter F, Pujara J. 2023. Temporal knowledge graph forecasting without knowledge using in-context learning//Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 544-557

Leng J M, Bi Y Y, Qin C, Yin B, Zhang Y Y, Wang C. 2025. TransLLM: A unified multi-task foundation framework for urban transportation via learnable prompting. arXiv: 2508.14782. https:// arxiv.org/abs/2508.14782

Li F, Zhang R R, Zhang H, Zhang Y H, Li B, Li W, Ma Z J, Li C Y. 2024. LLaVA-NeXT-interleave: Tackling multi-image, video, and 3D in large multimodal models. arXiv: 2407.07895. https://arxiv. org/abs/2407.07895

Li Y X, Li Z H, Zhang K, Dan R L, Jiang S, Zhang Y. 2023. ChatDoctor: A medical chat model fine-tuned on a large language model meta-AI (LLaMA) using medical domain knowledge. arXiv: 2303.14070. https://arxiv.org/abs/2303.14070

Li Z L, Ning H. 2023. Autonomous GIS: The next-generation AI-powered GIS. International Journal of Digital Earth, 16(2): 4668-4686

Ling C, Zhao X J, Lu J Y, Deng C Y, Zheng C, Wang J X, Chowdhury T, Li Y, Cui H J, Zhang X C, Zhao T J, Panalkar A, Mehta D, Pasquali S, Cheng W, Wang H Y, Liu Y C, Chen Z Z, Chen H F, White C, Gu Q Q, Pei J, Yang C, Zhao L. 2024. Domain specialization as the key to make large language models disruptive: A comprehensive survey. ACM Computing Surveys, 58(3): 1-39

Liu C X, Yang S, Xu Q X, Li Z S, Long C, Li Z Y, Zhao R. 2024. Spatial-temporal large language model for traffic prediction//2024 25th IEEE International Conference on Mobile Data Management (MDM). 31-40

Liu C X, Hettige K H, Xu Q X, Long C, Xiang S L, Cong G, Li Z Y, Zhao R. 2025. ST-LLM: Graph enhanced spatio-temporal large language models for traffic prediction. IEEE Transactions on Knowledge and Data Engineering, 37(8): 4846-4859

Liu X Y, Wang G X, Yang H Y, Zha D C. 2023. FinGPT: Democratizing Internet-scale data for financial large language models. arXiv: 2307.10485. https://arxiv.org/abs/2307.10485

Lu W, Luu R K, Buehler M J. 2025. Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities. NPJ Computational Materials, 11: 84

Luo J Y, Luo X, Chen X S, Xiao Z P, Ju W, Zhang M. 2025. Semi-supervised fine-tuning for large language models. Findings of the Association for Computational Linguistics: NAACL 2025. 2795-2808

Ouyang L, Wu J, Xu J, Almeida D, Wainwright C L, Mishkin P, Chong Z, Agarwal S, Slama K, Ray A, Schulman J, Hilton J, Kelton F, Miller L, Simens M, Askell A, Welinder P, Christiano P, Leike J, Lowe R. 2022. Training language models to follow instructions with human feedback. arXiv: 2203.02155. https://arxiv.org/abs/2203.02155

Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. 2017. Proximal policy optimization algorithms. arXiv: 1707.06347. https://arxiv.org/abs/1707.06347

Shu D, Zhao H R, Liu X K, Demeter D, Du M N, Zhang Y F. 2024. LawLLM: Law large language model for the US legal system// Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 4882-4889

Sycara K.1998. Multiagent systems. AI Magazine, 19: 79-92

Tang C, Ma X Z, Su E C, Song X F, Liu X H, Li W H, Bai L, Ouyang W L, Yue X Y. 2025. UniSTD: Towards unified spatio-temporal learning across diverse disciplines//2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 29213-29224

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser ? ukasz, Polosukhin I.2017. Attention is all you need// 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA

Wang L, Ma C, Feng X Y, Zhang Z Y, Yang H, Zhang J S, Chen Z Y, Tang J K, Chen X, Lin Y K, Zhao W X, Wei Z W, Wen J R. 2024. A survey on large language model based autonomous agents. Frontiers of Computer Science, 18(6): 186345

Wang Y, Jamshidi M. 2005. Fuzzy logic applied in remote sensing image classification//2004 IEEE International Conference on Systems, Man and Cybernetics. 6378-6382

Wei J, Wang X Z, Schuurmans D, Bosma M. 2022. Chain-of-thought prompting elicits reasoning in large language models//Proceedings of the 36th International Conference on Neural Information Processing Systems. 24824-24837

Weng L.2023. LLM powered autonomous agents. https://lilianweng. github.io/posts/2023-06-23-agent/. [2025-09-13]

Wu S J, Irsoy O, Lu S, Dabravolski V, Dredze M, Gehrmann S, Kambadur P, Rosenberg D, Mann G. 2023. BloombergGPT: A large language model for finance. arXiv: 2303.17564. https://arxiv. org/abs/2303.17564

Xu H Y, Ye Q H, Yan M, Shi Y Y, Ye J B, Xu Y H, Li C L, Bi B, Qian Q, Wang W, Xu G H, Zhang J, Huang S F, Huang F, Zhou J R. 2023a. mPLUG-2: A modularized multi-modal foundation model across text, image and video. arXiv: 2302.00402. https://arxiv. org/abs/2302.00402

Xu T H, Hu Z, Chen L, Li B. 2024. SA-MDKIF: A scalable and adaptable medical domain knowledge injection framework for large language models. arXiv: 2402.00474. https://arxiv.org/ abs/2402.00474

Xu W J, Liu B, Peng M, Jia X, Peng M. 2023b. Pre-trained language model with prompts for temporal knowledge graph completion. Findings of the Association for Computational Linguistics: ACL 2023. 7790-7803

Yang C H, Zhao R Y, Liu Y, Jiang L. 2025. Survey of specialized large language model. arXiv: 2508.19667. https://arxiv.org/abs/2508. 19667

Zhang H, Li X, Bing L D. 2023. Video-LLaMA: An instruction-tuned audio-visual language model for video understanding// Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 543-553

Zhang Y T, Chen L X, Li S H, Cao N. 2025. Way to specialist: Closing loop between specialized LLM and evolving domain knowledge graph//Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.1.1996-2007

Zheng D, Huang S J, Wang L W. 2025. Video-3D LLM: Learning position-aware video representation for 3D scene understanding// 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 8995-9006

Zhu C M, Wang T, Zhang W W, Pang J M, Liu X H. 2024. LLaVA-3D: A simple yet effective pathway to empowering LMMs with 3D- awareness. arXiv: 2409.18125. https://arxiv.org/abs/2409. 18125

↓↓ 了解更多产业要闻↓↓

请将我设为星标★