大规模轨迹数据的分布式时空k近邻查询研究
徐川,徐琦,向隆刚
武汉大学测绘遥感信息工程全国重点实验室,武汉430079
摘 要:导航定位与传感器技术的高速发展产生了海量轨迹数据,既在时空数据挖掘领域发挥了重要作用又给数据查询设计带来了挑战;目前已有研究在面对时空约束同时所存在的时空k近邻查询上仍存在时间分桶固定、查询窗口膨胀等不足,因此,本文基于分布式列族数据库HBase进行大规模轨迹数据的分布式时空k近邻查询研究。首先,形式化定义轨迹及其时空k近邻查询;其次,利用GeoMesa的XZ2空间编码与TrajMesa的XZT时间编码设计HBase行键,形成时空索引策略XZ2T+、TXZ2+,并设计实现分布式的时空k近邻查询;最后,结合数据存储的分片号计算对查询窗口进行数量优化,设置时空剪枝策略。结果表明:本文方法在无查询窗口优化情况下,同等条件下查询耗时提升效果显著,在并行度为24时,点模式效率XZ2T+提升25.7%、TXZ2+提升18.9%,轨迹模式效率XZ2T+提升36.4%、TXZ2+提升40.8%;索引策略在不同k值下均表现出良好性能,其中,XZ2T+索引策略在时间窗口较小时表现更优,TXZ2+索引策略在时间窗口较大时更具优势。
关键词:轨迹数据;时空索引;分布式存储;分布式计算;时空查询;k近邻查询;时空剪枝
引用格式:徐川, 徐琦, 向隆刚. 2025. 大规模轨迹数据的分布式时空k近邻查询研究. 时空信息学报, 32(2): 168-177
Xu C, Xu Q, Xiang L G. 2025. Distributed spatiotemporal k-nearest neighbor queries for large-scale trajectory data. Journal of Spatio-temporal Information, 32(2): 168-177, doi: 10.20117/j.jsti.202502002
1 引 言
随着信息技术的飞速发展,移动设备、传感器和定位技术的普及产生了海量轨迹数据。这些数据记录了个体的移动轨迹、行为模式及其与环境之间的复杂交互,为构建空间智能提供了重要的数据支持(李任杰等,2024);同时,催生了众多基于轨迹的时空数据挖掘应用,如移动模式发现(Choi等,2017)、传染病防治(Grantz等,2020)、交通分析(肖好良等,2023)、路网提取(彭程等,2023)及轨迹预测(杜俊健等,2024)等。在众多应用场景中,存在给定时空约束条件,从大规模轨迹数据中查询最近邻k条轨迹的需求(余列冰等,2021)。例如,当游客计划前往陌生城市的多个景点旅行时,可以查询他人共享的类似旅行轨迹作为参考。
时空数据的高效查询通常依赖于在数据库中设计合理的索引策略(Tian等,2022)。经典的索引策略主要包括基于四叉树、KD树、R树等树状索引,以及基于Z曲线、Hilbert曲线等空间填充曲线的降维编码索引两类。具体地,其实现技术手段主要包括两类方案。一类是基于分布式内存计算,如TrajSpark(Zhang等,2017)、UlTraMan(Ding等,2018)、DITA(Shang等,2018)、Dragoon(Fang等,2021)等。这类方案需要具有大内存的高性能集群来提供处理环境,而普通集群的内存资源通常是相对有限的,因此可伸缩性受到限制。另一类,随着分布式数据库在时空大数据领域的广泛应用,使用其设计实现时空数据查询系统的方案成为一种趋势(谌诞楠,2022;潘岩等,2024;张政等,2025)。如THBase(Qin等,2019)、TrajMesa(Li等,2020)、P2T_kNN(余列冰等,2021)、JUST-Traj(He等,2021)等,大多基于以HBase为代表的分布式NoSQL数据库通过降维编码索引的方式进行设计。相较于树形索引,由于降维编码索引能够将轨迹数据的时空特征直接映射至字符串,形成HBase行键可利用其对字符串的索引能力,在基于HBase的分布式存储设计方案中更具优势。
基于HBase的查询系统研究已被广泛应用于解决轨迹数据的k近邻查询问题。具体地,在k近邻查询过程中,对查询条件中的空间或时间部分应用与索引策略相同的编码规则,转换为查询窗口进行下一步处理。例如,GeoMesa面向多维空间数据构建了XZ2索引支持空间查询、XZ3索引支持时空查询,可以用于在HBase中索引轨迹数据(Hughes等,2015);但XZ3在时间维度上为固定分桶,且将时空属性混合交叉编码,在执行时空k近邻查询时,易导致索引在时间维度或空间维度的过滤能力降低。THBase中提出了时空索引L-index(Qin等,2019);但时间部分T-index同样为固定时间分桶,在时空k近邻查询上效率受到了分桶跨度的制约。TrajMesa面向时间维度以分辨率自适应的XZT时间编码(Li等,2020);但k近邻查询解决方案未考虑时间条件,且索引中分片号为随机数,查询条件编码时需枚举所有分片号,在数据分片较多时出现查询窗口膨胀的问题。P2T_kNN专注于以点为查询条件的轨迹k近邻查询,首先对轨迹对象在时间上进行剖分,其次对每个时间分区内的子轨迹利用离散全球网格系统在空间上进行二次剖分(余列冰等,2021);但在时间维度上也为固定分桶。此外,还有JUST-Traj基于XZ2实现了XZ2+T索引(He等,2021)。上述研究在时间维度上为固定分桶,使得k近邻查询过程中过滤效率仍依赖时间分辨率的选择,且随机数分片号仍存在查询窗口膨胀问题。因此,本文顾及轨迹对象时空特征,首先,形式化定义轨迹及其时空k近邻查询;其次,根据XZ2空间编码(Hughes等,2015)与XZT时间编码(Li等,2020)分别提出空间串接时间的XZ2T+与时间串接空间的TXZ2+两种索引策略,利用分布式列族数据库HBase建立索引表存储数据,并基于分布式计算框架实现存算联动的分布式查询过程;最后,通过在索引策略中关联数据分片号的计算,在查询过程中优化多余的查询窗口,设置时空剪枝策略进一步提升查询效率。
2 研究方法
分布式轨迹时空k近邻查询设计的技术路线如图1所示。时空编码与索引是数据存储及查询处理的技术支撑,将轨迹数据进行分段后编码处理,采用分布式列族数据库HBase建立索引表,将数据分配存储在不同的HBase表分区Region上。在此基础上,利用分布式计算框架设计并实现时空k近邻分布式查询,在每一轮查询中:首先,对查询条件进行时空编码得到查询窗口的集合;其次,按照HBase中存储数据的分片规则对查询窗口进行分组形成不同的子查询;最后,为提高查询效率,通过探讨查询窗口生成时基于数据分片优化窗口数量的方案,并在HBase端通过协处理器Coprocessor设置时空剪枝策略,以初步过滤数据减少排序处理数据量。
实验主要关注分布式轨迹时空k近邻查询的设计与实现,其中查询对象可以是点或者轨迹,因此给出相关形式化定义如下。
定义1 轨迹 轨迹为移动对象在地理空间中经过的路径,可以由一系列按时间顺序排列的轨迹点表示,其中,Pi=(xi,yi,ti)为轨迹点i,xi、yi、ti分别代表轨迹点的经度、维度、时间戳。
定义2 轨迹时空k近邻查询 给定一个包含n个轨迹的轨迹数据集T,一个查询点或查询轨迹作为空间查询条件s,一个时间范围t =[tmin,tmax],返回包含个最近邻轨迹的集合T′,满足条件:
式中,tr为一条轨迹;dis(tr,s)为轨迹到空间查询条件的距离,按照空间查询条件的不同,可分为点到轨迹的距离和轨迹到轨迹的距离。
(1)点到轨迹的距离。两个点p1和p2之间的距离dis(p1,p2)为欧几里得距离,则点p到轨迹的距离(Zheng和Zhou,2011):
(2)轨迹到轨迹的距离。采用离散弗雷歇距离(discrete Fréchet distance,DFD)进行描述,其中两条轨迹分别为,
分别代表tr1和tr2去掉最后一个点后的轨迹,则DFD为(Eiter和Mannila,1994)
2.1 轨迹数据存储
实验使用HBase存储轨迹数据,轨迹存储Schema示意图如图2所示。其中:①轨迹索引键TrajKey,轨迹逻辑对象的索引键,由时空编码及其他信息组成;②轨迹对象标识符Tid,一个移动对象所形成的多个轨迹片段的唯一标识;③移动对象标识符Oid,一个移动对象的唯一标识,如车牌号;④轨迹点列表PointList,单个轨迹点由经度x、纬度y和时间戳t组成,并在轨迹列表中排序形成有序的轨迹序列;⑤轨迹特征信息TFeatures,存储轨迹整体的时空特征,如轨迹最小外接矩形(minimum bounding rectangle, MBR)、轨迹的起始时间tstart和结束时间tend等。
2.2 时空编码与索引
高效的时空索引策略实现为方法构建的关键环节,实验设计的时空编码基础与时空索引策略如下所述。
2.2.1 时空编码基础
空间编码与时间编码如图3所示。在空间编码方面,Z曲线将空间分成四个子空间,直到达到最大递归次数r,以此对网格进行编号。Z曲线在点对象的管理上性能较高,但扩展到多维要素,如一个多边形时,会因分辨率不同与多个网格单元相交,出现重复存储。为此,XZ-Ordering(B?xhm等,1999)在Z曲线基础上允许任意分辨率而不降低性能,解决了Z曲线处理多维要素的问题。具体地,将Z曲线编码的单元高度、宽度分别向上、向右扩大一倍,如203、212、221、230整体可以被203编码,找到能够刚好包含需要编码的多维要素MBR的最小单元作为该要素的编码,轨迹XZ2空间编码(Hughes等,2015)即轨迹MB的XZ-Ordering网格编号,在图3(b)中,tr1的编码为10,tr2的编码为203。
在时间编码方面,GeoMesa(Hughes等,2015)将时间维切分为时间跨度TimePeriod相同但不相交的TimeBin如图3(c)所示,但TimeBin本身是较为粗糙地划分,依赖于TimePeriod的选择。因此,TrajMesa(Li等,2020)提出了XZT编码,按照TimeBin进行粗划分,同时在TimeBin内部采用类似XZ-Ordering的方式对时间进行划分,如图3(d)所示。其中,需要编码的轨迹时间为TimeLine,以010的扩展范围涵盖,因此可编码为010。
2.2.2 时空索引策略
时空索引策略如图4所示。JUST-Traj(He等,2021)的XZ2+ T索引策略(图4(a))采用了固定TimePeriod的TimeBin划分,在TimeBin内建立独立的XZ2索引(Hughes等,2015),导致对任意尺度时间窗口的时空k近邻查询仍有不足。因此,实验结合XZ2编码(Hughes等,2015)与在时间维度上具有尺度自适应特性的XZT编码(Li等,2020)构建时空索引策略,如图4(b)(c)所示。可以看出,所构建的XZ2T+索引策略是在XZ2空间编码(Hughes等,2015)后串接XZT时间编码(Li等,2020),TXZ2+索引策略是在XZT时间编码(Li等,2020)后串接XZ2空间编码(Hughes等,2015)。
索引策略生成的索引键即为HBase的行键,实验构建的索引策略的行键:
式中,oid为移动对象编号;tid为轨迹编号;shard为数据分片号。具有相同shard的数据存储在同一个节点上,保证了数据集时空聚集性的特征。两种不同索引策略的shard:
式中,regionNum为预设的HBase表分区数。XZ2T+索引策略保证了相同空间范围内不同时间的数据在同一节点,因此保留了数据集在时间维度上的聚合性;TXZ2+索引策略保证了相同时间范围内数据在同一节点,因此保留了数据集在空间维度上的聚合性。
2.3 分布式k近邻查询流程
分布式查询流程示意图如图5所示。k近邻查询目标是以参考对象为中心,逐步扩展查询范围,直到找到与参考对象最近的k条轨迹。分布式k近邻查询流程主要实施步骤如下。
1)查询条件编码
根据查询条件生成缓冲区,映射为一系列编码上下界,包含可能被查询到的轨迹时间或空间编码。若为XZ2T+索引策略,会在每个空间编码上下界中进行枚举以与每个时间编码上下界组合;若为TXZ2+索引策略,会在每个时间编码上下界中进行枚举以与每个空间编码上下界组合。同时存储已查询过的窗口以去重,避免多轮查询中的窗口重复。
2)并行分组查询
索引编码第一个组成部分为数据分片号,将第一步生成的查询窗口按照分片号进行分组。具体地,将整体查询划分为不同的子查询,利用分布式计算框架Spark(Zaharia等,2010),在各节点并行执行各个子查询,查询发起端与每个子查询会生成同样规则的优先队列pq,保留最多前k个最近的轨迹,即子查询承担一部分排序的计算以降低结果收集后最终排序的计算强度。
3)下轮查询判断
查询过程中重要参数包括每次查询完成后可以加入pq的结果数量resultCount、查询无结果计数器queryNothing及最大无结果次数maxQueryNothing。是否进行下轮查询的判断为
如果查询中,pq中轨迹数量小于k且queryNothing小于预设值,则需要继续扩展查询缓冲区以找到更多的候选轨迹。即使满足上述条件,但如果上一轮的结果resultCount≠0,仍需确定当前结果是否属于前k个最近的轨迹,将查询缓冲区距离扩大倍进行下一轮查询。
当k=2时,一个完整流程的查询示例如图6所示。第一轮查询缓冲区为绿圈。与之相交的空间编码元素在层级为1时有0、1、2、3,层级为2时有03、12、21、30。在XZ2T+下,这些编码会与时间编码的上下界一一组合为查询窗口;在TXZ2+下,这些编码组成的上下界为0~3、03~03、12~12、21~21、30~30,将枚举时间编码一一组合为查询窗口。得到本轮结果{tr1}。第二轮查询为蓝圈。得到的空间编码在XZ2T+下窗口去重后剩余需要组合的编码有01、02、10、13、20、23、31、32,在TXZ2+下窗口去重后剩余需要组合的编码上下界有01~10、12~21、23~32。得到本轮结果{tr1,tr2}。第三轮查询搜索到tr3。比较tr2和tr3、tr3与查询点之间的距离更短,去掉tr2,加入tr3。若第四轮没有搜索到任何轨迹,则查询结束。得到结果为{tr1,tr3}。
2.4 查询优化
查询窗口数量优化。GeoMesa(Hughes等,2015)和TrajMesa(Li等,2020)生成的索引中,分片号是随机数,会导致查询区间与轨迹数据的实际存储位置不一致,无法直接定位到对应的Region。因此,需要对查询窗口与数据分片号进行枚举组合。这意味着每个Region都需要处理相同的查询请求。随着数据规模的不断扩展,分片数量也会不断增加,从而使相同的查询窗口将以分区数为基数呈倍数增长,增加了集群查询处理的负担。因此,实验构建的上文所述时空索引策略,分片号的生成依赖于时空编码及HBase表的预分区策略。
时空剪枝策略。在时空k近邻查询的结果处理中,需要根据计算距离进行排序,距离计算和排序均易耗时。因此,实验利用HBase提供的Coprocessor机制,通过自定义协处理器,将一部分逻辑下推到RegionServer进行处理,在存储层对数据进行初步过滤。实验设置的剪枝策略充分考虑了轨迹数据的时空特征包括两个方面,分别为:①MBR距离剪枝。考虑到轨迹数据的空间特征,在HBase中存储了从轨迹中计算得到的MBR。计算MBR到空间查询对象的距离,如果此距离大于上轮查询的最大距离,则直接过滤该轨迹。②时间范围剪枝。考虑到轨迹数据的时间特征,在HBase中存储了从轨迹中提取的时间范围。如果当前轨迹的时间范围与查询条件指定的时间窗口不相交,则直接过滤该轨迹。
3 实验与结果分析
实验使用Apache Spark 3.0.0、Apache HBase 1.4.13搭建原型系统。系统包括三个节点,每个节点均配置CentOS 7 x86_64系统,且为Region Server。其中一个节点为HMaster,配置Intel(R) Xeon(R) CPU E5-2692 v2 @ 2.20GHz 24核CPU,94 GB内存;另外两个节点配置Intel(R) Xeon(R) CPU E5-2690 v4 @ 2.60GHz 56核CPU,251 GB内存。
3.1 实验数据
实验使用开源T-Drive数据集(Yuan等,2013),包括北京市10357辆出租车的GPS点信息。时间范围为2008年2月2~8日共7 d,包含17662984个轨迹点,共计10357条轨迹,行驶总距离达900万km。实验将T-Drive数据集按照表1所示划分为五个不同的数据规模。对原始数据进行分段处理,将长轨迹切分成更具实际意义的轨迹片段,确保每个分段的时间范围不超过1 h,且去除了仅包含一个轨迹点的分段。通过预处理,得到944751个轨迹片段。
3.2 索引构建结果分析
为验证方法有效性,实验与已有研究XZ2+T(He等,2021)进行比较分析,对三种索引策略创建独立HBase表。采用存储效率较高的HBaseBulkload进行实验设置,其中,HBase表的预分区数设定为24,RDD并行度设为48。三种索引策略结果比较如图7所示。
相较于已有方法中固定的时间分桶,虽然本文方法的时间部分由XZT(Li等,2020)进行编码,计算需求更大,但三种索引策略的差异对整体过程耗时的影响相对较小,如图7所示。究其原因,在HBase表构建过程中,除了编码外还需要写入轨迹数据本身,在数据I/O操作上需要大量耗时,因此,面向大规模轨迹数据集的索引构建时,本文方法并不会因引入更多的计算而导致整体效率的下降。
3.3 分布式时空k近邻查询结果分析
实验中查询模式分为点模式和轨迹模式两种。点模式,查询点选取位置(39°54′50″N,116°29′31″E);轨迹模式,根据tid=1轨迹的空间部分进行构造。缓冲区距离初始化为1 km,maxQueryNothing=5。
1)并行度实验
k值固定为10,时间窗口为1 h,即2008-02-02 17:00:00~18:00:00,时空剪枝策略开启,查询窗口组合均为枚举所有分片号。为了确保HBase各个Region可以均衡处理查询请求,分别选择1、2、3、6、12和24作为并行度,得到不同模式下三种索引策略的并行度结果如图8所示。可以看出,整体表现为随着并行度增加,查询速度呈先显著提升,后逐渐趋于稳定。相较于XZ2+T(He等,2021),本文方法在同等条件下查询耗时明显更少,当并行度为24时,在点模式下XZ2T+效率提升25.7%、TXZ2+效率提升18.9%,轨迹模式下XZ2T+效率提升36.4%、TXZ2+效率提升40.8%。究其原因,已有方法中固定的时间分桶,查询效率依赖时间分辨率的选择,难以应对时间维上多粒度的查询,而本文方法中的XZ2+T(He等,2021)固定的时间分桶与XZT编码(Li等,2020)的TimePeriod选取为1 d,XZT编码(Li等,2020)在时间维上有分辨率自适应的效果。因此,同等条件下使用已有方法进行查询会处理更多的数据,见图8中,并行度为3之前的耗时差别尤其显著,任务并行的整体耗时在并行度为3之后出现后上升。这是由于更多的分区会带来更多的任务调度开销,后续的缓慢下降表明任务并行所带来计算效率的提升逐渐超过任务调度开销导致的性能损耗。
2)查询优化实验
本文方法的索引策略包括根据编码计算的分片号规则,使得可以在查询中优化查询窗口数量,对比查询窗口数量优化的效果,同时上述实验默认开启了时空剪枝策略,此处关闭时空剪枝策略以验证有效性。k值与时间窗口设置与上述实验相同,并行度设置24,以查询窗口优化+时空剪枝策略开启的完全优化为基准,得到不同模式下两种索引查询优化结果如图9所示。可以看出,四种情况下完全优化的效果最好,特别是相较于无时空剪枝策略的查询效率提升显著;在TXZ2+下,查询窗口优化的提升效果一般,由于时间范围在查询过程中保持不变,而空间范围会逐渐扩展,此时,TXZ2+可以使查询窗口更加集中,枚举分片号所产生的多余窗口会更少。
3)k值和时间窗口的实验
实验中,Spark并行度固定为24,对查询窗口数量进行了优化,并开启时空剪枝策略,分别选取k值为10、50、100、500、1000,时间窗口为1 h“2008-02-02 17:00:00 ~ 18:00:00”、3 h“2008-02-02 16:00:00 ~ 19:00:00”、6 h“2008-02-02 15:00:00 ~ 21:00:00”、12 h“2008-02-02 12:00:00 ~ 02-03 00:00:00”、24 h“2008-02-02 00:00:00 ~ 02-03 00:00:00”,不同k值与时间窗口结果如图10所示。可以看出,随着k值增加,查询耗时并无显著变化。究其原因,查询耗时主要集中在数据I/O操作上,HBase端时空剪枝策略并不涉及具体的排序逻辑。第一轮扫描的数据相同,数据I/O操作时间大致相同,总体耗时也基本一致。此外,以图6为例,第二轮查询在TXZ2+下的上下界01~10包括03,会导致重复扫描,因此TXZ2+在多轮查询中可能会返回重复数据,分别对比图10(a)(b)与(c)(d)中时间窗口为1 h、3 h的耗时,在查询窗口数量已优化的情况下,时间窗口较小时,XZ2T+表现更优;究其原因,此时HBase需要扫描的数据较少,TXZ2+会扫描到重复数据会影响查询速度。当时间窗口较大时,如对比图10(a)(b)与(c)(d)中时间窗口为12 h、24 h的耗时,TXZ2+需扫描的数据量远大于重复的数据量,在时间固定而空间范围变化的时空k近邻查询上的优势更加明显。
4 结 论
当前研究在面对时空约束同时所存在的时空k近邻查询上仍存在时间分桶固定、查询窗口膨胀等不足,因此,本文基于分布式列族数据库HBase进行了相关研究。通过利用XZ2空间编码(Hughes等,2015)与XZT时间编码(Li等,2020)设计HBase行键,形成时空索引策略XZ2T+、TXZ2+,进行大规模轨迹数据的分布式时空k近邻查询研究;并提出了基于数据分片的查询窗口数量优化方案,以顾及轨迹时空特征的查询剪枝策略优化了查询效率。
(1)通过在HBase中使用XZ2T+和TXZ2+索引策略管理大规模轨迹数据,实现了存算联动的分布式时空k近邻查询,设置的时空剪枝策略,提升了查询效率。在无查询窗口优化情况下,同等条件下查询耗时提升效果显著,在并行度为24时,点模式效率XZ2T+提升25.7%、TXZ2+提升18.9%,轨迹模式效率XZ2T+提升36.4%、TXZ2+提升40.8%。
(2)XZ2T+和TXZ2+索引策略表现优异。在不同的时间窗口设置下,具备各自优势。当时间窗口较小时,XZ2T+索引策略表现更优;而当时间窗口较大时,TXZ2+索引策略则更具优势。
研究成果可为处理大规模轨迹数据的查询提供有力的技术支撑。但仍存在一定的局限性,主要体现在数据密度对查询缓冲区扩展的影响,实验数据集中的数据较为密集,因此在查询缓冲区扩展设定为固定值的情况下已能取得较好的效果,而在数据分布较为稀疏的场景下不一定适用。如何设计顾及数据密度的查询缓冲区扩展策略,将是未来研究重点。
参考文献(References)
谌诞楠. 2022. 基于图划分的海量时空数据分布式均衡存储管理. 硕士学位论文. 武汉:武汉大学[Chen D N. 2022. Distributed balanced storage management of massive spatial-temporal data based on graph division. Master Dissertation. Wuhan:Wuhan University (in Chinese)]
杜俊健, 杨俊涛, 康志忠, 王旭哲, 彭城. 2024. 一种联合时空信息与社交互动特征的行人轨迹预测方法. 时空信息学报, 31(3): 337-347[Du J J,Yang J T,Kang Z Z,Wang X Z,Peng C. 2024. A pedestrian trajectory prediction method intergrating spatiotemporal information and social interaction features. Journal of Spatio- temporal Information, 31(3): 337-347, doi: 10.20117/j.jsti. 202402003 (in Chinese)]
李任杰, 韩楠, 李庆, 相东升, 杨博渊, 张杉彬, 王家伟, 吴绍伟, 黄晨. 2024. 空间数据智能中的轨迹大数据分析: 多源融合与前沿进展. 无线电工程, 54(12): 2735-2743[Li R J, Han N, Li Q, Xiang D S, Yang B Y, Zhang S B, Wang J W, Wu S W, Huang C. 2024. Trajectory big data analysis in spatial data intelligence: Multi-source integration and cutting-edge developments. Radio Engineering, 54(12): 2735-2743 (in Chinese)]
潘岩, 朱庆, 郭永欣, 丁雨淋, 陈俊桦, 赵元祯, 张利国, 刘铭崴, 王强. 2024. 铁路地理地质数字孪生数据多层次时空索引方法. 时空信息学报, 31(3): 311-321[Pan Y, Zhu Q, Guo Y X, Ding Y L, Chen J H, Zhao Y Z, Zhang L G, Liu M W, Wang Q. 2024. Multi-level spatiotemporalindexing method for railway geo- geological digital twin data. Journal of Spatio-temporal Information, 31(3): 311-321 (in Chinese)]
彭程, 唐建波, 彭举, 梅小明, 陈雪莹, 姚志鹏. 2023. 基于自适应轨迹聚类的城市路网提取与更新方法. 时空信息学报, 30(2): 209-217[Peng C, Tang J B, Peng J, Mei X M, Chen X Y, Yao Z P. 2023. Extraction and updating method for urban road networkbased on adaptive trajectory clustering. Journal of Spatio- temporal Information, 30(2): 209-217 (in Chinese)]
肖好良, 毕京学, 王腾. 2023. 基于轨迹数据的城市出租车服务空间分析研究. 时空信息学报, 30(1): 95-101[Xiao H L, Bi J X, Wang T. 2023. Research on spatial analysis of urban taxi service based on trajectory data. Journal of Spatio-temporal Information, 30(1): 95-101 (in Chinese)]
余列冰, 向隆刚, 孙尚宇, 关雪峰, 吴华意. 2021. 面向分布式列式存储的轨迹大数据k近邻查询. 武汉大学学报(信息科学版), 46(5):736-745[Yu L B, Xiang L G, Sun S Y, Guan X F, Wu H Y. 2021. kNN query processing for trajectory big data based on distributed column-oriented storage. Geomatics and Information Science of Wuhan University, 46(5): 736-745 (in Chinese)]
张政, 张江水, 曹一冰, 陈敏颉, 崔鹏雨. 2025. 面向地理实体数据的多维组织方法和分布式异构数据库存储. 时空信息学报, 32(1): 40-51[Zhang Z, Zhang J S, Cao Y B, Chen M J, Cui P Y. 2025. Multidimensional organization method for geo-entitydata and distributed heterogeneous database storage. Journal of Spatio- temporal Information, 32(1): 40-51(in Chinese)]
B?xhm C, Klump G, Kriegel H P. 1999. XZ-ordering: A space- filling curve for objects with spatial extension. Advances in Spatial Databases. Heidelberg: Springer.75-90
Choi D W, Pei J, Heinis T. 2017. Efficient mining of regional movement patterns in semantic trajectories. Proceedings of the VLDB Endowment, 10(13): 2073-2084
Ding X, Chen L, Gao Y J, Jensen C S, Bao H J. 2018. UlTraMan: A unified platform for big trajectory data management and analytic. Proceedings of the VLDB Endowment, 11(7): 787-799
Eiter T, Mannila H. 1994. Computing Discrete Fréchet Distance. Technical Report. Technische Universit?t Wien
Fang Z Q, Chen L, Gao Y J, Pan L, Jensen C S. 2021. Dragoon: A hybrid and efficient big trajectory management system for offline and online analytics. The VLDB Journal, 30(2): 287-310
Grantz K H, Meredith H R, Cummings D A T, Metcalf J E, Grenfell B T, Giles J R, Mehta S, Solomon S, Labrique A, Kishore N, Buckee C O, Wesolowski A. 2020. The use of mobile phone data to inform analysis of COVID-19 pandemic epidemiology. Nature Communications, 11(1): 4961
He H J, Li R Y, Bao J, Li T R, Zheng Y. 2021. JUST-Traj: A distributed and holistic trajectory data management system. In: Meng X F, Wang F S, Lu C T, Huang Y, Shashi S, Xie X, eds. Proceedings of the 29th International Conference on Advances in Geographic Information Systems. Beijing,China. 403-406
Hughes J N, Annex A, Eichelberger C N, Fox A, Hulbert A, Ronquest M. 2015. GeoMesa: A distributed architecture for spatio-temporal fusion. Geospatial Informatics, Fusion, and Motion Video Analytics V. Baltimore, Maryland, USA.128- 140
Li R Y, He H J, Wang R B, Ruan S J, Sui Y, Bao J, Zheng Y. 2020. TrajMesa: A distributed NoSQL storage engine for big trajectory data//2020 IEEE 36th International Conference on Data Engineering (ICDE). Dallas, TX, USA. 2002-2005
Qin J W, Ma L L, Niu J H. 2019. THBase: A coprocessor-based scheme for big trajectory data management. Future Internet, 11(1): 10
Shang Z Y, Li G L, Bao Z F. 2018. DITA: Distributed in-memory trajectory analytics//Proceedings of the 2018 International Conference on Management of Data., 725-740
Tian R J, Zhai H W, Zhang W S, Wang F, Guan Y. 2022. A survey of spatio-temporal big data indexing methods in distributed environment. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 15: 4132-4155
Yuan J, Zheng Y, Xie X, Sun G Z. 2013. T-drive: Enhancing driving directions with taxi drivers' intelligence. IEEE Transactions on Knowledge and Data Engineering, 25(1): 220-232
Zaharia M, Chowdhury M, Franklin M J, Shenker S, Stoica I. 2010. Spark: Cluster computing with working sets//Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Boston, MA. USA.10
Zhang Z G, Jin C Q, Mao J L, Yang X L, Zhou A Y. 2017. TrajSpark: A scalable and efficient in-memory management system for big trajectory data.Web and Big Data. Cham: Springer International Publishing.11-26
Zheng Y, Zhou X. 2011. Computing with Spatial Trajectories. New York: Springer Science & Business Media
↓↓ 了解更多产业要闻 ↓↓
请将我设为星标★
关于举办第八届全国高校GIS青年教师讲课竞赛的通知(第二号) 关于召开2025地理信息技术创新大会的通知 关于召开首届地理信息创新成果发布推介交流会的通知(第二号) 关于举办人工智能与地理信息技术融合创新与应用(青岛)培训班的通知 关于做好教育培训和交流研讨工作的通知 关于持续开展地理信息产业投融资需求征集和对接工作的通知 关于缴纳会费的通知
“企业家风采”“民企之光”“创新之声”“精品成果秀”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”等主题宣传(专栏)长期征稿,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享