首页 > 最新动态 > 时空信息学报丨一种基于改进BERT模型的矢量数据语义分类方法
最新动态
时空信息学报丨一种基于改进BERT模型的矢量数据语义分类方法
2026-01-0817
图片
《时空信息学报》是由自然资源部主管,国家基础地理信息中心、中国地理信息产业协会、黑龙江测绘地理信息局共同主办的中文学术期刊,双月刊。为分享最新研究成果,搭建学术交流平台,中国地理信息产业协会公众号开设“时空信息学报”专栏,独家刊载《时空信息学报》论文,供广大读者研阅。欢迎产学研用各界关注、分享!

封面.jpg
目录.jpg

一种基于改进BERT模型的矢量数据语义分类方法


耿晴1,孙续锦1,杨丽1,曾长红2,任娜2,朱长青2


1湖北省测绘成果档案馆,武汉430071
2南京师范大学虚拟地理环境教育部重点实验室,南京210023


  矢量数据智能分类是利用智能化技术将未知类别的矢量数据归类到已有类别体系中,目标是实现数据智能快速准确分类、缩短数据整合周期、提升数据治理效能。现有研究在一定程度上提升了数据分类的精度,但所选取的特征有限,且面对海量数据时未充分顾及矢量数据的语义特征。因此,基于BERTbidirectional encoder representations from Transformer模型,本文提出一种基于属性文本语义解析的矢量数据分类方法Attribute-LElocal-enhanced-BERT。通过构建局部特征增强模块,挖掘数据属性字段的语义特征;并融合多层加权池化模块,建立空间对象属性文本与数据类别之间的映射关系,实现待归类矢量数据所属类别的准确判定;为验证方法可行性,与已有常用模型进行比较分析。结果表明,相较于已有模型,在线、面数据集上,本文方法性能表现优秀,对与训练数据分类体系一致度高的类型可获得超过90%预测准确率

关键矢量数据;自然语言处理;文本分类;属性引导;BERT

引用格式:耿晴孙续锦杨丽曾长红任娜朱长青. 2025. 一种基于改进BERT模型的矢量数据语义分类方法时空信息学报, 32(5): 538-545
Geng Q, Sun X J, Yang L, Zeng C H, Ren N, Zhu C Q. 2025. A semantic classification method for vector data based on 
an improved BERT model. Journal of Spatio-temporal Information, 32(5): 538-545, doi: 10.20117/j.jsti.202505005

1    

随着数字经济的快速发展,数据已成为推动社会进步和技术创新的重要生产要素,发挥数据要素作用已成为国家战略(许娟,2025陈军等,2023。数据分类是实现发挥数据要素作用的关键环节,可以提高数据管理效率、增强数据的安全性、促进数据共享。地理信息数据作为国家战略性资源,正成为数字经济的重要组成部分,开展地理信息数据分类对促进其作用发挥具有重要意义(刘万增等,2023目前,地理信息数据分类主要分为两种形式。一是,根据国家相关规范和标准对地理信息数据分类,如《基础地理信息要素分类与代码》(GB/T 13923—2022)中,根据基础地理信息属性特征、关系特征等,将地理信息数据分为定位基础、水系、居民地及设施、交通、管线、境界与政区、地貌、植被与土质、地名共九大类;二是,结合实际应用需求对地理信息数据具体分类(刘若梅和蒋景瞳,2004)。

矢量数据智能分类是利用智能化技术将未知类别的矢量数据识别、归类到已有类别体系中(朱长青等,2020;耿晴等,2025)。目前,常用智能分类方法主要包括机器学习、深度学习两类方法(刘乐源等,2024)。前者,如喻波等(2021)基于N-gram的无监督机器学习框架实现了文档数据的自动化定位和分类,结果表明在多源异构数据场景下的分类准确率在93%以上;ShiXu2018)设计了一种融合遗传算法与k均值聚类(k-means)的混合非监督分类模型,结果表明针对高维数据集的分类准确率显著优于k-meansPeng等(2021)探索了铁路敏感数据的规则驱动分类框架,利用k-means与支持向量机(support vector machineSVM)构建了双阶段分类分级流程,有效提升了数据分类精度。后者,如任加新等(2024)结合改进的卷积神经网络模型,实现了不同比例尺地形数据的分类,有效地解决了传统依赖人工所引发的效率低等问题。上述研究在一定程度上提升了数据分类精度,但所选取的特征有限;且忽视了矢量数据中属性文本所蕴含的丰富语义信息,这类信息恰是区分不同类别矢量数据的重要标识。一方面,缺乏有针对性地结合数据特征的方法,通常难以应对海量数据的复杂性,易出现精度不高等问题(朱长青等,2022Keerthana2025;彭建祥,2025)。另一方面,细节的语义层次明确了每一类地理要素所具有的属性特征(赵云鹏,2021)。因此,结合不同矢量数据的属性文本显著特征差异,从语义维度进行分类是提升矢量数据类别归类准确率的新途径。

随着人工智能的发展,BERTbidirectional encoder representations from Transformer)模型为自然语言处理带来了新思路也为矢量数据语义分类提供了新视角(Devlin等,2019;张红等,2023;张星怡等,2025;曲正等,2025)。通过大量语料训练参数得到的预训练模型,能够有效捕捉文本的复杂含义,已广泛应用于文本分类(HeidariJones2020CharbutyAbdulazeez2021,代林林等,2024)。其中,BERT相关模型针对在特定场景下效率与精度的提升表现优秀。例如,Aaditya等(2021)在微调模型时采用分层微调策略,显著提升了文本分类精度;Gao2022)提出了基于大规模数据预训练的地理表征模型GeoBERT,采用多层注意力机制挖掘了地理网格的空间语义关联特征,显著提升了分类精度;马雨萌等(2022)融合了多尺度卷积神经网络(convolutional neural networkCNN)模型,通过卷积核的多层次运算强化文本局部语义特征能力;何胜文等(2025)引入了卷积注意力模块(convolutional block attention module, CBAM),通过通道空间双层注意力机制增强了上下文结构化特征提取;喻金平和姚炫辰(2025)针对短文本语言稀疏性,构建了双通道融合策略提取特征以丰富语义信息;张典等(2025)利用深层金字塔CNN(deep pyramid CNNDPCNN)与注意力机制耦合,结合多层加权池化操作构建了局部全局特征协同表达体系。同时在地理信息领域也出现了相关研究,如齐晨虹等(2024)提出了基于RoBERTa-wwm与BiLSTM的铁路数据分类分级模型,提高了铁路数据分类分级工作效率。此外,矢量数据属性字段普遍存在文本短、专业性强、语义稀疏等特征。上述研究尽管取得了丰富成果,但在矢量数据语义分类精度方面尚不多见。

因此,基于BERT本文提出一种矢量数据语义分类方法Attribute-LE(local-enhanced)-BERT模型。利用分层微调(Sun等,2019)、多尺度CNN(Szegedy等,2015)、通道融合策略(Tan等,2022),构建局部特征增强模块,挖掘数据属性字段的语义特征;融合多层加权池化模块(赵长乐和何利力,2022),以解决短文本稀疏问题;建立空间对象属性文本与数据类别之间的映射关系,实现待归类矢量数据所属类别的准确判定;为验证方法可行性,与常用文本分类模型进行比较评价。

2  研究方法

方法构建的基本思路为结合矢量数据的属性文本信息,建立属性文本与矢量数据类别之间的特征映射,实现待归类矢量数据类别的准确判定。结合矢量数据的属性名称引导,融合局部特征增强模块与多层加权池化模块,设计矢量数据的分类判定的文本模型。

2.1  属性字段引导的矢量数据语义分类方法

1)文本特征提取模块

由于样本数据集多数为短文本,因此嵌入层对输入的文本开始位置标记为CLS;随后进行词嵌入和位置嵌入相加,得到输入序列中的综合嵌入词向量Ei;将其采用预训练的BERT模型进行微调。为避免过拟合,同时保持BERT模型在上下文理解方面的能力,参考已有研究Sun等,2019微调采用分层策略,即冻结模型的前六层参数,仅微调后六层。

公式1.jpg

公式2.jpg

式中,tokenEmbedding(wi)为将位置i处的离散词符号wi映射为稠密向量;positionEmbedding(Pi)为编码词在序列中绝对位置pi的位置嵌入向量;Hbert为经微调后的特征向量;Einput为经过输入文本的嵌入矩阵;N为输入文本的词向量数量。

2)局部特征增强模块

为增强对专业术语组合的敏感性与提升细粒度特征提取能力,利用多尺度CNNSzegedy等,2015),通过并行部署卷积核kk=234),分别捕捉不同粒度的局部模式;随后,基于通道融合策略(Tan等,2022),计算各尺度特征的权重系数,通过投影矩阵将加权的多尺度特征对齐,得到融合后的局部特征Hlocal。将全局表示与局部特征拼接,形成同时蕴含宏观语义和微观模式的特征融合体Hfusion,强化短文本中关键局部信息的表征能力。有

公式3.jpg

式中,αk为通道的重要性权重;Ck为每个卷积核的输出特征;1.jpg为局部特征对齐后的特征向量。

3)多层加权池化模块

池化层通过压缩特征维度强化关键信息提取。为解决短文本信息稀疏问题,强化稀疏文本中的核心语义信号,根据已有研究(Szegedy等,2015),采用由最大池化、平均池化与自适应池化构成的三重融合策略。即:①最大池化聚焦局部文本的最显著模式;②平均池化均衡捕捉全局语义分布;③自适应池化则引入可学习的查询向量。

根据输入特征权重调整聚合方式,对稀疏短文本侧重最大池化以提取核心词,对长文本则增强自适应池化的上下文感知。最大池化hmax、平均池化havg、自适应池化hadapt三者并行执行后,最大池化的峰值特征、平均池化的均衡语义与自适应池化的表征经拼接形成多维向量hconcat;并通过投影层统一降维至768维。有

公式4.jpg

式中,hpool为池化特征向量;LayerNorm为归一化操作;Wp为投影层p的投影矩阵;bp为偏置项。

2.2  矢量数据类别推理

基于上文所述,在全连接层、激活函数、Softmax分类器后,得到最终的文本分类标签和类别概率。其中,模型预测结果与真实标签的损失采用交叉熵损失函数(LeCun等,2015),原理为

公式5.jpg

式中,c为判定矢量数据的类别数;C为总类别数;i为样本索引;Pi,c模型对第i样本属于类别c的预测概率yi,c为模型对第i个样本属于类别c的真实标签。实验主要步骤如下所述。

1)数据输入

令输入数据的属性名称name/NAME获取的数据向量表示为2.jpg,其中,xii=12,…,n表示数据向量中的第i个字段。同时,每个数据向量对应的标签集合设为G

公式6.jpg

中,g为类别;m为集合总长度。

2)字段预测

对每条字段值,通过分类模型进行预测。通过分类模型对xi进行预测后,得到PijPij表示xi属于gj的概率。具体地,每个xi会得到一个长度为m的概率向量3.jpg,表示该字段属于各个类别的可能性。对于每个xi,将其中概率最大的类别作为该字段的预测类别,满足:

公式7.jpg

式中,4.jpgxi的预测类别。

3)类别推理

对所有字段的分类结果进行整合。针对每个gj,计算其所在字段上的累计权重值:

公式8.jpg

式中,n为字段数;δij为指示函数,当5.jpg时,δij=1;否则,为0

最终选择加权得分最高的类别作为矢量数据预测的最终类别6.jpg。若最终字段相同,则选择字段平均概率较大者作为最终类别。有

公式9.jpg

3  实验与结果分析

实验环境为64 GB内存、Intel(R) Xeon(R) Gold 5222 CPU@3.80 GHz处理器、Nvidia Quadro P40008 GB显卡。训练迭代次数为50次;根据固定迭代次数对比不同学习率训练效果,最终选择统一学习率0.0005

3.1  数据源

实验数据主要来源于OSMOpenStreetMap)网站。1给出了OSM矢量数据的分类规则。对北京、上海、南京、合肥、重庆五个地区,通过随机抽样方法采集线、面数据的name/NAME属性字段的文本信息,其中,线相关数据与OSM线数据的分类规则类似。为提高模型泛化能力,在不破坏原始样本分类情况下,对于训练数据集,选择性扩充部分文本,如线数据中roads标签类别的关键词补充某某地—某某地。将上述数据按照文本标签的形式,随机构造并标注样本数据集,经数据清洗后,进行训练。训练集、测试集和验证集按照311划分。

3.2  评估指标

为综合评估模型性能,实验选取精确率precisionPr、召回率recallReF1分数(F1 scoreF1)、总体精度(overall accuracyOA)四类指标。其中,Pr是模型预测样本在类别的样本中,实际为该类别的比例预测为该类别的样本中有多少是真的该类别;其能够衡量模型对正类预测的准确性。Re是所有实际为某类别的样本中,模型正确预测为该类别的比例即实际为该类别的样本中,有多少被模型识别为该类别;其能够反映模型对正类样本捕捉的能力。F1分数PrRe的调和平均值取值0~1,越接近1表明性能越好OA分类模型正确预测的样本数占总样本数的比例。有

公式10.jpg

式中,TP模型正确预测为类别的样本数FP模型错误预测为该类别的样本数FN模型错误预测为其他类别的样本数TN模型正确预测为其他类别的样本数

表1.jpg

3.3  结果分析

为验证方法可行性,选取基线模型、Text- CNNKim2014)、Text-RNN(Liu等,2016),进行比较评价。根据表23可知,相较于基线模型,分别对于线、面数数据集来说,本文方法的F1OA值提升了3.06%2.45%3.42%3.7%。相较于Text-CNNText-RNN:对于线数据集,本文方法F1值分别提升了9.15%9.96%OA值分别提升了9.87%8.93%;对于面数据集,本文方法F1值分别提升了6.1%7.16%OA值分别提升了6.2%5.63%。究其原因,本文方法在属性字段文本分类等短文本分类任务中,更注重联系上下文信息。

表2.jpg
表3.jpg

此外,还以其他地区,如长春市线数据、面数据为例,开展比较分析。由表4可知,本文方法的表现最优。相较于其他三个模型:在线数据集上,本文方法railwaysroadswaterways类别的OA值分别提升了3.67%3.54%4.77%6.85%6.51%7.91%7.93%4.01%9.76%;在面数据集上,本文方法在buildingsnaturallanduse类别的OA值分别提升了2.06%2.02%3.45%3.35%3.84%4.3%4.87%5.17%5.12%

表4.jpg

对于其他开源数据,随机抽取百余条属性文本预测,不同来源数据测试OA结果见表5。数据1对于水系(线)类预测较为准确;水系(面)类的预测概率则为80.01%,结果偏低。究其原因,其数据源的面数据分类体系与OSM规则的面数据分类体系非完全一致,导致类别未完全对应,因此将其误判为面数据类别natural。此外,数据1的区境界线(面)类别包括自然文化区、特殊地区、开发区、保税区,与OSM规则natural类别完全匹配,因此整体预测概率超过90%。数据2的数据源分类体系与OSM规则匹配度较高,使得整体预测概率均超过90%,效果较好。

表5.jpg

3.4  消融实验

为验证方法有效性,设置消融实验。分别添加不同模块:基线模型+局部特征增强模块(Baseline+L基线模型+多层加权池化模块(Baseline+D基线模型+局部特征增强模块+多层加权池化模块(本文方法)。由表67可知,在线数据集上,相较于基线模型,单独添加局部特征增强模块后的模型F1OA值分别提升了2.21% 1.77%;单独添加多层加权池化模块后的模型的F1OA值分别提升了0.96% 0.56%。同时,相较于Baseline+LBaseline+D模型,本文方法的F1OA值分别提升了0.85%0.69%2.1%1.9%。这表明,通过协同两个优化模块,可有效强化上下文信息关联能力。此外,在面数据集上,相较于Baseline+LBaseline+D模型,本文方法的F1OA值分别提升了1.22%1.7%,2.07%2.04%。这进一步验证了局部特征增强与加权策略的互补性优势。

表67.jpg

4    

现有通用的数据分类方法未充分顾及矢量数据的语义特征,在大数据背景下存在分类精度低、成本高的局限,针对如何构建智能化方法以提高海量数据类别信息分类精度的问题,本文提出了一种改进BERT模型的矢量数据语义分类方法。通过添加局部特征增强模块,解决基线模型捕捉短文本中细微的局部特征时存在局限性的问题;通过添加多层加权池化模块,解决短文本稀疏问题;并与已有常用模型进行比较实验。结果表明:相较于已有常用模型,本文方法的F1值平均分别提高了3.24%、7.63%、8.56%,OA值平均提高了3.08%、8.04%、7.28%;对分类体系相似程度高的数据可获得超过90%预测准确率。此外,在线、面数据集上,本文方法的F1OA结果亦相对最优,表明通过协同两个优化模块,可有效强化上下文信息关联能力。

虽然本研究在已有类别训练框架下的归类效果较好,但在跨源数据集上的表现还存在一定局限性。下一步工作将聚焦于通过构建跨源语义映射矩阵、引入对比学习框架等方法,进一步提升模型的泛化能力。


参考文献References

陈军王艳慧武昊刘万增. 2023. 时空信息赋能高质量发展的基本问题与发展方向时空信息学报, 30(1): 1-11[Chen J, Wang Y H, Wu H, Liu W Z. 2023. Basic issues and development directions of high-quality development empowered by spatio-temporal information. Journal of Spatio-temporal Information, 30(1): 1-11 (in Chinese)]

代林林, 张超群, 汤卫东, 刘成星, 张龙昊. 2024. 融合对比学习和BERT的层级多标签文本分类模型.计算机工程与设计, 45(10): 3111-3119[Dai L L, Zhang C Q, Tang W D, Liu C X, Zhang L H. 2024. Hierarchical multi-label text classification model based on contrastive learning and BERT. Computer Engineering and Design, 45(10): 3111-3119 (in Chinese)]

耿晴孙续锦杨丽张莉. 2025. 测绘档案数据分类分级方法研究与实践地理空间信息, 23(6): 133-136[Geng Q, Sun X J, Yang L, Zhang L. 2025. Research and practice of the classification and grading method of surveying and mapping archives data. Geospatial Information, 23(6): 133-136 (in Chinese)]

何胜文马银龙刘羿漩. 2025. 融合注意力机制的文本分类算法研究电脑与信息技术33(2): 1-5, 19[He S W, Ma Y L, Liu Y X. 2025. Research on text classification algorithm based on attention mechanism. Computer and Information Technology, 33(2): 1-5, 19 (in Chinese)]

刘乐源陈格格吴炜王永周帆2024数据分类分级技术研究综述计算机科学,1-31. https://kns.cnki.net/kcms/detail/detail. aspx?dbcode=CJFD&dbname=CJFD&filename=JSJA20241205003.[2024-12-09][Liu L Y, Chen G G, Wu W, Wang Y, Zhou F. 2024. A survey of data classification and grading studies. Computer Science,1-31. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode= CJFD&dbname=CJFD&filename=JSJA20241205003. [2024-12- 09] (in Chinese)]

刘若梅蒋景瞳. 2004. 地理信息的分类原则与方法研究——以基础地理信息数据分类为例测绘科学29(S1): 84-87[Liu R M, Jiang J T. 2004. Classification principle and method study of geographical informationA case of fundamental geographical information classification. Science of Surveying and Mapping, 29(S1): 84-87]

刘万增陈军赵勇李然章炜翟曦王新鹏王勇. 2023. 地理信息保密安全评估的基本问题与对策时空信息学报, 30(4): 474-481[Liu W Z, Chen J, Zhao Y, Li R, Zhang W, Zhai X, Wang X P, Wang Y. 2023. Fundamental issues and countermeasures of geographic information security assessment. Journal of Spatio-temporal Information, 30(4): 474-481 (in Chinese)]

马雨萌黄金霞王昉芮啸. 2022. 融合BERT与多尺度CNN的科技政策内容多标签分类研究情报杂志41(11): 157-163[Ma Y M, Huang J X, Wang F, Rui X. 2022. Research on multi-label classification of S & T policy content combining BERT and multi-scale CNN. Journal of Intelligence, 41(11): 157-163 (in Chinese)]

彭建祥. 2025. 深度学习模式下大数据特征集成分类算法吉林大学学报(信息科学版), 43(2): 231-237[Peng J X. 2025. Classification algorithm of big data feature integration under deep learning mode. Journal of Jilin University (Information Science Edition), 43(2): 231-237 (in Chinese)]

齐晨虹, 朱明, 欧阳慎, 赵红涛, 许丹亚. 2024. 基于RoBERTa-wwmBiLSTM模型的铁路数据分类分级方法研究信息技术与信息化, (12): 119-123[Qi C H, Zhu M, Ouyang S, Zhao H T, Xu D Y. 2024. Research on railway data classification and grading method based on RoBERTa-wwm and BiLSTM model. Information Technology and Informatization, (12): 119-123 (in Chinese)]

曲正王卷乐赵杰. 2025. 基于文本挖掘绘制全国自然灾害公众响应地图时空信息学报32(3): 307-318[Qu Z, Wang J L, Zhao J. 2025. Mapping public responses to natural disasters in China across text mining. Journal of Spatio-temporal Information, 32(3): 307-318 (in Chinese)]

任加新刘万增陈军张蓝陶远朱秀丽赵婷婷李然翟曦王海清周晓光侯东阳王勇. 2024. 知识引导的碎片化栅格地形图比例尺智能识别测绘学报, 53(1): 146-157[Ren J X, Liu W Z, Chen J, Zhang L, Tao Y, Zhu X L, Zhao T T, Li R, Zhai X, Wang H Q, Zhou X G, Hou D Y, Wang Y. 2024. Knowledge-guided intelligent recognition of the scale for fragmented raster topographic maps. Acta Geodaetica et Cartographica Sinica, 53(1): 146-157 (in Chinese)]

许娟. 2025. 数据分级分类授权确权的空间治理之道——基于国内外数据管理实践展开网络安全与数据治理44(4): 58-65[Xu J. 2025. The governance approach to data classification, grading, authorization, and right confirmation—based on domestic and international data management practices. Cyber Security and Data Governance, 44(4): 58-65 (in Chinese)]

喻波王志海孙亚东谢福进安鹏. 2021. 非结构化文档敏感数据识别与异常行为分析智能系统学报, 16(5): 932-939[Yu B, Wang Z H, Sun Y D, Xie F J, An P. 2021. Unstructured document sensitive data identification and abnormal behavior analysis. CAAI Transactions on Intelligent Systems, 16(5): 932-939 (in Chinese)]

喻金平姚炫辰. 2025. 基于双通道特征融合与对抗训练的短文本分类. 软件导24(2): 56-61[Yu J P, Yao X C. 2025. Short text classification based on dual-channel feature fusion and adversarial training. Software Guide, 24(2): 56-61 (in Chinese)]

张典刘畅陈雯柏缪祎晟吴华瑞. 2025. 融合注意力机制的MacBERTDPCNN农业文本分类模型中国农机化学报46(8): 83-89[Zhang D, Liu C, Chen W B, Miao Y S, Wu H R. 2025. MacBERTDPCNN agricultural text classification model incorporating attention mechanisms. Journal of Chinese Agricultural Mechanization, 46(8): 83-89 (in Chinese)]

张红李玥王宇. 2023. 不同出游时长下旅游景区到访特征分析——以游记文本为例时空信息学报30(1): 124-134[Zhang H, Li Y, Wang Y. 2023. Analysis of visit characteristics to tourist attractions under different travel durations: A case study of travelogue texts. Journal of Spatio-temporal Information, 30(1): 124-134 (in Chinese)]

张星怡张雅欣陈璐徐世光王鑫瑞郑坤赵飞. 2025. 一种基于文本要素的栅格地质图文本提取与图文检索研究时空信息学报32(3): 266-275[Zhang X Y, Zhang Y X, Chen L, Xu S G, Wang X R, Zheng K, Zhao F. 2025. A study on text extraction and graphic retrieval from raster geological maps based on textual elements. Journal of Spatio-temporal Information, 32(3): 266-275 (in Chinese)]

赵长乐何利力. 2022卷积神经网络中的自适应加权池化软件导刊, 21(3): 83-88[Zhao C L, He L L. 2022. Adaptive weighted pooling in convolutional neural networks. Software Guide, 21(3): 83-88 (in Chinese)]

赵云鹏. 2021. 多源矢量数据语义一致性处理关键技术研究博士学位论文. 郑州:信息工程大学[Zhao Y P.2021.Key technologies for semantic consistency processing of multi-source vector data. Doctoral Dissertation. Zhengzhou: Information Engineering University (in Chinese)]

朱长青任娜徐鼎捷. 2022. 地理信息安全技术研究进展与展望.测绘学报, 51(6): 1017-1028[Zhu C Q, Ren N, Xu D J. 2022. Geo- information security technology:Progress and prospects.Acta Geodaetica et Cartographica Sinica, 51(6): 1017-1028 (in Chinese)]

朱长青任娜周子宸孙小惠杨昊宁. 2020. 地理大数据安全技术研究现状与展望现代测绘43(6): 9-13[Zhu C Q, Ren N, Zhou Z C, Sun X H, Yang H N. 2020. Research status and prospect of security technology for geographic big data. Modern Surveying and Mapping, 43(6): 9-13 (in Chinese)]

Aaditya M D, Lal D M, Singh K P, Ojha M. 2021. Layer freezing for regulating fine-tuning in BERT for extractive text summarization// Pacific Asia Conference on Information Systems. 182

Charbuty B,Abdulazeez A. 2021. Classification based on decision tree algorithm for machine learning. Journal of Applied Science and Technology Trends, 2(1): 20-28

Devlin J, Chang M W, Lee K, Toutanova K. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding// 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT).4171-4186

Gao Y F, Xiong Y, Wang S Q, Wang H F. 2022. GeoBERT: Pre-training geospatial representation learning on point-of-interest. Applied Sciences, 12(24): 12942

Heidari M, Jones J H. 2020. Using BERT to extract topic-independent sentiment features for social media bot detection//2020 11th IEEE Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON).542-547

Keerthana G, Sherly Puspha Annabel L. 2025. A survey on big data classification. Data & Knowledge Engineering, 156: 102408

Kim Y. 2014. Convolutional neural networks for sentence classification//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).1746-1751

LeCun Y, Bengio Y, Hinton G. 2015. Deep learning. Nature, 521(7553): 436-444

Liu P, Qiu X, Huang X. 2016. Recurrent neural network for text classification with multi-task learning. Arxiv Preprint Arxiv: 1605.05101

Peng J F, Xu B M, Zhang Y X.2021.Research on key technologies for the security of railway sensitive data based on MLPS 2.0. Network Security Technology & Application,(1):138-142

Shi H B, Xu M. 2018. A data classification method using genetic algorithm and k-means algorithm with optimizing initial cluster center//2018 IEEE International Conference on Computer and Communication Engineering Technology (CCET).224-228

Sun C, Qiu X P, Xu Y G, Huang X J. 2019. How to fine-tune BERT for text classification? Chinese Computational Linguistics. Cham: Springer International Publishing.194-206

Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. 2015. Going deeper with convolutions//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 1-9

Tan Z P, Chen J, Kang Q, Zhou M C, Abusorrah A, Sedraoui K. 2022. Dynamic embedding projection-gated convolutional neural networks for text classification. IEEE Transactions on Neural Networks and Learning Systems, 33(3): 973-982



↓ 了解更多产业要闻↓↓

请将我设为星标

来源:中国地理信息产业协会(转载请注明来源,并在“阅读原文”增加本文链接


编辑:马珺荻、李   娟
审核:余   青

>>协会通知

>>近期要闻

                图片
                图片

                图片

                图片

                图片
                征稿启事
                图片

                企业家风采民企之光创新之声精品成果秀会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新科普等主题宣传(专栏)长期征稿,欢迎投稿!


                联系人:李娟 13370105015(微信)

                邮箱:xc@cagis.org.cn

                图片
                图片

                欢迎关注、分享

                点我访问原文链接