一种基于文本要素的栅格地质图文本提取与图文检索研究
张星怡1,张雅欣2,陈璐3,徐世光4,
王鑫瑞2,郑坤5,赵飞2
1. 云南大学 国际河流与生态安全研究院,昆明 650500;
2. 云南大学 地球科学学院,昆明 650500;
3. 陕西师范大学 地理科学与旅游学院,西安 710119;
4. 云南地矿工程勘察集团有限公司,昆明 650220;
5. 中国地质大学(武汉) 地理与信息工程学院,武汉 430070
摘 要:近年来,地质领域积累了大量以栅格形式存储的地质图件,属于非结构化数据,难以实现大规模的高效检索与有效利用。为此,本文从大数据与深度学习、自然语言处理相结合的角度,探讨基于文本要素的栅格地质图文本提取与图文检索研究。首先,构建基于HBase与分布式文件系统(Hadoop distributed file system,HDFS)的分布式存储体系;其次,基于BERT-CRF模型对地质报告中的关键信息进行自动抽取,增强其语义表达能力;最后,通过TF-IDF等文本匹配算法,实现图文间的语义关联与高效检索,提出栅格地质图文本提取与图文检索实现方法。结果表明:实际可用文本利用率,由光学字符阅读器的51.7%提高到本文方法的82.3%;相较于已有TextRank方法,单篇报告平均耗时从14.2 s降低到2.7 s,效率提升了426%;能够处理大规模地质数据,适应不同规模的数据集,支持实时存储与检索。
关键词:栅格地质图;地质报告;文本提取;语义匹配;图文检索
引用格式:张星怡, 张雅欣, 陈璐, 徐世光, 王鑫瑞, 郑坤, 赵飞. 2025. 一种基于文本要素的栅格地质图文本提取与图文检索研究. 时空信息学报, 32(3): 266-275
Zhang X Y, Zhang Y X, Chen L, Xu S G, Wang X R, Zheng K, Zhao F. 2025. A study on text extraction and graphic retrieval from raster geological maps based on textual elements. Journal of Spatio-temporal Information, 32(3): 266-275, doi: 10.20117/j.jsti.202503010
1 引 言
地质数据是一种多来源、大数量、多类型、多格式、多尺度、多精度、标准化程度差、数字化程度不同的多源异质异构数据(吴润泽等,2018;潘岩等,2024)。其中,栅格地质图,作为地质研究的重要成果,虽然能提供地质信息的空间分布和属性特征,但非结构化数据形式限制了信息的有效提取和利用(魏东琦等,2021)。传统地质数据管理方式存在数据分散、查询效率低、数据安全性不足等问题,难以满足大规模地质图文数据的高效检索和管理需求。近年来,存储方式经历了从纸质载体到数字化存储的发展(刘瑞,2022)。大数据的发展对传统的地质数据管理与分析产生了深刻的影响,为地质数据的收集、存储、管理、分析和共享提供了新的技术手段(李丰丹,2015;刘军旗等,2021)。当前虽然分布式数据库和大数据的应用提升了管理和检索效率,但对非结构化数据的管理仍存在一定的局限性,如检索与地质信息的关联度不高,难以建立栅格地质图与地质信息的联系(孙洪亮等,2016;奥勇等,2020)。地质数据的复杂性和异构性不仅包括数字地图、卫星图像等多种类型,还涵盖地质图、截面图、地震波形等多种形式,这给地质信息检索带来诸多挑战,导致传统的文件系统管理方式难以适用(谭永杰等,2023)。
非结构化地质信息提取研究中,深度学习方法如何应用于文本提取和自然语言处理方面一直广受关注。基于图像的文本提取技术主要包括文本检测和文本匹配两部分。在文本检测方面,传统的文本检测算法复杂,且在处理复杂背景时难以做到背景与文本较好的分离(Patel和Shekokar,2014;李东勤等,2019);基于深度学习的算法显著提高了检测效率和准确性,能够提取深层次的文本特征(何小波等,2020;Nasir等,2021)。其中,DBNet(differentiable binarization network)通过引入可微分二值化机制,实现了对复杂形状文本的高精度检测,相较于已有EAST(efficient and accurate scene text)、FOTS(fast oriented text spotting)算法,DBNet在效果和性能上具备较强优势,是目前主流的文本检测算法之一(Liao等,2023;郭浩等,2023)。在完成文本检测后,需对分割出来的字符进行识别,这是实现语义理解的基础。CTC(connectionist temporal classification)、注意力机制、Transformer等深度学习方法是目前字符识别的主流方向(曾凡智等,2024)。其中,卷积递归神经网络(convolutional recurrent neural network,CRNN)转录层常采用CTC解码,尤其适用于解决不定长文本序列的字符识别问题(王振国等,2018)。
在文本匹配方面,为了提高匹配的准确性,需分析文本相似度,研究语义相似性。近年来,自然语言处理在文本语义匹配的研究上应用广泛,主要包括基于统计学的文本相似度量、基于语义分析的文本相似度量两类方法(Wang等,2019;俞琰等,2019;吴克介和王家伟,2018;佘琪星等,2020)。基于统计学的文本相似度量的原理是将特征空间进行分解,计算文本相似度,通常结合布尔权重、逆文档频率IDF(inverse document frequency)、词频-逆文档频率(term frequency-IDF,TF-IDF)等算法进行特征加权,优化文本匹配结果,其中,TF-IDF是目前使用最广泛的方法(Jalilifard等,2021)。如Wang等(2019)基于主题模型结合TF-IDF,提出了混合模型计算文本相似性。基于语义分析的文本相似度量的原理是通过建立特定领域的知识库建立词与词之间的语义关系来计算相似度;但知识库的建立复杂且繁琐,现有研究通常采用更完整的词典,如佘琪星等(2020)通过使用同义词词林计算相似度。上述研究侧重点单一,仍存在词语语义关系弱和依赖大规模语料库的问题,通常依赖单一的统计特征或字面相似度,在面对复杂的地质领域文本时,难以有效捕捉文本之间的语义关系。此外,以BERT(bidirectional encoder representations from transformers)模型等为代表的预训练模型的出现,在自然语言处理下游任务,如命名实体识别、关系抽取、关键词识别等任务中,均取得了显著效果(Li等,2024;Devlin等,2019)。但是BERT在处理长实体或嵌套实体时,会出现边界识别不准确,从而出现错误拆分术语的问题,影响后续信息提取与语义理解的效果,因此常联合序列标注层完成最终预测。条件随机场(conditional random field,CRF)是序列标注的经典方法,常与BERT模型联合使用,通过在输出层引入序列依赖建模,有效提升实体边界识别效果(Hu等,2022;关斯琪等,2023;Li等,2024)。
目前,内容复杂、信息多样的非结构化数据主要采用非关系型数据库进行存储管理,如HBase、NoSql、Cloudant等;其中,以基于分布式系统架构Hadoop的HBase分布式数据库的性能为优(李朝奎等,2022)。本文构建HBase与分布式文件系统(Hadoop distributed file system,HDFS)融合的分布式存储体系,采用融合外部知识的BERT模型(Li等,2024),结合CRF (孔珍等,2020),对地质文本中的关键词与实体进行精准抽取,增强非结构化文本的语义表达能力;通过TF-IDF文本匹配算法(马强等,2021),对文本特征进行加权,实现图文间的语义关联与高效检索,并设计实现支持图文互搜的地质图文检索系统。
2 栅格地质图文本提取与图文检索
实验技术路线如图1所示,主要包括地质图文数据存储、地质图文本识别与提取和全文检索等。对栅格地质图和地质报告进行分析处理后,基于HBase分布式数据库和HDFS实现数据的存储管理;利用DBNet(Liao等,2023)、CRNN (Xu等,2024),实现复杂背景下地质图文本的检测与识别;针对非结构化地质数据的提取,采用结合BERT-CRF模型对地质报告中的关键信息进行序列标注与关键词提取。利用TF-IDF算法(马强等,2021)实现文本特征加权,对识别结果进行匹配分析,从而实现地质图文本间的内容关联。
2.1 DBNet文本要素提取
栅格地质图的文本具有样式多样化、多尺度的特点,包含艺术字体、任意方向、曲线文字、多语言等因素。在文本检测中需要考虑到文本区域的完整性,避免不同文本之间的粘连现象。DBNet是一种基于像素级分割的自然场景文本检测算法(Liao等,2023)。将可微分二值化模块引入分割模型,使得阈值二值化过程可以通过端到端的训练优化,从而更好地分离栅格地质图中的文本区域与背景,结构如图2所示。针对栅格地质图文本检测,DBNet通过网络预测图片中每个位置处的阈值,分离栅格地质图文本背景与前景,尤其可以检测弯曲文本,得到包围曲线,实现检测任意方向和曲线文字,获得更高的提取精度和稳健性。
在获取文本信息后,进行字符识别。CRNN主要通过端到端的方式对不定长的文本序列进行识别,以解决图像的序列识别问题(曹仕奎,2022)。在栅格地质图文本识别中,卷积神经网络层负责提取栅格地质图字符的序列特征,对图像高度进行统一;递归神经网络层由长短期记忆网络构成,负责对特征序列的标签进行预测,使输出序列包含原始图像信息;转录层负责将输出的预测标签转化,形成标签序列,并通过对每帧的预测获得最高概率的标签序列,最终输出栅格地质图的文本信息。
2.2 TF-IDF算法文本语义匹配
对栅格地质图提取出的文本要素及待检索栅格地质图对应的文本,进行分词处理。实验使用jieba分词工具,加载地质基本词典库,并将文本与专业词典库优先匹配,以提升分词效果。进一步地,需要在最终分词语料基础上确定分词对其所在文本的重要程度,通过相似度的计算反映匹配关系。采用TF-IDF算法(马强等,2021)对栅格地质图文本分词后的结果进行过滤,优化检索效果:
式中,TF(d,w)为特征词w在栅格地质图提取的文本d中的词频;N为栅格地质图提取的文本中的文本总数;n为包含特征词w的文本数。经向量归一化处理:
式中,|d|为文档集中的文本总数。
采用TF-IDF算法(马强等,2021)的计算结果作为标准,为词语设置权重。通过余弦相似度的相似度度量方法(Park等,2020),计算待检索图像对应的文本与用户提供文本间的相似性,并根据匹配程度的大小进行排序,展示相似度较高的文本对应的图像,达到以图搜图或以文搜图的效果。
2.3 BERT-CRF模型图文检索实现
为了捕捉深层次的语义相似性,实验利用BERT-CRF模型提取地质报告的关键词。BERT是以利用大规模无标注语料训练,获得具有丰富语义信息的文本语义表示为目标的模型(Li等,2024);CRF是一种概率图模型,属于判别式模型(邱芹军等,2022)。直接对条件概率建模,能够更好地处理地质信息抽取等序列标注问题或结构化分类等问题,优化关键词的提取和文本匹配精度。
设P(y|x)为线性链条件随机场,观测序列x的条件概率为
其中:
式中,i为每条地质文本中词的位置索引;tk、sl分别为第k个、l个局部特征函数,λk、μl分别为其对应的权重;Z(x)为规范化因子,在所有可能的输出序列上求和。这是线性链条件随机场模型的基本形式,表示给定输入序列x,对输出序列y预测的条件概率。其中,tk是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置;sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置。通常,特征函数tk和sl取值1或0;当满足特征条件时取值1,否则为0(Jurafsky和Martin,2018)。CRF完全由特征函数和对应的权值λk、μl确定(Lafferty等,2001)。
实验基于开源搜索平台Solr,采用倒排索引表算法对上述提取的地质信息关键词形成倒排链表,并在其中查找与用户需求相关的词,将文章匹配结果返回给用户。
通过上述步骤,完成了索引的创建,索引通过其快速找到与用户输入的关键词或地质信息相匹配的地质报告,实现图文的高效检索功能。
3 模型测试结果与分析
基于分布式存储架构与深度学习特征提取框架,对文本识别与文本匹配的模型进行测试分析。实验环境为Windows 10 64 bit,CPU为AMD Ryzen 7 7745HX 16 GB内存、NVIDIAGeForce RTX 4060 8 GB显存。DBNet模型输入尺寸1024个像素×1024个像素、批次大小8、初始学习率0.001;CRNN模型输入高度32个像素、批次大小16、学习率0.0001;BERT-CRF模型批次大小16、学习率2×10–5。
3.1 文本识别与语义匹配
地质图上存在背景复杂、文字有间隔、文字间有符号等问题,因此需要解决让识别出的文字成词而非是单独的文字,以及筛选非地质类文本及符号两个问题。在文本检测与识别的训练中,实验数据集采用全国1∶20万数字地质图(公开版)(李晨阳等,2019),从1163幅地质图中选取1000幅作为训练集,每幅图包含大量不同类型的文本,如艺术字体、曲线文字、不同语言等。模型训练过程引入CRNN结构,通过监督学习逐步优化模型参数。使用上述剩余的163幅地质图,以及各省地质局相关网站公开的地质图,共计200幅,作为测试集,验证模型性能。
图3为文本识别在不同置信水平的累积误差情况,采用符合性预测方法,在0.86~0.96的置信水平内统计累积误差。当置信水平为0.92时,累积误差数量达到最低值。DBNet与CRNN结合的模型在识别准确性方面表现优秀,在90%以上的文本识别中,文本置信度均超过0.92,识别错误率低于0.08。表1为光学字符阅读器(optical character reader,OCR)方法与本文方法实际识别结果对比,可知,本方法在复杂背景和多样化字体的地质图上有显著优势,实际可用文本利用率从51.7%提高到82.3%,大幅降低人工复核成本;同时,通过DBNet+ CRNN的联合优化,平均识别准确率提升至90.2%,尤其在模糊文字区域提升达40%,加载地质基本词典库进行文本语义匹配后,有效筛选了非地质文本干扰,如图例边框文字和无关标注。图4为2005年北京地质图文本局部检测结果示例,表2为地质图文本检测识别测试示例的预期结果与实际结果的对比情况。大多数的文本能够被识别且识别完整,尽管有些文字虽然出现了过大的字间距,但仍可识别为完整的词汇,如“白河”。然而,仍存在一些无法避免的问题,如“汤燕河”,实际为“汤河”与“燕山”,由于“燕”与“山”两字相距过远,且“燕”字恰好标注在“汤河”两字之间,因而出现了识别错误。
3.2 文本匹配与模型测试
实验使用从地质云平台获取的8000条地质相关文本进行模型预训练,每条文本中包含不同复杂程度的文本信息,并使用从全国地质资料馆网站获取的1000篇地质报告作为测试样本输入模型进行预测。对模型的预测结果进行人工标注的比对,以评估模型的精确率、召回率及F1分数。为确保各模块功能的准确性与可靠性,编写测试用例并对其进行测试,为下一阶段的开发和后续步骤的调整提供依据。
模型训练的损失函数收敛曲线如图5所示,模型训练与测试损失整体呈下降趋势且趋于收敛,二者差距较小,表明模型拟合良好且具备较强的泛化能力。
表3为TextRank方法(荀静和杨玉珍,2018)与本文方法测试结果对比,通过对测试样本的分析,本文方法在关键词提取的精确率达到了92.5%,召回率为94.3%,F1分数为93.4%,相较于TextRank方法(荀静和杨玉珍,2018),精确率、召回率、F1分数分别提升了16.2%、25.8%和21.3%,这说明本文方法具有良好的可靠性,能够准确地识别地质报告中的关键词并进行排序。此外,TextRank方法(荀静和杨玉珍,2018)耗时3.9 h、单篇报告平均耗时14.2 s,而本文方法分别仅需0.75 h、2.7 s,效率提升了426%。部分单元测试的预期结果与实际结果示例如表4所示,能够发现实际关键词与预期关键词基本一致,偶尔可能会出现数字关键词未提取和分词不当导致轻微偏差的情况。究其原因,本文方法结合了词频统计和深度学习的语义理解,能够精准提取地质报告中的关键词,且能够较好地处理文本中的上下文关系和命名实体问题,提高了对地质报告的检索效率和准确性。
4 结 论
针对传统栅格地质图因非结构化存储方式,如纸质文档或独立图像文件,导致的信息孤岛化、检索效率低、语义关联弱等问题,本文从大数据与深度学习、自然语言处理相结合的角度,对栅格地质图及地质报告的文本提取和图文检索技术进行了研究,以提高地质数据的有效利用和关联分析能力。构建了HBase与HDFS融合的分布式存储体系,采用融合外部知识的BERT模型,结合条件随机场,对地质文本中的关键词与实体进行精准抽取,增强非结构化文本的语义表达能力;通过TF-IDF等文本匹配算法,实现了图文间的语义关联与高效检索,并设计实现支持图文互搜的地质图文检索系统。结果表明:本文方法具有更高的文本提取与文本匹配精度,相较于OCR方法,实际可用文本利用率从51.7%提高到82.3%;相较于TextRank方法(荀静和杨玉珍,2018),关键词提取的精确率、召回率和F1分数,分别提升了16.2%、25.8%、21.3%;单篇报告平均耗时从14.2 s降低到2.7 s,效率提升426%,实现了栅格数据的快速信息提取与关联匹配。针对海量数据场景,能够同时满足图片资料的信息提取与从海量图片资料中快速筛选获取用户需求资料的双重目的,具有一定的应用价值。
未来随着栅格地质图的数量增长,本文方法不仅能提升数据存储和管理效率,还可以大大加快信息的匹配与检索速度,因此在大规模地质数据处理中具备广泛的应用前景。研究成果能够有效提高地质数据的利用效率,加快地质研究和决策过程,可为地质领域的科学研究提供技术参考。
海量栅格地质图文本提取与图文检索应用是一个具有潜力的研究方向。下一步工作中,可以通过引入AI技术,以提升文本提取和图像识别的精度和效率,如通过构建地质知识图谱、增加图标识别等,提升地质数据的智能化处理和挖掘能力,从而获得更丰富的地质知识,实现更强大的识别功能。
参考文献(References)
奥勇, 李美丽, 赵永华, 孙佳佳, 付泉. 2020. 分布式数据库中数据集成与共享的研究进展. 科技与创新,(1): 31-35[Ao Y, Li M L, Zhao Y H, Sun J J, Fu Q. 2020. Research progress of data integration and sharing in distributed database. Science and Technology & Innovation, (1): 31-35 (in Chinese)]
曹仕奎. 2022. 基于深度学习的复杂环境下的文字检测与识别研究. 硕士学位论文. 南昌: 南昌大学[Cao S K. 2022. Research on text detection and recognition in the complex environment based on deep learning.Master Dissertation. Jiangxi: Nanchang University (in Chinese)]
关斯琪, 董婷婷, 万子敬, 何元生. 2023. 基于BERT-CRF模型的火灾事故案例实体识别研究. 消防科学与技术, 42(11): 1529-1534[Guan S Q, Dong T T, Wan Z J, He Y S. 2023. Fire accident case named entity recognition based on BERT-CRF model. Fire Science and Technology, 42(11): 1529-1534 (in Chinese)]
郭浩, 宁初明, 韩寿松, 李华莹. 2023. 基于DBNET与CRNN-CTC的自然环境文字识别系统. 计算机应用与软件, 40(9): 132-136[Guo H, Ning C M, Han S S, Li H Y. 2023. Natural environment character recognition system based on DBNET and CRNN-CTC. Computer Applications and Software, 40(9): 132-136 (in Chinese)]
何小波, 罗跃, 金贤锋, 刘贤. 2020. 规则匹配和深度学习结合的文本空间信息识别及定位. 地理信息世界, 27(5): 121-128[He X B, Luo Y, Jin X F, Liu X. 2020. Text spatial information recognition and location based on combination of rules matching and deep learning. Geomatics World, 27(5): 121-128 (in Chinese)]
孔珍, 张叶廷, 杜志强. 2020. 基于微博数据的地震灾情信息识别与应用. 地理信息世界, 27(6): 98-104[Kong Z, Zhang Y T, Du Z Q. 2020. Recognition and application of earthquake disaster information based on sin a micro blog data. Geomatics World, 27(6): 98-104 (in Chinese)]
李朝奎, 王露瑶, 周新邵, 唐炉亮, 张新长, 李扬. 2022. 基于HBase的矢量空间数据存储与查询方法及其应用. 地理科学, 42(7): 1146-1154[Li C K, Wang L Y, Zhou X S, Tang L L, Zhang X C, Li Y. 2022. Design and application of storage and query algorithm for vector spatial data based on HBase. Scientia Geographica Sinica, 42(7): 1146-1154 (in Chinese)]
李晨阳, 王新春, 何春珍, 吴轩, 孔昭煜, 李晓蕾. 2019. 全国1∶200000数字地质图(公开版)空间数据库.中国地质, 46(S1): 1-10[Li C Y, Wang X C, He C Z, Wu X, Kong Z Y, Li X L. 2019. China national digital geological map (public version at 1:200000 scale) spatial database. Geology in China, 46(S1): 1-10 (in Chinese)]
李东勤, 徐勇, 周万怀. 2019. 自然场景图像中的文本检测及定位算法研究——基于边缘信息与笔画特征. 重庆科技学院学报(自然科学版), 21(3): 81-83[Li D Q, Xu Y, Zhou W H. 2019. Research on text detection and location algorithm in natural scene images based on edge information and stroke features. Journal of Chongqing University of Science and Technology (Natural Sciences Edition), 21(3): 81-83 (in Chinese)]
李丰丹. 2015. 基于云GIS架构的地质信息服务关键技术研究. 博士学位论文. 北京: 中国地质大学(北京) [Li F D. 2015. Research on key technologies of geological information services based on cloud-gis architecture. Doctoral Dissertation. Beijing: China University of Geosciences(Beijing) (in Chinese)]
刘军旗, 刘强, 刘千慧, 张夏林, 林晨, 周鑫, 李国策. 2021. 大数据时代地质灾害数据管理及应用模式探讨. 地质科技通报, 40(6): 276-282, 292[Liu J Q, Liu Q, Liu Q H, Zhang X L, Lin C, Zhou X, Li G C. 2021. Discussion of geological hazard data management and application model in big data era. Bulletin of Geological Science and Technology, 40(6): 276-282, 292 (in Chinese)]
刘瑞. 2022. 纸质档案资料数字化分析——提升地质档案管理能力的重要途径. 办公室业务,(2): 135-136[Liu R. 2022. Digital analysis of paper archives-an important way to improve the management ability of geological archives. Office Operations, (2): 135-136 (in Chinese)]
马强, 王亮绪, 吴昊圆, 龚鑫, 李卓勋. 2021. 基于POI权重与频率密度的上海城市功能区变化分析. 地理信息世界, 28(4): 16-22[Ma Q, Wang L X, Wu H Y, Gong X, Li Z X. 2021. Analysis of Shanghai urban functional district changes based on POI weight and frequency density. Geomatics World, 28(4): 16-22 (in Chinese)]
潘岩, 朱庆, 郭永欣, 丁雨淋, 陈俊桦, 赵元祯, 张利国, 刘铭崴, 王强. 2024. 铁路地理地质数字孪生数据多层次时空索引方法. 时空信息学报, 31(3): 311-321[Pan Y, Zhu Q, Guo Y X, Ding Y L, Chen J H, Zhao Y Z, Zhang L G, Liu M W, Wang Q. 2024. Multi-level spatiotemporal indexing method for railway geo-geological digital twin data. Journal of Spatio-temporal Information, 31(3): 311-321 (in Chinese)]
邱芹军, 马凯, 朱恒华, 刘春华, 谢忠, 谭永健, 陶留锋. 2022. 基于BERT的三维地质建模约束信息抽取方法及意义. 西北地质, 55(4): 124-132[Qiu Q J, Ma K, Zhu H H, Liu C H, Xie Z, Tan Y J, Tao L F. 2022. BERT-based method and significance of constraint information extraction for 3D geological modelling. Northwestern Geology, 55(4): 124-132 (in Chinese)]
佘琪星, 王必聪, 刘铭, 秦兵, 王莉峰. 2020. 基于同义词词林和预训练词向量的微调方法. 中文信息学报, 34(10): 27-32[She Q X, Wang B C, Liu M, Qin B, Wang L F. 2020. A fine-tuning method based on tongyi cilin and pre-trained word embedding. Journal of Chinese Information Processing, 34(10): 27-32 (in Chinese)]
孙洪亮, 王志宝, 孙相棋, 管泽礼. 2016. 基于WebGIS与SOLR的地学可视化检索系统研究. 计算机技术与发展, 26(6): 171-174[Sun H L, Wang Z B, Sun X Q, Guan Z L. 2016. Research on geoscience visualization information retrieval system based on WebGIS and SOLR. Computer Technology and Development, 26(6): 171-174 (in Chinese)]
谭永杰, 刘荣梅, 朱月琴, 文敏. 2023. 论地质大数据的特点与发展方向. 时空信息学报, 30(3): 313-320[Tan Y J, Liu R M, Zhu Y Q, Wen M. 2023. On the characteristics and development directions of geological big data. Journal of Spatio-temporal Information, 30(3): 313-320 (in Chinese)]
王振国, 陈宏宇, 徐文明. 2018. 利用DCNN融合特征对遥感图像进行场景分类. 电子设计工程, 26(1): 189-193[Wang Z G, Chen H Y, Xu W M. 2018. Fusing features of deep convolution neural networks to achieve the scene classification of remote sensing image. Electronic Design Engineering, 26(1): 189-193 (in Chinese)]
魏东琦, 江宝得, 张静雅. 2021. 非结构化地质数据内容存储方法研究. 西北地质, 54(4): 266-273[Wei D Q, Jiang B D, Zhang J Y. 2021. Research on content storage method of unstructured geological data. Northwestern Geology, 54(4): 266-273 (in Chinese)]
吴克介, 王家伟. 2018. 基于知网与搜索引擎的词汇语义相似度计算. 计算机与现代化,(4): 90-94[Wu K J, Wang J W. 2018. Vocabulary semantic similarity computation based on how net and search engine. Computer and Modernization, (4): 90-94 (in Chinese)]
吴润泽, 程温鸣, 刘军旗, 杨建英. 2018. 三峡库区地质灾害防治信息系统及预警指挥系统数据管理模式探讨. 中国地质灾害与防治学报, 29(5): 102-107[Wu R Z, Cheng W M, Liu J Q, Yang J Y. 2018. Discussion on the data management mode of geologic disaster prevention and control information system and early warning command system in the Three Gorges Reservoir Area. The Chinese Journal of Geological Hazard and Control, 29(5): 102-107 (in Chinese)]
荀静, 杨玉珍. 2018. 基于TextRank的文本情感摘要提取方法. 计算机应用与软件, 35(10): 80-84[Xun J, Yang Y Z. 2018. Text emotion summarization extraction based on TextRank. Computer Applications and Software, 35(10): 80-84 (in Chinese)]
于晓明, 史胜楠, 甘克勤. 2020. 基于Solr的标准信息检索技术及其优化. 科学技术与工程, 20(4): 1504-1508[Yu X M, Shi S N, Gan K Q. 2020. Technology and it’s optimization of standard information retrieval based on Solr. Science Technology and Engineering, 20(4): 1504-1508 (in Chinese)]
俞琰, 陈磊, 姜金德, 赵乃瑄. 2019. 结合词向量和统计特征的专利相似度测量方法. 数据分析与知识发现, 3(9): 53-59[Yu Y, Chen L, Jiang J D, Zhao N X. 2019. Measuring patent similarity with word embedding and statistical features. Data Analysis and Knowledge Discovery, 3(9): 53-59 (in Chinese)]
曾凡智, 冯文婕, 周燕. 2024. 深度学习的自然场景文本识别方法综述. 计算机科学与探索, 18(5): 1160-1181[Zeng F Z, Feng W J, Zhou Y. 2024. Survey on natural scene text recognition methods of deep learning. Journal of Frontiers of Computer Science and Technology, 18(5): 1160-1181 (in Chinese)]
Devlin J, Chang M W, Lee K, Toutanova K. 2019. BERT: Pre-training of deep bidirectional Transformers for language understanding// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1: 4171-4186
Hu S L, Zhang H J, Hu X S, Du J F. 2022. Chinese named entity recognition based on BERT-CRF model//2022 IEEE/ACIS 22nd International Conference on Computer and Information Science (ICIS), 105-108
Jalilifard A, Caridá V F, Mansano A F, Cristo R S, da Fonseca F P C. 2021. Semantic sensitive TF-IDF to determine word relevance in documents. In: Advances in Computing and Network Communications. Singapore: Springer.327-337
Jurafsky D, Martin J H. 2018. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. Upper Saddle River: Prentice Hall
Lafferty J D, McCallum A, Pereira F C N. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data//Proceedings of the Eighteenth International Conference on Machine Learning, 282-289
Li J, Shi Y T, Li S Q. 2024. Analysis of Beijing traffic violations based on the BERT-CRF model. Promet - Traffic&Transportation, 36(2): 279-293
Liao M H, Zou Z S, Wan Z Y, Yao C, Bai X. 2023. Real-time scene text detection with differentiable binarization and adaptive scale fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(1): 919-931
Nasir T, Malik M K, Shahzad K. 2021. MMU-OCR-21: Towards end-to-end Urdu text recognition using deep learning. IEEE Access, 9: 124945-124962
Park K, Hong J S, Kim W. 2020. A methodology combining cosine similarity with classifier for text classification. Applied Artificial Intelligence, 34(5): 396-411
Patel H A, Shekokar K. 2014. A review: Text detection in natural scenes with stroke width transform. International Journal of Engineering Sciences & Research Technology, 3(11): 651-655
Wang J Y, Xu W H, Yan W H, Li C X. 2019. Text similarity calculation method based on hybrid model of LDA and TF-IDF//Proceedings of the 2019 3rd International Conference on Computer Science and Artificial Intelligence, 1-8
Xu F, Chen C B, Shang Z G, Peng Y Q, Li X B. 2024. A CRNN-based method for Chinese ship license plate recognition. IET Image Processing, 18(2): 298-311
↓↓ 了解更多产业要闻↓↓
请将我设为星标★
>>协会通知
>>近期要闻
>>协会通知
>>近期要闻
“企业家风采”“民企之光”“创新之声”“精品成果秀”“会员喜讯”“新品发布汇”“产学研合作”“国际市场”“专精特新”“科普”等主题宣传(专栏)长期征稿,欢迎投稿!
联系人:李娟 13370105015(微信)
邮箱:xc@cagis.org.cn
欢迎关注、分享