APP下载

基于自然语言处理的空间信息检索优化应用研究

2023-03-24黄以宝

中国信息化 2023年11期
关键词:标引信息检索检索

文|黄以宝

空间信息技术已经成为众多行业发展重要组成部分,这使得空间信息数据数量、质量日益上升,对数据存储、数据检索等工作增加了难度,尤其是多样化、复杂化空间信息元数据,给搜索领域带来诸多挑战。本文主要分析自然语言发展现状,明确自然语言处理空间信息检索的优势,而后剖析现阶段自然语言检索存在的不足,并提出了具体优化应用对策,旨在运用自然语言处理工具,优化空间信息检索效果。

一、引言

自然语言处理本质上就是建立在统计学基础上的机器学习方法,可以处理、理解自然语言。将自然语言应用到信息搜索引擎中,能够更好理解用户搜索行为,提升空间信息检索准确性,为用户带来良好使用体验。不少学者一直在探索尝试在空间信息检索中应用自然语言处理技术,目的在于使系统更好理解人类自然语言,发挥这一处理工具作用,提高检索效果。

二、自然语言技术应用发展概况

国外相关领域研究者要早于国内学者发现自然语言工具性,并尝试将其应用到计算机编程语言中,以此提高用户操作便利性,进一步提高网络检索质量,为用户带来良好的使用体验。由于国外研究技术受到较大局限,导致研究范围非常有限,只能利用自然语言检索简单内容,通过自然语言处理一些单一的文档、断句,或者分析简单句子。在此后发展过程中,国外才有学者提出将自然语言应用到空间信息检索领域中,并在不断研究中构建受控语言的性能、信息检索质量问题,使得复合词、各词之间的权重问题得到合理解决。

相比之下,我国在自然语言处理应用研究方面起步晚,直到20世纪90年代才受到相关领域重视。起初国内学者在研究自然语言处理技术时,只是单一的注重汉语自然语言标注,研究内容并不全面。随着计算机技术推广普及,为满足更多用户多元化需求,相关领域学者进行了进一步探究。从实际研究过程看,不仅遇到诸多挑战,也受到汉语语言本身复杂性、多样性影响,再加上我国学者缺乏自然语言检索方面的理论、技术方面的支持,导致自然语言应用到信息检索领域研究工作各个环节备受阻碍,直接影响了此项技术在国内的发展速度。

三、自然语言处理技术的优势

一是具有较强针对性。在空间信息检索中应用自然语言处理,可以针对性地检索相关语言。比如在文献、资料中随意选取一个词语,将该词语作为关键词用于检索相关内容,能够直接精确到具体的段落,这也足以证明自然语言处理方式具有极高的针对性。

二是准确性极高。自然语言包含了大量文献作者的书面语言,属于一个庞大的书面语言库,因此,借助自然语言进行信息搜索,可以直接具体到指定的位置,检索准确性非常突出。当用户根据自身需求进行分类查询时,可以根据不同学科分类检索,这与查询方式同以往传统受控语言相比,更加准确快捷。

三是检索更加方便快捷。传统检索会受到语言本身的限制,相比之下,基于自然语言处理技术的空间信息检索更加便利,可以快速检索。前提是用户选择的检索关键词与中心文献词语意思相近,若是意思偏离较大则无法体现这种便捷性、准确性。用户只需要使用自然语言,便可快速检索,并获得精准信息内容。

四是更新速度较快。对于一些文献中出现的新词语,用户可以将新词语纳入到检索系统中,并设置对应的检索入口。与以往局限于语言搜索的方式相比,此种检索方法适用性更强,用户只需要转换相关词义,利用一些意思、类型相近的规范化语句便可完成检索任务,此种检索适用范围更大,覆盖面更广。

五是具有较低容错率。在空间信息检索中应用自然语言,能够拓展多条路径,作为检索入口,这在很大程度上可以降低出错率,有效防止受控语言搜索路径少而产生的一系列问题。

六是具有较高的自动化水平。由于自然语言诞生在大数据、互联网+环境下,所以语言标引更加方便、快捷,具有较高的自动化水平,用户在实际应用过程中,可以节约更多时间,提高检索效率,整体应用体验感较好。

七是节省更多时间和精力。基于自然语言处理下的空间信息检索有统一标准。以往受控语言检索中主要由标引人员完成大量工作,但标引人员作为独立个体,其在学识、专业素养方面存在明显差异。同时不同人的理解能力、判断能力不同,所以极易导致词语分类、选词路径差异,进而影响到使用者信息检索。相比之下,自然语言处理方法可以很好的规避这些现象,标准统一,很多自然语言主要选自“现成词语”,所以即便解释不同,其总体上也不会出现较大误差,能够保证为用户提供统一的解释,使得用户信息检索节省更多时间和精力。

四、现阶段自然语言检索存在的不足

通过上文分析不难发现,将自然语言应用到空间信息检索中,具有明显优势,也表现出更为广阔的发展前景。从实际应用情况看,其中也存在一些不足,若想更好发挥自然语言检索作用,有必要重视这些问题。经过具体分析后可知,若是自然语言应用中不采用任何方式限制标引词语,会导致搜索中出现较多的近义词、同义词,并且词和词之间的关联,也无法进行准确提示。在不设限制的情况下,会直接影响检索准确性,无法得到精准检索信息,出现一些明显的错误搭配,导致信息检索范围更大。除此之外,一些搜索引擎在开发设置阶段就不完善,比如缺乏明确的分类,各科目间界限模糊,知识体系梳理不明、缺乏严谨逻辑性等,都会严重影响到信息检索质量,导致检索速度得不到提高。

总体来看,目前自然语言检索主要问题可以概括为两点:一是怎样才能提取自然文本库中最主要、最核心的词语来明确表达,针对用户需求可以及时准确满足;二是改变一些不规范用语、语义关联性等问题。汉语言不仅语义复杂,而且有的汉语中词与词之间缺乏明确的分割符号,往往一个汉字可以与其他多个汉字组合,最终表达的意思也多种多样,不同词语在不同语境下表达的含义也存在较大差异,针对此类问题,若想使得计算机处理过程中可以准确表达,必须克服断句难题,同时也要做到准确识别一些汉字与词语的具体连接,才能保证语句中相关语气词的理解正确。

五、自然语言应用于空间信息检索的分析

(一)掌握用户的检索偏好

在信息化时代,计算机依托互联网技术得到进一步发展,同时大众对信息检索的需求也发生了极大改变,以往代替检索的中介性行为已经无法迎合受众需求,并且这种方式也很难实现大量数据资料的复制和应用。现代社会多样化发展,使得人们在信息检索中,更想获得知识并相互联系,由此获得新知识,而非单一的将目录相关内容直接提供给用户。现阶段,网络搜索功能开发与研究工作不断深入,为更好满足各类用户多样化需求,必须高度关注并深入了解用户对空间信息检索的喜好等特点,全面了解并熟练掌握不同使用者的搜索习惯和行为,并与使用者过往搜索行为进行对比,找出其中存在的误差,以此作为依据和导向,逐步优化、提升用户体验感,减少错误情况。

(二)智能化检索技术

现代社会,将智能化技术引入到信息检索中,可以进一步提高检索技术智能化水平。智能化检索技术主要原理就是通过模拟人脑,结合相关词语,借助大数据、云计算技术,精准、快速分析出用户想要获取的信息,并进行展现。现阶段进行智能检索主要分为三个步骤:第一是理解语义;第二是管理知识;第三是搜索知识。用户根据自身需求输入关键词后,系统会自动识别相关词义,并进行分类处理,而后提取数据库中的准确含义,通过整理后最终呈现给用户。在自然语言检索中,最为关键的技术就是智能代理技术,该技术包含了一些关键性智能化程序,当用户在不断搜索时,该智能化程序会分析、学习用户的搜索行为,了解用户实际偏好,在此基础上,通过搜索系统找出用户需求的信息,在实际应用中可以进一步提高用户信息检索效率。同时,智能化检索技术也会不断更新,更好为用户服务。可以说,智能化检索技术是结合用户需求而不断发展的,通过不断分析、建立智能化数据库,构建智能搜索模式,可以满足数据库自动维护、数据库自动更新等功能,简化检索流程,节省用户搜索时间。

(三)混合检索技术的运用

在空间信息检索中,混合检索技术的应用受到业内人士广泛重视,混合检索技术地主要工作机理就是对自然语言的良好控制,防止出现一些相近词义大范围出现的情况。深入分析混合检索技术可知,其主要就是构建一种混合词表,在设计混合词表过程中,并没有具体要求,对精确度也不高,属于一种较大范围的词表,并且数量非常少,通常只要几百个词汇便可形成一种长条形的检索流程。用户在搜索标引词语时,无法精确到具体的词语,只需要输入一个模糊的词语,便可将文献、资料中的词语提取出来。此种混合检索方式,不仅包含了传统受控语言,也借助自然语言检索,具有一定复杂性。

(四)自然语言的优化应用

一方面,需要从先控技术入手,加强优化。所谓先控技术,主要就是在技术使用前建立一个与自然语言、检索语言相对应的语言库,当中包含了自然语言和检索语言,用户在运用自然语言检索所需信息时,计算机系统可以结合对应的自然语言,找出相关检索语言,借助这种互换体系,实现对文本库内容的精准检索。在实际检索中,该方法仅仅是一小部分,对原有标引工具、相关数据信息并无影响,由于其存在可以提升受控语言性能,使自然语言自身的优势得以充分发挥,这在很大程度上可以提高检索准确性,进而降低容错率,对使用者带来很好的使用体验。

另一方面,除了先控技术之外,检索过程中还涉及到后控技术,后控技术主要应用在人工智能检索系统、后控词表中。用户利用关键词进行检索后,在人工智能检索技术作用下,可以分析、分类用户自然语言,在此基础上,运用一些数据进行转化,并在计算机系统下准确识别、规范检索要求,使得对应指令传达给后续程序,最终检索任务顺利完成。分析这一过程不难发现,后控技术在检索技术中发挥着重要作用,若用户输入自然语言后,智能化机器可以结合自然语言情况,在后控词表中提取出准确、规范的词语,展现给用户。用户也可以根据提示,小范围检索。此技术可以作为自然语言检索的补充,有效提高检索精准度。应用此种方法,能够在一定程度上放宽对标引阶段的控制。与此同时,当用户利用这种方法进行检索时,能够以一个关键词切入,而后从文本库内搜索出大量与之相近的等级词、近义词。用户在检索过程中,并不需要考虑自己搜索的主题、关键词是什么,以及到底有哪些近义词、等级词等情况,而是直接利用后控技术,获得更多相关词语,并且获取速度更快、检索任务完成效率更高,这对用户而言,会减少使用负担,提高检索效率,带来更多体验。

六、结束语

综上所述,在自然语言检索技术发展中,我国虽然起步较晚,但随着技术人员不断实践与探究,已经获得很大的发展空间,各领域学者也都提高了对自然语言的重视程度。在日后研究中,希望有关学者和相关领域研究人员可以从其他语言学角度入手,深入探究存在于自然语言检索过程中的问题,并不断积累经验,积极创新发展。

猜你喜欢

标引信息检索检索
2019年第4-6期便捷检索目录
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
医学期刊编辑中文献信息检索的应用
专利检索中“语义”的表现
本刊对来稿中关键词标引的要求
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施
本刊对来稿中关键词标引的要求
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例