APP下载

基于语义的智能Web挖掘技术研究

2018-05-07陆宇翔黎炳燕黄祖康张捷

电脑知识与技术 2018年8期
关键词:智能技术语义

陆宇翔 黎炳燕 黄祖康 张捷

摘要:目前,基于语义的Web挖掘技术结合了语义Web与Web挖掘两个领域,并且在一定程度上促进了各自的发展。本文介绍了语义网与Web挖掘、智能代理相关概念的体系构造,并且提出了基于语义的Web挖掘信息体系模型構建智能采集体系的代理框架,通过分析表明该体系模型在一定程度上提升了信息获取的智能水平。

关键词:语义;web挖掘;智能技术

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)08-0147-01

1研究概述

Web挖掘与传统数据挖掘不同,能够有效挖掘互联网上非构造化异构Web文档集合。Web挖掘的内容的类型通常是内容、构造挖掘与使用记录挖掘。

伴随社会经济与相关资料相关技术的全面发展,搜索活动已被整合到社会经济的各个角落。相关资料搜索产业作为国内外蓬勃发展的产业,已成为社会经济体系的重要组成部分。相关资料搜索行业具有广泛的工作范围,如政策搜索、管理搜索、工程搜索、相关技术搜索、专业搜索等。各类搜索活动都体现了现代搜索的重要功能之一——科学决策。但是,伴随大数据时代的到来,相关资料的存在方式发生了巨大的变化,数据结构与传输方式多样化的多样性,使得传统的相关资料搜索服务,客户满意度低,自发化程度不高,难以满足组织与个人的需求。丰富的知识元素与智力是隐藏在巨大而多样化的相关资料背后的,但却没有及时发现与有效利用,这严重影响了相关资料搜索活动的效率。本文在观察解析文本与网络语义智能搜索服务模式与系统体系结构、文本与网络语义观察解析方法与人工智能相关技术在搜索服务中的应用的基础上,提出了提高搜索服务智能化水平的建议。

2在多主体框架下构建信息智能获得体系模型

在文本与Web语义观察解析基础上构建对象本体知识元素库。经过自然语言处理,并将非结构化文本数据观察解析为可操作的相关资料,使用结构化文本数据中的数据挖掘相关技术与工具提取相关知识元素,结合机器学习与自然语言处理相关技术相结合,实现了基于公理/规则的自发对象本体学习,并构建了领域对象本体。基于对象本体知识元素基础构建,将对象本体知识元素运用到领域知识元素的形式化,明确地对资源深度组织与利用,基于知识元素库的实现,以提供语义支持;基于对象本体知识元素库对文本与Web资源的语义注释,经过对目标文档的语义标注自发分类索引,实现网络资源与域对象本体的匹配映射。

代理是一种智能软件实体,能够在特定的环境中与相关的代理进行通信。代理人通常拥有自主权、社会性、主动与被动的反应能力、自我适应能力与机动性。

基于Web挖掘与语义Web的理论,利用智能代理技术建立了信息智能采集体系模型(agbase-basedsem iantic-ieb),并且对其进行了分析。这个体系模型包含了以下如图1所示。

基于对象本体知识元素库的交互指导模式如图所示。观察解析使用者的初始需求,建立自发启发式与规则,智能地引导使用者索引相关资料,实现使用者需求挖掘;在过程中动态交互,不断使用对象本体知识元素库推论,使用自然语言观察解析相关技术,结合对象本体知识元素库,实现使用者的自发解析与查询扩展,使使用者在索引相关资料问题的过程中自发识别、诊断、交互搜索,设置使用者问题与搜索系统相关阈值,进行边界筛选来解决问题;经过知识元素管理、积累与动态更新搜索服务知识元素、相关技术与流程,搜索服务伴随使用者、资源与相关技术的变化而发展。建立搜索与转发机制,及时搜索与解决系统不能解决的问题。

对象本体代理的主要任务是维护对象本体库,以更新与共享对象本体知识元素。对象本体代理使用对象本体的语义知识元素,并扩展查询请求,即语义处理,语义过滤与结果集群处理是为了提高返回相关资料的相关性。我们还能够利用Web挖掘相关技术来辅助对象本体论学习来丰富与扩充对象本体论数据库。

使用者代理与对象本体代理与索引代理进行交互,以完成使用者的查询请求的提交、概念提取与返回结果的可视化,以及使用者的评价与反馈。当使用者代理接收到使用者的查询请求时,它使用对象本体代理来执行语义扩展与其他处理,然后将处理过的查询请求发送给索引代理以获取相关资料。使用者代理处理返回的结果并执行可视化处理,同时学习使用者的反馈与评估。

RDF数据库主要是从数据源中存储相关资料采集代理,并以RDF格式、资源数据单元、三元组(AOV)形式、挖掘数据预处理(如语义标注等)的属性与属性值,同时也为对象本体学习做准备。对象本体库是该系统的核心部分,它提供了共享的语义知识元素,并澄清了RDF数据的概念、关系与推论规则。它是对象本体学习与集成的基础,为其他代理提供了共享的语义支持,并存储与管理了对象本体代理所发现的新对象本体。

协调代理是多代理系统的重要组成部分,主要负责协调相关资料获取代理、对象本体代理、挖掘代理、搜索代理等各种代理行为,并使对象本体RDF数据库与代理实现有效的数据传输与交互。

运用概率推论与证据推论,模糊推论,如不可控性推论方法,定量表达人们的主观判断与处理,在搜索服务的过程中解决知识元素的不可控性,不可控性相关资料的计算,以及不确定的资源语义解释;利用可靠性的方法,主观的Bayes方法在代表与测量、匹配算法与阈值选择不可控性的搜索质量评价指标体系中,解决了证据组合与结论不可控性综合问题的不可控性,定性与定量观察解析的结合效应;以d-s证据理论为基础,对搜索结果的可信度进行了评价,并对推论过程进行了解释。

3结论

在当前阶段,使用语义Web挖掘能够有效地提升信息获取的智能程度。本文以语义Web挖掘信息体系模型为基础,在智能采集体系中应用智能代理技术,在一定程度上使用了代理通信与协调机制,提升了整个体系与智能层的性能。但体系模型需要在实践中进一步完善,下一步是继续研究本体的自动学习算法与多个代理协调机制,优化Web挖掘基于语义信息的智能采集体系模型。

猜你喜欢

智能技术语义
语言与语义
一次设备智能化技术在智能变电站的探讨
智能技术在电力系统自动化中的运用研究
电气自动化控制中的人工智能技术探究
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
“深+N季”组配的认知语义分析
语义分析与汉俄副名组合
修辞的基础——语义和谐律