APP下载

基于文本语义的SA-LDA增量爬取图书选择与推介

2020-07-21

惠州学院学报 2020年3期
关键词:主题词增量网页

蓝 燕

(惠州学院 图书馆,广东 惠州 516007)

随着本体的应用不断深入,人工智能、知识工程和图书情报领域的研究大都集中于知识概念表示和知识组织体系方面的研究[1].然而,在图书情报领域,本体通常关联的是有关某一学科或某一领域的术语词表,并描述术语之间关系的规范和说明,这为领域本体构建行业知识库提供了保证.

传统的网络爬虫较少从主题相关度与时间等去采集页面,从而导致计算资源和网络带宽的能耗.主题网络爬虫则更加关注爬取与预先定义主题相关度较高的网页,不但能节省网络资源且能进一步提高整个数据爬取的效率[2].为快速而精准地响应图书采购前推介服务的请求,全面提升计算效率,基于文本语义的增量爬取是关键[3].然而,实现语义Web的前提是透过本体语言OWL(Web Ontology Language)来描述特定领域中的概念及其关系与公理,通过对这些概念和关系交互与推理,更好地为实现语义信息搜索提供可靠的服务.因此探讨一种能进行语义搜索与推理的知识库就显得非常关键,而本体层在提供语义级的Web共享与实现至关重要.到目前为止,关于语义Web相关的研究很多.有以识别网络论坛中的敏感话题为目标,根据网络敏感话题具有先验知识和态度倾向性等特点,提出了基于倾向性词典的特征提取方法,用于提高网络敏感话题的识别;也有提出基于语义学习对象组合的框架和算法,涉及到本体的元数据且能更加易于计算的方式动态组合描述逻辑中的推理服务;还有提出了支持多媒体应用、上下文感知的个性化搜索的架构,用于内容推荐[4].然而,针对当前语义检索建立在已有本体的基础之上,缺乏与当今不断涌现的网络资源自适应动态变化的过程,因此必须探讨增量爬取的问题,研究如何在现有互联网资源中针对行业领域术语爬取构建本体库的问题.一般地,可通过定量地计算主题词间的相关值确定它们的类属关系,并能确保同一类中的各项指标尽可能相似,从而达到合理分类的目的[5].

目前图书馆的采购活动通常是依赖书商推介最新出版书目,缺乏对当前新技术、新领域的引导.随着互联网技术的进一步应用,以网络大数据为基础,透过主题关键词的语义增量爬取进而实现书目的推介,构建领域专业技术语义库,通过已有书目进行相似度、相关度的定量计算,最终实现多目标决策算法选择差异性大且出版日期新的图书.

1 文本语义增量学习模型

针对互联网上实时动态变化的大数据,增量爬取与更新当前语义库数据就显得非常重要.当前,研究人员相继提出了多种增量式大数据特征学习模型.其中,在线学习的方式获得了学术界的巨大关注[6].这类模型每学习一个实例便更新一次学习网络的参数,能不断获取新数据的特征.随着网络规模的扩大,学习模型必须考量训练速度、学习能力和泛化能力几大因素.因此必须选择一种基于文本语义的增量学习模型,来改进文本语义归属的识别模型,通过收集用户反馈数据,提取其中有价值的信息来更新领域语义库.由此,文本语义相似度计算就显得至关重要.

通常,基于语法的相似度计算是建立在词形比较的基础上,实现的匹配较为浅显,不能区分概念的实际语义,因此论文以自然语言本体为桥梁,通过对本体概念的语义解释,实现基于语义的本体概念的相似度计算[4].

1.1 传统TF-IDF方法

基于文本的检索方法通常指的是查询关键词与文本之间的相关性.根据向量空间模型(vector space model),关键词在web文档中的重要性用该单词的TFIDF值来度量.假设单词w来自第i个web文档di中,单词w的TF-IDF值tfIdf(w)计算公式为[7]:

其中,freq(w,di)是单词 w 在文档 di中的词频,N是文档的总数,num(w)是web文档中含有单词w的总数.由于TF-IDF方法来源于文本处理领域,tfIdf(w)并不能直接地度量单词和主题之间的相关性.因此,需要进一步挖掘单词和主题之间语义联系.

1.2 自适应最优LDA模型

近年来,统计主题模型在文本分类与信息检索等领域获得了广泛的应用,主要是针对文本集合通过参数估计提取一个低维的多项式分布,从而计算词的相关性 .Self-AdaptationLatent Dirichlet Allocation(SALDA)从Dirichlet分布中抽样产生一个文本特定的主题多项式分布,然后对这些主题反复抽样产生文本中的每个词.通过采用图的形式模拟LDA中主题的产生过程,发现新的主题通常由造成主题之间相关性的词(主题分布的重叠区域)产生[8-10].然而,文中提及的行业术语正是构建主题的相关词汇,因此完全可以借鉴基于HDP(Hierarchical Dirichlet Process)的最优LDA模型选择算法,统计主题词的概率,选择相关的词实现增量爬取的过程.

LDA认为主题是固定词表上的一个多项式分布,作为一种产生式模型,可用LDA提取隐含的语义结构和文档表示.然而,在LDA中,主题服从Dirichlet分布,假定该分布建立在主题无关的基础上,很多主题之间实际上是有关联的.因此,这种假设与真实数据存在一定的距离,LDA将随着主题数目K的改变较为灵敏,导致不能很好预测与其它主题相关的词.Y.Teh运用HDP的非参数特性来解决LDA中主题数目的选取[10].

设 di, dj为两个文本,领域关键词集合为{ k1, k2, k3,…wjk≤k≤n分别为di和dj的第 k个领域关键词特征项的权重,则文本di和dj的领域关键词的相似度为,

通常,主题词相似度越小,模型最优.假定β矩阵中存在V维主题词空间,用p( wvZi)表示主题向量,主题向量之间的相关性采用余弦距离计算,

1.3 主题增量爬取

伴随着URL页面数量不断地增加,通过分类结构记录关于某一主题的上下文与外链接网页的数量.文章采用该方法不断合并与产生新的类别,仅需增加一个可以采用URL分类的方法实现增量爬取的算法,能够识别新的网页与经常变更的网页的算法,并更新已保存在本地数据库中的网页,便于减少爬取的次数,从而实现多行业主题次类别的学习,避免在庞大网络中重复主题类别的学习,其结构图如图1所示.因此设计一个六元组:

{URL-type,URL,Topic,Status,crawl-time}

在指定爬取时间crawl-time,确定当前URL的状态Status;且依据URL-type类型记录搜索相关主题Topic的URL类型机器网址URL.

图1 URL增量爬取网页结构图

增量爬算法根据URL类别爬取Web网页,如果URL类型为叶子URL,而且Status是新网页的,那么这个页面就会被爬取,还会记录这个爬取的时间.同时,计算刚被爬取下来的页面和已经被爬取下来存储到当地数据库中的属于同类型页面的爬取时间间隔.因此增量爬取的关键针对叶子页面的就是关于主题词页面选取过程,具体见前一节的文本语义相似度计算.

2 基于Entropy领域本体主题类的选择与推介

众所都知,组成行业领域本体的主题词很多.针对每一个主题,为避免大量的相似度距离计算,可以将其映射成为一类节点分布,通过计算主题的Entropy值实现层次聚类[9].

定义2.1(本体信息熵)针对包含有W1,W2,…,Wn共n个词汇的领域本体数据集S,设某词汇V具有i个相互独立的特征值{ v1, v2,… ,vi},主题词vi在数据集S中出现的次数记为|vi|,属于第 j类的实例个数记为|vij|,则本体词汇vi的信息熵为:

其中,pij= | vij||vi|是指在某词汇V上具有本体特征值vi的样本属于类Ci的概率比重.当|vi|=|vij|时,S( vi) = 0 .

定义2.2(平均相似度距离)设si,sj为任意两个节点X,Y的领域本体集,si与sj具有n个独立的特征值v1,v2,…,vn,则si与sj的相似度距离计算公式为:

d( Y, X ) 为任意两个主题词间相同主题间的平均信息熵,采用两节点间相同主题间的信息熵来衡量其相似程度.

定义2.3(类属可信度)假定Ci表示主题类别,R为需要识别的节点,在N个近邻节点总数中,Xi属于Ci类的节点,Ni为属于Ci类的近邻节点个数.则 T ( Ci, R)为R对Ci的类属可信度,计算公式为:

参考文献[3],基于Entrop信息熵的领域本体聚类算法包含如下步骤:

(3)设定阈值范围,合并距离范围内的主题节点为新的类别,新类属子集为Cs={Ci∪ Ci+1};

(4)循环计算新生成的类属与其他各类属间的距离;

(5)通过聚类,确定各类属节点为候选节点集.

现有4类不同主题词的节点,图2(a)所示中黑色方块为类属请求主题节点,针对主题词计算其信息熵,并为各主题词聚类做准备,图2(c-f)为属性聚类后的中间结果,红色圆圈标示的主题节点为各属性的可选项,最后生成的图2(b)所示的4类不同属性节点候选集进行推介.

图2 主题词聚类过程示例

3 实例验证与结论

实验过程从网页爬取的角度出发,通过计算指定的主题词相关性,构建关于主题词的领域本体集合.然后通过领域本体和主题词基于Entropy进行聚类,确定类属关系,形成候选集从而实现推介.

从Web上爬取与主题相关的数据资源,主要关注的是爬虫获取的主题资源的覆盖率和主题资源的准确度[11].然而,考虑到预先无法预知各主题的分布情况,要准确计算关于主题搜索的覆盖半径存在一定的困难.因此,针对主题爬取实验[12],可以把通过计算爬准率作为评价指标.

现从搜狗网实验室[13]提供的网页数据中抽取了5425个正文内容来验证前面提出的理论和算法,其中包括大数据主题的正文内容数3625个,其它主题的文本数目一共有1800个.选取主题词并计算相应的权值,对各网页数据表示成向量空间;然后经过以上领域主题的获取方式,使用向量余弦距离度量大数据主题文本的相似度、向量间的相关性.以图书采购的学科分类为例,针对学科类别,以各二级学科进行类属划分,与网页数据中抽取主题词进行比较,构建学科本体库.将传统TF-IDF与该文采用的AS-LDA主题提取方法进行比较,在提取的主题数为5时,各类属主题页面提取的准确度如表1所示,相对应的主题爬取精度随着页面数量的变化趋势如图3所示.

表1 学科类别相关主题类属主题数为5的准确度

(续表1)

图3 主题提取算法爬取精度比较

以语料库为基础的LDA文本建模,可以透过学科本体解析文本的主题,提取页面主题.理论上LDA应该具有其他模型所具有的建模速度,但是要提高主题词提取的效率,必须辅以主题词聚类的方法.因此,在采购图书时,指定主题词关键字后,可对主题应该对学科类属计算指定主题词相似度、相关度从而进行聚类.通常,相似度计算主要反映的是关于主题关键字和样本集中其他文本的相似程度,在设定的阈值范围根据相似度实现类属聚类,再通过Precision、Recall验证计算方法的准确性.最后,将实验结果按照召回率10%,20%,…,100%这十个点进行精确性统计,结果如表2所示.

表2 三种相似度计算的召回率和精确率

为更加直观地描述相似度计算的关系,对上述数据进行分析,绘制了三种文本相似度计算的对比图,如图4所示.

图4 三种文本相似度计算的对比

针对以上关于领域文本相似度计算的实验,基于学科领域本体采用的AS-LDA算法相似度计算与传统TF-IDF的主题词的相似度计算在相同的召回率情况下,在文本相似度计算方面的准确率要高些.其主要是因为领域本体关键词的向量空间模型和传统的关键词空间模型相比,更能表示领域文本的主题特征,可以降低特征向量的维数,增加领域关键词的权值;同时对领域关键词向量进行上位概念的关键词语义扩充,可缩小含有相同主题的文本的特征向量的距离,提高文本间的相似度.

猜你喜欢

主题词增量网页
导弹增量式自适应容错控制系统设计
提质和增量之间的“辩证”
全现款操作,年增量1千万!这家GMP渔药厂为何这么牛?
基于HTML5与CSS3的网页设计技术研究
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
“价增量减”型应用题点拨
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
《中国骨与关节杂志》2016 年第五卷英文主题词索引