大数据背景下数字资源聚合及服务推荐研究

2019-11-30周琴海南医学院孙小江海南职业技术学院

数码世界 2019年9期

周琴海南医学院孙小江海南职业技术学院

背景

大数据时代，学习信息资源的爆炸式增长和学习者精准化、个性化需求之间的矛盾越发凸显。学习资源的持续增长和扩充已远远超出了个体的信息处理能力，用户面对过量的信息很难找到自己真正喜欢的资源，而内容提供者也很难把优质的内容准确地推送给感兴趣的用户。从而导致“资源越来越多，但获取越来越难”的信息悖论。同时在大数据背景下，图书馆的服务模式也在不断地发生变化，从以前的被动提供信息资源的平台向主动提供知识服务的平台转变。如何提高资源的聚合度，如何实现学习者与资源的准确匹配，为学习者提供更加精准的资源，从而缓解学习迷航、减少用户时间和精力的投入，提高图书馆的服务质量是我们亟待要解决的问题。

1 数字图书馆学习资源服务推荐的必要性

实现学习资源的精准推荐不仅是图书馆资源建设丰富化的需求，同时也能满足读者资源多元化、多样化的需求。

1.1 能满足数字图书馆资源建设丰富化的需求

随着互联网、大数据时代的到来，图书馆作为文献信息资源建设中心。越来越重视学习资源的建设与完善。丰富的数据资源对数字图书馆来说也是一项挑战。资源的重复、无效的数据等问题不断出现。通过资源聚合的方式，为读者实现精准资源的推荐，不仅使数据间的关系更加清晰，也是对庞大的数据库进行梳理，对无效数据进行清洗，能够进一步促进图书馆资源建设的丰富与完善。

1.2 服务推荐能实现读者多样化的资源需求

精准化、个性化的资源推荐也是读者的阅读需求。一方面，读者的主体越来越多元化，他们的生活环境、教育背景等不同，所以其资源需求也呈现不同。另一方面，因为信息化、网络化时代的到来，资源获取的方式更加简单、多样化。读者对图书馆服务的要求也会越来越高，所以图书馆要依托网络平台，掌握读者的需求实现资源聚合更好地为读者进行资源的推荐，提高服务的准确性和精确性。

2 数字资源精服务推荐的含义

2.1 资源聚合

资源聚合就是发现资源内部潜在的关系，通过系统整合、聚合及深度挖掘等方式发现文献的内在含义，有序地展示资源之间、作者与作者之间、作者与关键词之间等的关系。形成集概念、主题、学科内容和科研对象为一体的知识化网络。

2.2 服务推荐

服务推荐是结合数字图书馆资源的内容特征，通过对用户的兴趣爱好和资源访问行为进行分析与挖掘，主动向用户推荐其满足需求的数字资源。因此服务推荐是图书馆提高服务质量、满足用户精准化、个性化需求的重要途径。

2.3 资源聚合与服务推荐的关系

数字图书馆资源聚合是为了实现各类纸质、电子资源之间的有效关联，而服务推荐的目的是为了满足用户的需求为其提供的精准化、个性化的服务。而面对海量的资源，出现了信息过载，信息越多获取越难的困境。所以必须正确把握“资源聚合是服务推荐的基础，服务推荐是资源聚合的目的”的辩证关系，才能有效地提升馆藏资源的利用率，才能更好地提升用户的满意度。

3 如何实现数字资源精准化推荐

资源聚合与服务推荐的相关技术

（一）语义相似度计算

语义网可以利用语义标签将离散的数字资源连接成紧密的、结构化的知识关联网络，将一个个数字资源“孤岛”连接起来。语义相似度计算主要有两种方法：一类是通过语义词典，把有关词语的概念组织在一个树形的结构中来计算，另一类主要是通过词语上下文的信息，运用统计的方法进行求解。采用基于距离、基于内容、基于属性的相关语义相似度计算等方法，从而优化数字资源的组织结构并提高服务推荐的水平和效率。

（二）聚类算法

资源聚合的过程主要包括资源聚类与资源融合两个方面，重点是实现资源语义的关联。聚合是对资源的收集、筛选、分析、整理的过程。传统的聚类方法是扩展到子空间聚类，而不是搜索整个数据空间。当存在很多属性并且数据稀疏时，这是有用的。为了达到全局最优，基于划分的聚类可能需要穷举所有可能的划分，计算量非常大。实际上，大多数应用都采用了流行的启发式方法，如k-均值和k-中心算法，渐近的提高聚类质量，逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。

（三）服务推荐算法

数字资源的聚合是对资源的重构和再组织，其中最主要的目的是实现资源的精准化、个性化的推荐，挖掘用户的需求和爱好为其推荐兴趣偏好的资源。主要的服务推荐算法有基于内容的推荐、协同过滤推荐和基于知识的推荐方法。基于内容的推荐方法本质上是对资源自身的特征或属性的直接域进行计算，利用的是用户的标签。协同过滤算法的思想是找到和用户具有相似兴趣的人，分析他们的行为给用户推荐相同的资源，或根据他们以前使用或查看的资源，给他们推荐相似的。基于知识的推荐算法是需要主动的询问用户的需求，然后返回推荐结果。基于内容推荐算法的优点是不需要其他用户的数据，没有冷启动问题和稀疏问题，能为具有特殊兴趣爱好的用户进行推荐。缺点是要求内容能容易抽取程有意义的特征，用户的爱好必须能够用内容特征形式来表达，不能显式地得到其他用户的判断情况。协同过滤算法优点是能够过滤难以进行机器自动内容分析的信息，共享其他人的经验，能够基于一些复杂的，难以表达的概念进行过滤，但协同过滤仍有许多问题需要解决，其中典型的问题就是稀疏问题和冷启动问题。基于知识的推荐高度重视知识元，不会存在冷启动的问题，但知识的获取比较难，需要规范的、可用的表达式才能完成。因此可以看到各推荐算法都有其优势与局限性。根据实际使用情况将三种推荐算法进行不同程度融合。组合推荐一个最重要原则就是通过组合后避免或弥补各自推荐技术的弱点。

4 数字资源聚合及服务推荐的意义

提升资源聚合与服务推荐的质量是实现数字图书馆知识服务的基础和根本保证。在大数据背景下，全面提升数字图书馆知识服务能力更好地满足用户个性化、精准化的知识需求成为图书馆必备的服务职能，且为图书馆自身资源的再组织利用提供一种有效的方法与途径。精准化的服务推荐进一步扩展了数字图书馆未来知识服务的新视野，也为数字图书馆学科化、个性化的服务指引了方向。