APP下载

基于大数据方法的高校图书馆数据画像研究

2020-04-10李晶洁彭喜梅张晨玉王梓真高文轩

现代信息科技 2020年1期
关键词:男女生类图书阅读者

李晶洁 彭喜梅 李 岚 张晨玉 王梓真 高文轩

摘  要:随着大数据时代来临,高校图书馆传统的管理和运营模式已不能满足阅读者需求。文章针对高校图书馆对阅读者喜好了解的缺失,书籍引进、摆放规律不人性化,部分书籍闲置或紧缺等问题,对天津商业大学图书馆阅读者数据进行精准分析,从多维度建立数据模型,绘制清晰明了的关键词数据画像,并参照该画像内容,对图书馆的资源建设和服务提出合理的建议,为相关院校提供参考。

关键词:大数据;高校图书馆;数据画像;人性化服务

中图分类号:G252      文献标识码:A 文章编号:2096-4706(2020)01-0090-08

Abstract:With the coming of the era of big data,the traditional management and operation mode of university libraries cant meet the needs of students. In view of the lack of the university librarys understanding of the readerspreferences,the inhumanity of the rules of book introduction and placement,and the idleness or shortage of some books,this paper uses data mining technology to accurately analyze the readersdata in the library of Tianjin University of Commerce,builds a data model from multiple dimensions,draws a clear keyword  data portrait,and makes reference to the content of the portrait. This paper puts forward reasonable suggestions for the resource construction and service of the library,and provides reference for relevant colleges and universities.

Keywords:big data;university library;data portrait;humanized service

0  引  言

2008年,维克托·迈尔-舍恩伯格和肯尼斯·库克耶在《大数据时代》一书中首次提出了大数据的概念,这一概念的提出不仅引起了各大领域的广泛关注和讨论,还给世界重新下了定义。研究机构Gartner[1]指出:大数据需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

随着全球数据爆炸式增长,大数据开始渗透到各个行业和领域,人们需要新的、更有效的手段对各种的大量数据进行挖掘以发挥其潜能。高校图书馆作为公共服务体系的重要组成部分,传统的管理模式和服务模式已不能满足阅读者多样化的需求。因此,高校图书馆应当与时俱进,借助大数据发展的机遇,最大可能地为读者提供有价值的、精准度高的信息,提高图书馆资源利用率,完善服务体系。

1  相关研究综述

王庆和赵发珍[2]提出用户画像有两种概念,一种是1998年交互设计之父Alan Cooper提出的用户画像,谢奇、关晶和杨错[3]将其概括为:通过调研问卷、电话访谈等手段获得用户的定性特征,是描绘或者抽象用户属性差异的方法;另一种用户画像是在大数据环境下产生的,与数据挖掘、大数据分析相关,通过数据建立描绘用户的標签,即根据用户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签画像,是针对人的实时特征的描绘。本文描述的数据画像即在第二种概括的基础上进行可视化分析得到。数据画像从数据来源上分析具有较强的动态性,如图书馆的借阅数据,借阅者的性别、学院等特征是固定不变的,相对来说比较稳定,但是借阅者的借阅行为是随着时间的变化不断变化的,这些行为大多会受到周围环境的影响,因此我们要建立精准的数据画像,需要在时间或者空间上选好节点,时间或空间节点选取得越准确,参考价值越高。

从中国出版传媒商报的数据来看,近五年来图书馆馆配书籍的品种和数量在逐年增加,从2013年的90.8万种跃升至2017年的133.6万种,这样庞大的数据量无疑给图书馆的采购人员增加了很大的难度,在探知阅读对象对不同书籍的喜好程度上,采购人员最多能做到的只是依旧按以往的图书种类清单购买,以及试探性地添加为数不多的新种类进行测试。这样落后的做法往往需要消耗大量的人力、物力、财力,并且得到的结果也与“人性化”相悖。近几年来中国高校图书馆服务虽然越来越趋于多样化、便捷化,但是在图书馆人性化服务方面缺乏专门的分析和研究。在大数据的时代环境下,要想跟上井喷式的数据增长,我们必须采取数据挖掘技术[4]对数据进行精准分析。

在相关研究上,丁雷[5]建立了高校图书馆用户画像,用数据立方体上应用OLAP分析技术从多个时空粒度构建图书馆的用户画像模型;程秀峰[6]等运用朴素贝叶斯算法与情景感知功能的协同推荐模型,形成推荐模型,达到了个性化服务推荐图书的效果。曾建勋[7]认为图书馆精准服务需要用户画像,用户画像可以更好地认识网络中的用户、改善网络信息组织、发现信息传播规律。胡媛[8]提出的数字图书馆知识社区综合服务能力评价指标体系。

综上所述,高校图书馆数据画像研究尚处于发展阶段,还有很多需要完善的方面,如何将大数据环境中用户画像思想应用在高校图书馆至关重要。本文在相关研究的基础上,以天津商业大学为例,对高校图书馆数据画像进行可视化研究,得出不同人群阅读习惯、借阅规律等信息,为图书馆的效率提升提供建议,为相关财经院校的相关研究提供参考。

2  数据的采集

阅读者的数据大致分为两种:一种为静态数据,一种为动态数据[9]。我们以天津商业大学为初始研究对象,获取了“2018年图书续借数据”“2018年有借阅记录的书目”“2018年外借中记录图书”“2017—2018年中文新书被借阅图书”“2018年电子书借阅情况统计”“2018年阅读者使用座位情况统计”等数据。其中,静态数据包括阅读者性别、姓名、学院、年级、ID、借阅图书所处图书馆位置、借阅者类别(教师、研究生、本科生)等;动态数据即为阅读者的行为数据,包括借阅图书种类、是否续借、借阅日期、归还日期、进入图书馆是否预约、入馆时间、阅读者所选择的阅览室及楼层、选择的座位编号等。

3  数据预处理

建立图书馆数据画像的过程可表现为数据化→标签化→关联化→可视化,即首先采集阅读者的相关数据,对其进行预处理,实现数据化。数据处理的主要内容包括数据清洗、数据抽取、数据交换和数据计算等[10]。第一步,利用Python、Excel软件对缺失数据以及毫无意义的数据进行过滤,删除原始数据中的重复数据,去除平滑噪声数据[11],处理缺失值和异常值等,最终得到一份操作性强、有实际意义的新数据。第二步,根据《中国图书馆图书分类法》22个基本大类对获取得到的天津商业大学借阅图书数据进行分类。第三步,整理数据可得,样本室不可外借图书总计21202册,占馆藏比例前五的不可外借图书种类依次为经济、政治法律、数理科学和化学、哲学、语言文字;阅览室可外借图书总计42411册,占馆藏比例前五的可外借图书种类依次为经济、工业技术、政治法律、文学、数理科学和化学。各类图书占馆藏比例与占借阅总量比例相比較可以用来衡量某类图书的利用率,表达公式为:

2017—2018年占借阅总量占比前四的图书总类为经济、文学、工业技术、政治法律,由此我们可推测各类图书占馆率与利用率间有正向关系。最后,以阅读者为研究对象,建立学生性别、学院、年级、图书借阅时长与外借图书、图书分类、图书续借情况、图书馆科室等维度之间的关系,并分析其关联程度。

4  数据分析

4.1  借阅总数分析

2018年各学院借阅者已归还借阅总量为26190册,法

学院借阅量最多,为3313册,会计学院借阅量最少,为343册,其余学院如图1所示;2018年外借中记录总量2631册,机械工程学院借阅量最多,为239册,会计学院借阅量最少,为16册,其余学院如图2所示;在2018年总体借阅量学院分布图中,借阅量位于突出位置的学院为法学院、经济学院、商学院,2018年总体借阅量学院分布如图3所示。

4.2  借阅者学院分布及关联性分析

热图中每行(列)方块大小越均匀,说明该行(列)所对应列(行)的维度关联程度越小。由2018年借阅数据热图可知,工业技术类图书较受研究生部、机械工程学院、教师喜爱;经济类图书较受经济学院、研究生部、商学院喜爱;历史、地理类图书较受研究生部、教师喜爱;社会科学总论类图书较受研究生部喜爱;数理科学和化学类图书较受研究生部、生物技术与食品科学学院、理学院喜爱;文学列方块大小均较大,说明文学类图书均受各学院借阅者喜爱;语言文字类图书受研究生部、外国语学院、国际教育合作学院喜爱;哲学类图书受研究生部、经济学院喜爱;艺术类图书明显受艺术学院喜爱;政治、法律明显受研究生部、法学院喜爱;马列主义类图书明显受研究生部喜爱;余下的文化科学类、医药卫生类、生物科学类、天文学类、军事类、交通运输类、自然科学总论类、综合性图书类图书借阅者普遍较少,2018年各学院借阅图书种类数据热图如图4所示。

4.3  借阅者年级分析

从2018年借阅图书数据可以看出:本科生借阅量最多的年级为17级,占比21.71%;研究生同样也是17级借阅量最多,占比7.05%;教师借阅图书量占全校借阅量的2.82%,在2018年全校庞大的借阅数据中已经达到了很高的借阅水平,2018年各年级图书借阅情况占比如图5所示。

4.4  借阅者性别分析

根据2018年各类图书男女生借阅情况分析可得,男生偏好图书前三类依次为工业技术、经济、文学;女生偏好图书前三类依次为文学、工业技术、经济;男生语言文学类借阅总占比明显小于女生。男生续借图书中工业技术类最多,女生续借图书中文学类最多,这与性别偏好有关,2018年各类图书男女生借阅及续借情况如图6、图7所示。

根据2018年各学院男女生借阅情况可知,在男生借阅数据中,研究生借阅量最多,本科生机械工程学院借阅量较多,会计学院、管理学院借阅量较少;在女生借阅数据中,研究生借阅量也较多,本科生法学院借阅量最多,管理学院、会计学院借阅量最少。综合比较,艺术学院、公共管理学院、商学院男女生借阅人数差距较大,管理学院、会计学院、信息工程学院男女生借阅人数差距较小,2018年各学院男女生借阅情况如图8所示。

根据2018年男女生各学院借阅时长分析可知,女生借阅时长中,会计学院最短,其他学院较均匀;男生借阅时长中,会计学院与管理学院较短,与其他学院差距较大。虽然女生借阅书本总量大于男生,但机械工程学院与信息工程学院男生借阅时长明显比女生长,2018年男女生各学院借阅时长如图9所示。

(a)各学院女生借阅时长

(b)各学院男生借阅时长

4.5  图书馆具体书目借阅分析

根据2018年借阅图书画像和外借已归还图书中最受欢迎书目可知,社会学类、基础学科教辅书类、热门小说类受广大借阅者欢迎。因此,各高校可以大量引进当下热门图书,以及本学校基础课程的辅导书,2018年借阅图书画像如图10所示,2018外借已归还图书中最受欢迎书目如图11所示。

由最受欢迎书目男女生借阅情况可知,前十名最受欢迎书目女生借阅次数均高于男生,主要是由天津商业大学男女比例不均衡所致。《经济学原理》这本书男女生借阅次数相差不大,我们认为这与经济学是天津商业大学的一门重要学科有较大关联,根据线下调查,还有一个原因是越来越多的学生认识到经济学在生活中的重要性。2018最受欢迎书目男女生借阅情况如图12所示。

利用词云图对各学院借阅情况具体分析,由经济学院借阅书目可知,借阅记录前十的书目中,有九本是关于经济学的图书,剩余一本为《高等数学》。众所周知,经济学体系中经济学的概念、理论判断、客观推理的内容表现为科学规律,其表现形式就是语言[12](自然语言和人工语言),数学语言就是一种特别重要的人工语言。因此,经济学专业的学生除了自生专业素养的培养,还必须要有数学方面的逻辑思维能力。商学院与经济学院有着密不可分的关系,商学是随着时代经济变化的步伐产生的,但又区别于经济学。商学的范围很广,包括会计财务、银行学、商业运营、人力资源、经济等,该学科服务于社会生活中的各个领域。商学院借阅书目的种类繁多,如《货币金融学》《互联网》《工程数学》《会计基础》《管理心理学》等,经济学院借阅书目如图13所示,商学院借阅书目如图14所示。

由各学院借阅结果可得,《高等数学》作为各学院基础课,各学院借阅的次数较均衡且普遍偏多。同为基础学科的《大学英语》《马克思主义基本原理概论》《中国近现代史纲要》等书籍却鲜有借阅,易知借阅者更偏好借阅较有难度的基础课类书籍。除《高等数学》外,各学院借阅次数较多的是文学类图书,这与之前分析的结论一致——文学类图书均受各学院的喜爱。而其他书目与借阅者所学专业有很强的对应性,例如《食品营养学》的借阅者全部为生物技术与食品科学学院学生,《法理学》的借閱者全部为法学院学生。

5  阅读者行为与图书馆座位关系分析

对2018年阅读者入馆时段分析,6月和11月各学院进馆人数达到顶峰,6月经济学院进馆人数高达27013人,与2018年各学院借阅总览图进行对照,6月和11月进馆人数达到顶峰的主要原因是考试复习,并且在各个时段所有学院使用座位总次数最多的均为15级学生,联系2018年为15级学生考研备考时期,可推断15级学生座位使用次数与考研自习有很大关系,其他月份进馆人数与借阅人数呈正相关。文学专业学生更偏好去社科借阅室,经济学、理学和工学专业学生更偏好去科技借阅室,2018年入馆时段分布如图15所示(图书馆每年2月闭馆,没有数据)。

6  结  论

在大数据时代,各服务行业未来的发展趋近于精准服务,图书馆领域的发展也不例外。用户画像作为实现精准服务的描述工具之一,运用于高校图书馆,能够提供更高效、更高质量、更人性化的服务。本文分析了图书馆领域用户画像的研究现状,借鉴了用户画像在电子商务领域和图书馆领域的发展经验,应用大数据的处理方法,从多维度分析借阅者偏好,寻找规律,最后形成借阅者的标签体系,并建立借阅者数据画像,从而挖掘出大量数据中隐含的、有潜在价值的信息。

从大数据时代给图书馆带来的机遇与挑战来看,高校图书馆作为师生获取学习资源的场所,应该及时提高图书资源建设和服务水平。利用建立的数据画像,建议各高校图书馆在资源建设方面提升书籍曝光度;多引进热门图书和经典图书;将自习室与阅览室分开,使书刊资源得到充分利用。在服务水平方面,建议根据学院偏好程度设立图书分区,完善图书推荐系统;增加线下读书活动;实现周末借阅图书自由化。

参考文献:

[1] THIBODEAU,PATRICK. Gartner Upbeat on Big Data Jobs [J].EN,2012,46(20):6.

[2] 王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析 [J].现代情报,2018,38(3):105-109+137.

[3] 谢奇,关晶,杨错.后GoogleScholar时代新的学术利器——百度学术搜索 [J].农业图书情报学刊,2015,27(6):110-114.

[4] 蔡萌萌,张巍巍,王泓霖.大数据时代的数据挖掘综述 [J].价值工程,2019,38(5):155-157.

[5] 丁雷.大数据环境下高校图书馆用户画像与特征研究 [J].中国科技信息,2018(24):59-62+64.

[6] 程秀峰,范晓莹,杨金庆.一种融合了基于朴素贝叶斯算法与情境感知的协同推荐系统——以大学图书馆实体图书推荐为例 [J].现代情报,2019,39(2):57-65.

[7] 曾建勋.精准服务需要用户画像 [J].数字图书馆论坛,2017(12):1.

[8] 胡媛,毛宁. 基于用户画像的数字图书馆知识社区用户模型构建 [J].图书馆理论与实践,2017(4):82-85+97.

[9] 李雅. 基于读者用户画像的高校图书馆精准化服务研究 [J].农业图书情报学刊,2018,30(12):108-111.

[10] 余本国.基于Python的大数据分析基础及实战 [M].北京:中国水利水电出版社,2018.

[11] 赵一凡,卞良,丛昕.数据清洗方法研究综述 [J].软件导刊,2017,16(12),222-224.

[12] 陈世清.超越中国“主流经济学家” [M].北京:中国国际广播出版社,2013.

作者简介:李晶洁(1985-),男,汉族,天津人,就职于理学院,教师,博士研究生,研究方向:数据分析,环境信用评价,随机微分方程;彭喜梅(1996-),女,汉族,四川宜宾人,本科在读,研究方向:数学与应用数学;李岚(1998-),女,汉族,云南红河人,本科在读,研究方向:数学与应用数学;张晨玉(1996-),女,汉族,贵州仁怀人,本科在读,研究方向:信息与计算科学;王梓真(1998-),女,汉族,河北邢台人,本科在读,研究方向:数学与应用数学;高文轩(1998-),女,汉族,广西桂林人,本科在读,研究方向:数学与应用数学。

猜你喜欢

男女生类图书阅读者
大数据背景下如何开创科技类图书的新板块
为什么有些人能成为终身阅读者
码洋上升 前景广阔
男女生的思维差异
镜头中的阅读者
男女生的思维差异
论“三者”教会学生“用脑”写作文
浅谈日语文学的创作背景对当今阅读者的影响
学校费心防早恋
为生活加点“料”