APP下载

电子档案相关论文的文献统计分析

2017-05-16袁硕

卷宗 2017年4期
关键词:文献计量电子档案

摘 要:本文研究电子档案领域的发展现状及规律。应用信息计量学的基本原理,研究电子档案领域文献在时间上、空间上、文献作者、所用词频的分布规律。电子档案领域自1998年进入快速发展阶段,可以用二项式拟合其发展趋势;作者分布不满足洛特卡定律,核心作者群尚未形成;期刊分布符合布拉福德定律,电子档案领域的核心期刊群已经形成。本文还对近年来电子档案领域的研究热点进行统计。

关键词:电子档案;文献计量;中文分词

电子档案具有储存密度大、易修改、易加密和易管理等特点,是纸质档案的一种重要补充形式,受到了广大档案管理者的持续关注1。传统的档案管理理论和方法在电子档案管理方面并不完全适用,为电子档案问题打造科学的理论方法已经成为一个重要的学科方向2。本文对电子档案文献进行统计分析,揭示该领域的发展现状。

1 数据来源及分析方法

进入中国知网cnki知识发现网络平台,选择期刊数据库,输入检索主题“电子档案”,限定年份为1990年至2016年,得到以该主题为研究内容的期刊论文5609篇。将检索得到的论文全部选中,选择以EndNote格式导出参考文獻,储存为txt文本文件。将此文件输入到刘启元等人编写的SATI软件中做进一步分析3。首先将字段转换为xml格式数据,再进行字段抽取、频次统计等工作。

2 电子档案相关论文的时间分布

本文统计了26年间以电子档案为研究对象的论文数量,最早的一篇文献是北京市海威电气公司姚良清发表于1991年档案学研究的《检索软件是电子档案系统的关键》。按照文献数量和增长速度电子档案研究可以分为萌芽期、快速增长期和稳定期增长三个阶段。其中1990年至1997年为电子档案研究的萌芽期,共发表了相关文献40篇,占发文总量的0.7%;1998年至2012年为电子档案研究文献的快速增长期,从1998年的15篇增长到2012年的556篇,平均增速达29.4%,期间共发表了相关文献3099篇,占发文总量的55.3%;2013年至2016年为电子档案相关论文的稳定增长阶段,从2013年的562篇到2016年的609篇,平均增幅仅为2.7%,较前一阶段显著下降,达到一个较为稳定的阶段,共发文2470篇,占比44%。

电子档案主题研究论文的数量随时间增长,这是文献增长的正常规律,反映出知识增长的速度。文献增长与时间的关系可以用线性拟合表示:

f(t)=27.9t-55698 其中1990

式中t代表年份,f(t)代表某年产生的文献数量,拟合度R2=0.881。若应用指数增长模型得到:

f(t)=9×10-21e0.243t 其中1990

式中e代表自然对数,拟合度R2=0.926。若应用幂增长模型得到:

f(t)=t488.1 其中1990

拟合度R2=0.927。若应用二次多项式模型得到:

f(t)=1.401t2-5589t+6×106 其中1990

拟合度R2=0.981。

综上,应用二次多项式模型拟合度最高,目前一个阶段电子档案研究论文产出量可以应用二次多项式模型进行预测。

3 电子档案研究的作者分析

定义有效发文量为每篇论文作者数量相加总和。例如论文甲有作者(A,B,C),乙有作者(A,D),假设每篇论文作者贡献等同,则有2篇论文,4个作者,5篇有效发文量,平均每篇文章署名2.5个作者。定义某作者发文比例为发表文章数量比上有效发文量。例如作者B发文1篇,发文比例为20%。

本文统计了所有作者的发文量、有效发文量和发文比例。5609篇论文共有6230名作者,7416篇有效发文量,平均每篇文章署名1.3人。发文量最多的作者是吉林大学的王萍,26年间共发表相关研究21篇论文,发文比例为0.28%。发文量前10的作者共发表95篇论文,发文量前100的作者共发文483篇论文,发文量前1000的作者共发文2186篇。

描述作者分布规律的洛特卡定律指出4,在发展成熟的学科领域,发表1篇论文作者的数量是发表n篇论文作者数量的n2倍。本文中发表1篇论文的作者有5440人,发表2篇论文的作者有577人,约为发表2篇论文的作者的9.4倍。发表3篇论文的作者有139人,发表1篇论文的作者是其39倍。可以看到,在电子档案研究领域,发表一篇论文的作者数量偏多,发表多篇论文的研究者数量不足,洛特卡定律不完全适用。描述作者分布规律的普赖斯理论指出,核心作者发文量大于0.749乘以作者最多发文量的开方。本文中核心作者的标准为发文量大于3.43篇的作者,共有74人,占6230名作者的1.19%,发表了405篇研究论文,占7416篇有效发文量的5.46%。远未达到核心作者发文量占总发文量40%的规律。

综上,电子档案领域的作者分布不满足洛特卡定律,电子档案领域的核心作者群尚未形成。

4 电子档案研究的期刊分布

本文统计了所有研究电子档案问题的期刊来源。5609篇论文共来自1320本期刊,平均每本期刊发表4.25篇论文。发文最多的期刊是兰台世界,共载文398篇。发文超过100篇的期刊有9种,共发文1691篇,占30.14%。发文超过10篇的期刊有71种,共发文3369篇,占60.06%。

描述文献分散的布拉福德定律指出5,针对某一研究方向,期刊可以分为核心区、相关区和外围区,若每个区域包括的论文数量相近,则区域期刊数量成指数增长。本文将1320本期刊按布拉福德定律分成三个部分。核心区包含11种期刊占比0.83%,载文量为1854篇占比33.05%;相关区包含111种期刊占比8.4%,载文量1869篇占比33.33%;外围区包含1198种期刊占比90.75%,载文量1886篇占比33.62%。三个区域期刊数量为11:111:1198,期刊数量成约成10.08倍的指数增长。

综上,电子档案领域的期刊分布符合布拉福德定律,电子档案领域的核心期刊群已经形成。

5 研究热点分析

首先,研究热点体现在作者自己选择的论文关键词上。对5609篇论文选择关键词进行字段抽取,再进行频次统计,得到关键词展现出的研究热点。删除诸如“电子档案、档案管理、信息化”等无意义的关键词后,得到排名前10的研究热点为:归档、档案利用、储存载体、数字化、办公自动化、国家档案局、电子档案袋、数字档案馆、凭证作用、高校。

第二,研究热点体现在论文的题目中。对5609篇论文选择题目进行字段抽取,然后进行中文分词工作,再对分开的词组进行频次统计,得到论文题目展现出的研究热点。忽略诸如“浅谈、研究、问题”等无意义的词组后,得到排名前10的研究热点为:高校、纸质、归档、安全、保护、企业、医院、数字化、档案袋、系统。

第三,研究热点体现在论文摘要中。对5609篇论文选择摘要进行字段抽取,然后进行中文分词工作,再对分开的词组进行频次统计,得到论文摘要展现出的研究热点。经过中文分词从摘要中共得到14756条词组,忽略诸如“文件、发展、信息”等无意义的词组后,得到排名前10的研究热点为:纸质、系统、归档、数字化、高校、网络、企业、医院、档案馆、储存。

6 总结

本文应用文献计量学的基本规律研究电子档案领域的发展情况,包括文献增长规律,文献在期刊中的分布规律,作者分布规律。这些规律都是运用统计学方法得到的,有各自的限定条件和局限性,研究时应注意联系学科实际讨论。本文同时应用中文分词处理模式,对论文的题目、摘要和关键词进行提取,得到电子档案领域的研究热点,可以供相关研究者参考。

参考文献

[1]刘念, 唐一鸿, 李名选. 基于电子档号章的档案安全保障系统研究与实现[J]. 档案学研究,2016(2):115-117.

[2]郭楠. 人事电子档案信息安全保障策略研究[J]. 社会科学(文摘版), 2016(10):00097-00097.

[3]刘启元, 叶鹰. 文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报,2012(1):50-58.

[4]王洵. 洛特卡定律[J]. 情報科学, 1981(6):74-78.

[5]唐奇. “核心出版社”图书采购策略研究——以南开大学经管类图书采购为例[J]. 图书馆工作与研究,2015,1(11):104-109.

作者简介

袁硕(1989-),江苏淮安人,天津理工大学图书馆助理馆员。

猜你喜欢

文献计量电子档案
我国医学数字图书馆研究的文献计量分析
学生电子档案在班级管理中的应用探究
办公自动化环境的文书档案管理要点
新时期电子档案在档案管理中的应用