APP下载

平均复本量预测模型研究①

2010-12-26赵艳梅

华北科技学院学报 2010年1期
关键词:学年度类图书置信区间

孙 宝 赵艳梅

(华北科技学院图书馆,北京东燕郊 101601)

平均复本量预测模型研究①

孙 宝②赵艳梅

(华北科技学院图书馆,北京东燕郊 101601)

在确定采购复本量过程中,重点突出读者借阅行为的影响作用,根据借阅率与平均复本量之间相关关系,运用线性回归分析方法,预测未来2008—2009学年度20个大类图书平均复本量,目的是为了给采购复本量的确定提供参考。选取高校图书馆中具有代表性的H语言类图书为例,介绍平均复本量预测过程。

线性回归;自回归;借阅率;平均复本量;图书采购

单纯确定某一种图书采购复本量,方法比较多,笔者从预测37个大类图书平均复本量角度出发,试图用每一个大类平均复本量指导任何一种图书采购复本量的确定。若要确定某一种图书采购复本量,可以从该种图书所在大类的平均复本量点预测值和置信区间中获得参考。制定采购策略应当首先考虑读者借阅行为及藏书量的影响作用,笔者对此进行了深入探讨。本文在预测20个大类图书平均复本量过程中,所运用线性回归方法,以借阅率为自变量,包含着读者借阅行为和藏书量两方面信息。预计采购的某一种图书一般不在馆藏范围内,也不可能有反映读者借阅行为的历史数据,而该种图书所在大类的其他馆藏图书借阅历史数据却可以用于作为首选参考数据。

1 平均复本量研究意义

1.1 复本量研究现状

复本量是图书馆采购人员必须解决的问题,许多专家学者都在关注图书采购复本量研究,发表了大量论文,专门阐述确定复本量的各种策略。吴志荣老师主张借鉴国外大学图书馆一个复本的图书采购策略[1]。高校图书馆的服务对象是由在校大学生、研究生、授课教师等组成的广大读者群,复本量过低,则很可能使部分读者无法借到所需文献。相反,复本量过多,又会造成经费和馆藏空间的浪费,也没有考虑到同类书的不同品种在一定程度上可以代替复本[2]。复本量过低和过多都不可行,于是研究制定科学的复本量策略就显得俞加必要和紧迫。

实际工作中,图书采购人员一般根据本校教学科研情况和本馆馆藏情况,划出每一类图书的采购复本量标准,但是这种操作方法会受到采购人员主观认识水平的限制[3]。王居平老师根据复本量与拒借率之间相关关系,由控制方程,在指定拒借率范围内求解出某一种图书复本量[4]。只是拒借率难于统计,所得结果不够准确,模型置信度不易达到通常要求。

刘新文老师考虑7个主要因素对复本量的共同作用,综合确定某一种图书采购复本量[5]。7个因素之多的公式复杂度较高,实际工作中难于把握,而且读者续借文献概率、预计消耗册数等指标也不易统计,不易获得。

1.2 平均复本量研究意义

决定一种图书采购复本量的首要因素应当是读者借阅行为。无论采用何种方法,精确得出即将采购的某一种图书复本量都是不现实的,理论上似乎可行,实际操作却很难实现。如果预先确定该种图书所在大类平均复本量和上下波动范围,是否对实际采购的指导作用更强?对比其他复本量确定方法,平均复本量模型中借阅率指标只包含借阅量和藏书量信息,易于统计,易于获得,仅有一个指标的模型相对简单,可操作性强。

从借阅率与平均复本量相关关系中研究复本量的方法,目前在相关文献中尚未检索到类似报道。图书采购部门选择采购策略,应当充分考虑读者借阅行为的影响作用,笔者在这方面进行了有益尝试。

2 线性回归理论

2.1 样本回归方程和线性回归参数

如果一个因变量Y与一个自变量X有相关关系,根据观察数据作散点图时,具有直线趋势,其样本回归方程:

根据最小二乘法原理,可得a和b的计算公式[6,7,8]:

2.2 点预测和区间估计

从样本回归方程可得点预测值,置信区间能给出估计的更精确信息[9,10]。

在显著性水平α下,某一个新值y0的置信区间是

对于时间序列yi(i=1,2,…,n),可以取xi= i,采用线性回归分析,即为线性趋势时间序列分析,也可以采用时间序列自回归分析。

2.3 自相关表

把时间序列前后两期观察值一一配对,可得自相关表,如表1所示[11,12,13]。

表1 时间序列自相关表

2.4 回归理论在平均复本量模型中可行性

笔者观察每一个大类平均复本量与借阅率,都总结出二者服从线性关系,可以应用线性回归分析。回归理论相对比较成熟,有一系列检验准则。只要模型通过检验,就能够保证应用结果的准确性。模型由两个步骤组成,首先根据时间序列理论预测下一个学年度借阅率,然后利用该预测结果预测下一学年度平均复本量。

3 预测H语言类图书平均复本量

本文对各个大类图书平均复本量的探讨,所引用的数据基本上都来源于华北科技学院图书馆鑫盘集成管理系统。华北科技学院图书馆的读者主要是在校大学生,英语是公共课,读者借阅量比较集中,因此,英语类藏书所在的H语言类图书相比于其他各类图书具有典型性,于是本文以H语言类图书为例,介绍平均复本量预测过程

3.1 获取H语言类图书借阅率

H语言类图书借阅率用G表示,计算公式为:

上式中L表示一个学年度(前一年8月至该年7月)H语言类图书总借阅量,单位是册;C表示一个学年度(该年7月底)H语言类图书藏书量,单位是册。调用鑫盘管理系统统计功能,可以统计出1999年至今9个学年度H语言类图书总借阅量和藏书量(见表2)。

表2 H语言类图书借阅率

3.2 获取H语言类图书平均复本量

H语言类图书平均复本量用O表示,计算公式为:

上式中C的意义与4.1中相同;K表示一个学年度(该年7月底)H语言类图书总种数,单位是种。H语言类图书总种数也可从鑫盘系统中统计得到(见表3)。

表3 H语言类图书平均复本量

3.3 借阅率自回归分析

3.3.1 借阅率自相关表

以1999年至今9个学年度借阅率为时间序列,把相邻两个学年度借阅率一一配对,即为借阅率自相关表(见表4)。

表4 借阅率自相关表

3.3.2 描绘借阅率自回归散点图

以借阅率自相关表中gi为x轴坐标,以gi+1为y轴坐标,将对应借阅率用坐标点形式描绘,即为借阅率一阶自回归散点图,如图1所示。

图1 借阅率自回归散点图

3.3.3 自相关系数判定条件

从借阅率自回归散点图可以看出,借阅率时间序列具有明显一阶自相关性。但是,能否应用时间序列自回归分析,还要根据自相关系数判定条件来决定。利用借阅率自相关表中数据,自相关系数计算结果为:

在显著性水平α=0.001下,查相关系数检验表,获得置信度为99.9%的临界值d= 0.92493。由于|r1|=0.953197>d,满足判定条件,自回归分析适用于此。

3.3.4 确定自回归参数与样本自回归方程

利用借阅率自相关表中数据,确定自回归参数:

3.3.5 F—检验

从表5可知,在显著性水平α=0.001下,查F—概率分布表,获得置信度为99.9%的临界值F0.001(1,8-2)=35.51。由于F=59.634068>F0.001(1,6),表明相邻两学年度借阅率之间具有密切自相关关系,自回归分析通过F—检验。

3.3.6 预测2008~2009学年度借阅率

由2007~2008学年度借阅率可以预测2008~2009学年度借阅率为:

表5 借阅率自回归分析方差分析表

3.4 平均复本量对借阅率线性回归分析

3.4.1 平均复本量对借阅率相关表0

根据1999年至今9个学年度平均复本量和借阅率原始数据,把借阅率从小到大排列,将平均复本量与其对应排列,可得平均复本量对借阅率相关表(见表6)。

表6 平均复本量对借阅率相关表

3.4.2 描绘平均复本量对借阅率线性相关散点图

以借阅率为x轴坐标,以平均复本量为y轴坐标,把对应观察值用坐标点形式描绘,可得线性相关散点图,如图2所示。

图2 平均复本量与借阅率散点图

3.4.3 平均复本量与借阅率线性相关系数判定条

从图2看出,平均复本量与借阅率近似服从负线性相关关系。通过判定相关系数,进一步印证了线性回归分析适用性。相关系数计算结果为:

在显著性水平α=0.001下,查相关系数检验表,获得置信度为99.9%的临界值d=0.8982。由于|r|=0.985161>d,满足判定条件,此处适用线性回归分析。

3.4.4 确定线性回归参数与样本回归方程利用表6中数据,回归参数计算结果为:

3.4.5 F—检验

从表7可知,在显著性水平α=0.001下,查F—概率分布表,获得置信度为99.9%的临界值为F0.001(1,9-2)=29.25。由于F=230.627861≫F0.001(1,7),表明平均复本量与借阅率之间具有密切线性相关关系,线性回归分析通过F—检验。

表7 平均复本量对借阅率方差分析表

3.4.6 预测2008~2009学年度平均复本量

当已知2008~2009学年度借阅率g0= 79.612506,可以预测2008~2009学年度平均复本量为:

3.4.7 估计2008—2009学年度平均复本量置信区间利用表7中数据有:

在显著性水平α=0.001下,平均复本量置信度为99.9%的置信区间是:

即(3.825697,4.765604)。至此,可以预测2008—2009学年度H语言类图书平均复本量将是4.3册/种,置信区间介于3.8册/种至4.8册/种之间。

4 预测模型在20个大类平均复本量中应用结果

按照中图法分类体系,分别获取了A,B,……,Z,TB,TD,……,TV等37个大类图书借阅、藏书数据,采用与预测H语言类图书平均复本量类似的方法,可以预测其他各个大类平均复本量。根据相关系数判定条件,经过对这37个大类平均复本量与借阅率相关系数逐一判别,取最低置信度95%,从中筛选出20个大类判定结果符合回归分析理论应用要求(见表8)。

表8 20个大类平均复本量预测表

在类号旁边标以“*”的A、G、TB等3大类平均复本量预测过程中,当采用自回归分析预测借阅率时,出现检验置信度低于95%的情况,换用线性趋势时间序列分析方法,才保证模型置信度达到95%以上。

5 结论

本文在回归分析理论指导下,根据各个大类平均复本量与借阅率之间相关系数判定结果,求得了2008~2009学年度20个大类平均复本量点预测值和置信区间,可以作为这20个大类采购复本量的参考依据。本文应用的理论和方法,易于实现,可操作性强,对高校图书馆采购部门确定新书采购复本量,具有较强的指导作用。

限于回归分析理论相关系数判定条件的约束,在37个大类图书中,只有20个大类可以应用回归分析方法。在下一步研究和探讨中,可否寻找出能够用于预测每个大类平均复本量的回归分析方法,则对图书采购的指导作用更强。

[1] 吴志荣.感悟“一个复本”—探究西方大学图书馆的办馆理念[J].图书馆杂志,2004(12):41-43

[2] 陈尧禧.试论藏书品种与复本的关系及对策[J].图书馆学研究,2003(6):55-57

[3] 曹臻.大学图书馆馆藏中文图书复本的配置[J].大学图书馆学报,2005(3):53-56

[4] 王居平.图书馆学和情报学中的量化分析和预测方法初探[J].情报杂志,2007(1):105 -106

[5] 刘新文.图书馆图书复本量的定量分析[J].西南师范大学学报(自然科学版),2007(4):87-89

[6] Gerard ED.Introduction to S impleLinearRegression[EB/OL].(2008-7-16)[2009-4-2]. http://www.jerrydallal.com/LHSP/slr.h tm

[7] Devore J L.Probability and Statistics for Engineering and the Sciences[M].6th edition.Brooks/Cole, 2004:496-554

[8] Kelly H Z,Kemal T,Stuart G S.Correlation and Simple Linear Regression[J].Radiology,2003, 227(3):617-622

[9] Prem S M.Introductory Statistics[M].5th edition.JohnWiley&Sons,2007:580-642

[10] 苏均和,朱建中.社会经济统计学原理[M].上海:立信会计出版社,2007:256-268

[11] 孙允午.统计学—数据的搜集、整理和分析[M].上海:上海财经大学出版社,2007:326-333

[12] 徐国祥.统计学[M].上海:上海人民出版社,2007:317-320

[13] 王燕.应用时间序列分析[M].北京:中国人民大学出版社,2007:69-82

The Research aboutM ean Duplicates Prediction M odel

SUN B ao,ZHAO Yanm ei

(North China Institute of Science and TechnologyLibrary,Yanjiao Beijing-East 101601)

The influence of the reader loans behavior is firstly selected to determine the literature purchasing duplicates.Based on the correlation relation between the library loans rate and the mean duplicates of 20 categories books,the method of linear regression analysis is used to predict itsmean duplicates in the coming 2008-2009 school year.The prediction result plays a key role in deter mining all duplicates thatwill be purchased.As the representative in the library of colleges and universities,the H language category books is selected to demonstrate the mean duplicates prediction procedure.

Linear regression;Autoregression;Library loans rate;Mean duplicates;Literature purchasing

G250.71

A

1672-7169(2010)01-0079-06

2009-07-18

孙宝(1970-),男,河北迁安人,硕士,华北科技学院图书馆副研究馆员,研究方向:信息管理与信息系统。

猜你喜欢

学年度类图书置信区间
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
新形势下教育类图书编辑如何全面提升编辑素质
列车定位中置信区间的确定方法
2014 -2015 学年度北京市中小学生视力不良状况分析
民乐系2014至2015学年度第一学期艺术实践活动侧记
航天类图书的出版现状与选题策划研究
从一本书的出版到一门课程的建设:浅谈教育类图书编辑的作用
破解直线与圆锥曲线相交问题的一剂特效药