APP下载

基于LDA模型的高校科研管理主题演化研究

2021-07-12薛培军

中州大学学报 2021年3期
关键词:科研人员文档强度

薛培军,潘 宋

(郑州职业技术学院,河南 郑州 450121)

当前关于高校科研管理的研究主要分为以激励手段和激励方法为主、以科研人员(教师)为主、以科研奖惩机制为主等几个方面。以激励手段和激励方法为主的研究主要是从不同的视角提出科研奖惩机制措施方面展开。孙桃[1]探讨了内、外两方面激励因素对科研人员的科研绩效的影响,并指出薪酬和创新是影响科研绩效的重要激励因素。张和平[2]认为高校薪酬水平及当地薪酬购买力对高校教师的科研生产力具有显著影响。以科研人员(教师)为主的研究主要是以人为主体。张海[3]呼吁为加强对高校科研人员人文关怀,为高校科研人员创造良好的科研环境、科研数据规范化和标准化。熊立[4]通过调研大量高校科研人员的各方面信息,得出科研人员的科研绩效受到工作沉浸感的显著影响。刘宇文[5]认为目前高校科研外部奖惩机制缺乏创新是高校教师缺乏科研激情的主要原因之一。史冬波[6]以多起学术不端事件为案例进行分析,得出了科研不端行为很大程度上受到激励诱惑与奖惩机制不对称的影响。

现有研究对当前高校科研管理的发展和趋势涉及较少,本文从主题模型的角度出发,研究高校科研管理的发展主题,从总体上把握高校科研管理的研究脉络和发展动向。

一、研究方法及数据来源

(一)LDA模型

主题是由具有某领域特性的一系列专业术语组成,这些术语的组合能够表征一个领域的研究内容及研究方向。从学术期刊的角度来看,科研管理在其发展过程中的研究内容变化,表现为其研究主题的变化。LDA(Latent Dirichlet Allocation,LDA)模型[7]是一种主题(topic)生成模型,是以文本—主题—词语的三层贝叶斯结构来实现文档中主题及词汇生成,能够挖掘出庞大语料库中隐含的主题信息[8]。LDA模型认为文档由若干个主题以不同的概率组合而成,而主题是由若干个词语以不同的概率组合而成。从主题模型的角度来讲,每一篇文档都是词汇构成,而词汇由主题概率分布和词汇概率分部联合采样得到,其数学描述为:

1.对于语料库D中的每一篇文档d,依据服从于Dirichlet分布原则采样获取文档d中的主题分布θd,即θd~Dir(α);

2.对于在每一个主题,依据服从于Dirichlet分布原则采样获取主题z中的词汇分布φz,即φz~Dir(β)。

3.根据主题分布θd获得主题zd,j,再依据词汇分布φz获取词汇wd,j

重复上述过程,即可获得一篇文档中的所有词汇。其中,D代表原始语料库,d代表第d篇文档,θd是文档-主题概率分布,φz是主题-词汇概率分布,Dir(α)和Dir(β)代表先验分布狄利克雷分布,α和β代表模型的超参数,是手动设置的常数,zi代表第d篇文档的第j个主题,wd,j代表第d篇文档的第j个词汇。在整个过程中,θd和φz是隐含的参数,一般采用吉布斯(Gibbs)采样方法进行参数估算。Gibbs利用词汇和主题之间的后验概率,间接估算参数φ和θ的值。参数估算步骤如下:

1.将主题zi初始化为1到K之间的随机整数。i从1遍历到词汇总数N。

2.迭代循环。i从1遍历到N,并给词汇赋予新的主题。

3.估算φ和θ值。分布收敛后,保存样本,将zi的值作为训练成熟的数据。w表示词汇迭代一次的样本,据此间接推断φ和θ的值,公式如下:

(1)

(2)

(二)数据来源

本文以来自中国知网的关于高校科研管理的期刊论文数据作为LDA模型的原始语料库,进而挖掘出潜藏在学术期刊中的研究主题。根据LDA模型的输出结果,对比分析不同年份的主题强度及主题内容的变化,从而梳理出高校科研管理的研究脉络和趋势。

以“高校科研管理”为检索词,收集中国知网数据库的期刊论文数据,时间跨度设置为2011—2020,在对检索结果进行精炼和筛选后得到期刊论文2622篇。鉴于期刊论文的结构性及文本内容的复杂性,本文仅以对论文研究内容具有强表征性的标题、摘要和关键词作为原始数据,并进行数据清洗。接着使用由Python编程的Jieba中文分词工具对每一篇文档进行分词。以一年为一个时间窗口,将数据以文本文档的形式分布到对应的时间窗中,文本中每一行词语序列代表一篇论文的分词结果。2011—2020年,我国高校科研管理研究文献呈倒“U”形趋势,自2015年峰值后下降明显,研究力量有所减弱。各时间窗口的文档数及词汇数见表1。

表1 各时间窗口中文本集数据情况

三、主题挖掘及结果分析

(一)主题挖掘

在进行主题挖掘之前,需对LDA主题模型的参数进行设置。根据LDA模型应用中常用的设置,这里设置参数α=0.5,β=0.1,迭代次数item=1000。根据困惑度(Perplexity)评价函数确定了总文本集的最优主题数为19。LDA模型脚本以Python语言编程,将处理后的期刊论文数据输入到脚本中,得到2622篇期刊论文的文档-主题概率分布矩阵和19个主题的主题-词汇概率分布矩阵。通过对主题挖掘结果的分析与观察,筛选掉6个无效主题。参照已有文献[9]的主题命名方法,将保留的13个主题以其特征词汇的含义归纳命名,并划分为“管理主体”“科研主体”“科研载体”三大类,见表2。其中,“管理主体”类的主题内容是关于高校的研究,包含高校、创新、制度、改革四个主题;“科研主体”类的主题内容是关于科研人员的研究,主要包含绩效、研究人员、激励三个主题;“科研载体”类的主题内容是关于科研的对象的研究,包含学术、系统、经费、信息化、成果转化、科研项目等主题。

表2 主题挖掘结果

(二)主题强度演化

主题强度演化展示了相关主题在学术期刊中的研究热度,主题强度越大,则表明在当前时间段内该主题的研究热度越高。通过分析对比同一主题在时间轴上的主题强度变化,能够动态把握该主题的研究情况,对分析主题的演化具有重要意义。主题挖掘结果中生成的文档-主题概率分布矩阵,给出了所有主题的概率分布情况,反映主题对文本的贡献度,亦即主题强度。本文采用的主题强度的计算方法[10]:

(3)

其中Q(Zt,k)表示当前时间片t中主题k的强度,θd,k表示在第d篇文档中第k个主题的概率,Dt表示时间片t上的文档数量。

结合表1中各年份的文档数量及主题强度计算公式,可以计算出总文本集中的主题在各个时间片上的主题强度。三类主题在时间轴上的主题强度变化如图1、图2、图3所示,研究显示,我国高校科研管理主题随高校科研发展的要求发生承接和转化。

图1 “管理主体”类的主题强度变化

图2 “科研主体”类的主题强度变化

图3 “科研项载体”类的主题强度变化

由图1可以看出,创新(Topic 3)和改革(Topic 13)的主题强度整体呈上升趋势,说明在高校科研管理领域,研究科研管理创新和改革的热度持续增高;另外,受2014年“大众创业,万众创新”的影响,两个主题的强度都于2014年明显的大幅度上升。机制(Topic 12)主题的强度值保持在一个中等水平上,波动较大且无规律,这说明管理机制一直是科研管理领域的研究主题,也是提高科研质量和促进成果转化的重要因素。“高校”(Topic1)的主题强度整体呈下降趋势,结合Topic 3和Topic 13的整体上升趋势,说明在高校科研管理领域,对高校本身的研究逐渐转移到高校的创新和改革领域。

在图2中,绩效(Topic 9)的主题强度呈明显上升趋势,且强度值始终在保持一个较高的水平上,这说明在科研管理领域,对研究人员的绩效评价一直是研究热点,且研究热度不断上升,这也从侧面说明了科研绩效评价对科研人员的重要性。激励(Topic 7)的主题强度在波动中上升,这表明学术界在不断地探索管理学中的激励手段和激励机制对科研人员的积极作用,而近几年的主题强度不断上升且数值较高,说明激励手段对提高科研人员的科研效率和成果质量是具有正向作用的。科研人员(Topic 8)的主题强度波动不大,强度值也不高。三个主题的强度变化说明在高校科研管理领域,对科研人员本身的研究一直是重点,但是研究热度并不高,而对能够提升科研人员水平的激励措施和绩效评价则是研究热点。

在图3中,经费(Topic 5)的强度值呈缓慢上升趋势,且强度值一直保持在较高水平上,这表明科研经费一直是研究热点,经费支持是科研活动开展的基本支撑。成果转化(Topic 10)的强度值呈现不断提高的上升趋势,表明了学术界对科研成果的转化保持着较高的热度,而强度值从2014年陡增,也进一步说明经济新常态下对成果转化的高度重视和关注。Topic 2和Topic 11的强度值处于中间水平,且波动较小,说明了学术活动和项目是科研的根本,也始终是高校科研管理的热点。 系统(Topic 4)和信息化(Topic 6)的主题强度变化不大且数值较低,学术界对科研项目的信息化和科研系统的关注度较低,而近年来的下降趋势和较低的强度数值,再加上Topic 10强度值的持续走高,说明在两方面的热度正在逐渐冷却,研究热点转移到了科研的成果转化上。

(三)主题内容演化

主题内容的演化必然表现为同一主题的特征词汇在时间片上的变化,而相邻时间片中具有演化关系的主题之间也必然会在内容上表现出一定的相似性,因此可以通过计算相邻时间片中主题内容的相似性来确定主题之间的联系,进一步分析主题内容的演化。为了更好地展现主体内容的动态变化,对表1中各个时间窗口的文本集单独进行主题挖掘,得到各阶段的主题内容,见表3。由于每一个主题都是由若干个主题特征词构成的词向量,可以看成一篇文本,所以可以采用计算文本相似度的WE-cos方法[11]计算主题间的相似度。根据相似度计算的实际情况,设定当主题相似度大于0.8时,认为主体间存在演化关系,反之则认为主题间无关联。根据演化规则绘制出主题内容演化路径,如图4所示。图中横轴代表时间窗口变化,纵轴代表主题,各时间窗口主题间的箭头代表主题的继承关系。

表3 2011—2020主题挖掘结果

图4 主题内容演化路径

结合图4及各个主题的特征词汇变化,对主题内容的演化做出如下分析。

1.在“管理主体”类别中,研究热点由对高校本身的关注逐渐转变为对科研政策及奖惩机制的研究,又进一步向机制的创新、改革方向演化。2011年主题1、主题5、主题6和主题9 都是关于管理主体类的主题。2011年的主题1逐渐演化为2012年的主题4、2013年的主题4,到2016年的主题11,最终到2020年的主题11,特征词也经历了管理、系统化、体系、控制、完善、机制等的演变过程;2011年主题5向下演变为了2012年的主题1、2013年的主题5,然后主题中断,表明主题的研究热度大幅降低,其特征词也经历了高校、行政、保障等的变化过程。

2.在“科研主体”的类别中,对科研人员的研究由评级指标、科研服务逐渐变为关注科研人员的情感思想、科研团队的协同效应,又进一步演化为对科研人员的激励和绩效评价。2011年的主题8是关于考核指标内容的主题,随着时间推移,逐渐演化为2012年的主题2、2013年的主题7,到2015年的主8和主题9,最终到2020年的主题7,主题特征词汇也经历了指标、控制、思想、绩效等内容的演变。

3.在“科研载体”类别中,对科研项目的研究重点由经费预算和科研数据逐渐转移到项目经费使用机制、项目科技含量,又进一步的演化为科研项目的创新、科研成果转化等方面。2011年的主题4逐渐转变为2012年的主题5,2013年的主题3,到2016年的主题10,最终到2020年的主题3,主题词也经历了数据、科技、设计、探索、创新等的演变。2013年的主题1是关于科研项目的内容,随着时间推移逐渐转变为2014年的主题2,2015年的主题10,一直到2020年的主题6和主题8,主题特征词汇也经历了申报、科学、成果、创新、转化等的演变。

四、结论

在管理主体方面,当前对高校的研究已经有对高校本身的关注逐渐转变为研究高校科研管理机制的创新和改革;在科研主体方面,由评级指标、科研服务过渡为关注科研人员的情感思想、科研团队的协同效应,当前对科研人员的激励和绩效评价则变为热点;在科研载体方面,学术和科研项目一直是科研活动的根本,科研经费也始终贯穿着科研活动的全过程,而科研成果转化则成为当前研究的大热点。

在高校科研管理中,应注重高校、科研人员和科研载体的综合管理。在机制上注重创新性改革,提高成果转化率在绩效考核和激励机制中的权重,要尊重科研人员的情感和实际情况,采取更加科学的绩效考核,以及有针对性的激励手段和措施,注重科研经费的精细化管控,建立起综合的、多主体的科研管理新机制,以更好地提高高校科研的质量和水平。

猜你喜欢

科研人员文档强度
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
科研人员揭示油桃果实表皮不长毛的奥秘
浅谈Matlab与Word文档的应用接口
科研人员破译黑猪肉特征风味物质
有人一声不吭向你扔了个文档
低强度自密实混凝土在房建中的应用
轻松编辑PDF文档
企业科研人员激励问题及对策研究
Word文档 高效分合有高招
计算电场强度常用的几种方法