基于大数据平台的大学就业信息管理系统

2022-04-20李楠

电子设计工程 2022年7期

李楠

（西安医学院护理与康复学院，陕西西安 710021）

大学毕业生日益增多，就业难问题越来越严重。大部分大学毕业生对就业定位选择困难，固化的选择工作思维，增加了大学毕业生就业困难的程度[1]。这就需要每个大学积极为毕业生开展就业指导、就业单位分析与就业推荐等服务[2]。开发一个可以提升大学就业中心工作效率与服务质量的信息管理系统具有重要意义。信息管理系统可应用于各个领域，例如苏蔓等设计的血站免疫血液学实验室信息管理系统，提升了实验室的工作效率与实验过程的管理水平[3]；吴凡等研究基于多智能体技术的智能电网信息管理系统，为智能电网信息化与智能化提供有效的技术支持[4]。

大数据处理分布式软件框的核心是Hadoop，大数据编程框架的核心是Mapreduce，数据挖掘中分布式计算模型的核心是云计算[5]，大数据平台数据存储的核心是Nosql；大数据技术具备海量性与多样性的特点，该技术属于大数据平台最先涉足的领域[6]。因此，设计大数据平台的大学就业信息管理系统，以减轻大学就业指导中心管理工作人员的工作负担，提升大学毕业生就业比率。

1 基于大数据平台的大学就业信息管理系统

1.1 系统整体结构

基于大数据平台的大学就业信息管理系统包含毕业生信息管理平台、企业信息管理平台、个性化推荐平台与就业信息跟踪管理平台4个子系统。基于大数据平台的大学就业信息管理系统功能模块如图1所示。

图1 大学就业信息管理系统功能模块

毕业生管理平台包含个人信息管理、就业信息管理、求职管理与个人信息维4 个功能模块，其中个人信息管理模块指毕业生对个人信息资料的管理，即填写个人信息，存储于学籍数据库并制作求职简历供企业查询有关人才；就业信息管理模块指毕业生能够查看系统管理员提供的最新就业新闻与就业指导，充分了解就业相关信息；求职管理模块为毕业生提供企业发布的招聘信息，毕业生通过搜索关键词能够查看系统内企业的有关信息，以留言的方式，实现就业方面的交流；个人信息维护模块负责为毕业生提供修改个人密码服务。

企业信息管理平台包含企业信息管理模块、招聘管理模块与企业信息维护模块3 个功能模块，其中企业信息管理模块指企业编辑自身的信息，使毕业生能够及时了解该企业的有关信息；招聘管理模块负责企业编辑招聘信息，企业通过关键字搜索有关人才，寻找满足岗位需求的毕业生，以留言的方式，实现企业和学生间的在线交流；企业信息维护模块负责为企业提供修改密码服务。

个性化推荐平台由个性化就业推荐引擎组成，依据毕业生与企业的信息为毕业生推荐工作，利用基于用户历史信息的推荐实现离线就业推荐；利用基于实时用户行为数据推荐实现在线实时就业推荐。

就业信息跟踪管理平台包含就业信息管理模块与就业数据统计模块两个功能模块，其中就业信息管理模块负责记录毕业生签约的工作情况信息(工作单位、工作时间与薪资等方面的信息)，系统管理员为毕业生提供专业的就业指导信息，并检验企业发布招聘信息的真实性，按照招聘信息为大学做就业指导分析统计，为大学改善教学管理提供数据支持；就业数据统计模块负责统计毕业生信息、企业信息与就业情况信息，分析毕业生就业情况与人才需求的趋势，为大学改变教学模式提供数据支持。

1.2 基于用户历史信息推荐方法

基于用户历史信息推荐方法通过计算毕业生相似度与企业相似度，实现用户离线推荐[7]。数据来源于系统中毕业生管理平台与企业信息管理平台，基于用户历史信息的推荐模型如图2 所示。基于用户历史信息的推荐模型负责计算毕业生与企业的相似度，对其实施聚类，相似度计算包含可度量相似度计算与不可度量相似度计算，可度量相似度计算是依据毕业生的基本信息获取期望权重，计算毕业生的相似度；不可度量相似度计算是依据毕业生的实践经历与实习经历，以提取关键词的方式计算毕业生的相似度[8]。毕业生相似度的计算是通过分析毕业生就业特征，依据权重设置，匹配相似毕业生；企业相似度的计算是通过企业信息与企业招聘需求等信息实施相似度计算；然后完成企业与毕业生的聚类；基于用户历史信息的推荐方法是按照企业招聘需求与毕业生就业特征实施关键词匹配，依据需求中的重要程度确定权重，完成毕业生匹配、毕业生与工作的匹配，最后显示推荐结果[9]。

图2 推荐模型

1.2.1 毕业生聚类分析

毕业生就业特征属于毕业生就业时的基本属性，可以呈现毕业生间的相似程度。按照毕业生就业特征组建毕业生的就业体征向量P={P1,P2,…,Pn}，Pmn是第m个毕业生的第n个属性，表达式如下：

按照毕业生就业特征维度获取两个不同毕业生stui与stuj在同一维度中的相似度，计算公式如下：

其中，毕业生是Sn(stui,stuj)；毕业生stui第n个属性值是；毕业生stuj第n个属性值是；第n个属性值的最大值是；第n个属性值的最小值是。假设毕业生stui的n维向量是stui={Pstui1,Pstui2,…,Pstuin}；假设毕业生stuj的n维向量是stuj={Pstuj1,Pstuj2,…,Pstujn}；欧几里德距离的计算公式如下：

由于不同就业特征维度的特征权重不同，因此假设毕业生就业权重向量θ={θ1,θ2,…,θn}，这样便可获取新的距离公式如下：

总体特征向量的表达公式如下：

通过式（5）能够获取各个毕业生的特征向量与各个毕业生的特征向量相似度，这样就能得知某部分毕业生存在相似性，实施毕业生群体的聚类。对存在相似性的企业实施聚类方法与毕业生群体的聚类方法一致。

1.2.2 企业相似度计算

为对比分析各个企业间的相似度，将企业的各个业务定义为一个向量c={y1,y2,…,yn}，企业招聘信息中对毕业生需求的元素是y，组建企业和需求的二维数据组是Q[m][n]，Q[m][n]的各个向量表示一个企业向量c。企业利用式（3）可实施量化指标计算，企业不可量化指标则利用基于内容的推荐算法实施文本匹配。

1.3 基于实时用户行为数据推荐方法

基于用户行为数据推荐方法是按照有关数据了解用户行为偏好，根据不同行为偏好对相似用户实施聚类，为用户推荐相匹配的工作。通过实时数据并行化处理能力与基于用户的协同过滤、基于物品的协同过滤算法实施数据建模，实现用户在线实时推荐[10]。

1.3.1 基于用户的协同过滤

基于用户的协同过滤指若能获取和毕业生A具有一样偏好的其余毕业生，则为毕业生A推荐的结果是依据这些毕业生关注与其投递的企业状况获取的[11-12]。假设有过物品行为的毕业生分别是u与v，设置毕业生u的物品集合是N(u)，毕业生v曾经的物品集合是N(v)，按照对毕业生与毕业生行为的物品间的关系获取u与v的相似度，计算公式如下：

1.3.2 基于物品的协同过滤

基于物品的协同过滤指用户推荐与其曾经喜欢物品的相似物品[13]，具体步骤如下：

步骤1：构建毕业生u偏好向量[Su1,Su2,Su3,…,Sun]T；

步骤2：构建项目与评分的二维矩阵，不同项目的评分情况由U代表，公式如下：

步骤3：构建物品共现向量，共现向量是一个表示不同毕业生对物品实施评分情况的矩阵，该矩阵代表不同物品间的相似性[14]，假设对物品a实施评分的用户数量是Pa，对物品b实施评分的用户数量是Pb，那么物品a与b共现次数的表达式如下：

步骤4：生成推荐，将毕业生偏好向量与物品共现矩阵相乘，获取一个全新向量，即推荐向量R，Tin的值与毕业生偏好于某一物品(行为)的程度成正比，依据推荐需求为毕业生推荐前n个结果[15]。推荐向量计算公式如下：

2 实验结果与分析

以某大学为实验对象，在2019 年1-3 月期间，利用文中系统对该大学实施就业信息管理，测试该系统的查询管理性能、响应时间性能、资源占用率与就业推荐性能。

2.1 信息查询管理性能测试

以管理大学就业信息中的求职信息为例，毕业生成功登录文中系统后，能够通过求职管理模块实施求职方面的操作[16-18]，毕业生可查看系统内的全部招聘信息，查看结果如表1 所示。根据表1 可知，文中系统可有效查看招聘信息，毕业生能够输入关键字对有关企业的招聘信息进行实施查询访问，实现毕业生和企业间的在线交流。实验证明，文中系统能够有效管理大学就业信息中的求职信息。

表1 招聘信息查看结果

2.2 系统响应性能测试

将Loadrunner 当作系统性能测试工具，测试文中系统与文献[3]系统、文献[4]系统在不同用户并发访问数量时系统的响应时间，测试结果如图3 所示。根据图3 可知，在不同用户并发访问数量时，文中系统的响应时间均明显低于其余两种系统。当用户并发访问数量达到200 人时，文中系统的响应时间趋于平稳，一直维持在5 s 以内，表示文中系统响应时间短，随着用户并发访问数量的不断增加，文中系统依旧保持较好的响应时间，具有极佳的性能。随着用户并发访问数量的不断增加，文献[3]系统与文献[4]系统的响应时间上升幅度波动较大，且系统响应时间较慢，表示文献[3]系统与文献[4]系统不适用于大量用户共同使用系统，若用户并发访问数量过多，那么该系统会出现崩溃状况，其系统性能不佳。实验证明，在不同用户并发访问数量时，文中系统的响应时间更快、稳定性好。

图3 3个系统的响应时间测试结果

2.3 系统资源占用率测试

以200 个用户并发访问系统为例，测试3 个系统的Web 服务器资源使用情况，Web 服务器资源使用情况通过CPU 占用率与内存占用率两个指标呈现，测试结果如图4 所示。根据图4 可知，在用户并发访问数量一定时，文中系统的CPU 占用率与内存占用率均明显低于文献[3]系统与文献[4]系统，文中系统的CPU 占用率比其余两个系统分别低了28.4%与24.4%，文中系统的内存占用率比其余两个系统分别低了27.2%与28.0%。实验证明，文中系统的Web 服务器资源占用率明显低于其余两个系统，文中系统能够稳定运行，不会出现服务器死机的情况。

图4 Web服务器资源使用情况

2.4 信息推荐性能测试

在2019 年1-3 月份期间，利用文中系统对该大学部分应届毕业生(1 000 人)实施就业推荐，分析该大学这些毕业生与其同专业的前一年毕业生在1-3月份的就业情况，对比结果如图5 所示。根据图5 可知，应用文中系统后，该大学不同专业的应届毕业生在1-3 月份的就业比率相比前一年存在显著提升，应用该系统后大学毕业生的就业比率基本维持在80%以上。实验证明，文中系统可有效提升大学毕业生就业比率。