APP下载

基于大数据驱动的用户画像自动生成模型设计

2022-02-09周晓虹

计算机仿真 2022年12期
关键词:画像标签向量

刘 莉,周晓虹

(1. 吉林建筑科技学院,吉林 长春 130114;2. 吉林建筑大学,吉林 长春 130119)

1 引言

通过用户真实数据获取用户的属性、行为偏好等,以技术手段使其形成特有标签,可充分描述用户整体特征与轮廓的虚拟表达形式称为用户画像。用户画像的核心思想是用户特征的可视化,其广泛应用在各个领域中[1,2],尤其是在图书馆书籍管理中,通过用户画像可识别精准用户需求,针对不同用户为其提供相应书籍推荐服务。用户画像生成方法是提升图书馆书籍管理能力的重要途径之一,为此很多学者致力于研究用户画像自动生成方法或模型,如万家山[3]等人研究的基于KD-Tree聚类的社交用户画像建模方法,依托智慧学习平台获取用户信息,通过KNN聚类获取用户兴趣特征,并依据用户兴趣特征对其实施分类处理,形成标签后通过二次建模形成用户画像。但该方法在应用过程中由于推荐信息指向性和平台用户数据转化率较低,导致其无法精准描述用户特征,因此应用效果不佳。徐海玲[4]等人研究的用户画像的构建及资源聚合模型,将用户信息标签化后,通过研究用户画像和资源画像的映射关系,完成用户画像生成。但由于用户属性众多,该模型仅从资源方面对用户画像展开描述,具有一定的片面性,因此应用性不强。

大数据时代的来临,为新型生产要素的衍生提供了基础,以大数据为驱动方式的各行业数字化转型已成为其寻求长久发展的手段之一,尤其是在图书馆管理方面,面对来源和格式不同且呈分布式状态的用户数据,图书馆的图书推荐功能需依据当前用户特点为其推荐相应数据,而图书馆用户画像则是描述该用户特点与需求的表达形式之一[5],因此需通过相应技术使其形成用户特有的画像,以便于图书馆更好地服务用户。在此结合大数据驱动技术,设计基于大数据驱动的用户画像自动生成模型。

2 大数据驱动的用户画像自动生成模型

2.1 建立基于大数据驱动的用户画像生成模型

用户画像自动生成的实现依托大数据分析模块完成,将用户画像自动生成模型分为两个部分,一部分是依托Hadoop、Spark大数据分析模块实现,在该模块内,将用户画像文本标签分类结果存储于数据仓库内,利用Spark内存计算模型对用户画像数据进行分析和预测,以Dubbox框架解耦用户数据分析过程,将结果输送至用户画像展示端服务器进行显示,另一部分是用户画像展示模块,该模块以Spring MVC、web页面等方式实现人机交互,用户通过查询姓名可获取所查询者的用户画像。基于大数据驱动的用户画像生成模型具体结构如图1所示。

图1 基于大数据驱动的用户画像生成模型示意图

基于大数据驱动的用户画像生成模型共包含5层,信息预处理层将长短期记忆神经网络(LSTM)引入到条件随机场模型(CRF)内,构建用户信息抽取模型,利用该模型从互联网中抽取用户画像信息,对用户画像信息标签进行分类后将其输入至数据层,画像计算层从数据层调用文本标签分类结果,当用户发起画像查询时,通过调取数据层用户画像信息并融合后输入至结果存储层,该层利用HBase、MySQL、Redis等方式对融合后的用户画像信息进行存储,然后通过Java编程技术连接画像展示层,为用户提供画像可视化功能,至此实现用户画像自动生成功能。

2.2 用户信息抽取模型建立

提取用户画像信息是用户画像自动生成的基础,在此以序列标注形式描述画像信息抽取过程,将长短期记忆神经网络(LSTM)引入到条件随机场模型(CRF)内,建立LSTM-CRF用户画像信息抽取模型,从图书馆主页获取用户基础信息,该模型依据信息字段定义启发原则,可在一定程度上提升信息抽取的准确性。用户画像信息抽取模型如图2所示。

图2 LSTM-CRF用户画像信息抽取模型示意图

LSTM-CRF用户画像信息抽取模型获取用户信息来源于图书馆网站主页,通过人名匹配、头像信息提取、邮箱信息提取以及网页预处理等步骤获取用户的性别、头像等相关信息。

由于各个用户主页之间的实体结构较为相似[6],实体之间联系紧密,尤其是网页内的文本信息,各个节点之间的信息均存在线性关系,即当前节点信息可通过文本节点内容进行描述。在此利用长短期记忆神经网络进行用户网页信息的特征提取与文本分词处理,其步骤如下。

第一步:网页预处理

由于用户主页存在很多用户个性化设置或签名,存在大量信息冗余,因此需要对用户网页进行数据清洗和实体标注[7],首先,将网页内无效标签、样式以及运行脚本以文本过滤的方式去除其中的空白和注释字符,获取相对简化的用户网页文本信息,将得到的信息嵌入HTML格式标签后,对文本字符高于200个的文本节点进行分词处理,其抽取单元为标签文本节点。按照用户属性设置标注类型,将用户专业标注为ORG,邮箱标注为EML,专业标注为PSN,所属学校标注为LCN,其余统一标记为0,将所有标注以label属性标记在相应标签内。

第二步:词向量表示

利用上一步标记的用户信息文本节点建立词库表,以n维向量描述标签的文本节点,其由o∈Rn表示,该词向量由Word2Vec算法经过迭代得到,并由长短期记忆神经网络依据词特征获取字符词向量,二者分别由ow2v∈Rd1、ochars∈Rd2表示,二者关系满足|d1|+|d2|=n。

令o=[c1,c2,…cp]表示用户信息单词,其词向量由ci∈Rd3表示,该词向量的长度为固定数值,利用长短期记忆神经网络对其字母级别展开映射。

第三步:节点序列表示

由于网页位置对文本节点标注类型影响较大[8],需对文本节点与其相连节点进行特征提取,利用长短期记忆神经网络的第二个网络层次训练文本节点序列后,可获取到该节点前后信息词向量,由h∈Rd表示,当存在m个文本节点时,则其词向量则由h1,h2,…hm∈Rk表示,从而获取到用户信息节点序列。

第四步:CRF层序列概率获取

获取到用户信息的词向量与节点序列后,LSTM-CRF用户画像信息抽取模型利用全连接层对词向量展开解码,可获得词向量的相对目标标签得分[9,10]。

令b∈R5、W∈R5*k、s∈R5分别表示偏置矩阵、权重矩阵、分向量,三者之间关系可由s=W*h+b表示,在长短期记忆神经网络结构最后添加条件随机场层,利用该层获取文本节点的标签概率分布,依据节点序列可获取到文本节点的分向量s1,s2…sm和其所对应的标签e1,e2…em,则条件随机场层的损失表达公式如下

(1)

式中,b、δ、T分别表示初始标签、结束标签和状态转移矩阵,通过该公式可获取用户信息序列的标签概率分区情况,获取最高标签序列。

利用动态规划算法计算式(1),并将结果输入到SoftMax函数内,获取标签序列的得分概率分布,令Z表示序列概率之和,其表达公式如下

(2)

当et作为标签初始序列时,经过转换后,得到序列概率表达公式如下

(3)

概率分布的优化函数交叉熵表达公式如下

(4)

基于上述运算,LSTM-CRF用户画像信息抽取模型建立完成,经过训练模型参数并对该模型输出数值实施解码处理后,获取最优标签序列,完成用户画像的所属国家与单位信息提取,用户邮箱利用正则表达式进行抽取,用户头像则通过人脸识别与标签文本相结合的形式进行提取,至此用户画像信息自动提取完成。若实现用户画像自动生成,则需对提取到的用户画像信息标签进行分类处理,更加精准地描述当前用户[11,12],便于后续用户画像自动生成。

2.3 用户兴趣标签分类

基于上述获取的用户画像文本标签信息,使用多标签学习算法对其进行分类,其步骤如下:

令X表示用户画像文本标签信息的输入数据,其标签矩阵由Y表示,则多标签的训练数据集由S={(xi,yi)|1≤i≤n}表示,其中xi、yi分别表示特征向量和标签向量。令L( )表示损失函数,则多标签算法表达公式如下

(5)

式中,α表示正则化参数。

令pd|y、py|n分别表示特征标签条件概率矩阵和标签实例条件矩阵,则多标签算法分类表达公式如下

(6)

式中,θ表示拉普拉斯矩阵,Py表示标签奇异值矩阵,β表示可变参数。

通过对式(6)求解,得到用户画像的文本标签分类结果,为用户画像自动生成提供数据支撑,以此完成用户画像自动生成。

3 实验分析

为验证本文模型的实际应用效果,以某大学图书馆用户为实验对象,使用本文模型生成大学生画像,分析本文模型的应用性。

3.1 用户信息抽取测试

以该图书馆用户的性别信息和头像信息作为实验对象,抽取性别信息的精度减去抽取头像信息的精度数值作为正偏差数值,反之则为反偏差数值,以两种数值衡量本文模型信息抽取能力,在抽取文本大小不同时,测试本文模型提取的用户性别信息与头像信息正偏差数值和负偏差数值,分析其用户信息抽取能力,结果如图3所示。

图3 用户信息抽取测试结果

分析图3可知,文本大小与信息抽取的正偏差数值和负偏差数值均成正比例关系,在文本大小为200kB之前,本文模型抽取的用户信息正偏差和负偏差数值均为0,当文本大小超过200kB后正负偏差数值逐渐拉大,当文本大小为500kB时,模型用户画像信息抽取的正偏差数值和负偏差数值仅为0.08左右,该结果表明,本文模型在抽取用户画像信息时,受文本大小影响较低,抽取信息的精准度较高。

3.2 用户兴趣标签分类测试

汉明损失函数(Hamming Loss)是衡量标签分类能力的重要指标,统计在不同文本大小情况下,本文模型的汉明损失函数变化情况,结果如图4所示。

图4 用户兴趣标签分类测试结果

分析图4可知,随着用户文本信息大小的增加,本文模型的汉明损失函数数值也随之增加,但增加幅度较小,在文本大小为3000kB之前,模型的汉明损失函数数值始终保持在0.15左右,随着文本大小的增加,汉明损失函数数值呈现指数上升趋势,当文本大小为9000kB时,本文模型的汉明损失函数数值仅为0.23左右,其增长幅度仅为0.08,该结果表明:本文模型的用户兴趣标签分类效果较好。

3.3 用户画像生成效果

以该图书馆某一用户借阅书籍以及在图书馆网站注册信息为实验对象,利用本文模型获取到该用户的部分图书标签信息,如表1所示,依据表1所示的用户信息生成用户画像如图5所示。

表1 用户图书标签信息(部分)

图5 图书馆用户画像

综合分析表1和图5可知,依据部分用户标签信息,本模型所生成的图书馆用户画像涵盖用户id、邮箱、性别等基础信息的同时,也包含用户的个性签名,对用户标签信息整合后,提取到用户的数据兴趣标签共5个,依据书籍类别也可以呈现该用户对历史类和诗词类书籍的偏好程度,图书馆管理系统可依据该用户对书籍的偏好程度为其提供更精准的服务,该结果表明:本文模型可有效生成图书馆用户画像,充分描述用户兴趣特征。

4 结论

本文设计的基于大数据驱动的用户画像自动生成模型由信息预处理层、画像计算层、数据层,结果存储层以及画像展示层构成。经过实验验证:本文模型抽取的用户画像信息正偏差数值和负偏差数值仅为0.08左右,抽取信息的精准度较高;汉明损失函数数值低,随着文本大小的增加,该数值上升幅度较小;生成的图书馆用户画像涵盖用户基本信息的同时,用户兴趣特征描述清晰,且可呈现用户的书籍类别偏好。

猜你喜欢

画像标签向量
威猛的画像
向量的分解
聚焦“向量与三角”创新题
“00后”画像
画像
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
让衣柜摆脱“杂乱无章”的标签