APP下载

基于知识互联的异常用户画像技术研究

2020-02-21王晨飞李慧芹李子乾赵伟谢瑞楠

电子技术与软件工程 2020年13期
关键词:用户画像

王晨飞 李慧芹 李子乾 赵伟 谢瑞楠

摘要:本文主要研究在知识互联的技术之下,用户画像技术的相关知识。知识互联对构建完整整体具有重要作用,特别是在互联网时代下,通过知识互联能够快速完成用户画像构建。用户画像技术将以知识互联为基础,对现有的信息实施整合,利用计算机技术深度学习,将潜在用户属性开发完成,进而为用户打上标签。通过这种技术,可以为相关人员提供服务时提升精准度。这项技术的应用,能够使得相关研究人员更加透彻的理解数据信息,也为后续工作奠定基础。

关键词:知识互联;用户画像;Skip-gram模型

以知识互联为基础的异常用户画像技术作为一种方式,其主要是通过对已有的知识完成深度学习,同时通过总结信息完成画像刻画,探究用户的隐藏属性。在本文的研究中,将基于知识互联,利用深度学习的方法,实验计算不同数据集,掌握在用户画像技术应用中的相关要点[1]。在目前生活中,用户画像技术已经逐渐深入民众,成为人们日常生活中最为常见的技术方式之一。例如当人们在刷抖音的时候,假以时日,抖音所推荐的小视频日渐贴合用户的喜好,精准的推荐用户喜爱的视频,抖音在进行视频进行推荐的时候,便是根据用户画像技术进行,根据用户的基本特征,提升视频针对性,保证为用户提供更好的服务[2]。

1 用户画像的词向量

在人們的日常生活之中,或者是工作学习之中,最为基础也是最为必要的工具是语言和文字,人们在日常交流活动中,可以通过运用语言或者是文字获得想要的结果,让他人理解自己所要表达的意思,让倾听者可以了解自己的需求,同时也可以将自己的意思通过这种方式传输给他人。这主要是因为人类所形成的语言具有系统性,能够在运用的过程中有所感知。但是对于非人类而言,文字所产生的作用微乎其微,它们不能够感知人类的语言和文字。所以,为了强化这些设备对于人类文字的感知能力,必须要对这些机械设备展开词向量训练,将人类的文字转化成为机器可以理解的数字方式,进而帮助机械设备顺利的理解与计算完成文字信息[3]。

在图像信息进行处理的过程中,要考虑到图像的组成特点,其本身便是像素点的组合,所以在储存与处理图像时,是可以对像素值进行直接存储的。换言之,存储图像就是存储像素值。在处理图像的过程中,输入可以选择图像本身。但是处理自然语言以及处理图像的时候,这两者之间存在的最大不同在于输入特征之间的差异。在自然语言处理的环节之中,要完成文本的处理,但是图像与文本之间有所不同,文本是不可以在存储的过程中以数字的形式完成的,而是通过使用字符串的方式完成。引以为重的部分是,若词语具有相同或者是相近的含义时,利用字符串实施表达,其形式仍旧存在不同。这种问题的出现,造成机器学追踪的处理文本工作存在着很大问题。为了实现这个问题,可以选择使用one-hot方式完成[4]。在对向量长度进行获取的时候,可以选择使用one-hot完成,并且可以将其视为词典的长度,在词典当中,该词语所对应的向量值位置为1,其余为0,那么此时才能够获得便利性。但是,这种方法的运用,也使得维度角度层面出现问题,不能够较好的表达完成词语与词语之间的关系。

另外还有一种处理方法是word2vec,其作为一种工具,可以简单的理解为神经网络。word2vec存在两种不同的模型,分别为Skip-gram模型和CBOW模型。在运用CBOW模型展开处理时,其输入的过程是需要对词语的上文和下文相互关联的词向量展开训练。但是在输出时候,其所指的就是词的词向量。但是在使用Skip-gram模型的时候,恰恰相反[5]。就相关研究结果得知,当拥有较小数据量的时候,CBOW模型更为适合,当拥有较大数据量的时候,Skip-gram模型更为适合[6]。

2 以微博为案例分析构建用户画像的流程

首先要预处理在微博中的各项数据信息,并且对内容完成分词处理。在处理环节,可以利用结巴分词的方式完成,另外还可以选择停顿词词典完成无意义停顿词的处理工作,将其剔除以保证处理的准确率。其次,还需要对其他数据集之中的空缺值采取填补措施,以保证该空位中的数值得当。根据微博用户的实际年龄作为基础进行用户划分。最后要将处理完成的数据结果输入文本之中,获得研究结果,并将其输出。

以数据为依据构建用户画像的方法流程图如图1所示。

3 用户画像构建分析

在本次研究中,是以微博的数据信息展开分析的,微博作为社交软件,包含多种数据信息。其中,在微博知识数据中,当以社交关系信息为主,其所包含的用户数量也最多。社交关系所拥有的方式无非两种,一种是单向好友关系,一种是双向好友关系[7-8]。

3.1 微博用户的社交关系信息分析

在分析用户的社交关系信息的时候,每一行所代表的是一个微博用户所具有的社交关系,在显示的时候,其表现方式将会以数字呈现。在结果中,微博用户的II)便是第一个数字,微博用户的粉丝ID是通过后面的数字进行表示的,在不同的数字之间,通过使用空格间隔以保证不同Ⅲ之间的独立性和可分辨性。详细如表1所示。

3.2用户微博文本信息

在用户的文本信息之中,每一行所代表的含义为一个用户信息,其中依次为用户的ID,用户文案的转发次数,文案的评论数量,用户在发布文案的时候使用的设备信息,文案发布的时间,文案的具体内容。在表示的时候,均需要使用“,”作出间隔。微博用户信息文件内容表如表2所示。

3.3 用户的标签信息

在微博之中的用户标签信息,每行所代表的内容是一个用户的标签信息,其中依次为用户的ID、用户的性别、用户出生的时间、用户的地域信息,中间利用||分隔。微博用户标签信息文本内容表如表3所示。

4 数据信息预处理

为了在分析中更好的对知识互联展开应用,首先要按照一定的原则将数据信息输入。但是在实际输入的过程却存在着很多不尽人意的地方。若是采取人工录入数据信息,将会导致数据信息出现重复,导致数据不完整,甚至是出现输入错误的问题。这些数值中所包含的错误数据将会造成输出的结果存在误差。所以要事先作出预处理。

4.1 预处理用户社交信息

首先以微博用户的ID地址统计用户粉丝量,将没有粉丝的微博用户数值设置为0。

4.2 预处理微博用户文本

划分用户信息,将多余的数据信息删除,以防止在数据处理的过程中压力过大。利用结巴分词将微博中的文本内容作出处理。将与实验无关的词语利用停用词典将其去除。统一化格式处理微博发布的时间,将“几分钟前”、“今天”等词语删除,并且以用户的ID作为依据,拼接用户发布的内容。此外,对用户的实际微博发布数量、转发数量、评论数量、原创微博数量作出统计,计算出每个微博用户的微博转发量和评论数。统计微博用户粉丝特征。

4.3 预处理用户标签信息

根據划分的年龄段进行微博用户年龄预处理。

5 结束语

用户画像技术随着现代科学技术的发展而获得快速进步,为当前人们的生活带来了极大便利,可以为用户提供其所需要的内容,实现前所未有的边界。通过以知识互联为基础实现用户画像技术应用,逐渐实现了用户在上网和生活中的精准营销和定性投放目的。另外,这项技术的发展,能够为商家带来巨大的经济效益。目前在用户画像技术影响之下,人们对于用户画像技术的信赖度逐渐提升,也使得科研人员纷纷投入精力深入探究。本文立足于知识互联分析用户画像技术,旨在为研究人员的研究工作提供借鉴。

参考文献

[1]王雨,韦广林,王题等.基于大数据分析的电话手表用户画像及应用研究[J].邮电设计技术,2020 (01):831-8 32.

[2]余晓峰.基于大数据的电力行业供应商用户画像模型构建与技术实现[J].信息周刊,2 018 (11):1-1.

[3]邝小洁,冯帆,任儒轩,等.移动互联网环境下短视频受众中的大学生群体用户画像研究[J].微计算机信息,2019 (21):67-69.

[4]李锦锐,章家宝,彭梅.基于大数据技术的求职用户画像系统研究与设计[J].产业与科技论坛,2019 (04):77-78.

[5]张璐,陈宇,景嘉欣等.基于文本分析的人物画像技术研究以知乎大V为例[J].软件工程与应用,2020 (03):15.

[6]陈瑾,丁雪梅,基于服装洗护大数据的用户画像平台构建及其应用价值分析[J].家电科技,2018 (09):36-39.

[7]张海涛,徐海玲,张枭慧,国内外图书情报领域用户画像研究现状及展望[J].图书情报工作,2019 (07):103-104.

[8]王雨,王题,韦广林,基于大数据分析的极致用户画像及应用研究[J].邮电设计技术,2019 (10):80-83.

作者简介

王晨飞(1988-),男,河北省沧州市人。研究生,工程师。从事网络与信息安全相关工作。

李慧芹(1988-),女,安徽省宿州市人。研究生,中级工程师。从事网络安全管理工作。

李子乾(1984-),男,天津市人。大学本科学历,高级工程师。从事企业信息化建设及运维管理。

赵伟(1984-),男,山西省定襄县人。硕士研究生,高级工程师。从事信息运维管理工作。

谢瑞楠(1983一),男,江苏省南京市人。本硕在读,国网客服中心网络安全红队管理。研究方向为网络安全。

猜你喜欢

用户画像
分析用户画像在企业精准营销中的应用方式
基于大数据技术的广电用户收视行为建模