基于主题的政务微博评论用户画像研究

2022-04-12王志刚邱长波

情报杂志 2022年3期

王志刚邱长波

(吉林大学管理学院长春 130022)

0 引言

随着服务型政府建设的推进，我国从中央到地方的各级政府都在积极推进电子政务的发展，实现政府改革。政务微博是政府向公众提供服务、建立联系的重要平台。政务微博的使用提升了政府的信息受众面，扩大了政策的社会影响力，还有利于实现政府透明化。对于公民来说，政务微博为公众发声提供了便利的条件，因此公众的参政意识逐渐提高，对于接触到的政治问题和社会事件，都会倾向于表达自己观点和情感。普通用户作为政务微博公众参与的主体，对公众参与效果起到决定性作用，而用户在参与过程中的行为、表达的观点等与用户自身的特征和其他用户有着紧密的联系。因此对参与用户的评论进行分析，有助于了解用户特征和用户行为之间的关系。如能对用户社群进行分析，综合考虑每个社群多方面的用户特征，就能针对不同类型的用户采取不同的管理策略，从而提高公众参与效果。

本文对用户评论进行主题分析，基于用户的主题偏好将用户分为多个群体，并提取出每个用户群体的典型特征，最终抽象出不同用户群体的全貌，有助于政府了解不同用户群体的特征和需求，对决策的制定具有重要意义。

1 文献回顾

1.1政务微博用户研究目前，对于政务微博用户的研究，主要为用户的整体研究，比如用户行为、用户情感、用户满意度等。有学者基于用户行为主观数据和客观数据，从使用与满足理论[1]、持续使用理论[2-3]、技术接受理论[4]、刺激-响应理论[5]的角度构建了模型，研究了公众参与行为的影响因素，并实现了用户参与行为的预测。舒华丽和纪雪梅选取了人民网舆情中心发布的影响力较大的几个政务微博，分析了不同议题、不同态度、不同语气对公众情感的影响[6-7]；石国良通过对微博评论进行内容分析，探索网民对于“弱”议题舆论引导的情感取向并分析原因[8]；熊杰构建了政务微博评论用户情绪反应模型，验证了公众情绪的影响因素[9]。魏姮清对某事件中相关公安政务微博的评论进行网络爬虫和情感时序的分析,用以发现公安政务微博在应对热点舆情事件时存在的问题[10]。孙晓燕建立了公众感知角度的政府形象评价指标体系,选择4个政务微博作为实验微博,检验了使用政务微博是否对公众感知政府形象产生影响[11]；邹凯借鉴经典顾客满意度模型,结合政务微博服务的基本特点,构建了政务微博服务公众满意度指数模型,对推进电子政务战略计划和重构政府话语权具有重要意义[12]。

1.2画像研究用户画像是建立在用户一系列数据的目标模型[13]，最初常被用于精准营销[14]。目前学者对画像的研究可以分为三个流派：用户画像行为流派、用户画像社交媒体流派和用户画像兴趣流派[15]。目前，使用用户的社交媒体数据进行画像研究，已经有了较为丰富的成果。刘海鸥围绕人类动力学研究视角构建了在线社交用户的舆情画像模型，对在线社交用户信息传播行为特征进行了实证分析，为网络舆情生态环境的完善提供参考[16]；徐海玲以“豆瓣”电影为例，分别构建用户画像和资源画像模型，为社交媒体的资源聚合提供新的思路[17]；安璐使用基于相关性的LDA主题模型提取微博主题，从用户特征和文本特征两个角度构建指标体系，并采用两步聚类刻画微博用户特征，分析发布微博用户和评论用户的异同[18]；任中杰提出一种基于微博情感分析和用户画像的突发事件情感预测模型，通过用户画像实现了公众情感倾向性的预测[19]；张亚楠抓取了国内科研社交平台科研之友上的科研人员相关科研行为数据，借助深度学习自动从数据中提取高度抽象特征的特点，结合全局信息构建科研人员的立体精准画像[20]。可见，用户画像可以从用户的一系列数据中提取出群体的典型特征，进而描绘出不同群体的全貌。

以上的研究也能看出，政务微博参与用户的研究多为整体研究，但忽略了用户之间的特征差异，缺乏对用户社群的特征研究，其成果并不能精准的了解不同群体用户的需求，而用户画像的研究方法可以将用户进行分类，提取出每个细分群体的典型特征，进而刻画出不同群体的全貌，可以帮助政府了解到不同群体用户的需求，从而更加精准的进行决策。

2 用户画像构建流程设计

用户画像的构建涉及到两个关键的过程：首先是实现用户的分类；其次是采用合理的方法提取出每类用户的特征，构建用户画像。

目前关于用户画像的研究，多采用定性分析实现用户的分类，通过用户特征的相似性对个体进行划分。而在微博平台上，用户的兴趣对其在社交平台上的行为具有更大的影响，而评论内容往往能体现出用户感兴趣的内容。社会认同理论认为，个体会根据自身认知实现自我分类，认为自己拥有该群体成员的普遍特征，同样，微博用户在使用过程中也会认知所处的虚拟网络并实现自我归类，这种归类主要依赖于自身的兴趣爱好[21]。本文基于社会认同理论，按照用户的兴趣，即主题偏好，实现用户的群体分类。相较于其他方法，基于主题的画像方法可以增强画像特征的多样性。

此外，用户分类可以采用多维标度法(MDS)，相比于聚类分析、关联规则、决策树、协同过滤等常用方法[22-23]，多维标度法可以通过各种途径把高维的研究对象转化成低维情形进行定位、分析和归类，还能继续保留对象间的原始关系。同时也是一种可视化方法，实践中通常利用2D或3D的MDS结果观察点的分布和聚集来研究数据的性质[24-25]。具体地说,多维标度法是以研究对象之间某种亲近关系为依据(如距离、相似系数，亲疏程度的分类情况等)，合理地将研究对象在低维空间中给出标度或位置，以便全面而又直观地再现原始各研究对象之间的关系，同时在此基础上也可按对象点之间距离的远近实现对样品的分类。多维标度法能弥补聚类分析、关联规则等方法的不足之处，因为聚类分析、关联规则将相似的样品归类，最后得到一个反映样品亲疏关系的谱系图，虽然比较简便易行，但是，其缺点是将一些高维的样品强行纳入一个一维的谱系分类中，常常使原始样品之间的关系简单化，甚至有时失真。而多维标度法是将几个高维研究对象，在近似的意义下，从高维约简到一个较低维的空间内，并且寻求一个最佳的空间维数和空间位置而仍保持各研究对象数据的原始关系。对于群体用户的特征提取，可以使用Logistic回归模型得到自变量和主题偏好之间的关系，通过变量的特殊取值，得到属于某个群体最大概率的群体特征组合，作为用户群体的典型特征。

根据以上的分析，本研究用户画像的流程图如图1所示，包括数据爬取、数据预处理、主题分析、群体分类以及特征提取5个部分。

图1 政务微博评论用户画像分析流程

a.数据获取。本研究在用户画像的构建过程中，共需要获取两类数据，一类是政务微博的评论内容，一类是评论用户的属性数据，包含性别、用户等级、会员等级、关注数、粉丝数、是否认证、总微博数等属性。

b.数据预处理。爬取的用户评论文本数据会存在一些对分析没有用处的字符，所以需要对其进行清洗。首先，去除文本中的 html 字符，这些字符是网页数据所具有的，没有实际意义；其次，对缺失数据、异常数据和重复数据进行删除和去重处理，清理后的文本可以作为用户的偏好标签集合。

c.主题偏好标签。主题提取是自然语言处理中的一种，是采用计算机语言将非结构化的数据转化为结构化数据的方法和工具，涉及到分词、词性标注、文本分类[26]，其中LDA模型最为常用，是一种对于文本内容进行分析的方法[27]。LDA主题是基于“文档-主题-词”的三层贝叶斯模型，其中主题是一个概念，表现为一系列单词的条件概率。当使用LDA主题模型挖掘用户主题偏好时，文档表示用户的标签集合，词表示用户的主题偏好标签，进而得出用户的主题-偏好标签的概率分布向量。

本文使用python的机器学习库gensim对用户的标签集合进行分析，其中主题个数K由模型困惑度确定(perplexity)，困惑值越低，模型的性能越好，确定K值后，可以得到每个用户的“偏好标签-主题”，即用户ui的标签在各个主题下的概率pj，此时TPi={pi1,pi2,…,pik}，其中pik表示第i个用户对第k个主题的偏好程度。

d.用户群体分类。采用多维标度法可以将用户主题偏好的多维向量数据转化为二维数据，在二维状态下展现出所有用户之间的相对位置，进而将用户目标进行分群，并进行下一步的复杂行为分析。

e.用户画像特征提取。微博评论用户的信息可以分为基本属性(如性别、身份等)、活跃度属性(用户等级、微博数等)以及其他属性(关注数、粉丝数、是否认证等)。采用Logistic模型可以计算出各属性变量对因变量的影响程度，通过设定特殊取值来提取出不同对象群体的典型特征。

3 基于主题的政务微博评论用户群体分类

3.1数据爬取与预处理本文采用编程的方法，以政务微博“中国警方在线”为例，爬取了前100页微博，随后使用链接扩散的方式获取每条微博下面的评论和评论人信息，根据研究的需要，获取的属性包括微博文本(longTextContent)、评论文本(text)、性别(gender)、用户等级(urank)、关注数(follow_count)、粉丝数(followers_count)、是否认证(verified)和微博数(statuses_count)。经过无用字符的去除和异常数据的处理后，最终获取的数据包含991条政务微博，以及35 549条评论和评论用户信息。

3.2用户主题偏好标签挖掘用户对政务微博的评论内容可以直观的反映出用户的偏好主题，通过主题挖掘能够分析出用户对于主题感兴趣的程度。本文采用LDA模型对评论文本进行主题挖掘，过程如下。

a.整理经过预处理之后的评论文本，并且进行分词和去除停用词。使用LDA模型挖掘本文主题时，首先应该设定模型参数，最大主题数设为100，迭代次数设为5 000次。

b.LDA模型的最优主题个数可以用困惑度来确定[28]，主题数越多，困惑度越低，但过多的主题数会导致过拟合，通过困惑度的计算可以得到合适的主题数。由图2可以发现，主题数为9时，分布较为理想。设定主题数为9，得出每个主题的词语分布，以及每条评论属于每个主题的概率。各主题的主要内容如表1所示。

图2 主题提取困惑度折线图

表1 评论文本主题划分表

3.3评论用户的群体分类

3.3.1 用户相似度根据主题提取的结果，可以获取每条评论对于9种主题的概率分布，即每条评论用户偏好主题的9维概率向量。通过计算用户偏好向量之间的距离，可以得到用户相似度。计算向量相似度的常用方法有余弦相似度、欧氏距离、曼哈顿距离和皮尔逊相关系数等，本文采用欧氏距离的方法计算用户相似度，欧式距离指多维空间中两点之间的真实距离。计算方法为：

(1)

其中，xi、yi分别表示两个用户参与第i个主题的概率，d表示点(x1,x2,…,xn)到点(y1,y2,…,yn)之间的距离。d值越小，用户的主题偏好越相似，d值越大，用户的主题偏好差异越大。

3.3.2 基于多维标度法的用户群体分类根据用户主题偏好之间的距离，使用多维标度法可以将用户之间的相对位置可视化，具体的分布见图3，距离越近，表示用户的兴趣主题越相近。

图3 用户兴趣偏好的相似度分布

由MDS运行结果分析可知，经过5次迭代后，Stress的值的改进量小于指定值0.001，迭代停止，此时Stress=0.19763；观察距离的变异中可以由模型解释的百分比：RSQ=0.85623。表明二维模型对观察数据的拟合非常好，通过多维标度法达到了很好的自动分类效果。由图3可知，用户在二维空间上的分布较为集中，大概呈六角形状，极少的用户部分相对零散。根据用户的相对位置，按照集中程度可以将用户分为6类，分别为以下区域：

R1∈{(pos[,1],pos[,2])|-20≤pos[,1]<-4,2≤pos[,1]<18}

R2∈{(pos[,1],pos[,2])|-4≤pos[,1]<7,2≤pos[,1]<28}

R3∈{(pos[,1],pos[,2])|7≤pos[,1]<28,-2≤pos[,1]<9}

R4∈{(pos[,1],pos[,2])|-28≤pos[,1]<0,-8≤pos[,1]<2}

R5∈{(pos[,1],pos[,2])|-10≤pos[,1]<2,-28≤pos[,1]<2}

R6∈{(pos[,1],pos[,2])|2≤pos[,1]<22,-18≤pos[,1]<-5}

根据划分的6类用户群体，利用重心法找出每类用户群体的中心点，该点是这类群体中距离所有用户最近的点，因此最具有代表性，可以通过此用户来了解群体用户的主题偏好概率分布(见表2)及用户所关心的主题内容。

由表2可知，群体1积极参与到明星犯罪事件的讨论中，此类娱乐事件更能引起他们的兴趣，同时这类用户对网络上的谣言也比较关注；群体2比较关注河南省暴雨事件，也对国家英雄进行了讨论，比如暴雨事件中的驰援者、以及国家的功勋人物；群体3使用微博的目的是发表对路面交通状况、交通安全以及社会法制问题的看法，该群体通常具有较高的自主意识；群体4注重财经问题，这类人通常具有较强的专业性；群体5关注政府的工作问题，会提出自己的建议和看法，起到了很好的监督作用；群体6参与了教育类问题，同时也对明星犯罪事件比较关注，主要是明星犯罪对社会有很大的负面影响。

表2 用户群体中心点主题偏好概率分布

4 用户画像构建与分析

4.1基于Logistic的用户画像特征提取采用Logistic模型可以计算出各属性变量对因变量的影响程度，通过设定特殊取值来提取出不同对象群体的典型特征，得到群体用户画像。

本文使用python爬取到评论用户的信息属性中用户性别、是否认证为二分类变量，用户等级、会员等级、关注数、粉丝数和微博数为连续变量，认证身份为多分类变量。

首先对用户个人属性进行离散化处理，并对全属性进行建模分析，系数显著性的检验结果见表3。

表3 用户各属性系数的显著性检验结果

检验结果显示，认证身份这个变量的系数的显著性没有通过检验，因此需要剔除。

对剔除后的变量进行逐步回归方法构建最终的logistics模型。具体模型见公式2，模型结果见表4。

表4 多项logistic模型回归系数

(2)

其中，i,j的取值为1、2、3、4、5、6，分别代表6类不同的用户群体，并且i≠j。

根据回归模型，可以计算出每类群体对应的估计概率，即属于某主题的最大概率的用户特征组合，根据社会认同理论，该特征组合也是群体中的用户最能感受到的关键特征。计算方法见公式3，结果见表5。

(3)

表5 不同属性组合得到的群体分类最大概率

4.2用户画像分析根据用户变量的特殊取值，可以得到用户群体的典型特征。不同群体用户的最优特征组合见表6。

表6 不同群体分类最大概率的特征组合

群体1中，典型用户往往为女性，关注数和粉丝数都不太多，反而微博数和微博等级较高，可见他们虽然属于活跃用户，但并不热衷于社交。在日常生活中，他们把微博平台当作一个记录生活以及发泄情感的工具，而不是去交流。这类用户对娱乐、谣言等八卦事件很感兴趣，会积极参与到讨论当中，提供线索或给出自己的看法。对于这类群体，可以向他们推送关于娱乐犯罪事件的处理进程，满足他们的兴趣偏好，同时他们的积极参与可能会给政府提供更多的建议和线索。

群体2中，典型用户往往会关注大量的其他账号，但粉丝量和微博数都偏少，这类用户往往很容易受到别人观点的影响，喜欢浏览别人的微博，并参与到当前的热点话题(比如河南暴雨事件、国家历史英雄)中。这类用户是很好的传播者，政府发布的微博信息可能通过这类人群的传播，让更多人浏览到内容信息，加强政务微博的传播效果。

群体3中，典型用户为男性，往往通过了认证，具有一定的身份，并且用户等级和微博数都较高，但关注数和粉丝数较低。这类用户通常比较关注交通状况及法治意识等社会性问题，具有专业的见解，但影响力较低。这类人群对于政府汲取民意具有重要的作用，向这类用户推送有关交通路况的内容，有助于政策的制定和改善。

群体4中，典型用户为男性，往往通过了认证，具有一定的身份，与用群体3不同的是，该类群体拥有较多的粉丝，但其关注数、微博数和用户等级较低，该类用户对于自己的言行比较谨慎，并不会在微博上随意发言，其在微博上的活跃度并不高，所以其关注度、微博数和用户等级并不高，但该类用户在自己的领域通常具有一定的影响力，其观点具有专业性，因此会有较多的粉丝想要去获取信息。这类用户关注财经类的相关话题，他们当中具有较多意见领袖。对于这类群体，政府应该积极的回应，维持舆论场的稳定。

群体5中，典型用户为女性，往往通过了认证，具有一定的身份，并且有大量的关注数和粉丝数，说明该类用户不仅是信息的接收者，同时也是信息的传递者。这部分人群比较关注政府的工作内容及进度，并且具有很高的传播性，是政府工作的良好监督者，多向该用户群体推送此类内容，有助于政府公信力的改善。

群体6中，典型用户比较普通，低关注、低粉丝、低微博、低等级、无认证，这类用户虽然不活跃，也不具有影响力，但代表了大多数人群。这类用户比较关注教育问题以及明星犯罪问题，尤其对近期明星对于青少年的负面引导表示担忧。这类用户的关注点通常是当前突发的社会问题，政府应该启动紧急应对方案，并及时公布进展。

5 总结与讨论

本文基于评论用户的主题偏好进行群体分类。通过LDA主题模型，分析每个用户对主题的偏好情况，然后采用多维标度法将用户分为了6个群体并得到每个群体偏好的主题内容，最后采用Logistic模型来提取出不同对象群体的典型特征。

参与政务微博评论的每类群体用户的主题偏好以及群体特征存在差异，根据用户群体特点，政府可以采取针对性的管理和应对策略，有助于提高公众参与的效果，同时对改善政务微博用户体验具有重要的意义。首先，政府可以根据用户群体的典型特征，向用户精准推送相关的主题内容，增强政民沟通的效率；其次，对于政府来说，不同特点的用户群体的评论会发挥出不同的作用，政府应该采取不同的处理方式，具体如下：a.影响力不高的活跃用户，可以作为政府的“眼睛”，发挥群体力量，为政府工作提供线索，加快政府工作进度；同时，他们也是信息传播的主力人群，政务微博内容可以通过该群体获得更大的辐射范围。b.高影响力的意见领袖群体，通常具有一定的专业性，对于自身的言论比较谨慎。因此，此类用户的评论非常具有参考意义，政府可以根据他们的意见，来调整或改进相关政策。c.低影响力、不活跃类型的用户，虽然个人作用很小，但代表了大多数普通人。对于这类用户，政府应该注意收集并统计评论内容，了解群众需求，及时启动应对方案。

本文所爬取到的用户信息仍不完善，缺乏用户的浏览信息、历史微博信息等，在未来的研究中，可以用更多的用户信息，构建更为全面、精准的用户画像。