科研知识社区中用户画像的实现思路

2018-07-11中国信息通信研究院数据研究中心馆员

信息通信技术与政策 2018年6期

崔　超　中国信息通信研究院数据研究中心馆员

罗　欧　中国信息通信研究院信息管理中心工程师

1　引言

知识社区是基于互联网的知识创造与交流平台，构建知识与知识、知识与人、人与人之间的关联，实现知识增值与创新，是一种新型的知识服务模式。传统的知识服务是被动的、问答式的，有固定的空间与工作流程，服务机构注重的是对普遍的、共性的需求的满足，方式与手段较为单一。与传统的知识服务不同，互联网时代用户需求更加多元化、精细化，更加注重个性需求的表达与满足，对知识的多样性、解答的及时程度有较高的要求，知识社区提供的正是利用互联网众包众筹、快速迭代的服务模式。

对科研机构来讲，知识是推动其业务与科研工作的源动力，这些知识包括显性知识与隐性知识。显性知识包括公开出版的图书、期刊、报告、标准、专利、指标等不同载体的信息资源，可采购成熟的商业数据库或利用庞大的互联网搜索引擎来满足需求，经过多年的持续投入，科研机构已经有大量的储备。隐性知识是隐藏在人脑中、尚未形成文献的那部分知识，包括经验、认知、逻辑思维等，这类知识较为零散，为个体所占有，很难复制也极易流失，但其作用对于科研与创新工作来说又是尤为重要的，因此，如何将隐性知识显性化、分散知识固化是当前知识管理工作中的重点与难点。

知识社区正是为解决这些知识需求的表达与满足而生。然而，知识社区基于互联网络，没有传统服务的面对面性，如何准确感知用户需求？这就需要借助大数据技术，获取用户行为轨迹及相关数据，给用户打上标签，进行虚拟画像，找出差异与偏好，实现精准营销与服务。

2　用户画像在知识社区中的作用

2.1　用户画像是什么

用户画像是大数据时代的一个新兴术语，A lan Cooper（交互设计之父）最早提出了用户画像或称人物角色（Persona）这一概念，Persona是“真实用户的虚拟代表，是建立在一系列真实数据之上的目标用户模型。”用户画像具有PERSONA七要素：基本性（Primary）、同理性（Empathy）、真实性（Realistic）、独特性（Singular）、目标性（Objectives）、数量性（Number）和应用性（Applicable）。用户画像作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。在实际操作的过程中，往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表，用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的，形成的用户角色需要有代表性能、代表产品的主要受众和目标群体。

2.2　用户画像在知识社区中的作用

用户画像在知识社区中的主要应用场景有：开展知识产品的精准推送，甄别核心用户与活跃用户群，加强营销，为知识社区平台建设与运营提供重要参考，评估知识服务能力和知识管理成效。

从使用场景上可看出其具有如下作用。首先，用户画像可以找出知识社区用户需求的差异点，可以使服务对象更加聚焦、更加的专注，为用户解决核心问题。如果一个产品或服务能够涵盖所有用户群，那么它需要遵循通用的标准，满足的是一般性的需求。在互联网时代，用户需求多样化、深层需求进一步表达和释放，普适的产品或服务很难满足个性化需求。第二，用户画像可以在一定程度上避免产品设计或服务提供商草率地代表用户。他们经常会不自觉地认为用户的需求跟他们是一致的，并且还总打着“为用户服务”的旗号。这样的“精心服务”用户并不买账，这就需要正确地使用用户画像，找准立足点和发力方向，真切地从用户角度出发，剖析核心诉求，避免自以为是和伪需求。第三，用户画像还可以提高决策效率。用户画像来自于对目标用户的研究，当所有参与产品或服务的人都基于一致的用户进行讨论和决策，就很容易约束各方能保持在同一个方向上，提高决策的效率。

3　知识社区中用户画像的实现

知识社区的用户画像通过对用户属性和用户行为数据挖掘、分析进而提取知识用户的个性标签，将抽象变为具象。这就需要厘清知识社区运营中的参与方及其之间的业务关系，详尽采集用户及其在知识社区中的行为数据，建立模型并应用。

知识社区中的用户需求建模通过获取用户的学科专业背景、文化程度、知识资源使用习惯、兴趣偏好等与用户需求趋向等相关的信息，进行模型化表示，提取出用户需求偏好和趋向，为知识社区面向用户的个性化服务组织提供基础和依据，从而为用户提供优质服务。

3.1　知识社区业务分析

进行知识社区用户画像，首先要明确知识社区用户画像的战略意义。进行用户画像是科研机构知识社区服务理念的转变，将以管理员为中心的建设思路转变为以用户为视角的运营思路。传统思路会产生闭门造车、建设与需求的脱节，难以达到用户预期；用户画像基于全方位、全过程的动态用户数据采集分析，信息内容完整、挖掘层次深，价值密度高，能够改变以往依靠经验、直觉或抽样数据分析支持决策的服务模式，为科研机构知识社区建设决策提供高效、经济和可靠的数据支持，确保决策、服务的科学合理。

知识社区的功能模块多种多样，围绕着知识与人的交互关系，无外乎文库、问答、社群、活动、圈子等，根据机构具体情况有所取舍。共享文库可以实现分散知识文档的集中与流转，知识问答可将隐藏在用户头脑中的经验固化到系统中，社群可以建立起共同关注的圈子、发起线上线下的主题活动，专家模块可以将专家及其领域关联，使知识需求更为明确、更容易获得解答，积分与成长体系可以增强用户粘性，激发更多的知识分享与创新。

图1是知识社区业务示意图，这里面存在3个重要的关系：

图1　知识社区业务示意图

（1）用户与知识的关系：在知识社区中，知识以文库中文章的形式沉淀下来，用户可以上传自己的原创文章，也可以转载其他文章到文库中，还可以浏览、检索和付积分下载所需文章。通过这种上传、下载与浏览行为，分析这些文章的关键词标签，记录用户的文章兴趣点，进而链接更多、更新的同类文章，建立起用户与文章、用户与知识内容的关联。

（2）用户与用户的关系：通过记录对文库中同一篇文章的操作、共同回答或点赞同一个问题/话题、加入了一个共同的社群、参加了一个学术交流活动、共同承担某项课题等行为可以找出有哪些人比较关注某一个专业、方向或领域，我们认为这是同一类用户；根据行为频率、深度等进一步量化、分析，可以将用户分层，区分为专家用户、普通用户和潜在用户，这样，既找出共通点又找出差异点，便于开展有的放矢的服务。

（3）用户与知识管理员的关系：用户是核心竞争力的体现，满足他们的需求是劳动价值所在。知识管理员是知识社区中必不可少的角色，承担知识社区建设与运营的重要职责，是用户与知识、用户与用户间关系的纽带。管理员通过对用户行为的分析，避免用户流失，降低知识获取成本，维持社区活跃度；用户通过“用脚”投票反向刺激管理员及时调整知识服务方法与策略，以此获取更加高效、精准的服务。

厘清这三者的关系，才能搞清楚用户在知识社区中的行为轨迹，才能有的放矢地去采集有效的数据，这是建立精准的用户画像模型的前提。

3.2　用户数据采集

作为实际用户的虚拟代表，用户画像所形成的角色模型并不能脱离实际场景之外被构建出来。一个用户可以从多个方面去刻画，即用户模型可以从多个维度去考虑。根据知识社区的业务与用户特点，将从用户的自然属性、社交属性、兴趣属性和能力属性四个维度采集用户画像模型所需数据，用户在知识社区中的“痕迹”越多，用户画像模型越能准确反映其特征。

3.2.1基础数据

用户基础数据是指知识社区用户身上客观存在的自然属性，是静态的或一段时间内相对稳定的状态，主要包括性别、年龄、专业、学历、职称、工作履历、当前岗位、职务等。由于科研机构知识社区面向的主要是内部用户，因此，可以从人力资源部门的人员管理系统中获取这类数据，并定时扫描更新。同时，还可结合平台注册信息、员工信息普查等方式加以补充和交叉验证。在用户的自然属性中，性别、年龄指标能够区分出群体，专业、学历、职称、岗位等在知识资源的精准推荐等应用场景下，具有明显的相关性和等级性，需对这类指标进行量化。

3.2.2社交行为数据

社交行为是指用户在知识社区中通过参与社群讨论、学术圈子、添加与关注好友、参加线上线下活动等所表现出来的活跃度和影响力。用户的活跃度反映了用户的活跃程度，用户越活跃，影响其他用户的机会就越大。包括用户登录知识社区的时长、频次、关注的好友量、关注或发起的话题数、加入的学术圈子数、关注的专题数、提问及回答的数量等，都是用户活跃度的直接体现。用户的影响力是通过在知识社区中的各种交互行为来展示自身价值观、倾向、偏好、情感，并影响到相关关系人的过程。这里的用户包括知识专家、一般用户、潜在用户与知识管理员，相关关系包括好友、关注、求助、协作、同现等，影响力的大小是通过关注数量及亲密度来衡量的。

3.2.3兴趣偏好数据

兴趣偏好是指用户在访问知识社区过程中对于知识内容的感知，可以分为显性兴趣和隐性兴趣。显性兴趣可以通过用户主动提交标签、所关注的话题、浏览下载的文章、搜索的关键词、正在参与的课题/项目所在领域等直观地获取到其感兴趣的内容，这类指标应适当加大其权重，将其标签化后有针对性地推送同类知识。隐性兴趣不是用户直观地表达出来的，而是通过分析其在知识社区中的收藏、订阅、提问与回答、评论、回复、点赞等行为来抽取，这类指标抽取的用户兴趣是模糊的，但更能体现用户的兴趣偏好。同时，还要注意用户长期兴趣与短期关注的表达与区分。

3.2.4能力特长数据

能力特长主要是指用户在知识社区中所创建内容的质量，具体包括用户所发表的文章、报告、音视频、图片图表、原创话题、提问与回答、被点赞或采纳、被分享、已获得奖励或荣誉、已完成课题/项目、积分与成长值等。用户的产出是知识社区的核心资产与内在竞争力，通过数量和质量两个方面去衡量。

3.3　用户画像模型的构建

构建用户画像的第一步是数据的统计分析。需将各种渠道采集的用户基础信息、社交行为、兴趣偏好、能力特长数据进行清洗、筛选、归类，并统一存储形成数据库文件。通过聚类、关联、序列化等数据挖掘分析，抽象成标签，形成标签体系，这些标签是构成用户画像的基本元素。将抽象特征还原成更形象、更容易被理解并且具有指导意义的信息，对用户进行识别，体现出明显的区分度，通过建模分析，进一步挖掘出群体共性与个体差异，建立预测模型，完成用户画像库的构建。用户画像库构建流程如图2所示。

在用户画像建模中会应用到一系列算法及技术。如机器学习，对用户收集的底层数据进行规整处理，并将其转化为相同维度的特征向量，这些特征标签能够使用户画像更加丰富；聚类分析是在没有先验知识的前提下，根据数据的相似度将数据聚合成不同的类（簇），使相同类中的元素尽可能相似，是数据挖掘中一种重要的算法，在知识社区用户细分过程中主要使用类似k-means聚类算法来解决这类问题。除此之外还涉及大量的文本挖掘、自然语言处理、网络爬虫、预测算法、相似度计算、关联规则等技术和统计算法。

基于成本与隐私考虑，不可能构建出一个“完整”的万能用户模型，需从实际业务场景出发，并根据不断扩充的属性数据去动态调整。

图2　用户画像构建流程

4　结束语

在开放的网络环境下，知识社区用户的需求是随着业务、科研、市场环境不断变化的，用户画像也不是一成不变的。需要对用户的特征、偏好等数据持续采集与更新，并根据实际的业务场景与用户反馈不断验证、修正，不断迭代优化用户画像模型，便于智能构建人与知识间的关联，使知识社区能够提供更加精准化、个性化、人性化的知识服务。