APP下载

基于知识图谱的企业风险发现*

2022-02-07丁晟春

图书馆论坛 2022年2期
关键词:长生舆情图谱

丁晟春,叶 子

0 引言

云计算和大数据时代,人们在轻松获取大量信息的同时,也面临数据散乱无序、质量参差不齐等问题,使得全面掌握一个企业的信息成为困难。一方面,用户所需的企业相关知识存储地点零散,查找费时费力又难以保证准确性。另一方面,用户获取企业信息的渠道有限。近年一些服务商开始提供企业信息查询工具,但只能实现企业基本信息的简单查询,并没有收集互联网上实时的新闻数据等非结构化文本信息,更没有深入挖掘企业各种信息之间潜在的关系,这样整理的企业信息不完整、不全面,无法对企业风险进行识别。

知识图谱是近年研究热点,利用知识图谱抽取结构化、半结构化以及非结构化的数据并将这些数据融合到一起,体现了数据治理和语义链接的思想,其图模式的知识存储方式更容易挖掘到知识间的潜在关联。考虑到知识图谱具有直观的知识组织方式、良好的可扩展性以及增量式的数据设计模式等特点,与全面准确把握企业信息、挖掘企业的隐含风险的目标不谋而合,本文引入知识图谱的方法与技术,进行企业图谱的构建,进而进行企业风险发现的应用研究。

企业风险包括经营、财务、司法、舆情等多方面的风险,而本文主要对企业公示系统数据、新闻报道等半结构化与非结构化数据进行收集与处理,因而重点关注企业司法、舆情等方面的潜在风险发现。本文以“长生生物”为例进行案例分析与研究,在对“长生生物”企业基础信息进行获取、组织、清洗与融合的基础上,提取企业不同维度的多类实体,挖掘知识之间的潜在关联,发现企业潜在风险。

对消费者而言,获取企业多方面信息,能更深入了解企业的综合实力,做出理智决策。对投资者而言,通过对企业多方风险汇集,可以对企业的投资风险进行理性评估。对监管者而言,发现企业潜在风险可以提升监管效率,强化监管力度。对企业自身而言,企业图谱一方面可以将企业自身信息结构化,辅助企业提前发现安全隐患,从而降低风险;另一方面还能帮助管理者更客观地认识企业现状,弥补自身不足,促进企业健康发展。

1 文献回顾

知识图谱本质上是一种大规模的语义网络,其理论基础是本体论,主要由实体、概念及其之间的各种语义关系构成,旨在描述客观世界的概念、实体、事件及其之间的关系。知识图谱已被广泛地应用于语义搜索、个性化推荐、问答系统及大数据分析与决策等领域,提供从关系的角度去分析问题的能力[1]。构建知识图谱的关键技术包括知识抽取技术、知识表达技术以及知识推理技术等[2]。知识图谱在知识表示和挖掘各类知识之间的语义关系方面有明显优势。通过知识图谱描述,实体与抽象间联系被具象化并形成对映,实体的特征属性可以被快速提取统一管理,便于知识存储和分享[3]。因此,将知识图谱技术应用于企业案例研究,能够实现对企业信息的全面组织,进而发现知识的潜在关联。

企业风险是指客观存在的、未发生的且对企业有负面危害的不确定事件,而风险管理则是企业为了防止或减少这种不确定事件的发生,通过一系列措施进行风险管控的过程[4]。《中央企业全面风险管理指引》指出企业全面风险管理的重要性,推动了企业风险管理水平提升,加速推进风险管理理论研究[5]。马强认为中小企业应该加强各阶段的风险管理,通过采取相应的措施规避或降低各种形式的风险[6]。特定领域的企业风险管理也受到相关学者的关注[7-9]。

2 研究方法

2.1 方法选择

本文采用单案例研究方法,属于单案例多维度分析,旨在通过构建多维、全面、直观的企业知识图谱,进行企业的潜在风险发现。采用垂直知识图谱的构建流程与自顶向下的构建方式[10],构建过程主要分为4个步骤:企业图谱的信息源与构成要素分析、模式层构建、数据层构建、图谱生成。本文结合企业图谱和企业风险发现的需求及现有数据源的类别特征,将企业信息划分为基础信息、企业产品、企业风险、企业关系、企业事件5大维度。而后在对5大维度信息进行全面展示的基础上,针对司法风险与舆情风险两个重点方面,对企业的潜在风险进行分析与发现。本文具体研究思路如图1所示。

图1 研究思路

2.2 案例企业选择

长生生物科技股份有限公司(以下简称“长生生物”)成立于1995年,主要经营生物制剂研发、生物科技投资、生物技术服务和研究开发等。本文选取该司作为构建企业图谱的案例,进行信息采集,构建该司图谱并进行5个维度的可视化展示,最后基于知识图谱进行企业风险发现。选择该案例主要基于两个方面考虑。一是影响力,该司为上市公司,企业规模大,经营产品市场占有率高,周边利益相关者多,社会关系复杂,社会影响力与资本影响力巨大。二是典型性,2018年7月15日该司被曝冻干人用狂犬病疫苗存在造假行为且涉事疫苗数量巨大,引起社会轰动,引发人们对制药企业的信任危机。前不久该司被发现百白破疫苗效价指标不合格、疫苗质量存在问题,此次狂犬病疫苗事件再次说明该司没有按照国家规定生产合格产品,存在欺诈消费者并损害其人身安全的情况。该事件受害者众多、影响力广,是一起严重的产品质量安全生产事件,也是该司重大的产品质量生产事故。

2.3 信息源分析与数据收集

信息源即企业信息的数据获取来源。互联网上可以采集的包含“长生生物”企业相关信息的数据来源有:百科网站、全国企业信用信息公示系统、中国裁判文书网、国家知识产权专利检索网、财经网、新闻网站等,具体本文选择的数据来源如表1所示。其中百科网站和国家公示系统的企业相关信息多分布于网页的表格或列表信息中,通过网页采集技术即可获取相应的半结构化数据,该部分主要依靠爬虫和人工获取得到。财经公告数据和网页新闻数据多分布于网页的正文部分,属于非结构化文本数据,该部分主要依靠编写爬虫代码来获取。

表1 “长生生物”企业图谱数据来源

2.4 数据处理过程

(1)模式层构建。企业图谱的模式层构建就是对企业各维度数据进行建模的过程,定义图谱中涵盖的各概念及其之间的关联关系。模式层定义是企业知识图谱构建中最核心的部分[11],采用人工定义方式,即自顶向下的构建方式可以提高知识的完整性和准确性。本文参照百科分类体系、已有的企业本体研究、开放链接知识库等资源,结合研究需求,对企业图谱中涉及到的实体、属性、事件及其关系进行了详细的定义。具体情况如图2所示。

图2 企业图谱模式层

(2)数据层构建。企业图谱数据层由实体、属性、关系以及企业相关事件构成。企业图谱的模式层可看作知识图谱的骨架,数据层则在模式层的规范下完成,相当于在骨架上填充了血肉[12]。数据层的构建数据源来自企业官网及百科数据、国家公示数据、财经公告数据以及网络新闻数据,针对不同数据源和数据结构的数据,抽取的数据集不同,抽取方法也不同。半结构化数据通过网页模板解析的方式,多用于实体、属性关系、特定语义关系的抽取,非结构化数据则通过文本信息抽取的方法,用于命名实体、特定语义关系及事件的抽取。最终对获取的实体和实体之间关系数量的统计如表2所示。

表2 长生生物企业图谱的实体和实体之间关系数量统计

(3)图谱生成。在完成企业图谱数据层的构建后,收获了大量的三元组集合,其中包括〈实体,关系,实体〉〈实体,属性,属性值〉〈实体,关系,事件〉等三元组。采用Neo4j图数据库完成数据的存储工作,借助Neo4j工具自带的可视化布局,实现企业图谱的全方位、多维度的可视化展示。

3 案例分析

3.1 企业图谱

长生生物的企业图谱从多维度揭示企业信息,用图的方式来表示节点和节点之间的关系。如图3所示,长生生物企业图谱结构共包含6类节点:企业节点、人物节点、产品节点、知识产权节点、司法风险节点、舆情事件节点,中心节点为长生生物,连线表示其他节点与该司节点的关联。长生生物企业图谱结构整体上层次分明,脉络清晰。其中关联的企业节点有10个、产品节点5个、人物节点16个、知识产权节点9个、舆情事件节点10个、司法风险节点23个。

图3 长生生物企业图谱

从图3看出,长生生物关联的企业和人物节点较多,表明该司与市场联系较紧密,与众多企业和人物均产生关联关系;知识产权节点较多,体现了该司在技术储备上具备很强的实力;而产品节点则比较特殊,从图中看出,该司没有直接关联的产品节点,而是通过子公司长春长生生物科技有限责任公司间接关联5个产品节点。该司还关联了两个概念节点,分别是“股份有限公司”“上市公司”,关系为“是一个”,体现了该司的类型与性质。

该司司法节点数量达23个,远超其他节点,表明该司涉及的法律诉讼案件众多,企业司法风险大。该司舆情事件节点数量也较多,企业舆情事件是指企业发展历程中发生的被社会各界所关注的重大事件,尤其是对企业有不良影响的事件,表明企业近年面对的舆情事件较多,企业舆情风险较大。

整体上,长生生物企业图谱的节点关系清晰,可查看该司关联的各个实体及其关联关系,图谱包含企业、人物、产品、知识产权、司法风险、事件等多维信息,进一步验证构建的企业图谱能够有效地组织、关联并展示企业的多维信息。而在完成企业图谱的全局展示后,对企业多维信息进行呈现也是企业风险发现中重要的一环,本文通过多种展示形式,对5大维度的企业信息进行更详细的展示与分析。

3.1.1 基础信息维度

基础信息维度主要展示企业的基础信息数据,包括企业名称、企业简称、成立时间、公司类型、注册资本、法定代表人、总部地点、经营范围、企业股东、企业高管、企业的发明专利等,具体如图4a)所示。其中,“股东”节点可查看股东及出资详情,如图4b)所示;“高管”节点可查看高管人员及任职职位,如图4c)所示;“发明专利”可查看知识产权详情,包括专利申请号、专利名称等等,如图4d)所示。

图4 基础信息维度的可视化

3.1.2 企业产品维度

企业产品维度的可视化是用来展示企业生产或经营的产品信息,如产品名称、产品类型、产品简介(见图5)。可以看到,长生生物并不生产或经营任何产品,而是通过全资子公司长春长生生物来生产或经营产品。结合图5a)与图5b),发现长生生物旗下主营2种一类疫苗、3种二类疫苗。通过对企业产品信息的结构化、直观化披露,能清晰了解企业产品的整体情况。

图5 企业产品维度的可视化

3.1.3 企业关系维度

企业关系包括企业与其周边利益相关公司的关联关系,以及企业与其周边利益相关人员的关联关系。通过将关联企业、关联人物放到一个界面中,能直观了解企业的全景社交图谱,如图6所示。长生生物企业为图谱的中心,从中心点出发,连线将其与关联企业、人员连接起来。通过企业关系图谱能直观地看出与企业存在“投资”关系的利益企业,以及与企业产生“任职”及“股东”关系的关联人员。

图6 企业关系维度的可视化

如图7所示,可以查看关联关系详情。通过图7a)、图7b),发现高俊芳与长生生物的“任职”关系,其为长生生物法定代表人,兼该司董事长、总经理多个职位;通过图7c)、图7d),还发现长生生物与北京重山远为投资中心(有限合伙)的“投资”关系,投资年份为2015年。

图7 企业关联关系

3.1.4 企业司法风险维度

企业司法风险维度描述企业历年来所经历的法律诉讼案件(如刑事案由和民事案由),以时间点为轴,节点代表各种类型的事件案由,如图8所示。图8展示了企业在不同时间段发生的法律纠纷,可由此判断企业在不同时间段所具备的风险程度。以表格形式列出企业关联的所有法律诉讼案件,直观看出企业的相关涉案事件、地点(执行法院)、案由类型、案件名称等,如表3所示。

表3 企业司法风险维度的涉事法律诉讼案件概览(部分)

图8 企业司法风险维度的可视化

3.1.5 企业事件维度

企业事件维度描绘企业发展历程中发生的重大关注事件。该维度以河流图的形式展现,以时间线为轴,以节点代表企业相关的事件,如图9所示,清晰了解到企业发展的历史长河中经历的一系列事件。

图9 企业事件维度的可视化

3.2 企业司法风险发现

企业司法风险数据虽然会在万德等数据库的公司年报中披露,但由于企业倾向于隐瞒或弱化风险负面信息,因此现有数据库风险数据中对企业负面风险信息的采集很可能是不够的,而且有效信息会淹没在大段披露文字中,通过企业图谱中的司法风险节点可以集中表现企业的法律风险,不仅具体查看有关案件的法院公告行文,还能对所有案件进行主题内容挖掘,更完整地发现企业的法律负面信息,构建更客观的风险分析基础。在企业司法风险维度,对历年来企业涉事法律案件进行统计,能明显看到企业法律风险的变化趋势,长生生物涉事法律案件历年统计如图10所示,辅以案件标题中出现的高频动名词分析,可以发现涉案的多发原因。长生生物涉事法律案件高频关键词云如图11所示,采取这种直观的关键词及其词频的统计分析,能迅速抓住企业信息的披露重点,并作出相应的风险预警提示。

图11 长生生物涉事法律案件高频关键词挖掘

由图10-11看出,长生生物刑事案件频发,民事案件稍减,通过对提取案件标题高频关键词,并将关键词以词云的形式显示,字号越大代表词语的词频越高,发现案件标题中存在“损害、非法经营、受贿”等负面字眼,且“非法经营”“受贿”两个词语在动词中的词频最高。大量负面信息提示长生生物管理出现严重问题,也提醒2018年出现的长生疫苗事故在2016年和2017年是有苗头的。

图10 长生生物涉事法律案件历年统计

3.3 企业舆情风险发现

企业事件维度显示事件的核心内容,使用TF-IDF算法来计算每类事件中包含文档的各词汇的权重,权重越大的词汇认为其越能概括该事件的核心内容,越能作为代表事件的核心词。通过事件关键词挖掘,发现2017年开始该司被曝出的疫苗、资金等方面的负面事件较多,表明内部管理和资金运转存在问题,但这些未能引起该司注意,更未做出危机预警。

尽管以3.1.5节中的河流图形式展示企业事件能清晰看到企业在历史发展过程中的所有重大舆情事件,但以知识图谱的方式组织企业事件,可以展现企业舆情事件与其他事物的关系,更能直观发现数据之间的潜在关联,具体情况见图12。该图展示长生生物近3年来发生的诸多事件,采用知识图谱的形式对事件及其关联实体进行组织,发现发生在2017年11月5日至2017年11月6日的“百白破疫苗效价不合格”事件,以及发生在2018年7月15日至2018年7月26日的“长生疫苗事故”事件,都与子公司长春长生旗下的同一款“百白破疫苗”发生关联。长生疫苗事故事件还关联了“狂犬病疫苗”。这说明疫苗质量问题早在2017年底就已经初露端倪,只是当时没有引起关注,直至2018年疫苗质量问题再次曝光,该事故终于蔓延到无法挽回的地步。

图12 企业事件-企业产品之间的关联

对上市公司而言,舆情事件的爆发将会对股价产生直接影响,造成股价波动甚至持续下跌,因而可以从股价波动情况观察舆情事件对企业乃至资本市场产生的影响。在“长生疫苗事故”事件中,舆论情感与企业股价之间具有明显的关联关系,该事故对企业经营与行业市场造成了严重影响,具体情况如图13-14所示。

图13中积极情感可以看作是企业对舆情事件的公关措施,可以看到两个波峰对应的股价下降趋势有所平缓,说明企业公关有一定实效;而消极情感对企业的影响是长期的,因此从总体来看,长生药业股价持续下跌。图14中,微博舆情热度的波峰很好地对应了医疗行业和医药制造两条曲线的波谷,这是由于消极情感会导致负面效应的溢出,即一次舆情事件的不良影响会“传染”给同行业的其他公司,由此导致整个行业股价下跌。这一结果说明,在互联网时代,舆情事件不仅会对企业经营情况产生负面影响,还会随着事件发酵波及整个行业,甚至造成社会秩序混乱,企业需要加强对舆情风险的监控。

图13 “长生疫苗事故”舆论情感对企业股价的影响

图14“长生疫苗事故”舆情事件对股市的综合影响

4 结论与启示

4.1 研究结论

随着网络数据增多,利用全网数据全面掌握企业信息、发现企业潜在风险越来越具备可行性和必要性。本文以“长生生物”为研究案例,针对不同数据结构、不同数据源的网络数据,获取相关信息数据集,从5大维度构建并绘制企业图谱,实现了长生生物企业信息的全方位、多维度的组织与展示。由于知识图谱具有易于挖掘知识潜在关联的优势,因而利用图谱进行企业司法和企业舆情两个方面的风险发现具有较高的科学性。在本案例研究中,通过构建长生生物企业知识图谱、整理企业多维信息、挖掘信息之间的潜在关联,可以发现该司在前期早已存在司法、管理、舆情等多方面问题,但由于企业风险预警机制的不完善与管理人员的不重视,最终导致2018年的严重疫苗事故发生。疫苗事件爆发后,由于该事件的严重危害性和敏感性,企业不仅受到各界的谴责和抵制、政府部门的调查和监管,最终还面临退股退市的倒闭危机,企业陷入万劫不复之地。

4.2 实践启示

企业危机并不是在短期内迅速积聚、突然爆发的。面对某一危机事件的突发,企业应该注意到,在此之前此类情况在企业内外部必定早已初现端倪,但未能引起企业足够重视,更未能及时发现风险。对于舆情事件的迅速扩大,公众也一定通过多次媒体报道对此类事件有一段长期情感记忆过程,公众负面情感在一次又一次报道中持续强化、最终爆发,企业危机事件的出现是企业风险发现机制不完善和社会“积怨”的结果。同时,企业外部人员也需警惕与负面事件过多、企业风险过大的企业产生较深的业务往来与利益关联,避免自身权益受损。对于社会公众来说,企业产品的质量安全直接关系到消费者的切身利益;对于投资者来说,选择与风险低的企业合作,资金安全更能得到保障;对于政府部门来说,加强对风险企业的监管,可以减少危机事件爆发,维护社会的稳定秩序。

猜你喜欢

长生舆情图谱
手工制作之长生花
绘一张成长图谱
如何才能做到回归课本
数字舆情
补肾强身片UPLC指纹图谱
数字舆情
消费舆情
圣主本命长生祝延碑
主动对接你思维的知识图谱
杂草图谱