APP下载

基于DTM模型的政府公文公告主题研究

2020-12-23闫盈盈

中国管理信息化 2020年21期
关键词:贵阳市公告贵州省

闫盈盈

[摘    要] 创新性地提出了政府公文公告主题研究方法。基于动态主题模型(Dynamic Topic Models,DTM),学习不同时间段政府公文公告数据的文档-主题分布和主题-词语分布的信息,通过统计分析与可视化分析,展示政府公文公告的主题及主题下词语演化情况。选取贵州省人民政府网站和贵阳市人民政府网站的公文公告数据,选择2017年7月至2018年7月的数据进行分析,实验结果表明,本文提出的方法能够有效帮助公众理解政府发文的主题情况及关键词语内容。

[关键词] 政府; 公文公告;DTM;主题分析; 演化

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 21. 067

[中图分类号] TP391   [文献标识码]  A      [文章编号]  1673 - 0194(2020)21- 0151- 05

1      引    言

目前,全球已进入大数据时代,每两年互联网上的数据会翻一番,未来,数据将会成为全球最有价值的资产,政府数据作为钻石富矿,占据中国数据总量80%以上的份额[1]。激活沉睡在档案袋、文件夹里的政府数据资源,实现政府数据资源价值变现,将驱动地方政府实现经济发展转型,提升社会治理能力、公共服务能力,增进民生福祉,推动数字经济发展。利用大数据方法和手段激活政府数据价值,提升政府治理能力越来越成为政府部门、政府大数据研究者的使命和研究焦点。

近年来,我国学者对政府数据进行了大量的探索[2-6],然而,这些探索大多采用CNKI为数据源,利用传统的数学统计方法进行数据分析和处理,通过可视化的方法揭示政府的政策、主题、范围、倾向等状况。显然,基于文献的研究属于间接政府数据研究,一定程度上,直接的政府数据研究更能够揭示政府的工作状况。此外,在文本、图像、视频等数据处理方面,机器学习、自然语言处理、概率图模型、深度学习等主流的大数据分析与挖掘方法被广泛应用在各行各业的数据分析实践中。但很少有研究聚集在政府公文公告方面。因此,本文利用动态主题模型(DTM)[7],揭示了不同层级政府在公文公告主题方面的区别与联系,有利于公众更加清晰地了解政府公文公告的主题演化趋势与主题词选择倾向。

2      政府公文公告

政府公文公告的主题分析包括两个过程,数据获取与预处理、动态主题提取。首先,从政府网站爬取公文公告数据形成语料库,利用文本预处理方法对抓取的数据进行数据清洗获得较为规整的文本语料;其次,通过动态主题模型从文本语料库中提取时序主题信息,完成统计分析。

2.1   数据获取与预处理

使用网络爬虫的方法从“贵州省人民政府”网站、“贵州省贵阳市人民政府”网站按照一定的规则,批量抓取已公布的公文公告数据,主要抓取标题和正文内容,形成规模较大的语料库。爬虫分为两个模块,页面抓取和数据清洗。页面抓取模块通过初始URL,向对面的服务器发送请求,获取页面的静态或动态代码。数据清洗模块通过解析DOM树或其他方面,将需要的数据从页面代码中清洗出来,并获取下一个爬取的URL,开始新的数据抓取与预处理。

2.2   动态主题提取

通过动态主题模型获取动态时序主题。主题模型是一类无监督的机器学习算法,能够挖掘大规模文档集中潜在的主题信息,本质为一种主题聚类方法,将一篇文章表示为若干主题的概率集合,一个主题表示为若干词语的概率集合,将相似度较高的文档聚集在一个主题之内[8]。动态时序主题模型是在传统主题模型[9]的基础上引入了时间特征。

将省级、市级的政府公文公告数据分别按照一定的时间段划分。通过动态主题模型DTM,可以获得每一个层级,每个时间片的主题分布、主题-词语分布,通过统计分析,可以得到各主题信息和各主题下词语的信息。基于主题以及词语信息,可以实现深度的政府公文公告数据挖掘与分析。

3      DTM主题模型

DTM模型是一種无监督的动态时序主题模型。其基本思想分为两个部分。首先,将整体时间按照一定的时间段大小进行划分,将文档集合中的文档根据其内在的时间戳信息划分到相应的时间片中。其次,对每一个时间片中的文档子集通过LDA进行主题挖掘得到主题随时间动态演化的情况。每一个时间片上的分布结果根据之前一个时间片的主题训练结果进行动态变化。概率图模型如图1所示。

图中符号解释如表1所示。

采用EM算法进行参数推断,需要推断的参数包括超参数αi、隐变量φk,i、ηd,i、以及每个词语的主题标识zd,n,i。具体推断过程见文献[6]。另外一种较为简洁的方法是基于Gibbs采样的方法[10]。

4      实验

4.1   数据集选取与分析

爬取贵州省与贵阳市人民政府网站的所有公文公告数据,并以“半年”为一个时间片进行划分统计,如图2所示。

从图2可以发现:

(1)贵州省每半年发布公文公告的数据量在500篇上下浮动,需要特别说明的是2011以前的数据为2056篇,该节点是对2010年12月31日以前的所有数据进行计数统计。

(2)贵阳市2017年上半年之前的数据数量多为个位数,甚至为0,可推测贵阳市人民政府网站公布的公文公告数据具有一定的时效,会不定期的清理和更换,仅保留最新一年左右的数据。因此,由于贵阳市2017下半年的数据量过小,不能够继续用于不同层级的公文公告关联分析研究。

(3)对比2017年下半年至2018年上半年的贵州省与贵阳市人民政府网站的公文公告数据,贵阳市的发文数量远高于贵州省,尤其是贵阳市2018年的上半年的数据属于陡增趋势。

本文选取2017年下半年与2018年上半年的数据作为主题提取与分析的数据集。将数据划分为T=4个时间片,每个时间片为一个季度。每个时间片的统计信息如图3所示。

本文选取2017年下半年与2018年上半年的数据作为主题提取与分析的数据集。将数据划分为T=4个时间片,每个时间片为一个季度。每个时间片的统计信息如图3所示。

从图3可以发现,贵阳市的发文数量远高于贵州省的发文数量,可猜测贵阳市会积极响应贵州省的发文号令,推动贵阳市经济社会水平不断向前发展。数据集文档词语信息如表3所示。

从表3可以发现,贵州省政府公文公告的平均文档词语高于贵阳市,但是平均词语密度略低于贵阳市。这表明,贵州省的公文公告篇幅较长,贵阳市略短,在词语密度方面,贵阳市同一词语的使用频率要大于贵州省。

在公文公告数据集上运行DTM模型。超参数的设置采用经验值,设置超参数α=0.01,δ=a=σ=0.05,主题值K=6。

4.2   实验结果与分析

由于DTM是无监督模型,因此没有明确的类标签。该研究用topic 0~topic 5分别表示贵州省公文公告数据的6个类标签。通过DTM模型学习得到各时间片的文档-主题分布ηd,i,计算得到贵州省公文公告数据在各时间片的主题分布比例,如图4所示。

为了近一步了解各类标签的具体含义,结合DTM模型学习得到的各时间片的主题-词语分布φk,i,列出了随着时间变化的各主题下Top 10词语信息,如表4所示。

根据表4,可以看出:贵州省公文公告数据主题大致分为“产业发展”、“政务公开”、“生态改革”、“人员招聘”“建设规划”以及“发展服务”。

结合图4,可以得出如下结论:

(1)贵州省针对“人员招聘”和“建设规划”的发文数量较少,其他四类主题的发文数量相差不多。

(2)在2017年三季度,贵州省政府较为注重“生态改革”,主要针对全省各市、贵安新区的住房、生態、厕所改造和管理提出了管理和实施意见,表达了贵州省对“大生态”建设的积极响应。

(3)在2017年四季度,占比较大的为“政务公开”,主要与政务服务中的审批、网上办事、信息公开、项目投资与交易有关。该主题在2018年二季度的焦点由投资服务变为水源相关的政务服务。

(4)在2018年一季度,贵州省工作重点在“产业发展”方面,目的在积极响应国家精准扶贫的号召,重点支持和发展绿色农业、节能工业的任务。

(5)“人员招聘”公文公告主要是贵州省发布的公务员人员招聘公告,主要包括组织领导、职务职位,报考资格、培训等事项要求。

(6)在“建设规划”主题中,前两个季度主要针对贵州省的住房问题、土地问题进行规划与管理,后两个季度主要针对学校、林木进行总体规划与保护。

(7)“发展服务”公文公告主要在倡导企业利用大数据技术手段进行改革创新,推动医疗、旅游、养老等服务的社会服务,促进经济发展。在2017年三季度,主要以旅游和医疗为主。在2018年二季度,转移为以养老和旅游为主。

贵阳市公文公告数据在各时间片的主题趋势如图5所示。

贵阳市各主题下的Top 10关键词,如表5所示。

根据表5,贵阳市公文公告数据主题大致分为“企业信息”“行政处罚”“项目招标“采购中标”“财政预算”“采购项目”。

结合图5,发现招投标类公告占据了贵阳市政府公文公告数据的半壁江山,说明贵阳市政府在该期间具有较大的招标需求。结合贵阳市公文公告数据的文档主题标签、部分数据集内容以及贵阳市人民政府网站,该研究发现topic 2(项目招标)、topic 3(采购中标)、topic 5(采购项目)的区别如下。

(1)“项目招标”主题主要为贵阳市省政府发布的关于各市区县在道路设计、景观提升、棚户区改造、扶贫搬迁工程、农田建设、医院新院区、电梯设备采购等项目建设方面的招标公告,公告中详细说明了招标具备的条件、招标人、代建单位、投标文件、投标保证金、联系方式、日期等招标内容。

(2)“采购中标”主题侧重在中标结果的公示方面,主要为项目名称、采购方式、采购日期、评审时间、评审地点、委员会、采购联系人、中标供应商、采购代理机构等信息。由于“贵阳市公共资源交易中心”是贵阳市招投标的主要负责单位,同时也是贵阳市政府公文公告数据的信息来源单位之一,因此“公共资源”、“交易中心”的出现概率较大。

(3)“采购项目”主题侧重在采购,因此在四个时间片,采购出现的概率最大。采购招投标分为两类,采购招标和采购合同,在采购招标中,涉及到指标文件、投标供应商、投标保证金、采购代理机构等信息;在采购合同公告中,存在项目名称、采购方式、技术要求、合同金额、供应商、产品类型(服务)、合同签订时间等内容。在topic 5中,前两个时间片的文档有较大的概率为采购合同类别,而后两个时间片有较多的公文公告属于采购招标内容。

除此之外,从topic 0的关键字可以发现内容为企业信息和人员信息。该研究在topic 0的基础上,结合贵阳市人民政府网站信息,发现topic 0展示来源于贵阳市资源交易中心的中标公示信息,内容均为中标候选企业信息,尤其是企业项目管理机构人员的信息,包括姓名、职称、执业资格、证书等信息。结合贵阳市公文公告数据主题趋势,2017年三季度无该主题的公文公告数据,在2018年二季度,该主题下公文公告数据达到最多。

从“行政处罚”主题可以看出,包括的关键词有“依法”“监督”“责任”“住房”“房屋”“审查”“当事人”“依法”等词语。根据该主题随时间的演变情况,可以发现,前两个季度公文公告数据侧重在监督审查,后两个季度侧重在房屋和住房问题的监管、处罚,这与2018年贵阳市大力开展住房监管,形成房屋规范的实际情况相一致。

topic4的主题为“建设支出”,出现了大量与财政相关的关键字,例如“万元”“预算”“支出”“经费”“审计”等词语,除此之外也出现了“建设”“发展”“服务”“项目”“信息”“企业”“生产”等词语。在2017年的两个季度,“检查”出现概率较高,表明在这期间,关于财政预算方面的检查项目、管理是贵阳市政府关注的重点,这与年末财政总结和核查密不可分。在2018年的两个季度中,关键词“审计”有较高的出现概率,结合贵阳市公文公告数据,发现在该段时间内,贵阳市各区各县的审计机关分别在推进审计工作方面发布了公文公告,包括“党建与审计工作深度融合”“深化经济责任审计”“主题教育”“扶贫攻坚”等内容。

结合利用DTM发现的贵州省与贵阳市的公文公告数据主题以及主题词信息,该研究发現:贵州省的主题范围较为总体和全局,通过产业发展、政务服务、生态改革、人员招聘、建设规划等公文公告指导和推进贵州省综合规划与发展,而贵阳市的主题比较具体和集中,招投标项目、行政处罚、行政预算等均为项目建设情况内容。在主题内容的关联度方面,关键词“发展”“建设”“生产”“企业”、“服务”“管理”出现在两个层级的多个主题中,表明“生产建设”与“服务管理”工作是贵阳市和贵州省的重中之重。

5      结    语

该研究利用动态主题模型DTM挖掘贵州省和贵阳市公文公告数据集的主题演化与词语演化信息,并在此基础上进行公文公告主题分析研究,有助于公众了解贵州省与贵阳市公文公告数据主题分布和发文内容,同时可给政府工作提供可参考的统计基础。进一步的工作为建立跨层级公文公告主题挖掘新模型,从层级关系和时间关系探索国家、省、市、区、县政府公文公告数据的主题关联与区别,挖掘政府工作存在优势与问题,辅助政府决策,同时也会研究针对跨层级公文公告主题分析结果量化指标。

主要参考文献

[1]九次方.九次方大数据使命:激活政府数据价值,构建全球数据生态[EB/OL].[2018-05-09].http://www.sohu.com/a/230919267_1000543

87.

[2]汤志伟,郭雨晖.我国开放政府数据的利用:基于CNKI的系统性文献综述[J].情报杂志,2018,37(7).

[3]袁冰洁,罗贤春,李伶思,等.我国政务信息资源研究热点主题领域与趋势[J].现代情报,2016,36(12):133-138.

[4]胡吉明,张晓娟,谭婧.我国政府信息资源研究的主题结构与演化态势[J].信息资源化管理学报,2018(3).

[5]张敏,吴郁松,霍朝光.我国电子政务的研究热点与研究趋势分析[J].情报杂志,2015(2):137-141.

[6]杨兰蓉,颍颍.2015年国际电子政务研究的主题与趋势——基于社会科学引文索引(SSCI)数据库分析[J].现代情报,2016,36(11):140-145.

[7]David M Blei, John D Lafferty. Dynamic Topic Models[C]//Proceedings of the 23rd International Conference on Machine Learning,2006:113-120.

[8]Jelodar Hamed,Wang Yongli,Yuan Chi,et al.Latent Dirichlet allocation (LDA) and Topic Modeling:Models,Applications,a Survey[J].Multimedia Tools and Applications,2018,78.

[9]Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003.

[10]Chen J,Zhu J,Wang Z,et al. Scalable Inference for Logistic-Normal Topic Models[C]//Proceedings of the 26th Internatconal Conference on Neural Information Processing Systems,Volume2,2013:2445-2453.

猜你喜欢

贵阳市公告贵州省
贵州省种公牛站
不动产登记地方立法的思考——以贵州省为例
关于贵阳市低碳交通发展路径的探讨
沪深一周重要公告
沪深一周重要公告
沪深一周重要公告
沪深一周重要公告
离贵阳市区最近的滑雪场 高坡滑雪场
贵州省党代会开得最成功
贵阳市乌当区地下水问题及防治