APP下载

主题聚类视域下地方公共数据管理政策完备性分析

2024-04-14王劲孙瑞英

知识管理论坛 2024年1期
关键词:公共数据聚类分析

王劲 孙瑞英

摘要:[目的/意义]调查分析我国市级以上的公共数据管理政策,对比国家级数据政策对相关工作建设发展的要求,试图发现当前地方政策与国家要求的匹配程度。[方法/过程]获取28份我国地市级以上的公共数据管理政策,通过对内容进行加工整理,利用LDA算法进行主题内容识别,将其与国家层面的数据发展纲要进行比较。[结果/结论]当前各地制定的公共数据管理政策主题集中、目的明确,但总体上处于初级建设阶段,未能对公共数据的深度应用起到引导和管理的作用,与国家顶层设计要求仍有一定差距。

关键词:主题模型;公共数据;聚类分析;政策比较

分类号:G203

引用格式:王劲, 孙瑞英. 主题聚类视域下地方公共数据管理政策完备性分析[J/OL]. 知识管理论坛, 2024, 9(1): 65-78 [引用日期]. http://www.kmf.ac.cn/p/378/. (Citation: Wang Jin, Sun Ruiying. Analysis of the Completeness of Local Public Data Management Policies from the Perspective of Topic Clustering[J/OL]. Knowledge Management Forum, 2024, 9(1): 65-78 [cite date]. http://www.kmf.ac.cn/p/378/.)

1  引言/Introduction

党中央、国务院高度重视大数据的发展和公共数据的开放利用,依据大数据发展和应用的实际情况不断发布相关政策进行工作指导。2014年大数据首次被写入政府工作报告;2015年9月,国务院发布《促进大数据发展的行动纲要》,正式将大数据上升至国家战略层面,促进了大数据在各新兴领域的延伸应用;十九大报告中强调大数据与实体经济的深度融合;2020年4月9日,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,将数据纳入第五大生产要素,数据成为推动社会经济发展的核心动能;2021年3月“十四五”规划将大数据标准体系的完善作为发展重点。除上述政策外,国家层面还出台了《全国一体化政务大数据体系建设指南》等宏观规划。为响应国家战略的相关要求,各地陆续颁布公共数据管理的政策,以求促进公共数据的管理和使用。笔者利用LDA(Latent Dirichlet Allocation,LDA)主题模型对省、地區、市级公共数据政策文本进行主题聚类分析,以发现地方公共数据政策是否完备?并将实验结果与国家顶层规划的主旨要求进行对比,以确定是否符合国家战略要求?期望研究成果为各地区公共数据管理和利用提供建议。

2  研究综述与本研究的逻辑思路/Literature review and logic of this study

2.1  研究综述

随着国家层面对公共数据蕴含价值的重视和引导,近几年各省市陆续颁布公共数据管理办法,体现出地方政府对开发公共数据的高度关注,这也推动了学术界对公共数据政策的研究热潮,学者们从制定框架、政策实施效果和社会影响等方面展开各类探讨[1]。研究工具方面,有学者通过三维分析框架[2]、可视化分析工具[3]、社会网络分析法[4]、NVivo质性分析软件[5]等工具对我国数据政策进行分析,并针对问题提出相应建议。

在国家层面政策的研究中,有针对政策制定问题的思考:黄如花等[6]、赵洋等[7]利用内容分析工具对国家层面开放数据政策进行分析,发现了政策缺乏政府数据共享体系的设计,忽视数据开放质量监管、对供需求双方关注不足等问题;白献阳等[8]通过构建我国数据开放体系框架,梳理我国开放数据的相关政策,发现我国政策体系不完善、规范性和操作性不够、政策保障能力缺乏等问题。有针对政策实施角度的研究:陈玲等[1]利用二维理论分析模型,从政策实施角度对我国政府开放数据政策实施特点进行分析。有针对未来发展方向的研究:张涛等[9]、张会平等[10]利用主体聚类和知识图谱等工具对大量大数据政策进行综合实验分析,厘清了我国大数据政策主题的发展和内在逻辑,对未来发展趋势进行研判。

省市层面政策研究较多覆盖在政策设计角度,雷浩伟等[11]提出省级大数据发展应用政策存在进程过快、支撑性不足、政策内部协调性不足、需求回应缺失等问题;周文泓[12]提出我国地方政府应立足本地实际需求进行政策体系的完善;谭海波等[13]从大数据产业政策出发,利用内容分析法发掘政策未来发展方向。也有学者试图将地方性政策与国家层面的要求进行对比,张涛等[14]将22个地区政策与《纲要》进行对比,并分析各地区政策的特征;王长政等[15]利用扎根理论和社会网络分析法,对地方政府层面的262份政策进行研究,试图发现大数据治理政策关注点的变化。可以看出:从主题相似视角,对数据政策研究的成果较少,笔者从这一视角出发,对地方性公共数据管理文件进行分析研究。

2.2 研究逻辑框架

笔者选取28份我国地市级以上的公共数据管理政策,利用Python程序对其进行LDA建模处理,政策文本聚类的研究过程包括数据采集、文本停用词处理、计算困惑度以确定主题数、形成主题等环节(见图1),最后将LDA分析结果可视化并对其进行分析,与国家政策中对于公共数据的建设要求进行对比,对未来政策优化提供建议。

3  基于LDA模型的地方公共数据管理政策分析/Analysis of local public data management policies based on LDA model

3.1  数据采集

选取地、市级以上的关于公共数据管理的政策文件为研究对象。因现阶段公共数据政策发展还处于起步阶段,大部分地区的数据管理政策仍停留在政府数据管理政策上。为保障研究的准确性,避免受到类似“大数据”“政府数据”等近义政策文件干扰,本文检索关键词限制在“公共数据政策”“公共数据办法”“开放公共数据”等,文献均来自各地区政府或大数据管理局官方网站,最终得到政策文件28份,文件名见表1。

3.2  建模过程

笔者采用LDA主题模型进行主题聚类分析,LDA模型是一种非监督的机器学习手段,能够处理词汇、主题、文本之间的关联,展现聚类中的语义关系,发掘大规模文档中暗含的主题信息[16]。其主要原理具体如下:某篇文本以一定概率暗含着某种主题,该主题又以一定概率由某些词汇而构成,即文本是某些主题的概率分布组合,而主题又是某些词汇的概率分布组合,LDA模型能够体现“文本—主题”和“主题—词汇”两种概率关系,在某一文本中,主题权重越高代表该文本与该主题的关系越高,“主题-词汇”关系同理[17]。LDA模型可以通过多种计算机语言进行实现,笔者利用Python进行建模,然后对文本做进一步处理。具体步骤包括:①获取政策文本对象汇聚成文本集;②对文本中的特殊符号进行去除,并利用Jieba工具对文本集进行分词、词性筛选、去停用词。去停用词的意义在于去除文本中量大但没有实际意义的词汇,例如“应当”“比如”“但是”等,使产生的主题词汇更有研究价值;③计算困惑度以确定主题数量,主题数量选择的合理程度决定了主题聚类准确性;④词汇向量化并形成矩阵;⑤聚类结果可视化输出。

3.3  分析结果

3.3.1  确定主题数

LDA模型建模过程中需要设定主题数目,通常文本集合量越大则主题数目越多。大量的实践研究证明,LDA模型的主题聚类效果与潜在的主题数量K直接相关。主题数会直接影响聚类文档集的质量。笔者采用困惑度(perplexity)这一公认指标,对最优主题数目进行判定。困惑度是模型在区分主题时进行的确定性判定指标,反映模型对新样本是否适用,是否能正确

区分主题划分[18]。其计算公式为:

其中,M为文本集中的文本数,Nm为文档m的长度。为第m篇文档中词的概率值。若模型对新样本的分类效果越好,泛化能力越强,则困惑度值就越小,反之亦然。通过公式(1)进行计算,当主题数约等于11时模型的困惑度出现拐点,故确定主题数为11,如图2所示:

3.3.2  主题强度分布

主题强度是描述主题在一定时间窗口内受关注程度的指标,在某个时间窗口内包含该主题的文档数目越多,其主题强度越大,则其越有可能是热点主题。主题强度计算公式如下:

其中,为文档d中主题z所占比例,Dt为时间窗口t上的文本集合。将所有主题的主体强度计算完毕后,根据主题强度的大小降序排列,设定主题强度阈值以得到关注度较高的主题。主题阈值的计算公式如下:

若一个主题的主题强度大于这个阈值T时,说明该主题k属于热点主题[18]。主题强度可以利用pyLDAvis进行可视化,体现各地公共数据政策对某些领域的覆盖程度,主题强度高则代表着政策更重视该领域,并利用距离展示各主题之间的关系(见图3)。每个圆代表着一个主题,圆的大小体现主题出现的强度,圆心间距离代表主题之间相似的程度。由图3可见,各主题间虽略有重复,但大部分主题能够保证一定的独特性,得到了比较好的主题分类效果。由图3可知,主题1有着较高的强度,主题2—5强度差距略有差异。展示出公共数据管理政策主题聚拢度较好,同时又能涉及多种领域,展现了政策制定的多样化。

3.3.3  主题领域分析

主题领域能够从政策文本中词频数的强弱展示出来,经由词频统计工具形成词频词云图(见图4),可以清晰地反应公共数据政策涉及的重点。除去“公共数据”“数据”二词外,公共数据政策更多将“管理”视角投向数据“资源”、公共数据的“开放”“应用”“治理”“服务”“创新”等角度。可以看出各地政策关注推动公共数据的开放利用和参与政府治理,力求通过开发公共数据资源来满足当前国家发展的实际需求。而“高端”“深度”“能力”“协同”等词频则相对较少,显示出当前政策制定仍处于初级阶段,没有着更深层次的公共数据管理规划。

3.3.4  主题构成分析

通过LDA模型聚类得到公共数据政策的11个主题和构成每种主题的特征词汇,将每种主题中的特征词所占比重由高到低排列,选取前10个特征词进行整理和总结归纳,通过高频特征词呈现出每种主题所蕴含的政策议题,显示出公共数据政策总体上的侧重点和重点要求,主题的特征词分布结果详见表2。由于“公共数据”“数据”二词在每个主题中都有出现,则抛开二词对每个主题中其他高频主题词进行总结,利用人工筛查对相关度较高且可以形成具体含义的特征词进行集合,总结提取每个主题名称。例如在主题1中,“开放”“管理”较为高频且关系密切,则可以将该主题总结为“开放管理”;主题5中“部门”“管理”“资源”“服务”等词可以总结为相关部门对数据资源服务进行管理,故将该主题总结为资源服务管理,以此类推对聚类的11大主题进行依次归纳,确定主题名称。

通过模型分析可得到主题特征词的分布,每个词在主题中的概率能够反映出该词对主题的影响程度,概率越高则支持程度越大,全部特征词构成了每个主题蕴含的主旨思想。图5以主题1为例展示主题内占比较高的前30个特征词的比重,更为详细地展示了每个主题所包含的独有涵义。

由于研究对象是公共数据管理的相关政策,可以看出各主题的特征词有一定程度上的趋同,但是每个主题都有一定程度的独特性。通过对各主题的总结可以看出,当前地方公共数据管理政策侧重点集中于以下几个方面:

(1)提升公共数据管理水平。提出公共数据管理目标,例如,促进全社会的数字化转型,利用公共数据加快数字政府建设,利用公共数据加强社会、经济、城市治理的智慧化转型;利用公共数据促进公共服务的数字化转型,提高民生服务及商业应用的智慧化建设;利用公共数据推动工业制造向智能制造转型,提高生产效率和研发能力。同时应加强大数据基础设施建設,保证数据研发和技术的高速发展[19]。政策同时要求相关部门应明确管理目标和责任,统筹本行政区内的数据管理,指定采集清单编制同一目录、核准采集的公共数据质量,保持数据更新频率等[20-21]。

(2)保障公共数据开放共享和服务。公共数据开放是公共管理和服务机构向自然人、法人和其他组织(以下简称数据利用主体)提供具有原始性、可机器读取、可供社会化利用的数据集的行为[22]。对数据开放条件、数据开放手段、申请和利用方式提出相关要求,社会公众、企业、团体等广泛参与公共数据应用、价值挖掘、技术开发等工作[23-24]。公共数据服务是指将公共数据提供给社会用户的过程和方式,有政策要求应保障无偿向社会公众提供数据服务,应提高数据服务质量和水平,拓展服务模式,开发高质量的数据服务产品[24]。

(3)强调公共数据的资源作用。公共数据应被视作新型公共资源,不得被私人侵占而阻碍开放利用。公共数据资源也包括对数据进行加工处理、分析研究所形成的,能发挥数据价值的产品,包括:数据模型、分析报告、可视化、检索引擎、智慧服务等。应保证公共数据资源得到充分的开发和应用,促進公共数据资源在城市治理、公共服务中起到重要作用;建设数据交易超市,并对数据资源开发出来的数据产品交易做出规定[24-26]。

(4)强调公共数据主管部门责任和义务。以大数据中心统筹公共数据管理,加快公共数据开放平台的建设,各部门应各尽其责相互协调,鼓励各单位设立首席数据官对数据工作进行领导[19]。各部门有责任主动收集和向大数据平台归集公共数据,有责任保证数据的原始、完整、时效性;有责任建立完善的数据质量管理制度,加强数据治理的把控;有责任形成监督机制并自觉接受监管评价。数据管理部门应根据本地区实际需要,协同政府制定重点开放公共数据目录,保证民生优先、经济优先[19,23,25,28]。

(5)对违反相关规定的行为做出处理。为保障公共数据有效开发利用,各地政策制定了违反条例规定的制裁方式,如未能保护数据安全、个人隐私的,未能保证数据质量且按时归集数据的,不通过数据开放平台而擅自提供数据资源的,利用公共数据非法获利等相关行为将受到行政处分或法律追责,保障了各地在公共数据开放利用过程中的行为合规。

4  地方公共数据政策的完备性分析/Analysis of the completeness of local public data policies

国家高度重视政府数据与公共数据的开放利用,接连出台相关政策,为地方公共数据管理政策的制定确立了行动纲领和行为指南,为地方开展公共数据共享利用、制定公共数据管理办法和政策法规建设等指明了方向。通过对《促进大数据发展行动纲要》《关于构建更加完善的要素市场化配置体制机制的意见》《全国一体化政务大数据体系建设指南》等政策进行精读,利用内容分析法对政策的共性要求进行发掘,梳理《促进大数据发展的行动纲要》中对公共数据资源开发利用的规划设计,将其与各地政策主题进行比较,试图发现当前地方政策内容的完备性和差距。

4.1  形式完备性分析

笔者根据来自各地区政府或大数据管理局官方网站获得的28份政策文件(见表1),展示了全国各地发布公共数据政策的现状,能够体现当前我国各地对于公共数据相关工作的规划成果。

4.1.1  地区结构性失衡

根据调研结果可以看出:发布“公共数据政策”“公共数据办法”“开放公共数据”等地方文件的省市集中在东南沿海地区,西部的新疆、西藏、甘肃、青海、云南、宁夏、四川、贵州、内蒙古,中部的山西、陕西、河南、河北、湖南、湖北、安徽等都没有发布相关的公共数据管理政策,呈现东、中、西部公共数据管理政策结构性失衡。

4.1.2  区域马太效应明显

公共数据政策来源结果展示山东省、浙江省、江苏省、广东省这几个省份发布了省级公共数据管理相关政策,可见发布“公共数据政策”“公共数据办法”“开放公共数据”等地方文件的省市集中在经济发达地区,展示出区域数字化管理呈现“好的更好”的趋势,马太效应明显。

4.1.3  全国一体化势在必行

《新型数据中心发展三年行动计划(2021—2023年)》提出:2021年底,全国数据中心平均利用率要提升到55%,2023年提升到60%。《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出,2025年,全国范围内数据中心要形成:“布局合理”“绿色集约”的基础设施一体化格局,弥补东西部公共数据管理结构性平衡和区域马太效应明显的问题。

4.2  内容完备性分析

4.2.1  国家顶层设计任务梳理

通过对政策文本的分析梳理,发现国家针对大数据发展建设提出A、B、C 3项任务,政策中明确提出“稳步推进公共数据资源开放”,彼时对公共数据尚未形成完整的定义,政策制定也将政府数据、工业数据、农业数据等与公共数据区分开来。根据各地发布政策中的公共数据定义,可以认为公共数据囊括国家设计中提到的大部分数据类型,故3项任务均可视作对公共数据建设的要求,具体要求如表3所示:

除了主要任务之外,国家还对大数据发展政策机制提出了完善要求,包括完善与实施与相关机制、完善法规与标准制度、加大金融支持、促进人才培养和国际交流合作等。各地在制定相关政策时,应当在国家的总体规划布局基础上进行发展和完善,制定符合本地实际发展的公共数据政策方案。

4.2.2  地方政策总体上符合《纲要》战略要求

(1)地方政策关注数据资源开放整合及治理,促进了相关部门和负责人员对该项工作的重视程度。国家设计强调:(A1)政府数据资源一体化、(A3)数据资源的归集、(A4)治理精准化;地方政策主题词频统计的高频词也包括“数据”“服务”“开放”等,说明地方数据政策强调开放机制、开放平台建设,并且对开放利用方式及开放安全监管等方面都进行了说明,在思想上为地方数据开放服务确立了思想基础。

(2)地方政策明确相关部门职责及管理责任。国家要求:(B2)建立数据开放审批制度、(A5)数据治理系统、(C3)安全保障一体化,明确指出应形成责任明晰、强化资源统筹管理,要求各部门统一思想,认真履行职责。各地的政策也对这项要求做出相应的规划,地方政策要求公共数据资源开放管理,以各地大数据管理中心为核心,承担数据统筹协调、组织数据采集、维护平台运营、对数据开放进行监管的职责。地方政策在明确责任的同时,也提出违反规定应承担的法律责任,为公共数据开放提供了法制保障。

(3)地方政策推动公共数据资源共享利用,提升公共数据利用效果。国家政策要求:(B1)构建数据开放体系、(B3)关注重点开放领域。数据资源的共享和开放应是公共数据价值实现的核心方式。地方政策主题词频统计的高频词也包括“开放”“共享”“资源”等特征词,说明地方政策对数据开放与共享做出了丰富的规划,体现出数据资源开放共享在地方公共数据管理中的核心地位。

5  地方政策亟待完善之处/Areas in Need of Improvement in Local Policies

《促进大数据发展的行动纲要》是国家战略,为地方公共数据管理政策的制定确立了行动纲领和行为指南,各地方公共数据管理政策的制定也应该以《促进大数据发展的行动纲要》的3大任务的实现为目标,因此,各地方公共数据管理政策的内容应该遵循目标管理的SMART(specific、measurable、attainable、relevant、time-bound)原则。SMART原则是由管理学大师德鲁克在其1954年出版的《管理的实践》一书中提出的[29]。基于SMART原则,各地方公共数据管理政策不能内容笼统,缺乏切入解决实际问题的作用,如果这样会导致各地方公共数据管理政策缺乏有效的引导性,不利于行为主体依据政策开展更深层次的数据管理和利用。只有遵循SMART原则,才能更加明确高效地工作,明确目标设定和公共数据管理工作效果有利于管理者对相关数据工作人员的工作实施绩效考核,能够为相关考核提供考核目标和考核标准,使考核更加科学化、规范化,更能保证绩效考核的公正、公开与公平。因此,笔者依据SMART原则衡量地方公共数据管理政策的内容,看其是否具备实现公共数据开放国家政策设计3大任务的明确性、衡量性、实现性、相关性、时限性。

5.1  提升任务目标精准度(specific)

国家规划强调治理精准化(A4),《纲要》中对政府、医疗、社保、教育、农业、科研等领域的数据应用做出了应用设计,强调建设“公共服务大数据工程”“工业和新兴产业大数据工程”“农业大数据工程”及“创新大数据工程”等数据开放管理项目,并对不同领域的数据工程建设做出具体详实的说明,规划了数据工程的发展方向和具体应用模式。从表2和图5的地方政策主题聚类结果中可以看出,各地聚焦于宏观层面引导,但各地政策对具体领域缺乏具体精准的实践指导,各地区的政策尽管对公共数据资源的开放领域做出了阐述,但绝大多数仅仅说明某类数据的利用方向,具体实施过程和方式不够详尽。主题特征词“利用”“应用”“制定”等比较抽象,如 “利用”一词,仅出现在主题3中,比重仅占0.011,而“开放”“共享”等概括性词汇几乎出现在所有的主题中,有较高的主题支持度,这说明各地政策思想上注重公共数据开放利用,但在具体的实践层面,指导不明确、不具体,没有满足SMART原则的specific指标,政策内容不够精准详细、实践操作性不足。各地政策内容应该更加明确精准对接各实践领域,这样才能有利于引导政府、医疗、社保、教育、农业、科研等具体领域公共数据的持续开发和利用。

5.2  建立统一数据标准规范(measurable)

国家规划强调(C2)标准规范一体化,建立国家宏观调控数据体系,及时发布有关统计指标和数据,提高宏观调控的科学性、预见性和有效性。国家政策要求地方政府依据自身实际情况制定多层次的大数据政策,确立完善的数据资源管理办法和制度。从政策主题词表(见表2)中可以看出,“法规”“标准”“制度”等关键词对主题产生影响较弱,体现出当前各地出台的数据管理政策未能响应国家的相关要求,建立可以统计衡量的各级指标体系,没有把用户满意度、公共数据网站行为“标准”等进行规范化、数值化处理,各地政策仅从执行部门角度出发,要求其在各自职能范圍内做好数据管理和开放工作,缺少公共数据开放的各级标准,导致主体工作无据可依,应该完善公共数据处理的各级标准规范体系,为开放公共数据提供可衡量的行为准则。

5.3  加强各类保障制度(attainable)

国家政策强调政府数据资源的技术支持,加强政府预算投入进行科研支持,国家强调集中资金攻克大数据核心技术,支持重大应用项目和公共数据开放平台的建设,完善政府采购数据应用的配套制度等。而实验结果显示(见表2和图5):各主题中都缺乏“资金”“技术”相关特征词的支持,更加没有关于二者要求的主题项目,体现出地方政策在保障支持方面缺乏详细的规划,而公共数据的收集、管理和开放都需要一定程度的技术予以支持,这使得公共数据开放和管理活动缺乏最基础的能力保障,使得相关工作难以深入进行,无法提高相关部门的积极性,工作任务难以实现(not attainable)。

5.4  增强各部门工作协同(relevant)

国家政策强调(C1)算力设施一体化、(C2)标准规范一体化、(C3)安全保障一体化。要推动构建智能防控、综合治理的公共安全体系,形成全链条的数据管理政策生态。从表2和图5可知,各主题中都缺乏“协同”相关特征词的支持,更加没有关于“协同”要求的主题项目,图8的地方政策高频词中,虽然出现“部门”责任、公共数据开放“机构”的“共享”与“服务”,但“部门”与“机构”之间如何共享?地方政策中为实现“共享”而进行的区域协同、部门之间的协同、工作的长、中、短期目标之间的协同等很少被涉及,协同效应不明显(not relevant)。地方政策要协同考虑相关的区域、部门、各级工作,工作之间彼此不能冲突,这样才能促进数据综合治理、区域和产业联盟的形成。

5.5  增强工作部署时限性(time-bound)

《促进大数据发展行动纲要》指出,2017年底要形成跨部门数据资源共享共用格局,2018年底前建成国家政府数据统一开放平台。在主题聚类分析中发现,地方政策中各项工作的时间限制很少被提及,政策内容少了实际的期限,还停留在“想做”的阶段,对各项工作付诸行动的指导和期限约束不足,对工作进度考核不可控,会造成公共数据开放利用的拖延。

6  结语/Conclusion

本文以各地公共数据管理政策为研究对象,利用LDA主题聚类分析工具对其进行主题挖掘,并将结果与国务院为加强数据资源利用而颁布的3项定策设计展开比较分析。研究结果显示,各地政策对公共数据资源开发做出了宏观把控,规划了数据开放的发展方向,明确了各主体的职责和义务,为公共数据价值深度挖掘做出了基础部署,但由于我国公共数据资源开放处于初级阶段,各地政策的完备程度还存在不足,还需进一步修订改进。

参考文献/References:

[1] 陈玲, 段尧清. 我国政府开放数据政策的实施现状和特点研究: 基于政府公报文本的量化分析[J]. 情报学报, 2020, 39(7): 698-709. (CHEN L, DUAN Y Q. Analyzing implementation of the Chinese government open data policy using government bulletin text as example [J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(7): 698-709.)

[2] 李樵. 我国促进大数据发展政策工具选择体系结构及其优化策略研究[J]. 图书情报工作, 2018, 62(11): 5-15. (LI Q. Research on the architecture and optimization strategy of policy instrument selection for the development of big data in China[J]. Library and information service, 2018, 62(11): 5-15.)

[3] 徐蕾, 李庆, 肖相泽. 基于扎根理论的大数据政策共词网络研究[J]. 现代情报, 2018, 38(6): 157-164. (XU L, LI Q, XIAO X Z. The co-word network analysis of big data policies based on ground theory[J]. Journal of modern information, 2018, 38(6): 157-164.)

[4] 段尧清, 尚婷, 周密. 我国政务大数据政策扩散特征与主题分析[J]. 图书情报工作, 2020, 64(13): 133-139. (DUAN R Q, SHANG T, ZHOU M. Analysis on the characteristics and subjects of Chinas government big data policy diffusion[J]. Library and information service, 2020, 64(13): 133-139.)

[5] 陈兰杰, 赵元晨. 政策工具视角下我国开放政府数据政策文本分析[J]. 情报资料工作, 2020, 41(6): 46-53. (CHEN L J, ZHAO Y C. Analysis of open government data policy text in China from the perspective of policy tools[J]. Information and documentation services, 2020, 41(6): 46-53.)

[6] 黄如花, 温芳芳. 我国政府数据开放共享的政策框架与内容:国家层面政策文本的内容分析[J]. 图书情报工作, 2017, 61(20): 12-25. (HUANG R H, WEN F F. Policy framework and content of opening and sharing government data in China: a content analysis of policy documents at the national level[J]. Library and information service, 2017, 61(20): 12-25.)

[7] 赵洋, 程雪涓. 政策工具视域下我国开放数据政策研究[J]. 图书馆杂志, 2021, 40(11): 31-38,47. (ZHAO Y, CHENG X J. Research on open data policy from the perspective of policy instruments in China[J], Library journal, 2021, 40(11): 31-38, 47.)

[8] 白獻阳, 孙梦皎, 安小米. 大数据环境下我国政府数据开放政策体系研究[J]. 图书馆学研究, 2018(24): 48-56, 47. (BAI X Y, SUN M J, AN X M. On Chinas open government data policy system under the background of big data[J]. Research on library science, 2018(24): 48-56, 47.)

[9] 张涛, 马海群. 我国大数据政策主题分析及发展动向研判[J]. 情报理论与实践, 2022, 45(3): 72-80. (ZHANG T, MA H Q. Top analysis and developing trends of big data policy in China[J]. Information studies: theory & application, 2022, 45(3): 72-80.)

[10] 张会平, 郭宁, 汤玺楷. 推进逻辑与未来进路:我国政务大数据政策的文本分析[J]. 情报杂志, 2018, 37(3): 152-157, 192. (ZHANG H P, GUO N, TANG X K. Promoting logic and future directions: a textual analysis of Chinas government big data policy[J]. Journal of intelligence, 2018, 37(3): 152-157, 192.)

[11] 雷浩伟, 廖秀健. 省级政府大数据发展应用政策的规制导向与执行优化研究——基于政策文本的分析[J]. 公共管理与政策评论, 2022, 11(2): 114-134. (LEI H W, LIAO X J. Research on the regulatory guidance and implementation optimization of big data development and application policies of provincial governments: based on the analysis of policy texts[J]. Public administration and policy review, 2022, 11(2): 114-134.)

[12] 周文泓. 面向资产化利用的我国地方政府开放数据政策调查及其启示[J]. 情报理论与实践, 2022, 45(6): 48-54, 16. (ZHOU W H, Research on government open data policy of local government for asset-orient utilization and its enlightenment[J]. Information studies: theory & application, 2022, 45(6): 48-54, 16.)

[13] 谭海波, 郑清清, 王海函. 地方政府大数据产业政策:工具偏好及其匹配——基于贵州省政策文本的分析[J]. 中国行政管理, 2021(1): 52-58. (TAN H B, ZHENG Q Q, WANG H H. Local government big data industry policy: tool preferences and compatibility ——analysis based on the text of Guizhou policy[J]. Chinese public administration, 2021(1): 52-58.)

[14] 張涛, 马海群, 易扬. 文本相似度视角下我国大数据政策比较研究[J]. 图书情报工作, 2020, 64(12): 26-37. (ZHANG T, MA H Q, YI Y. Comparative analysis of Chinas big data policies from the perspective of text similarity[J]. Library and information service, 2020, 64(12): 26-37.)

[15] 王长征, 彭小兵, 彭洋. 地方政府大数据治理政策的注意力变迁——基于政策文本的扎根理论与社会网络分析[J]. 情报杂志, 2020, 39(12): 111-118. (WANG C Z, PENG X B, PENG Y. Attention evolution of big data governance policies of local government——Based on grounded theory and social network[J]. Journal of intelligence, 2020, 39(12): 111-118.)

[16] 王鹏, 高铖, 陈晓美. 基于LDA模型的文本聚类研究[J]. 情报科学, 2015, 33(1): 63-68. (WANG P, GAO C, CHEN X M. Research on LDA model based on text clustering[J]. Information science, 2015, 33(1): 63-68.)

[17] 李倩, 王帅. LDA模型下我国公共图书馆微信平台阅读推广内容主题研究[J]. 图书情报工作, 2022, 66(8): 72-83. (LI Q, WANG S. A study on the topic of WeChat platforms reading promotion contents in public libraries by using LDA model in China[J]. Library and information service, 2022, 66(8): 72-83.)

[18] ARUN R, SURESH V, MADHAVAN C E V, et al. On finding the natural number of topics with latent Dirichlet allocation: some observations[C]∥Pacific-Asia conference on knowledge discovery and data mining. Berlin: Springer, 2010: 391-402.

[19] 上海市人民政府. 上海市数据条例[EB/OL]. [2023-10-30]. https://www.shanghai.gov.cn/nw12344/20211129/a1a38c3dfe8b4f8f8fcba5e79fbe9251.html. (PEOPLES GOVERNMENT OF SHANGHAI. Shanghai data regulations[EB/OL]. [2023-10-30]. https://www.shanghai.gov.cn/nw12344/20211129/a1a38c3dfe8b4f8f8fcba5e79fbe9251.html.)

[20] 廣东省人民政府. 广东省公共数据管理办法[EB/OL]. [2023-10-30]. https://www.gd.gov.cn/zwgk/wjk/qbwj/yfl/content/post_3584932.html (PEOPLES GOVERNMENT OF GUANGDONG PROVINCE. Guangdong Provincial public data management measures[EB/OL]. [2023-10-30]. https://www.gd.gov.cn/zwgk/wjk/qbwj/yfl/content/post_3584932.html.)

[21] 浙江省人民政府.浙江省公共数据条例[EB/OL]. [2023-10-30]. https://jgj.hangzhou.gov.cn/art/2023/5/30/art_1229717029_1832012.html. (PEOPLES GOVERNMENT OF ZHEJIANG PROVINCE. Zhejiang Province public data regulations[EB/OL]. [2023-10-30]. https://jgj.hangzhou.gov.cn/art/2023/5/30/art_1229717029_1832012.html.)

[22] 重庆市人民政府. 重庆市公共数据开放管理暂行办法[EB/OL]. [2023-10-30]. http://www.cq.gov.cn/zwgk/zfxxgkml/szfwj/xzgfxwj/szfbgt/202009/t20200918_8837781.html. (CHONGQING MUNICIPAL PEOPLES GOVERNMENT. Interim measures for open management of public data in Chongqing [EB/OL]. [2023-10-30]. http://www.cq.gov.cn/zwgk/zfxxgkml/szfwj/xzgfxwj/szfbgt/202009/t20200918_8837781.html.)

[23] 山东省人民政府. 山东省公共数据开放办法[EB/OL]. [2023-10-30]. http://www.shandong.gov.cn/art/2022/2/9/art_107851_117339.html. (PEOPLES GOVERNMENT OF SHANDONG PROVINCE. Shandong Province public data open approach [EB/OL]. [2023-10-30]. http://www.shandong.gov.cn/art/2022/2/9/art_107851_117339.html.)

[24] 海南省大数据管理局. 海南省公共数据产品开发利用暂行管理办法[EB/OL]. [2023-10-30]. https://dsj.hainan.gov.cn/tzgg/zcgg/202109/t20210918_3055961.html. (BIG DATA ADMINISTRATION OF HAINAN PROVINCE. Interim management measures for the development and utilization of public data products in Hainan Province [EB/OL]. [2023-10-30]. https://dsj.hainan.gov.cn/tzgg/zcgg/202109/t20210918_3055961.html.)

[25] 广西省人民政府. 广西公共数据开放管理办法[EB/OL]. [2023-10-30]. http://www.gxzf.gov.cn/html/zfgb/2020nzfgb/d17q_zfgb/zfgb20200702/t7241433.shtml. (PEOPLES GOVERNMENT OF GUANGXI PROVINCE. Guangxi public data open management approach [EB/OL]. [2023-10-30]. http://www.gxzf.gov.cn/html/zfgb/2020nzfgb/d17q_zfgb/zfgb20200702/t7241433.shtml.)

[26] 吉林省人民政府. 吉林省公共数据和一网通办管理办法(试行)[EB/OL]. [2023-10-30]. https://xxgk.jl.gov.cn/szf/gkml/201901/t20190117_5486564.html. (PEOPLES GOVERNMENT OF JILIN PROVINCE. Jilin Province public data and one-network management approach (for trial implementation) [EB/OL]. [2023-10-30]. https://xxgk.jl.gov.cn/szf/gkml/201901/t20190117_5486564.html.)

[27] 江苏省人民政府. 江苏省公共数据管理办法[EB/OL]. [2023-10-30]. https://www.jiangsu.gov.cn/art/2021/12/24/art_46143_10224944.html. (PEOPLES GOVERNMENT OF JIANGSU PROVINCE. Measures for public data management in Jiangsu Province[EB/OL]. [2023-10-30]. https://www.jiangsu.gov.cn/art/2021/12/24/art_46143_10224944.html.)

[28] 德鲁克. 管理的实践[M]. 齐若兰, 译. 北京: 机械工业出版社, 2018. (DRUCKER P. The practice of management[M]. QI R L, trans. Beijing: China Machine Press, 2018.)

作者贡献说明/ Author contributions:

王  劲:负责相关资料收集、数据分析、框架设计、论文撰写;

孙瑞英:负责论文观点提炼、修改与撰寫。

Analysis of the Completeness of Local Public Data Management Policies from the Perspective of Topic Clustering

Wang Jin  Sun Ruiying

School of Information Management, Heilongjiang University, Harbin 150080

Abstract: [Objective/Significance] This study investigates and analyzes the public data management policies at or above the municipal level in China, comparing them with the requirements of national-level data policies on relevant work development, and attempts to identify the degree of alignment between current local policies and national requirements. [Methods/Processes] Twenty-eight public data management policies at or above the municipal level in China were collected. After processing and organizing the content, the LDA algorithm was used for topic identification, and these policies were compared with the national-level data development outline. [Results/Conclusions] The themes of the current public data management policies formulated by various regions are focused, with clear objectives, but overall, they are still in the early stages of development. They have not been able to guide and manage the deep application of public data effectively, and there is still a certain gap with the requirements of the national top-level design.

Keywords: topic model    public data    cluster analysis    policy comparison

Fund project(s): This work is supported by the 2021 Major Project of the National Social Science Fund of China titled “Research on the System and Capacity Building of Public Data Open and Utilization for Digital Development” (Grant No. 21&ZD336), and the General Research Project on Higher Education Teaching Reform in Heilongjiang Province titled “Research on Promoting the Connotation Development of Universities through Innovation and Entrepreneurship Education Reform in the New Era” (Grant No. SJGY20210720).

Author(s): Wang Jin, PhD candidate, E-mail: 809630403@qq.com; Sun Ruiying, professor, postdoctoral fellow, doctoral supervisor.

Received: 2023-09-19    Published: 2024-02-27

猜你喜欢

公共数据聚类分析
公共数据使用的路径探寻
——访工信部信息通信经济专家委员会委员、中国科协决策咨询首席专家王春晖
制定中国公共数据开发利用法规的建议
公共数据商业利用边界研究
公共数据授权运营机制探索
论公共数据管控权的规范建构
公共数据开放许可的规范建构
新媒体用户行为模式分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究