APP下载

基于程度词典优化的中文科技规划文本分析

2023-08-31郑新曼董瑜

现代情报 2023年9期
关键词:文本挖掘

郑新曼 董瑜

关键词: 科技规划; 文本挖掘; 程度词典; 政策量化分析

DOI:10.3969 / j.issn.1008-0821.2023.09.007

〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 09-0074-11

文本要素的识别、提取与分析是情報学研究定量化的重要组成部分, 拓展可量化的文本要素类型有助于情报研究向深度和广度发展。如科技文献与政策文本两类文本要素间的关联研究, 可用于厘清科学研究与政策制定之间的相互影响[1-2] , 支撑决策科学化。随着大数据时代数据量的急剧增长和数据密集型科学研究范式的兴起, 面向大样本科技文献文本要素抽取的研究不断涌现[3] , 核心主题识别[4] 、新兴主题探测[5] 等一系列方法探索, 为基于科技文献的科学研究脉络梳理发挥了重要作用。同时, 大样本政策文本分析方法发展迅速, 按文本量化方式划分, 可分为政策计量分析、内容分析法和效词分析法3 类[6] 。政策文本量化分析本质是从非结构化政策文本中提取并分析结构化的文本要素,以较好地平衡分析深度和分析效率。然而, 目前用于量化分析的政策文本要素如政策主题词、政策工具等, 以名词性单词或短语为主, 对动词、形容词等能反映决策者态度的文本要素利用不足[7] 。有研究表明, 中文科技政策中存在规范、稳定且能反映决策者态度的程度词, 结合由一系列程度词组成的程度词典的政策文本量化分析, 能兼顾词语的语义及强度, 有助于深入挖掘政策文本中有价值的信息[7]。

为进一步探索程度词这一文本要素在中文政策量化研究中的价值, 本文拟开展基于程度词典的政策文本分析研究, 以期为大样本政策文本分析方法研究提供新的视角, 为中文语境下的科学研究与政策制定的关联研究提供方法支撑。

1相关研究

1.1中文政策文本量化研究

随着政策文本量化方法的发展, 近些年国内从文本要素角度定量分析中文政策的研究成果逐渐增加, 量化维度从政策发布时间、发文机构、效力级别、文种类型等政策文本结构要素[8] , 逐步深入到政策主题词、关键词、政策工具等政策文本内容要素; 研究对象主要围绕与国计民生直接相关, 通常具有较长发展周期的领域政策(如养老产业、新能源产业、脱贫攻坚), 以及当前经济社会发展中的热点难点问题, 通常是短期内涌现大量政策的领域(如乡村振兴、人工智能、科技人才评价、突发公共卫生事件应对)等。祝鑫梅等[9] 从高频词和主题词的角度, 分析了1979—2017 年国家层面的标准化政策245 份, 揭示中国标准化政策在不同阶段的文本特征。刘亚亚等[10] 通过政策高频主题词以及由文本关键词确定的政策工具, 分析2000 年以来94 份中国大数据政策的发展演化特征。段尧清等[11] 选取了2008—2018年63 份中国政府信息公开政策, 将政策文本段落分为公开主体、公开内容、公开渠道和监督保障措施4 类内容, 并基于各类内容的关键词分析政策演化过程。杨锐等[12] 使用高频词识别和关键词聚类的方法, 对2000—2019 年国家及部委颁布的268 份科研诚信建设相关政策文件进行分析, 揭示了我国科研诚信政策在不同阶段的主题演变趋势。

综上, 现有中文政策文本量化研究具有两个鲜明特征。一是关注政策文本中的高频词、主题词等名词性词语或短语的量化, 抽取相关要素时往往筛除动词、形容词等能反映决策者态度的文本要素;二是受中文文本挖掘方法与当前政策文本可量化的要素所限, 为保证方法有效, 所分析的领域通常需要较多数量的政策文本。

1.2程度词典研究现状

针对当前中文政策文本要素挖掘不充分的问题, 有研究引入程度词的概念, 并进行了基于程度词典的中文政策文本分析方法探索。

程度词是我国科技政策文本中存在的规范、稳定且能反映决策者态度的词汇, 以动词、形容词为主, 在语义上具有明显的强度差异, 能够体现决策者对任务部署的轻重缓急或领域发展的态度强弱,如“支持” “激励” “突破”[7] 。其“程度” 特征更多地体现为语义的强弱程度, 即词语的情感极性较为一致, 但在语义上具有明显的强度差异, 与情感分析或意见挖掘常用的程度副词在词性范围、语义类型、语体风格等方面存在本质区别。有研究通过程度词典的构建与验证, 证明了词典法能够有效地识别、提取和应用程度词, 结合程度词典的中文政策文本分析, 兼顾了词语的语义及强度, 有助于深入挖掘政策文本中有价值的信息。从特征与量化方式看, 程度词可认为是中文科技政策中值得进一步挖掘的新文本要素, 引入程度词典的政策文本分析方法具备高效且深入分析大样本中文政策文本的潜力。

现有研究在界定程度词概念、特征的基础上,利用词典法进行了程度词识别、提取、应用的初步探索, 设计了含基于专家知识的种子词选取、基于PMI 算法的领域程度词扩展、基于语义相似度计算的词汇筛选3 个步骤的词典构建方法以及信度与效度检验方法[7] 。为进一步检验并提升程度词在中文政策文本分析中的价值, 本文在前期研究的基础上,开展基于程度词典优化的中文政策文本分析研究。

2程度词典的优化探索

针对当前程度词典词语数量较少、程度词权重单一的问题, 本文以现有研究中的程度词典构建与验证方法为基础, 进行程度词典的优化研究。首先, 在词典规模上, 拟进一步扩大构造词典的不同领域的政策文本数量; 其次, 在词典设计上, 考虑到设置合适的词语权重有时比构建完备、精确的词典更重要[13] , 拟探索等权重法以外的程度词赋权方式, 丰富权重设计。

2.1程度词的扩展

由于程度词的提出立足于科技政策文本功能定位, 且前期研究中的64 个种子词来自《“十三五”国家科技创新规划》, 为保证扩展所得程度词的有效性, 本文选择了同时期、同系列的科技政策文本进行程度词的扩展。通过中国政府网采集了如《“十三五” 国家战略性新兴产业发展规划》《“十三五”材料领域科技创新专项规划》等不同产业和领域的“十三五” 国家科技创新专项规划30 份。以这31 份国家级科技规划文本扩展科技政策领域程度词表。

经文本预处理、基于词语共现的程度词扩展、基于语义相似度的词汇筛选, 得到扩展后的程度词592 个。在此基础上, 邀请专家进行两次间隔1 个月的程度词筛选, 最终得到376 个词语。

2.2程度词的权重设计

为了探索中文政策文本分析对于程度词权重设计的需求, 程度词权重设计的研究主要围绕以下3个问题展开: 一是程度詞程度强弱划分对政策文本分析有无影响, 即政策文本分析是否需要考虑程度词程度强弱; 二是如果政策文本分析需要考虑程度词之间的程度差异, 各程度词的程度强弱如何区分; 三是如何使用区分程度差异的程度词典(简称分级程度词典)进行政策文本量化分析。

尽管不同的程度词在语义表达上存在强弱差异, 但这种程度强弱的判断本身具有主观性, 难以用数学方法进行衡量。在现代汉语研究中, 程度副词的程度量级主要也是依靠语感划分的[14] 。因此,本文采用两种方法对程度词进行赋权, 分别是基于专家调查法的程度词权重设计和等权重法。专家调查法的主要思想是围绕某一主题或问题, 征询有关专家或权威人士的意见和看法, 需要选择相关领域具有丰富知识或实际经验的专家在互不知情的隔离状态下对问题进行判断、评估[15] 。利用专家调查法进行程度词权重设计, 主要是考虑到政策文本分析高度依赖专家知识和经验。兼顾对结果可靠性、专家时间和人力成本的考虑, 本文设计了两轮专家问卷调查。使用等权重法为程度词赋权, 流程较为简单, 将所有程度词设置为相同的权值即可, 用于对比程度词是否需要划分程度强弱。为便于与前期研究结果进行比较, 使用等权重法赋权时, 将程度词的权重设为1。

专家调查中的第一轮问卷设计了3 个主要问题, 邀请了来自中国科学院文献情报中心的7 位科技政策分析专家进行预测试(Pilot Test)。第一个问题参照现代汉语研究中程度副词“微、中、高、极” 4 级分类, 设计了程度词的量级划分问题。第二个问题根据情感分析或意见挖掘中程度副词权值的设计, 将程度词权值的取值范围限定在[0,2],初步设计了程度词各量级的权值, 如“0. 5,1,1.5,2”“0.5,1.5,1.75,2”“0.5,0.75,1.75,2” 等。第三个问题, 选取200个由PMI 算法获得的高关联度的词语, 邀请专家判断各个词语的程度量级。第二轮问卷以第一轮问卷的结果以及专家的建议为依据进行了问卷内容的增删, 并邀请了16 位具有丰富的政策解读或政策撰写经验的专家, 涵盖发改委、科技部、中国科学院、中国商飞、北京市科委、上海科创办、中科院科技战略咨询研究院、中国科学技术战略发展研究院、中信所、中科院文献情报中心等9 家单位。

第二轮专家调查共回收问卷16 份, 在专家组成方面, 有2 位从事政策撰写工作、14 位从事政策解读、分析工作。综合专家的答题用时与反馈,可知每位专家均对问卷中的题目做出了细致的选择和判断, 这保障了问卷调查结果的信度和效度。相较预测试, 第二轮问卷的问题设置更合理、专家覆盖面更广、词语数量更多、结果更具有代表性。因此, 重点对第二轮问卷结果进行分析。分析结果涵盖3 个方面, 首先, 专家一致肯定政策文本中程度词的存在, 且倾向于将其量级划分成“微、中、高” 3 级, 并分别赋予“0.5,1,1.5” 的权值, 仅少数专家将词语强弱分为“微、中、高、极” 4 级。其次, 绝大多数专家认为, 科技政策文本挖掘需要考虑词语语义强弱并划分程度量级。最后, 统计各个专家对各词语的程度量级划分结果, 得到分级程度词典。统计时以量级划分成3 级的问卷结果为主, 根据人数最多的选择, 确定每个词语所属的量级。如遇到4 ∶4 ∶4或6 ∶6 ∶0的情况, 则结合划分成4级的专家的选择, 选择人数最多的级别作为该词语的最终量级。其中, 因为专家意见较为分散而无法确定量级的词语共有12 个。去掉这些词, 最终获得“微” 级词语125 个(权值为0 5), “中” 级词语176 个(权值为1), “高” 级词语63 个(权值为1.5), 这些词组成了分级程度词典。同时, 这364个词也构成了等权重程度词典。

2.3程度词典的检验

2.3.1信度与效度检验

以程度词在大样本政策文本中的分布情况作为信度检验指标。信度检验抽样的政策文本来自中国政府网国务院政府文件库的82份政策文件。统计词典中的程度词在各政策文本中的分布, 显示程度词占政策文本全文词数的比例在24%左右, 其中占比在14%~34%的样本量共77 份, 占总样本量的94%, 程度词占比最高的为33%, 占比最低的为12%。而优化前的程度词典占政策文本总词数的比例为21%左右[7] 。上述结果表明优化后的程度词典具有信度。

为检验优化后的程度词典是否有效并对比词典权重分级和等权重对政策文本分析效果的影响, 以《北京市“十三五” 时期加强全国科技创新中心建设规划》[16](简称“北京市十三五科技规划”)及其专家解读[17] 为案例, 分别基于等权重程度词典和分级程度词典进行政策文本分析, 得到程度值前20 的重要段落与专家解读的主要内容的对应情况,如表1 所示。结果表明, 利用两种程度词典识别出的重点段落及其章节分布基本一致, 且与专家解读能够较好地对应, 证明本文构建的等权重程度词典和分级程度词典有效。

2.3.2分级程度词典的优势

经观察, 在段落分值及其排序方面, 分级程度词典的效果相对优于等权重程度词典, 前者具有更佳的细粒度。分级程度词典能更细致地揭示同一章节中各段落的位次关系, 如在分级和等权重程度词典计算结果中, “支撑京津冀协同发展战略” 重点任务部分均有6 个段落位居程度值前10, 但段落分值与其排序有差异, 如在分级程度词典结果中,段落75 的排名高于段落83, 与等权重程度词典结果相反, 如表2 所示。段落75 的主要内容是“优化协同创新格局”, 要求明确京津冀三地的科技创新优先领域, 实现合理分工与有序协作, 促进区域间、产业间循环式布局。段落83 的主要内容是“开展协同创新若干试点”, 即开展先行先试政策推广试点。在针对京津冀区域协同发展的访谈中,京津冀协同发展领导小组办公室负责人明确指出优化京津冀协同创新格局的重要性, 提出“优化区域分工和产业布局” 是推动京津冀协同发展指导思想的重点[18] , 这表明了段落75 内容的重要程度与分级程度词典实验结果相符。

分级程度词典可以实现对段落程度值更细致的区分, 能避免大量相同程度值段落的出现。在上述案例中, 由于段落同分值, 使用等权重程度词典得到的程度值前20 的段落实际有23 段, 如表1 所示,同分值段落数占全文总段落数的比例为69.4%;使用分级程度词典进行文本分析时, 这一比例为58.7%。为进一步检验, 按照相同的步骤分析了《上海市科技创新“十三五” 规划》[19] 。相较于等权重程度词典, 使用分级程度词典计算得到的同分值段落的比例减少了12%左右。可以看出, 划分程度词量级, 能够更为细致地区分各个段落的程度差异。

3基于分级程度词典的科技规划文本量化分析

本文使用更具优势的分级程度词典进行中文科技政策文本量化研究, 可分为文本预处理、分词、程度值计算、高程度值内容分析4 个步骤。文本预处理时, 去掉原文的各级标题, 将文本内容设置成段落的形式。接着, 使用Jieba 进行分词、去停用词(各类标点符号)、词性标注, 得到各段落的词汇。统计段落中各级程度词的频次, 并乘以其对应的权值, 最终求和所得的值即为各段落的程度值。程度值越高, 则在一定程度上反映了该段落所含内容的重要性、紧迫性和现实性。分析高程度值段落内容时, 结合TextRank算法抽取各段落以名词为主的前30 个关键词, 根据关键词及其权重, 绘制词云图, 直观展示重要内容, 辅助定性解读。

3.1样本选择

国家级科技规划是政府为指导科技研究长远发展而制定的综合性政策, 具有前瞻性、纲领性、动态性等特点, 对我国的科学技术发展起到了重要的推动作用[20-21] , 近些年广受学界的关注和探讨。其文本内容包括形势与需求、指导思路与发展目标、发展方向、战略重点、保障措施等方面, 是决策者科技规划理念的具体表现。然而, 当前对科技规划的研究以定性研究方法为主, 即基于研究者的知识和经验, 以人工阅读理解的方式揭示文本中蕴含的政策意图[7] , 较少从定量分析的角度探究科技规划文本与政策意图之间的关联。此外, 科技规划相对于其他类型政策而言, 具有文本数量少、篇幅长、内容丰富等特点, 可用于检验和彰显程度词这一文本要素在中文政策文本量化研究中的应用价值。

考虑到近20 年来我国科技规划制定理念日趋成熟, 规划体系更加统一、规范, 公文撰写所用的词语较为稳定, 因此, 以我国2000年及之后发布的4 份国家级五年科技规划为实证切入点, 分别是《国民经济和社会发展第十个五年计划科技教育发展专项规划》(简称“十五” 科技规划)、《国家“十一五” 科学技术发展规划》(简称“十一五” 科技规划)、《国家“十二五” 科学和技术发展规划》(简称“十二五” 科技规划)和《“十三五” 国家科技创新规划》(简称“十三五” 科技创新规划), 覆盖的时间范围为2000—2020 年。将规划文本中的各文字版专栏调整为段落的形式, 得到4 份科技规划文本数据的基本情况, 如表3 所示。从段落数和总字数可以看出, 从“十五” 到“十三五”, 我国五年科技规划的内容日益丰富, 体量逐渐增大。

3.2基于程度值的科技规划重要段落遴选

由于不同时期规划段落数量差异较大, 为了保障重点分析段落的数量以及这些段落在各规划中的代表性, 本文选取各规划文本程度值前10%的段落作为本文分析的重点, 并以程度值前10%的段落作为各规划的重要段落。受文本篇幅所限, 以体量最大的“十三五” 科技创新规划为例, 展示程度值前10%段落的分布情况。“十三五” 科技创新规划中程度值最高的前10%的段落共有22 个, 其中,篇章“增强原始创新能力” 所含段落数量最多, 共8 段;“构筑国家先发优势” 共7 个段落, 如表4 所示。

参照上述流程和方法, 对其余科技规划进行分析。“十五” 规划文本中程度值最高的前10%的段落共有7 个, 其中篇章“前言” “形势与现状” 和“战略部署与重点任务” 均有2 个段落。“十一五”规划中程度值最高的前10%的段落共有15 个, 其中, “重点任务” 篇章所含段落数量最多, 有8段; “形势与需求” 和“保障措施” 分别有3 个段落。“十二五” 科技规划中程度值最高的前10%的段落共有16 个, 其中, 篇章“推进重点领域核心关键技术突破” 所含段落数量最多, 有4 段; “前瞻部署基础研究和前沿技术研究” 有3 个段落。

经统计, 各科技规划文本程度值前10%的段落主要分布在形势需求与思路目标、战略部署与重点任务、保障措施等方面的章节, 如表5 所示, 这些章节也是科技规划的重要组成内容。因此, 本文从这3 个方面的重点段落切入, 综合考虑科技规划文本特有的体系结构以及段落程度值的高低, 繪制并分析这些段落的关键词云图, 得出各科技规划的主要关注点, 在此基础上, 梳理总结近20 年来国家级科技规划主要关注点的发展演变。

3.3科技规划主要关注点分析

基于程度值的国家级科技规划主要关注点的发展演变分析, 首先分析了我国科技规划指导思想的演变历程, 接着讨论了国家级五年科技规划引领国家科技发展的战略重点, 最后梳理了五年科技规划为保障科技发展阶段性目标而制定的重点保障措施。基于这些关注点的分析, 将有助于对科技规划、国家科技创新治理体制以及近20 年中国科技政策发展重心三者关联性的直观理解, 显示出基于程度词的政策意图挖掘具有一定的实践应用价值。

3.3.1形势、需求与思路目标

不同时期的国内外发展总体形势、需求是规划提出的背景, 影响着规划的整体方向和主线思路。梳理形势、需求和思路目标部分的重点内容, 可以了解我国不同时期的指导思想和目标, 深入把握我国科技创新政策的发展历程。

“十五” 科技规划提出了落实科教兴国战略,包含4 个相关的重点段落, 如图1 所示。其中段落1 明确指出了科技创新在我国经济发展、国际竞争中的重要作用, 主要词汇有经济与科技、国家、政治经济、重大突破、国际竞争等。段落2 提出了“十五” 规划制定的出发点和指导思想, 包括推进科技与经济结合、落实科教兴国战略等, 主要词汇有科技、关键时期、战略性、社会与经济、专项规划、科教兴国等。段落3 总结了我国科技发展已取得的成果和基础, 包含的主要词汇有技术、科技、信息化、重大项目等。段落7 指出了我国新时期面临的挑战, 如错综复杂的形势、科技创新不足、产业能力制约等, 关键词是科技、产业、经济、技术、创新能力、制约等。通过对重点段落的分析, 可以看出“十五” 科技规划与国家“十五” 计划在主线思路上的高度一致性, 均强调要把发展作为主题, 通过推进科技进步, 来推动经济和社会发展。

“十一五” 科技规划强调大力推进自主创新,努力建设创新型国家, 涉及4 个重点段落, 如图2所示。段落2 指出“十一五” 时期面临的形势,包括全球化、竞争日趋激烈等, 提出建立创新型国家, 增强国际竞争力, 比较突出的词汇是科技、国家、经济、世界、科学技术、国际竞争、创新型等。段落3 总结了我国“十五” 期间的科技发展和各项任务的完成情况, 涉及综合国力与竞争力、产业创新能力等, 主要词汇是科技、产业、创新能力、杂交稻、技术标准、航天、竞争力、综合国力等。段落4 从我国经济社会发展的角度提出了对科技发展质量和能力的需求, 比较明显的关键词是社会、技术、科学、经济社会、全局、农村、国防、知识产权等。段落8 体现了规划制定的指导方针, 如建立和谐社会、实施科教兴国战略、加强产学研合作等, 主要关键词是科技、战略、社会主义、产学研、科教兴国、和谐社会等。通过分析, 可知“十一五”科技规划的目标与“十一五” 规划提出的以科学发展观统领经济社会发展全局基本一致。

“十二五” 科技规划提出要把握重要战略机遇期, 提高自主创新能力。该部分包括的重点段落有3 个, 如图3 所示。段落7 指出我国科技发展处于重要战略机遇期, 比较突出的词汇是科技、趋势、机遇期、战略、大有作为、世界、经济社会等。段落9 指出我国的现实问题包括经济转型、城镇化等, 以及这些问题对科技创新的迫切需求, 包含的词汇有经济、转型、综合国力、新台阶、瓶颈、制约、城镇化、市场化、质量、体制、结构等。段落14 指出规划的思路和目标, 即科技要惠及民生,主要的关键词有人民、惠及、群众、文化素质、科学、普及、科技进步、以人为本、民生等。这些内容与“十二五” 规划强调要把科技进步和创新作为加快转变经济发展方式的重要支撑, 把保障和改善民生作为加快转变经济发展方式的根本出发点和落脚点一致。

“十三五” 科技创新规划指出要把创新摆在国家发展全局的核心位置, 深入实施创新驱动发展战略。该部分包括4 个重点段落, 如图4 所示, 其中段落6 指出“十三五” 时期面临的新形势, 如经济发展进入结构优化、动力转换的时期, 迫切需要科技创新突破发展瓶颈, 关键词包括科技、迫切需要、经济、素质、国家、市场需求、体制、动力等。段落9、13 明确了未来发展的基本原则和指导思想。段落13 强调深化科技体制机制改革以及建立技术创新的市场导向机制, 关键词有科技、机制、资源、科技体制、技术创新、原创、市场导向等。段落9 指出科技创新发展的指导思想, 包括坚持党中央的领导、社会主义道路等, 关键词包括科技、全面、中国、精神、党中央、创新型、核心、社会主义等。这与“十三五” 规划强调以供给侧结构性改革为主线, 形成引领经济发展新常态的体制机制和发展方式的需求一致, 也能够揭示出探索新型举国体制, 加强党对科技创新的集中统一领导这一重要内容。

3.3.2战略部署与重点任务

国家级科技规划不仅引领国家科技发展的目标和方向, 还明确了国家科技发展的重点任务, 通过引导科技资源向重点科技发展任务聚集, 大力提升科技创新能力。战略部署与重点任务作为科技规划的重要组成部分, 涵盖重大专项实施、产业转型升级、重点领域技术研发等诸多内容。本文以近年来备受关注的基础研究为例, 通过程度值与重要段落数量等文本量化结果, 将客观政策文本与主观政策意图之间建立起关联, 进而分析我国政府在不同时期对基础研究发展的关注程度。

图5 展示了4 份规划中涉及基础研究的重要段落及其程度值的统计情况。可以看出, 随着时间的推移, 我国对基础研究发展的重视程度越来越高。“十五” 科技规划中的重要段落没有体现出对基础研究的关注。“十一五” 科技规划涉及基础研究的重要段落有2 段, 程度值总和为59.5 分, 主要关注了面向国家重大战略需求的基础研究。“十二五” 科技规划中与基础研究相关的段落有3 个,程度值总和为136 分, 主要内容包括鼓励自由探索, 进一步提升原始创新能力。“十三五” 科技创新规划中涉及基础研究内容的重点段落最多, 有8个, 程度值总和为433.5 分, 充分反映出“十三五” 时期对基础研究的重视程度, 强调了增加创新的源头供给、强化原始创新等。我国科技政策领域专家指出, 中国基础研究在进入21 世纪以来,尤其是2006 年之后, 呈现突飞猛进的态势[22] 。这与本文基于文本量化结果梳理出的演变趋势能很好地对应。

3.3.3保障措施

国家级科技规划的有效性主要依靠规划是否能得到有效落实、所提出的目标是否能够达到预期。保障措施是通过引导资源的合理配置, 以保证规划落实的重要途径。各规划文本中遴选出的重要段落都包含保障措施的部分, 可见我国科技规划在内容编制上具有兼顾顶层设计和注重实际落实的特征,不仅重视方向、目标和重点任务部署, 也注重规划的贯彻落实。

图6展示了“十五” “十一五” “十二五” “十三五” 科技规划重点关注的具体保障措施及其程度值。可以看出, 科技规划中保障措施的整体重要性日益提升, 各个时期重点关注的具体保障措施有所不同, 呈现多元化的特征。“十五” 和“十二五”科技规划共同关注了科技投入, “十一五” 和“十三五” 科技规划均关注了技术标准战略, 其中“十二五” 科技规划还特别关注了保障基层科技工作发展的措施, 这与科技部专家强调的要把基层科技工作摆到“十二五” 科技工作的中心位置[23] 的表述能够很好地对应。

4总结与展望

本文从当前中文政策文本量化分析方法对政策文本要素的挖掘与利用现状出发, 探索程度词这一较新的政策文本要素在中文政策量化研究与政策意图研究中的价值。在现有程度词典构建研究的基础上, 进行了程度词的扩展、分级赋权等优化研究,通过实验证明优化后的分级程度词典有助于定量揭示政策文本中蕴含的政策意图, 在中文政策文本分析中具有一定的应用价值, 拓展了中文政策文本语义挖掘的研究视角。

结合分级程度词典的政策文本分析方法具备一定的优势。首先, 不受限于政策文本的数量和体量, 高效识别政策文本中的重点段落与重点章节。其次, 关注并利用中文政策文本的特征, 对其中规范、稳定且能反映决策者态度的动词、形容词等进行量化利用, 可以与当下以名词为主的文本挖掘方法有效结合, 互为补充, 从而更高效且细粒度地挖掘政策文本语义内容。最后, 能较好地服务于政策文本量化方法研究的目的, 即更好地辅助政策定性解读。通过对政策文本所蕴含政策意图的定量计算, 有助于研究者从大批量、长篇幅、多主题的政策文本中识别出相对重要的内容, 使得其在有限精力的情况下, 能够从更广的地域范圍和更长的时间范畴把握政策意图的一致性和连续性。此外, 研究者还可以基于所属领域政策特有的体系结构, 结合多种粒度(如篇章、段落等)和分析方法深入挖掘和分析复杂、综合的政策文本, 开展问题导向型的政策研究或实践。

本文还存在一些不足。尽管细致地划分程度词的程度差异有助于更好地发挥程度词典的价值, 但这种程度划分存在主观性, 高度依赖专家对书面或公文用语的使用经验。有专家指出, 区分这些词的程度表达差异受语感、经验等主观性因素影响较大, 界定清晰存在一定的难度。考虑到程度词还蕴含支持、引导、鼓励等语义, 后续还可结合公共政策研究的理论, 并邀请更多从事政策撰写、语言学研究的专家参与相应研究。此外, 结合多种粒度的政策文本分析具有较大的实际需求, 后续可以结合中文自然语言处理中的关键技术, 如句法结构、依存关系以及深层文法句法等, 加强程度词与其所在句子中词汇的关联, 进一步提升程度词在中文政策文本量化研究中的应用价值。

猜你喜欢

文本挖掘
基于贝叶斯分类器的中文垃圾短信辨识
基于评论信息的淘宝服装类评分体系优化
基于文献的中西医结合治疗脑梗死药物使用情况分析
基于改进Hadoop云平台的海量文本数据挖掘
慧眼识璞玉,妙手炼浑金
中医方剂数据库文本挖掘数据预处理的尝试