APP下载

基于TF-IDF与LSA模型的社会救援组织主题分析

2023-04-27李莹杨士唐静蔡继永

电脑知识与技术 2023年8期
关键词:社会力量

李莹 杨士 唐静 蔡继永

关键词:社会力量;灾后救援;自合作;文本聚类;主题模型

中图分类号:TP321 文献标识码:A

文章编号:1009-3044(2023)08-0019-03

0 引言

自然灾害事件的发生往往会对社会造成巨大的损失[1]。如何在自然灾害发生时,快速、有序、高效地组织救援是当今社会迫切需要解决的问题。

民间力量参与社会救助事业在我国古代就有记载[2],社会救援力量在灾后救援中承担着重要的角色。在2008年2月,中国南方大部分地区遭遇了五十年不遇的冰冻灾害[3],为了让救援活动顺利开展,四面八方的社会组织成员积极地参与到此次抗冻救灾活动中。除此之外,社会组织在汶川地震、芦山地震等灾后救援中也起到了重要的作用,这说明我国社会组织正在不断发展和进步。但是,社会组织在参与灾后救援过程中,也存在着职责不清、缺乏统一指挥调度、相互之间无协作等问题,因此明确救灾类社会组织的构成,对其进行统一的管理是目前亟待解决的问题。

本文根据关键词“志愿”“应急救援”“慈善”来收集社会组织信息以及其业务范围,并结合TF-IDF与LSA主题模型对各类社会组织细化标签,通过主题聚类分析明确各社会组织在救援行动中的职责和任务,以此来明确社会组织间灾后救援时的职责定位。文本主题聚类是将相似度较高的同种类型的文本聚合在一起,因为它不需要先验知识,因此,是一种无监督的机器学习方法。近年来,国内外学者在文本聚类方面做了很多的研究。评价一个文本聚类的标准包括三个方面:聚类的质量是否满足应用需求、聚类的效率是否高以及聚类的可视化是否清晰明了。本文采用TF-IDF与LSA主题聚类模型,对社会组织进行细化标签,并根据困惑度选择最佳主题数量,确定各类社会组织的救灾类型。

1 灾后救援中社会组织间自合作现状分析

自2008年以来,我国的社会力量逐渐壮大,并积极投身于灾后救援工作。社会组织在参与救援时,具备很多社会优势,如能够及时了解各种受灾群体的需求,并为其提供更专业化的救助等[4]。社会组织在参与救援的过程中也存在着一系列问题,如信息获取渠道不畅通、信息内容不对称等。针对这些问题,国内外学者也提出了一系列的解决方案,如张雷等人[5]在全方位分析灾后的需求后,采用基于优化模型的分组算法,对地震灾害应急救援队伍的分组问题进行求解,王薇等人[6]为了解决社会支援组织在突发事件中能力不足等问题,设置了5个一级指标和18个二级指标构建能力评价体系,以此加强社会救援组织能力的建设。

目前,参与灾后救援的社会组织力量逐渐壮大,他们在参与灾后救援的工作时,并不是单打独斗,而是共同协作的方式。

总体来说,不同救援类型的社会组织在灾后救援中担当着不同的角色,不仅包括资源收集者、行动倡导者、信息整合者,还包括专业服务者、组织连接者等,其供给链条如图1所示。

当自然灾害发生时,组织协调者负责对整个救援活动的流程进行调度与策划[7],并将信息收集组织收集上来的信息进行整合,整合的信息通过网络等方式传递出去。当灾区外的社会组织成员接收到救灾信息后,开始向各方筹集物资,并派送专业的救援人员前往灾区展开救援。可以看出,灾区中的各类组织在其中发挥着不同的作用,单一类型组织难以应对复杂多变的灾区情况,因此,需要组织间进行横向合作和资源共享,以此提高救援效率。

2 基于TF-IDF与LSA模型的社会组织聚类分析

2.1 TF-IDF模型

在此公式中,f表示单词j在文档i 中出现的频率,N 表示总文档数,n表示文档中出现单词j 的文档数量。该公式所计算的是某一文本的高词语频率,以及该词语在文本集合中的低文本频率,以此计算出高权重的TF-IDF,得出文本中的重要词语。

2.2 LSA 模型

LSA(Latent Semantic Analysis) 是自然语言中基于潜在语义分析的文本主题获取模型[9],LSA通过奇异值分解方法得到语句中的主题。该模型首先需要将文本转化为单词矩阵,然后设定特定数量的主题,对单词文本矩阵进行奇异值分解,以此来得到主题向量空间,其公式如式(3) 所示:

在该公式中,m 表示单词的维度,n 表示样本的个数,k 表示主题数量,其中,m、n、k 满足不等式,如式(4) :

LSA主题模型是将由文字转化成的高维数据映射為具有较低维度的矩阵,减少了问题的大小,并给出了文字和文字的上下语义关系。

2.3 TF-IDF 与LSA 模型的主题分析

在该主题分析模型中,首先使用TF-IDF模型对文本进行重要词频统计,得出TF-IDF矩阵,然后利用LSA模型分析,首先分析文本集合,根据文本信息建立Term-Document矩阵;建立后,对该集合进行奇异值SVD分解,并对分解后的矩阵进行降维,保留前n个主题词;降维后,根据特定的主题数量,对文本中的主体进行提取;最后,将社会组织救灾类服务主题提取出来。

2.4 数据采集

本文通过查询中国社会组织公共服务平台,以“志愿”“应急救援”“慈善”三个词为关键词,搜索相关类型的社会组织信息,通过查找,获取12 042个社会组织的业务范围介绍(见表1) 。

在救灾工作范畴内,各个社会组织都有自己的职能。例如,一个公益类型的社会组织,其工作范畴主要包括:从事志愿者注册管理、培训等工作,为志愿者发展创造机遇;承担政府和相关单位所委派的各种社工服务;组织社会工作者的专题研讨、推广及学术交流;推进精神文明建设、社区建设、扶贫开发工作;协助老年人、助残、关爱未成年儿童、救灾和大型社会性事件等;向有特别困难和需求的人士提供服务等。

2.5 数据预处理

数据采集结束时,为了防止因重复信息造成研究结论不正确,须进行去重处理,确保各个文本的独立性。为获得大量有价信息,节约空间和提升统计质量,对大量中文文本信息进行去除停用词的操作,本文将使用jieba分词对大量中文文本信息进行处理,部分词频的统计成果见表2所示。

2.6 主题挖掘

利用TF-IDF与LSA主题模型对社会组织业务范围进行主题挖掘。首先对预处理后的数据进行关键词提取和向量转换,主题数目以图1中社会组织供给链为基础,设置主题数范围为[1,6]。

本文实验的参数设置为a=1/K, β=0.01,高斯采样的迭代次数设置为1 500次,LSA主题数根据模型困惑度计算结果见图2所示。

从图2中可以看出,当主题数增加时,模型困惑度也逐渐减小,并逐渐趋向稳定状态。因此,本实验的主题数设置为6。

3 实验结果分析

根据LSA主题模型聚类结果,总结出七个社会组织服务类型,见表3。

从分析结果可以看出,我国的救援类社会组织呈现多元化发展,如专业救援组织,其主要从事的是有关于自然灾害的救援工作,其占比数达到15.2%;以救助区儿童为主要救援工作的社会组织占比数为8.4%;公益类型的社会组织,占比数达到21.1%。从表3中的七个主题来看,我国的社会救援组织是灾后救援的重要力量,不同救援的社会组织发挥着不同的作用。

4 结论

本文采用TF-IDF和LSA算法对国内灾害救助中的各类社会力量组织进行了聚类分析,以此加强其自我协作能力。因为社会组织在救灾工作的特殊性,其在救灾工作中所扮演的角色不尽相同,而其各自的特点也有所区别。因此,有效横向协作与垂直协作可以大大提高救援效率。并且高效的协作方式对拯救受灾群众的生命和财产具有重要意义。研究表明,在灾害发生后,随着社会组织的规模越来越大,其提供的服务类型也越来越多,这些社会组织之间的协作是提高救援效率的有效途径。因此,明确社会救援组织类型,提前做好灾前部署是极其重要的。

猜你喜欢

社会力量
中国第三方社会力量参与化解信访矛盾现状研究
基于社会力量办读书会的几点思考
社会力量参与公益慈善建设的困境与对策
引入社会力量参与教育管理
社会力量参与档案公共文化服务路径探究
借助社会力量,创新培训模式
非物质文化遗产保护中高等教育的角色及实现途径
新兴国家执政党与国家治理能力