APP下载

基于数字远读技术的社会画像构建方法研究

2022-07-05何琳艾毓茜刘建斌彭秋茹

现代情报 2022年7期
关键词:文本挖掘用户画像社会发展

何琳 艾毓茜 刘建斌 彭秋茹

摘要:[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论]借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。

关键词:社会画像;数字远读;用户画像;文本挖掘;社会发展

DOI:10.3969/j.issn.1008-0821.2022.07.002

〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2022)07-0022-09

Research on Construction Methods of Social Portraits on Digital HumanitiesHe LinAi YuxiLiu JianbinPeng Qiuru

(1.College of Information Management,Nanjing Agricultural University,Nanjing 210095,China;

2.Center for Humanity and Social Computation,Nanjing Agricultural University,Nanjing 210095,China)

Abstract:[Purpose/Significance]It is helpful to analyze historical classics from the perspective of distant reading by using visualization and other comprehensive technologies to show the society of a specific period to help researchers quantify historical research.[Method/Process]Drawing on the concept of user portraits,this article proposed a method for constructing social portraits based on the text data generated in the process of social development.The social portrait description framework was constructed based on the internal logic data of each social development facet,and used a variety of text mining techniques to extract feature labels of different dimensions to describe the social portrait,and took the pre-Qin period as an example for empirical research.[Results/Conclusion]With the help of social portraits based on historical facts,the social development situation can be presented in a panoramic way,which can provide support for researchers to quickly obtain an overview of the ancient society.

Key words:social portrait;distant reading;user portrait;text mining;social development

2010年,莫莱蒂引入远读概念将数字技术应用于人文学科,形成跨学科的数字人文研究[1]。在没有理论假设的前提下,文本内容挖掘及可视化分析利用数据挖掘、文本聚类、分类等方法,可以从海量数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象和发展规律,是对数字人文的可视化展示,为数字文本提供全局图景,可以很好地应用于史实的研究[2]。但目前的研究多集中于对大规模历史资料进行单一领域的定量分析,如历史地理信息可视化[3]、领域知识组织[4]、社会网络分析[5]和主题挖掘[6]等。而日益蓬勃发展的用户画像技术,以大量具有时效性的真实用户数据为数据基础,抽取其中的属性、行为等特征形成用戶模型,具有全面性、时效性、真实性、动态性以及代表性等特征[7]。画像技术有助于在数字远读处理中,进一步细分分析的颗粒度。

用户画像技术及数字远读技术的蓬勃发展,为文本进行多维度社会画像分析提供了坚实的技术基础,本文尝试面向典籍,基于文本挖掘视角试图为研究者提供不同历史时期社会的“放大镜”。借鉴用户画像概念,本文采用“社会画像”一词,借以描述从文本角度构建的不同历史时期多维度的社会画像描述框架,然后结合历史中的相关人物、事件、物体等数据,建立古代社会画像标签体系,利用定性与定量相结合的方法,从不同角度、不同层面对古代社会进行分析展示,试图形成当时的社会画像。以先秦时期为例进行实证研究,结果表明,本文提出的社会画像构建技术,能够有效形成面向文本的社会概貌描述,对于提升大规模文本的快速有效分析具有一定的实践意义和价值。5E9B229B-E087-48AE-95C9-8A895CDF36E6

1相关研究

1.1用户画像

用户畫像研究最初由交互设计之父Cooper A[8]提出,他认为用户画像是“基于用户真实数据的虚拟代表”。用户画像根据用户信息来提取典型的用户特征,如用户的基本属性特征、行为特征、社交特征等[9]。在基于VSM的用户画像研究中,研究者用加权的VSM模型来表示用户画像,VSM模型主要用于关键词的获取和赋权,通过获取用户行为数据、内容数据、互动数据和情景数据等使用数据[10],从中抽取关键词构成用户画像的标签数据,常使用布尔值、词频或词频—逆文档频率用以赋权值。其核心思想是将文本看作一个词袋模型,用向量集合来表示文档,每个向量由特征词与权值组成,权值反映特征词对表示文本的重要程度。用户被表示为从用户使用数据中抽取的关键词及相应权重组成的向量,通过计算欧几里得距离、曼哈顿距离、闵科夫斯基距离、余弦距离来测量用户间的相似度[11-13]。

用户画像的标签数据主要有两种来源,一种是通过人工添加标签,因其需要大量的人力物力,较少被使用;另一种是对大量文本语料进行文本挖掘抽取特征词进行标签表示。文本挖掘技术多用于用户画像的标签数据获取,如图书馆基于知识挖掘的智慧推荐服务[14]。大多数用户画像的标签数据通过对用户使用数据进行关键词抽取,挖掘相关信息的属性特征,如从数字图书馆使用数据中获取学术用户的研究兴趣[15],通过对用户的访问频率、检索习惯、检索内容等和信息行为相关的数据进行分析,实现与用户兴趣相关的文献推荐。

1.2数字远读

“远读”的概念最早由莫莱蒂于2000年提出,利用定量分析的方法聚焦于众多文本单位之间的关联,从中发现规律,以获得宏观视野[16]。2005年,他又提出利用表图、地图和树图3种抽象模型,收集和解释数据,进行实证化探索研究[17]。实质上,莫莱蒂提出的远读是通过分析数据,利用实证性模型验证人文学者的相关研究,从宏观角度研究人文学的发展。大规模文本集合上的远读,主要分为宏观统计描述和内在结构特征揭示两种,其结果都是文本的宏观抽象表达,需要进一步解读[1]。通过宏观的分析,利用计算机技术量化描述文本特征,帮助学者深入解读文本潜在规律,对于历史学者而言,可以获得全新的视角来观察超长历史时间段的文化现象。

可视化作为远读的重要呈现手段,在实际研究中多使用标签云、网络图、结构图、热力图、地图、时间线图6种可视化方法。其中,标签云用以展示高频词汇,网络图可以反映文本内或文本间信息的相互关系,结构图可以展现语料库或单个文档的层级结构,时间线图则可以反映历史数据随时间的演化。因此,可以认为远读是数字文本的可视化形式,用以描述文档集合的全局特征,帮助学者获得整体认知,方便研究人员更快发现文档内部的潜在关联,快速选择研究角度深入分析。

综上,本文在数字远读研究的基础上,结合用户画像研究,提出“社会画像”这一概念。社会画像即社会发展概貌,由特定时期社会发展描述的基本维度汇聚而成。通过抽取每个维度的描述概念构成社会特征标签,使用社会特征标签构建社会画像并进行可视化展示。基于社会特征标签,利用定性与定量相结合的方法,从不同角度、不同层面对社会发展维度进行分析,可快速、清楚地了解该时期社会发展的主要特征。社会画像具有以下特征:

1)结构化:建立社会描述文本分析框架,缩小文本分析的颗粒度。

2)自动化:利用文本分析技术,抽取社会画像特征标签,自动构建社会画像。

3)可视化:在文本计算的基础上,帮助研究者形成快速的多维度分析结果。

2基于数字远读技术的社会画像构建流程

基于数字远读技术的社会画像可用于验证或辅助历史学科的相关研究,为研究者快速获得古代社会概貌及各方面发展特征提供支持,同时帮助构建更符合现代人阅读习惯的古汉语数字产品。社会画像的构建主要包括两个部分:社会画像描述框架和社会画像标签体系。其中,社会画像描述框架是社会画像构建的基础,而社会画像标签体系是社会画像呈现的具体数据来源,可以更细致地反映特定时期社会各分面发展状况,并较为全面地呈现该时期主要发展特征。利用标签体系抽取社会特征标签并进行可视化处理,综合展示社会画像的效果。具体实证设计流程如图1所示。

2.1社会画像分面描述框架的构建

在社会评价指标方面,国家发改委和国家统计局联合制(修)订的《社会发展水平综合评价方案》提出四大维度,涉及人口发展、生活水平、公共服务以及社会和谐;联合国使用人文发展指数,由健康指数、文化指数、生活水平指数复合组成。相关研究方面,王文博等[18]提出社会发展水平评价的6个板块,分别为人口发展、人民生活质量、经济发展、社会公平与协调、安全与政治进步和生态环境;代金辉等[19]构建了社会发展水平统计模型,包括经济、人民生活、教育、科技、精神文化、医疗卫生6个要素层;张艳丰等[20]在应用层面提出智慧城市数据画像分析框架,包括智慧治理、智慧民生、智慧经济、智慧环境、创新驱动5个维度。

综上,社会画像分面描述框架需要涵盖与社会发展相关的政务、生活、经济、教育、环境以及创新等领域。本研究试图通过文本统计方法借以描述特定历史时期内社会发展的总体状况。前期对历史典籍进行了文本聚类[21-22],因此,本文综合考量社会相关评价指标及前期研究文献,拟从政治、经济、文化、社会、军事5个层面构建社会画像描述框架SD(Social Development):

SD={α1PF,α2EE,α3CF,α4SC,α5MF}(1)

其中,PF(Political Factors)表示政治发展状况,体现政府行政效能和服务,具体包括国家外交、律法及治理模式等多个方面。EE(Economical Efficiency)表示经济发展状况,具体包括农业、工业、商业、手工业、养殖业等。CF(Cultural Factor)表示文化发展状况,具体包括教育、建筑、天文、历算、医学、文学等方面。SC(Social Customs)特指社会习俗方面发展状况,具体包括婚丧嫁娶、祭祀、风俗习惯、生育等方面。MF(Military Force)表示军事发展状况,具体包括军队、军备、战争等方面。αi为每个自变量与因变量之间的关联系数,表示每个因素对社会整体情况的影响大小,即对应的权重。5E9B229B-E087-48AE-95C9-8A895CDF36E6

2.2社会画像候选标签的获取

社会画像描述框架是構建画像的基础,在此基础上需要从相关文本中获取语义相关的词汇用于描述框架中的每个分面,借以形成以词汇为基础的社会画像。候选标签的获取工作便是从古汉语文本数据中,抽取出社会画像描述框架SD中的具体事实信息称为概念实体,如人名、地名、时间、物品及事件等。

通常情况下,某一时期社会发展中越有影响力的事件,在这一时期的社会文本中记叙的篇幅越长、内容越多。因此,本文利用社会画像标签体系构建用户词典,在只考虑词频的情况下对语料库进行抽词,通过计算候选标签在数据集中的总词频与该词在数据集中覆盖程度之间的乘积,得到候选标签及其初始权值。具体公式如式(2):

SEAi=tfi×log N/dfi(2)

其中,tfi指第i个词在社会文本语料库中的总词频,dfi表示含有第i个词的文本数量,社会文本语料库中的总文本数量用N进行表示,SEAi表示第i个词可以反映语料库主题的能力大小。在总文本数量N一定的情况下,如果一个词在语料库中的词频越高,且包含该词的文本越多,那么这个词的SEAi值越高,即这个词越能反映该时期社会的发展特征。如“师”“使”等在语料库多篇文本中出现,同时在某一篇文本中的词频也比较高,即可认为“师”“使”等在语料库中具有较高的文本主题表现能力。最终筛选SEAi值在前50%,同时至少在两篇文本中出现的字、词作为古代社会候选标签进行特征加权。

2.3社会画像特征标签加权计算

为进一步区分候选标签的重要程度、加强特征标签与社会发展分面之间的映射关系,更好地区分抽取出的特征候选词的重要程度。本文利用改进的社会发展向量模型对已抽取社会特征候选词的权重进行修正,修正后的特征候选词权重为该词的初始权重SEAi值与该词所属类别的成分得分系数的乘积[23]。

本研究针对春秋时期历史典籍语料数据,通过分别统计抽取的候选标签所表征的事件种类和个数,以春秋三传中时间划分为文本组织标准,形成了255个观测数据样本。利用主成分分析法进行降维因子分析,并利用KMO和Bartlett球形度检验定量的检验变量之间是否具有相关性。

通过表1和表2可以发现,各影响因素之间的相关系数均大于0.3,存在较好的线性相关性。根据相关性检验结果,KMO值大于0.8,且Bartlett球形度检验P值小于0.001,此时主成分分析的结果具有较好的实用性,可以进行因子分析。

如表3所示,根据最终计算得到的成分得分系数矩阵,得到最终改进的社会发展评价模型的表达式:

SD={0.229×PF,0.193×EE,0.227×CF,0.228×SC,0.209×MF}(3)

2.4社会画像可视化

抽取权重超过阈值的特征标签,得到社会特征向量F(v),定义社会画像H为特征向量F(v)中的所有的特征及其权重:

H={(w1,t1),(w2,t2),……,(wn,tn)},ti∈F(v)(4)

其中,ti表示第i个特征标签;wi表示第i个特征标签的权重,n表示共有n个特征标签,权重越大的特征在社会画像中的标签越大。本文抽取加权后权重前50的特征标签进行社会画像可视化处理,具体实现过程如下所示:

1)选择各社会分面中权重最高的特征标签作为核心节点。

2)计算特征标签间的映射距离。若两个词在标签体系中存在关系,则这两个词之间存在一条边,否则没有边,边的长度S即为特征标签间的映射距离:

S(i,j)=β×L(i,j)(5)

其中,L(i,j)表示特征标签i与特征标签j在社会画像标签体系中的最短路径长度,β表示两个特征标签之间的关联系数。

3)确定最短映射距离阈值,依次将各特征标签划分至最近的核心节点的类别中。

4)画像可视化。根据预先选择的核心节点个数,以核心节点所表示的特征标签为中心生成画像,使最终抽取的社会特征标签分布于不同核心节点的周围。

3社会画像构建实证分析

为验证本文提出的社会画像构建方法的有效性,本文选取先秦时期进行社会画像构建的实证分析。先秦时期作为中国历史上重要阶段,学者们研究较为深入,相关研究成果能够支撑本文实证效果的验证。《左传》作为先秦时期重要典籍,保留了大量先秦春秋时期政治、经济、文化、军事等各方面的信息。因此,本文以已进行人工分词和词性标注的《左传》语料[24]为代表,作为春秋时期社会画像的重要文本来源。

3.1以《左传》文本为例的社会画像构建

首先,本文利用《春秋左传词典》《汉语大词典》构建春秋时期社会画像描述框架;其次,本文抽取《左传》中与社会发展相关的客观描述性文本,构建春秋时期社会语料库,利用社会画像标签体系构建用户词典进行社会标签抽取。

选择计算SEAi结果排名前50%且出现在两篇以上文档中的词作为春秋社会特征,共筛选得到311个候选标签,因古汉语多使用单字且语义多样,因此,同现代汉语相比,抽取难度较大。使用改进的社会发展向量模型对已抽取候选标签进行加权,并做归一化处理,筛选后得到的春秋社会特征标签及其对应权重如表4所示。

由表4可知,大多数特征标签权重较低,仅少数特征标签的权重大于0.6。因此,可认为权重高的特征标签是《左传》描述的春秋社会的主要特征,关注高权重特征标签可以帮助发现春秋社会的显著特点。计算特征标签在春秋社会画像标签体系中的映射距离及关联系数,根据特征标签关联系数及其权重绘制春秋时期的社会画像,如图2所示。5E9B229B-E087-48AE-95C9-8A895CDF36E6

由图2可知,总体上春秋时期社会特征标签主要被分为四大类,具体为“政治”“社会”“文化”“军事”,其中与“政治”“军事”相关的特征标签最多,“文化”类特征标签次之,“社会”类特征标签最少。在《左传》中记叙与经济发展相关的事件描述非常少,因此,特征值排名前50的词中没有经济相关的特征标签。

3.2以《左传》文本为例的社会画像分析

3.2.1社会画像维度分析

根据已构建的社会画像描述框架,对构建的社会画像进行不同维度的描述。其中,基本信息维度通过对文本原始数据进行定量分析来描述,物质文

化维度和非物质文化维度通过对春秋时期社会画像的标签数据进行定量分析来描述。

1)基本信息维度。用于描述某一时期社会的基本信息的特征标签,如社会中的诸侯国、氏族、部落、主要人物及其相关的地理位置等信息。图3春秋时期社会基本信息维度

从基本信息维度进行分析,如图3所示。《左传》所记历史共254年(公元前722—公元前468年),涉及东周王朝君王共17位,包含8个主要诸侯国:齐、宋、晋、秦、楚、吴、越、郑,记载约113个氏族、47个部落,以戎、狄、皋落氏为主要代表,整个春秋时期的主要人物包括秦穆公、晋文公、齐桓公、宋襄公、楚庄公等。

2)物质文化维度。描述社会物质类的特征标签,包括实体类信息,如具体的器物、建筑、景观、宫殿等,以及对实体起描述作用的描述性信息。

由图4可知,《左传》所记叙的春秋社会物质文化维度具体包括器具、建筑类型、宫殿、宗庙和生产材料等方面。其中,器具根据用途分为刑具、农用器具、工业器具、祭祀用具、礼器、兵器和日常用具;建筑类型专指古建筑类型,包括宗庙、宫殿、门、亭台等;在经济生产材料方面,工业材料主要为铁、铜等,手工业材料主要为丝、布、麻、毛等。整体来看,春秋时期的物质文化多以祭祀需要和军事防御为主要目的,同时由于《左传》中经济相关记叙较少,抽取出的经济生产材料相对较少。图4春秋时期社会物质文化维度

3)非物质文化维度。用于描述社会非物质类的特征标签,包括具体的民俗、文化相关人物等实体类信息,以及对应的描述性信息。图5春秋时期社会非物质文化维度

由图5可知,《左传》所记叙的春秋社会非物质文化维度具体包括律法、文化、艺术以及思想等方面。律法主要为徭役、赋税、基本刑法及对应刑罚、诉讼法和具体的法典;文化包括天文、历算、医学和文学书籍等,其中天文和历算多用作占卜、祭祀等活动的信息;艺术以乐曲、舞蹈为主,多用于祭祀与宴席活动中;民俗活动以婚、丧、祭祀等为主。

3.2.2社会标签相关性

图2对《左传》所记叙的春秋时期社会的特点进行了整体画像描述。利用社会画像标签体系,进一步绘制春秋时期社会4个发展分面的社会画像,如图6所示。

由图6可知,春秋时期在政治分面中主要涉及政权更迭、外交、律法3个方面,其中,与外交相关的标签最多,多表征诸侯国间的外交事件,如小国、附属国朝见大国、派使节出使他国、寻求同盟等。画像反映出春秋时期外交类政治事件频繁。

在春秋时期军事分面的社会画像中,权重较高的特征标签有“师”“将”“奔”“帅”等,分析发现军事分面的特征标签多为军队、军职,如“将”“卒”,以及战争相关的描述动词包括“帅”“奔”“伐”等,而对具体作战策略描述很少。

社会风俗和文化分面的特征标签多为由外交类、图6春秋时期社会4个发展分面社会画像

战争类事件引起的相关事件。具体观察图6中的社会风俗分面,发现与当时动荡不安的社会背景相符,婚丧嫁娶、生老病死等相关的社会标签权重较高,如“取”(同“娶”)“聘”“杀”“死”“生”等。而在文化分面中,“礼”“享”“食”等标签多为外交宴请相关礼乐文化的描述,同时,春秋时期注重占卜、天象等,如卜卦、周易等相关事件的特征标签“师”的权重较高。

3.3结果分析

现有的数字远读分析主要集中于高頻词分析、主题聚类及情感分析等。本文提出的社会画像分析主要针对历史文本,建立社会发展描述分析框架,将词频分析在一定程度上提升为语义类别的分析,通过抽取相关语义类别的概念进行可视化描述。从本质上说是基于统计手段为人文学者文本深度分析提供了一种数字化处理的手段。从定性评价的角度,春秋社会画像将这段历史时期从军事、政治、社会及文化4个层面,通过对重要的人物、地点、事件、物件进行分析与统计,较难用量化方法准确衡量每个维度的描述准确性。

《春秋大事表》是清代研究《春秋》经传的一部重要著作,作者顾栋高对春秋及其三传做了分类整理和实证研究[25]。本文将研究结果与《春秋大事表》进行对比,本文的量化统计结果较为吻合。由于本文语料来源的限制,经济类别未涵盖在统计结果中。部分词类活用的词汇未能准确反映类别特征。总体而言,验证了本文提出的社会画像方法能够在一定程度上实现对文本的结构化和语义化分析。

4结论

对典籍数据进行社会画像的主要目的是将古代社会发展过程中的描述文本通过可视化技术进行分析展示。本文在相关理论研究的支持下,借鉴用户画像概念,提出社会画像及社会画像描述框架,利用社会画像标签体系抽取特征标签来表示社会特征,并构建该时期的社会画像。为验证本文提出方法的有效性,针对先秦典籍文本,构建了春秋时期社会画像,主要包括政治、军事、文化及社会4个发展分面,主要特点为外交类政治事件频繁、战争频发、注重礼乐文化。画像结果与相关历史研究结论相符,表明本文提出的社会画像构建方法可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义。

本文的春秋社会画像构建研究还存在许多不足。首先,需要完善社会画像描述框架,需要更多的数据来丰富框架内容;其次,在基于社会画像标签体系的特征标签抽取算法中,需要进一步考虑词与词之间丰富的关系,拓展现有的词间关系;最后,由于分析的社会语料较为单一,没有实现对不同时期的社会画像进行比较和分析,这对深入探索古代社会尤其是先秦时期社会的发展变迁也很重要。以上不足需要在后续研究工作中继续改进和优化。5E9B229B-E087-48AE-95C9-8A895CDF36E6

参考文献

[1]王军.从人文计算到可视化——数字人文的发展脉络梳理[J].文艺理论与批评,2020,(2):18-23.

[2]欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80.

[3]潘威.“数字人文”背景下历史地理信息化的应对——走进历史地理信息化2.0时代[J].云南大学学报:社会科学版,2018,17(6):80-87.

[4]邓君,钟楚依,王阮,等.清代职官知识组织与关联分析——以《长春县志·长春职官考释表》为例[J].图书情报工作,2020,64(17):18-26.

[5]宋雪雁,崔浩男,梁颖,等.数字人文视角下名人日记资源知识发现研究——以王世杰日记为例[J/OL].情报理论与实践:1-10[2021-01-20].http://kns.cnki.net/kcms/detail/11.1762.G3.20210116.1400.004.html.

[6]何琳,乔粤,刘雪琪.春秋时期社会发展的主题挖掘与演变分析——以《左传》为例[J].图书情报工作,2020,64(7):30-38.

[7]汪倩,徐勇,张心蕊,等.用户画像研究进展综述[J].现代计算机,2020,(24):60-63

[8]Cooper A.The Inmates are Running the Asylum:Why High-Tech Products Drive Us Crazy and How to Restore the Sanity[M].Sams Publishing,2004.

[9]徐璐瑶,姜增祺,黄婷婷,等.基于大数据的用户画像系统概述[J].电子世界,2018,(2):64-65.

[10]孙守强.基于用户画像的智慧图书馆个性化服务研究[J].图书馆工作与研究,2019,(7):60-65.

[11]Chen J,Nairn R,Nelson L,et al.Short and Tweet:Experiments on Recommending Content from Information Streams[C]//International Conference on Human Factors in Computing Systems,Atlanta,Georgia,USA,2010:1185-1194.

[12]Lee W J,Oh K J,Lim C G,et al.User Profile Extraction from Twitter for Personalized News Recommendation[C]//International Conference on Advanced Communication Technology,Pyeongchang,Korea(South),2014:779-783.

[13]毕达天,王福,许鹏程.基于VSM的移动图书馆用户画像及场景推荐[J].数据分析与知识发现,2018,2(9):100-108.

[14]Kurashima T,Iwata T,Hoshide T,et al.Geo Topic Model:Joint Modeling of Users Activity Area and Interests for Location Recommendation[C]//The 6th ACM International Conference on Web Search & Data Mining,Rome,Italy,2013:375-384.

[15]王穎纯,董雪敏,刘燕权.基于知识挖掘的图书馆智慧推荐服务模式[J].图书馆学研究,2018,(9):37-43.

[16]都岚岚.论莫莱蒂的远读及其影响[J].中国比较文学,2020,(3):179-193.

[17]赵薇.从概念模型到计算批评:数字时代的“世界文学”研究[J].中国比较文学,2019,(4):48-66.

[18]王文博,窦彩兰,张欣.中国社会发展水平综合评价研究[J].统计与信息论坛,2006,(1):26-30,41.

[19]代金辉,马树才,刘宏岩.社会发展水平统计指标体系的构建与评价[J].统计与决策,2018,34(1):30-33.

[20]张艳丰,邹凯,彭丽徽,等.数字空间视角下智慧城市全景数据画像实证研究[J].情报学报,2020,39(12):1330-1339.

[21]何琳,乔粤,刘雪琪.春秋时期社会发展的主题挖掘与演变分析——以《左传》为例[J].图书情报工作,2020,64(7):30-38

[22]何琳,乔粤,孟凯.基于典籍的春秋社会时间序列演变分析方法初探[J].情报理论与实践,2021,44(2):33-40

[23]艾毓茜.古代社会画像构建及其应用研究[D].南京:南京农业大学,2021.

[24]陈小荷,李斌,冯敏萱,等.先秦《左传》语料库[EB/OL].https://catalog.ldc.upenn.edu/LDC2017T14,2019-05-05.

[25]顾栋高.春秋大事表[M].北京:中华书局,1993.

(责任编辑:陈媛)5E9B229B-E087-48AE-95C9-8A895CDF36E6

猜你喜欢

文本挖掘用户画像社会发展
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
移动用户画像构建研究
论马克思主义生态自然观对当代中国社会发展的意义
论马克思主义生态自然观对当代中国社会发展的意义
浅析统计数据质量
浅议公文与社会的发展
基于微博的大数据用户画像与精准营销
浅析当代中国社会发展的代价问题
慧眼识璞玉,妙手炼浑金