APP下载

大数据中的丝绸文化结构重组与形态变迁

2021-04-29白琳琳杨剑平

关键词:特征词词频丝绸

陶 晨 白琳琳 金 姝 杨剑平

(绍兴文理学院 纺织服装学院,浙江 绍兴 312000)

“一带一路”是延续数千年丝路精神在当代中国及当今世界的传承与伸展,是中国丝绸文化与时俱进的重要发展阶段.已有许多学者探讨“一带一路”与传统文化发展的关系,主要归于下列两个方面.一是传统文化在“一带一路”倡议中的角色、功能与价值,如:追溯丝绸之路经济文化交流的历史,阐述丝绸之路的当代发扬与伸展对“一带一路”建设的价值[1];阐释蚕桑文化务实、变通和创新的特质及其对“一带一路”倡议的支撑作用[2];分析传统文化跨界传播在营造民意基础和文化共通、推动“一带一路”沿线国家经济交流与合作过程中扮演的角色[3];从社会稳定、民族团结和巩固边防的角度,阐述回族传统文化对于“一带一路”倡议在我国南方落实的积极作用[4].二是传统文化在“一带一路”背景下的适应性发展建议与对策,如:提出在新媒体环境下“一带一路”沿线“交汇性传播为主、选择吸附性传播和优势扩散性传播并存”的传统文化传播模式[5];从打造命运共同体、凝聚价值共识、创新建设路径三方面阐述“一带一路”背景下的文化开放策略[6];在“互学互鉴、互利共赢”指导下提出双向视域下的丝路文化遗产研究与保护策略[7];提出文化市场完善、文化平台建设、文化与产业融合的措施以增强“一带一路”下民族文化的影响力[8].总之,现有研究致力于讨论“一带一路”赋予传统文化的时代角色和发展要求,而对于丝绸文化的现实状态则鲜有顾及,即集中讨论“怎么做”而忽略了“做得怎么样”.本研究在互联网大数据词频分析基础上,评估和实证“一带一路”倡议推行至今丝绸文化结构与文化形态上的变迁.

1 数据采集与处理

传统上,某一文化对象相关的文本数据以通过人工方式从书籍、报纸、电视、网络等媒体上搜集,当积累的数据达到一定的规模,能够基本覆盖人们在这一对象上产生的所有言论或观点,即形成了与该文化对象相关的文本大数据.但人工方式的数据采集耗时耗力,且在文化对象快速演变的信息时代,难以保证数据的时效性,因而近年来逐渐让位于基于互联网的自动化采集方式.目前,在自动采集技术中主题网络爬虫技术[9]的使用最为广泛,其通过计算目标资源的主题相关度,优先采集相关度高的文本资源,可在短时间内实现高效的数据采集.

本研究将“丝绸”作为主题词,以新浪、网易、搜狐、腾讯四大国内门户网站为起点,利用主题网络爬虫进行多线程大规模文本采集,将网页时间戳赋予相应文本对象的时间属性,共爬取20 943个网站的570 120个有效网页,获取文本74 985兆字节,时间上涵盖2010年至2019年共10年,形成丝绸文化的大数据,如图1示意.

图1 丝绸文化大数据采集与预处理

构成丝绸文化大数据的文本需要进行预处理,以便析出以词语为载体的文化特征.预处理的过程主要包括分词[11]和停用词过滤[12]两个步骤.分词是中文文本处理的特有技术,由于不存在类似英文句子中单词之间的空格,从中文句子中提取词语要借助分词技术,该技术通过统计字与字相邻共现的概率计算成词的可信度,从而进行中文词语的分割.分词完成后,文本转变为词语集合,如图1所示.此时的集合中含有一定数量的弱特征,它们主要表现为一些动词、形容词、量词、连词、介词、语气词等意义不大的非实词,对该词语集合进行过滤,以去除其中的弱特征、保留强特征.图1中的示例文本通过分词和停用词过滤的处理,成为可供进一步统计和分析的特征词序列.

2 特征分布分析

词频是指特征词在序列中出现的相对次数,是评估文化特征影响力的指标[13].对构成特征词序列进行统计,根据公式Fa=Ca/Cm(其中Fa为特征词a的词频,Ca为特征词a在大数据中出现的次数,m为出现次数最多的特征词),容易得出一个特征词的词频.词频的总体分布情况,特征词的集中性,反映了文化的独特性.

利用特征词序列的时间标签,可将文化大数据切分成一系列子集对应不同时间段.本研究将丝绸文化大数据划分成十个子集,对应2010至2019年共十年.对这十个子集分别进行词频统计,得到最近十年间丝绸文化特征的分布情况,典型的分布形式如图2所示.

图2 词频分布

图2中,将词频值从0到1等距划分出10个等级(即词频值F≤0.1为第1级、0.1

(a)2010年

图3(a)、3(b)分别是2010年和2015年词频等级的聚类层次图. 可以看出在虚线所示的位置上存在二分类,2010年词频等级二分类类间距离为5 719, 而2015年二分类类间距离为1 967,显然前者分类情况更为显著.类间距离越大,表明低频与高频的分界点越是明显,词频分布形式越是集中;反之则表明词频分布分散.因此,这种二分类类间距离可用来量化表达文化特征分布的集中程度.在各个数据子集上计算词频等级的二分类类间距离,得到近十年间丝绸文化特征分布集中程度的变化轨迹,如图4所示.

图4 文化特征分布集中程度的变化轨迹

图4显示,2010至2013年丝绸文化特征处于集中分布阶段,2013年之后开始步入分散分布模式,2015年之后又逐渐返回集中分布模式.近十年丝绸文化特征分布经历了“集中→分散→集中”的演变过程,其进入分散模式的时间与“一带一路”倡议首次提出的时间节点(2013年9月)吻合.

在特征词集中分布模式下,低频词与高频词界限分明、数量悬殊,丝绸文化内涵基本上由少数高频词所决定,而低频词对丝绸文化影响甚微、可以忽略.这种集中分布展现出文化特征专注而明确的状态,暗示了丝绸文化的独特性和稳定结构.而在分散模式下,低频词与高频词之间渐次过渡、界限模糊,反映了丝绸文化的“失独”和“失稳”状态.

2013年,在这一特定时间节点上,丝绸文化特征分布开始从集中走入分散,表明其初步受到了来自“一带一路”倡议推行的巨大影响力.随后两年中,新元素的加入和旧有元素的嬗变,冲击了丝绸文化原有内涵与结构,致其文化特征的明确性和独特性一度衰微.在2015年“一带一路”的文化影响力达到峰值,文化特征分布集中性探底,丝绸文化内部对新元素的消化、吸收和整合开始占据主导地位,文化特征分布开始由分散回归集中.到2018年,文化特征集中程度回到2013年以前的水平,标志着丝绸文化在新的背景下重拾内部秩序与独特性,完成了一次内涵升级和结构重组.

丝绸文化特征分布近十年的演变过程,展示了其包容性和对新元素的整合能力,暗示了其文化活力的源泉;同时也展示了“一带一路”倡议的影响力,不负为新时代背景下推动社会进步和文化发展的强大动力.

3 特征形态分析

如图4所示,丝绸文化特征在近十年首尾阶段有着相似的集中分布模式,但实际上两个阶段的特征内涵存在显著差异.为从总体形态上把握这种差异,本研究将2010和2019年的特征词提取、合并,并归为三类,如表1所示.

表1 特征词形态分类

表1中,所有特征词根据其所涉的文化形态划分成三类,即物质型特征(以M表示)、社会型特征(以S表示)和精神型特征(以P表示),它们分别代表丝绸文化的三种形态构成.根据公式(1)计算三种形态的文化特征在丝绸文化中的所占比例:

(1)

(a)2010年 (b)2019年

图5显示三种形态文化特征在“一带一路”提出前后不同的占比.可见,2010年丝绸文化的物质型、社会型和精神型特征占比分别为55.9%、27.9%、16.2%,三种形态的文化特征占比依次递减,而物质型特征在丝绸文化形态上居于主导地位,这符合丝绸文化的伸展逻辑,反映了丝绸文化的传统面貌.“丝绸”的本意昭示其物质性,数千年来我国古代先民养蚕、剥茧、抽丝、纺纱、织绸,创造了丰富的物质性文化;这种物质性文化在生产实践中培育了特定的社会群体(“采桑女”“驼队”)及相应的生活方式与习惯(“耕织”“绸庄”“蚕业”),给丝绸文化赋以社会型特征;在物质生产和社会生活中,人们长期践行与丝绸相关的生产和生活方式,这一过程中积累、升华而来的理念(“义利”“大同”“天人合一”),形成了丝绸文化的精神型特征.因此,丝绸文化的社会型与精神型特征,是在物质型特征基础上衍生而来.2010年的丝绸文化形态结构符合这种伸展关系,显示了“一带一路”倡议提出之前丝绸文化的传统结构.

然而,在“一带一路”倡议实行的第六年,即丝绸文化特征集中程度回归、重建内部秩序与独特性的2019年,其文化形态结构呈现出与2012年相当不同的面貌.图5可见2019年丝绸文化的物质型、社会型和精神型特征占比分别为32.2%、44.0%、23.8%.与2010年相比,社会型和精神型特征上升、物质型特征大幅下降,文化形态总体上转变为社会型特征主导.社会型特征中排名前十的特征词依次为“一带一路”“发展”“和平”“复兴”“开放”“改革”“低碳”“合作”“援助”“峰会”,涉及经济、外交、国防、国际形势等多个领域.精神型特征中占据前十者依次为“发展观”“与时俱进”“三个代表”“分享”“双赢”“求同存异”“兼收并蓄”“大局观”“儒家文化”“优势互补”.

不难看出,社会型特征的彰显得益于“一带一路”影响力的推动,而精神型特征亦是对应了“一带一路”倡议所宣扬的理念及中国优秀传统文化的精神.物质型特征的衰落,表明丝绸文化的重心不再停留于产品、 技艺等物质层面, 社会型特征的攀升与超越则进一步揭示丝绸文化形态的重大转变.丝绸文化已从传统的物质性特征主导,转变为新时代背景下的社会型特征主导,完成了文化形态的跃迁.

4 结论

本研究通过主题网络爬虫技术实施了高效的丝绸文化大数据采集,利用文本大数据的切词和过滤得到了丝绸文化的强特征序列;对丝绸文化特征分布的分析,构建了文化特征分布集中度指标,展示了近十年间特征分布模式的演变,揭示了丝绸文化内部结构的重组与升级;对文化特征的形态梳理与分析,提出了特征词形态分类与统计方法,展示了丝绸文化主导形态的转变,反映了新时代背景下丝绸文化形态的变迁.本研究在大数据分析基础上为“一带一路”影响下丝绸文化的蜕变提供了实证依据.

猜你喜欢

特征词词频丝绸
基于类信息的TF-IDF权重分析与改进①
基于词频比的改进Jaccard系数文本相似度计算
遥望“丝绸路”
基于改进TFIDF算法的邮件分类技术
路上丝绸
产品评论文本中特征词提取及其关联模型构建与应用
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
丝绸情调
词频,一部隐秘的历史
面向文本分类的特征词选取方法研究与改进