APP下载

新媒体中两性话题选择的优先序列研究

2017-05-20王宇波李向农

安徽师范大学学报 2017年2期
关键词:文本分类话题语料库

王宇波+李向农

关键词: 性别语言;话题;语料库;文本分类;优先序列

摘要: 两性话题选择的优先序列具有变异性,但相关研究往往关注日常言谈语境,没有针对网络虚拟语境下话题优先序列变化的研究。通过对国家语言资源监测中心网络媒体监测语料库中两性各约50万篇博客进行文本分类处理。在大规模统计数据的基础上考察了两性话题选择的优先序列及其组间差异。新媒体语境和日常言谈语境中的两性话题选择优先序列有明显区别。新媒体中的两性高频话题具有聚类相似性,但是话题组间序差明显,话题量的组间差异也存在显著性。女性在不同语境下均以“关系式”谈话为主,话题的优先序列稳定性较强。男性的话语方式由日常言谈的“报告式”向新媒体语境下的“关系式”转变,话题的优先序列波动幅度较大。

中图分类号: G206.2

文献标志码: A

文章编号: 10012435(2017)02022306

Key words: Gender Language;topic;corpus;text classification;priority sequence

Abstract:

The priority sequence of topic selection between genders is variable.The previous researches mainly focus on the change of priority sequence in the daily conversation context,instead of the network virtual context.The thesis classifies 500,000 pieces of Chinese blog texts written by two genders respectively,which are gathered from the corpus of Network Media Language Branch in National Language Resources Monitoring Research Center(CNLR).Based on this largescale data,it investigates the priority sequence of topics and the intergroup differences between genders.It finds out that the priority sequences of topic selection between genders in new media context and daily conversation context are distinctively different.Also,highfrequency topics between genders in the new media context have similarities,while significant differences of the sequences,as well as topic amount exist between groups.“Rapporttalk” always dominates females both in daily chats and new media contexts,consequently the priority sequence is relatively stable.However,the mode of discourse by men is transforming from “Reporttalk” to “Rapporttalk” in the new media context,thus the priority sequence is less stable.

性別语言研究是社会语言学的研究热点,同时也是心理学、社会学、人类学等多个学科领域共同关注的课题。近年来,性别语言研究的重点逐渐转向交际中的话语模式。话语模式的性别差异主要表现在话题选择、话语量、话轮控制和交际策略方面(Wardhaugh 2010)[1]。其中,话题选择的性别差异一直受到国内外学者的重视。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[17]等考察了工人阶级、中产阶级等不同社会阶层,以及美国犹太社区等不同社会族群的日常言谈话题,发现男性之间的话题焦点围绕政治、经济、体育、商业等,通常不涉及个人情感;女性之间的话题焦点倾向于感情、家庭、孩子、夫妻关系等。许力生(1997)、李经纬(1998)、赵蓉晖(2003)、崔艳英(2012)[811]等国内学者也对此进行过探讨,但以介绍和综述国外研究为主,缺少以汉语为语料的实证研究。

话题选择优先序列会因语境、地域、种族、文化等差异而产生变化,以往针对家庭和公共社交场合的调查研究,说话人在话题选择时容易受到交际对象、交际目的、交际场景等诸多因素的影响,虽然结论真实,但并不具有普遍性。而网络虚拟语境下,交际场合由现实的语言生活转变为虚拟的网络空间,交际对象由特定受话人转变为网络中的预设受话人,外界环境因素对作者话题选择的影响降低。尤其是新媒体中的博客,因其具有个性化、开放性、交互性、共享性等特征,文章更接近于单向独白式语体,不同于以往研究的双向会话式语体。文章更能体现的博主对话题喜好,能更真实地反映两性的话题选择倾向。同时,相比以往针对日常言谈语境的小样本调查,基于新媒体语料的大规模统计分析在数据处理上占有独特的优势,避免了因小样本和个案研究带来的偏差。再者,由于中外语言文化的差异,国外的研究结论并不一定符合汉语的性别语言特征,而且重视汉语语料、加强本土化研究符合当代语言性别差异研究的多元化、动态化、微观化和本土化的发展趋势。因此,本文基于大规模新媒体博客语料库,在文本分类处理的基础上对汉语博客中两性话题选择的优先序列所进行的实证研究和探索,可以开拓汉语性别研究的新前景,拓展新媒体下语言研究的新视野,展现性别语言差异在时代变动中的新发展,对于新媒体语言研究和监测具有理论和实践上的启示作用。

一、两性话题的文本分类过程

(一)实验文本的甄别与筛选

国家语言资源监测与研究中心的网络媒体监测分中心从2005年开始对网络新闻、网络论坛、网络文学,以及博客、微博、微信等新媒体进行动态监测,并建有网络媒体监测语料库。其中,博客语料来源于新浪博客(blogsinacomcn)、搜狐博客(blogsohucom)、中国博客(wwwblogcncom)、博客网(bokeecom)、和讯博客(bloghexuncom)、博客大巴(wwwblogbuscom)等境内著名博客网站。本文选取其中的博客语料,主要基于两个方面的因素:首先,文章作者元信息的提取原因。博客、微博、论坛的作者在社交平台上注册时会提供包括性别在内的作者身份信息,因此可以在语料爬取过程中对作者身份信息进行元数据标注,进而便于提取出有性别信息的作者。其次,文本分类的技术原因。微博和微信都比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,分类效果较好。因此,博客文本比微博、微信等其他新媒体语料更能有效地进行话题分类研究。

两性博客语料的筛选步骤如下:第一步,甄别身份信息真实的作者,以筛选出有效的两性博客文本。博客文本在抓取的过程中对作者身份等元数据信息进行了采集和标注,根据元数据信息筛选出标注了性别的作者及其博文。由于少数作者虽然在博客平台登记了性别等身份信息,但信息并不一定真实,如果这些不确定的文本被用于统计分析,将会影响统计结果的可靠性与可信度,因此必须抽取作者身份相对真实的博文用于统计分析。为筛选身份可信度高的文本,本文依据博客作者的“博客等级”和“博客积分”高低、“博客访问量”和“博客关注量”大小,以及是否为“加V博客认证”等标准进行甄别,筛选出博客等级和积分较高,访问量和关注量较大,同时为加V认证的作者。这类作者的博客活跃度较高,作者身份信息较为真实可信。第二步,将筛选出的作者所有博客建立语料库,编写小型程序随机抽取了博客文本共计1 008 755篇,其中男性500 889篇,女性507 866篇为了有效的进行文本分类,本文在随机抽取博客文本时,剔除了文本词汇量小于100词的文本。〖ZW)〗。第三步,将筛选出来的语料建设成两性博客语料库,用于下一步的文本分类处理。

(二)文本分类步骤与统计结果

本文针对博客文本所特有的话题类别,进行了计算机文本分类处理,具体步骤如下:第一步,对所有博客文本进行繁简转化,剔除表情符号、图片等非文字符号;第二步,采用中科院自动化所的自动分词工具对文本进行自动分词和词性标注;第三步,用正则表达式和停用词表过滤已分好词的博客;第四步,参考新浪博客、中国博客网(博尚网)、网易博客、赵蓉晖(2003)[10]的主题类别,同时在文本抽样的基础上,确定了博客文本分类的27个话题类别。第五步,从语料库中人工筛选出用于机器学习的训练语料和测试语料。在这一过程中,人工筛选和机器学习两个方法交替进行,最后一共收集了26个话题(不包括杂谈)的文本训练语料各约500篇,测试语料各约500篇,将52组话题的约26 000篇文本用于机器学习,统计得到26个话题类别的词频表;第六步,对26个话题的词频表进行组间差异比较,筛选出各话题的高频独用词,以及词频、频序组间差异较大的词。由于这类词与话题内容关系较为密切,因此利用专家的领域知识,通过人工干预加强这类词汇的权重;第七步,按照朴素贝叶斯算法判断每篇博客的后验概率,取后验概率最大的类别作为分类结果。第八步,检验文本识别的效度,并调整识别方法,优化统计结果。表1为文本分类后各话题的文本数量及其差值。

二、两性话题选择的优先序列

两性话题选择的优先序列是建立在文本分类和数据统计基础上的定量分析,是指将不同的话题类别按照其使用频率的高低进行分级或有序的排位,并对形成的优先序列做出合理的解释说明。下面将分别考察两性话题选择的优先序列,并剖析两性高序位话题的特征及其形成原因。

(一)男性话题的优先序列

在博客本文分类时,某些博客文本由于主题不明确而无法根据其后验效率将其有效归类,这些无法有效归类的文本,本文统一将其另列为“杂谈类”。“杂谈类”文章的平均文本长度最短,仅为561个字符,但其文本数量最大,约占男性文本总量的3025%,其位序居27类话题之首。其次是“家庭生活”话题,它是计算机自动识别所得到的文本数量最多的话题,约占男性博客文本总量的2528%,平均文本长度为793个字符,话语量高于“杂谈类”。位序居前列的“杂谈、家庭生活、感情婚姻、电子数码,体育运动,电视电影”等6类话题占据总文本数的8615%,而其他21类话题的文本量仅占文本总量的1385%,位序最低的“两性生理”的文本仅占文本总数的0025%。

各话题文本量的分布特征与Zipf定律中的词汇分布特征相似,呈现出典型的幂律分布特征,即只有少数的话题被经常使用,而大多数话题很少被使用。将各话题按照文本数量大小排列,得到男性博客话题的优先序列,见图1。

将男性博客话题的优先序列与日常言谈时的话题选择倾向比较后发现,两者的高位序话题存在较大差异。赵蓉晖(2003)[10]曾用双向横坐标描绘了两性的话题选择倾向,男性话题的优先序列依次是“政治、军事、性、金钱、体育、科技、自然”,本文与之对应的话题分别为“政治体制、军事战争、两性生理、经济金融、體育运动、科学技术”。从文本量上看,这6类话题所占比例非常小,仅占全部话题总量的745%,除“体育运动”比例达到573%以外,其他话题均未达到百分之一;从话题的位序上看,除“体育运动”的位序相对靠前以外,其他话题位序都较为靠后,其中政治体制第23位、军事战争第21位、两性生理第27位、经济金融第14位、科学技术第19位。可见,男性博客语境下的话题优先序列明显异于日常言谈时的话题倾向,日常言谈时的高频话题在网络博客虚拟环境下并非为优先话题。

(二)女性话题的优先序列

女性博客话题中,文本量最多的是“家庭生活”,占女性文本总数的4114%,然后依次为“杂谈、感情婚姻、娱乐追星”,所占比例分别为2283%、156%、355%,这四类位序居前的话题占女性文本总数的8312%,其他23个话题所占比例仅为1688%,位序最后的话题和男性相同,均为“两性生理”。从女性各类话题的文本量分布情况看,女性话题的文本量分布也呈幂律分布特征,但高频话题比男性更集中。将各话题按照文本数量大小排列,得到女性博客话题的优先序列,见图2。

女性博客话题优先序列中的高序话题与其日常言谈时的话题选择倾向比较相似。赵蓉晖(2003)[10]认为女性最感兴趣的话题依次为“时尚、感情、家务、家庭、儿童”等,本文与之对应的话题依次为“时尚消费、娱乐追星、情感婚姻、家庭生活”,这些话题位序都较为靠前,分别为第16、第4、第3、第1位。可见,日常言谈时的高频话题在网络博客虚拟环境同样是优先话题,主要围绕家庭生活与感情婚姻展开。

(三)高位序话题的稳定与变化

通过以上考察发现,虽然学界一致认为现实语言生活中的两性高频话题存在明显差异,“家庭、感情、婚姻、时尚”等为典型的女性话题,“政治、体育、经济、军事”等则为典型的男性话题,但是这一规律并不适用于虚拟网络环境下的新媒体语言生活。网络博客中的两性高频话题已经变得趋同,两性话题优先序列中的高位序话题都是“家庭生活”和“感情婚姻”。

通过比较现实语言生活的两性高频话题和网络新媒体语言生活的高位序话题后发现,女性的话题选择倾向具有稳定性,高位序话题没有明显变化,最热衷的话题始终以家庭婚姻与情感生活展开;男性的话题选择倾向具有较大变动性,男性在日常言谈语境下“政治”“经济”等高频话题成为博客文本中的低位序话题,这两类话题总数仅占男性博客文本总数的097%,而“家庭”“情感”等话题却成为高位序话题,这两类话题总数占男性博客文本总数的39%。男性的高位序话题会因语境的改变而产生变化。

(四)稳定的机制及变化的动因

Tannen(1991)[7]将谈话分为关系式谈话(rapporttalk)和报告式谈话(reporttalk)两大类。前者以感情交流为主,其目的是通过交谈建立关系、维系感情;后者则是以信息交流为主,其目的是交流对事物的看法和意见,提出某一问题的解决办法等。在日常言谈中,女性谈话以关系式为主,倾向于通过谈论涉及个人生活的内容,以交流情感的方式来建立社交关系;男性通常以报告式为主,信息交流量较大、目标明确、针对性强;在日常言谈和网络博客中,女性的话语方式始终以“关系式谈话”为主,因此高频话题比较稳定;男性在网络虚拟环境下“报告式”动力相对减弱,“关系式”动力增强,话语方式的转变导致高频话题产生变化。

在公共社交场合,由于男性比女性更注重掌控话语权,以说教、演讲等报告式的话语姿态展现自身能力,通过较为正式的话语风貌获得社会认同和大众赏识,这种动力驱使男性在言谈时会优先选择擅长的优势领域,如政治、军事、经济、体育等。但是在非正式场合,尤其是在网络社交媒体平台中,两性的话语交际目的都是以建立和维系社交关系为主,通过博客、微博、微信等自媒体平臺抒发情感、记录生活。因此,博客中的两性话语方式都以“关系式”为主。在网络虚拟语境下,由于作者身份信息相对隐匿,话语身份构建和凸显的动力减弱,因而男性倾向于选择轻松的生活话题。

男性“报告式”动力减弱是多种动因共同作用的结果。首先,交际场合由公共社交场合转变为自媒体环境下的非正式场合;其次,交际场景由现实语言生活转变为虚拟网络语言生活;第三,交际媒介变为网络自媒体平台;第四,交际“对象”由现实语言生活的特定受话人转变为网络语境中的预设受话人,虽然博客文本的受众具有不确定性,但是作者在撰写博文时会带着认知关联假设发布信息,以吸引读者、构建虚拟关系为目的。Yus(2011)[12]也认为作者对文章的受众和交际对象存在一种预设或假定。第五,交际目的由自我展示型向社交关系型转变;第六,交际身份由公共突显型向虚拟隐匿型转变,男性在正式和非正式场合下对性别话语身份凸显程度的改变对话题选择产生影响。以上因素促使社交媒体的话语方式以关系式为主,因此,女性的高位序话题保持不变,男性则发生改变。“家庭生活”“感情婚姻”等男性日常聊天较少谈及的话题,成为男性博客文本中的高位序话题。

三、两性话题选择的组间差异

虽然两性的高位序话题相似,但是话题优先序列的组间差异仍然存在,主要表现在话题位序的组间序差和话题量分布的组间差异两个方面。

(一)话题序差比较

由于同一话题在男性话题中的位序与其在女性话题中的位序存在一定差距,其组间序差反映了该话题在两性话题序列中的地位差别,计算其组间序差可以用于比较两性对该话题的偏好程度。序差越大,偏好差距越大,反之则小。例如“家庭生活”在男性话题序列中的位序为2,在女性话题序列中的位序为1,其组间序差为1,说明女性比男性更倾向于优先选择“家庭生活”,但差距较小;“游戏网游”在男性话题序列中位序为8,在女性话题序列中的位序为19,其组间序差为11,说明男性比女性更倾向于优先选择“游戏网游”,且差距较大。将全部话题的组间序差有序排列,构成话题“序差序列”。“序差序列”能将话题的“地位差别”集中并有序地表现出来。为较为直观反映两性对不同话题的选择偏好,将升序排列的序差序列绘制散点图,得到序差分布图,见图3。

从分布图可以看出,除了“情感婚姻”“两性生理”为零以外,其他话题均存在组间序差。男性比女性更优先选择的话题依次为:游戏网游、法律法规、体育运动、历史文化、经济金融、宗教信仰、军事国防、科学技术等;女性较男性更优选选择的话题依次为:美容护肤、时尚消费、星座占卜、美食佳肴、医疗卫生、教育培训、汽车房产、工作求职、娱乐明星等。

(二)话题量的组间差异显著性检验

为了进一步考察两性话题倾向的组间差异,下面以话题文本量为依据进行差异显著性检验。由于27个话题分类为非定距数据,因此采用非参数检验。非参数检验是不依赖总体分布的统计分析方法,指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。本文采用卡方验证中的独立性验证,借助统计软件SPSS(220)得到卡方验证的结果,见表2。

通过表2中“Pearson ChiSquare”一栏对应的Value值和AsympSig值可以查到,x2值为86702647,P值为0000。当P值小于005,说明两者之间存在显著性差异。假若P值大于005,说明两者之间没有显著性差异。由于独立性验证中的自由度df=(r1)*(K1),即行的数目减1乘以列的数目减1,df=(271)*(31)=52。查卡方分布表,对应的自由度df=52,a=005的x2的临界值为6750,检验统计值x2为86702647,远远大于临界值,同时P值为0000,小于005。因此通过检验统计值X2和P值的所在范围可以判定:在博客文本中,两性话题量的组间差异存在显著性,具有统计学意义。

四、结语

通过以上研究发现,两性在言语交际中的话题优先序列组间差异客观存在,不同语境下的两性话题差异不尽相同。日常言谈等现实语言生活中的两性高位序话题完全不同,男性话题以政治、军事、体育、经济等男性擅长的优势领域为主,女性话题则以情感、家庭、婚姻、生活等方面为主。但是在博客等虚拟网络空间中,两性的高位序话题变得趋同,话题优先序列中的前三位话题都是家庭生活、感情婚姻、杂谈。虽然高位序话题相同,但是优先序列中话题的组间序差明显,且话题量的差异具有显著性。

造成两性话题差异的原因有很多,诸如两性固有的生理和心理基础、受教育程度、身份角色以及社会交往方式等,但根本原因源于传统社会文化下逐渐形成的性别文化、性别心理和性别角色的差异。男性由于更多地参与社会经济活动,表现在话题上更多地涉及政治、经济等方面内容,而负责执掌家庭内务的女性们则更多地关注家庭生活等方面的话题,话题差异是两性社会分工不同的必然结果。但是两性的话题优先序列不是绝对的,往往会因场合、交际对象、个人文化程度、年龄等因素而变化,并随着社会、环境、文化的发展而相应发展。

参考文献:

[1]Wardhaugh,Ronald An introduction to sociolinguistics[M] 6th Edition Blackwell Publishing 2010

[2]Klein,J The family in “traditional” workingclass England[C] In M Anderson(ed) Sociology of the Family,Baltimore,Penguin 1971

[3]Kramer,CWishywashy mommy talk [J] Psychology Today,1974(8): 8285

[4]Aries,E 1976 Interaction patterns and themes of male,female,and mixed groups[J]Small Group Behaviour 7(1):718

[5]Aries,E 1982 Verbal and nonverbal behavior in singlesex and mixsex groups[J] Psychological Reports 51,12734

[6]Tannen,D You just don't understand:Women and men in conversations[M] New York: William Morrow 1991

[7]Meyerhoff,Miriam Introducing Sociolinguistics[M] New York,NY: Routledge,2006

[8]許力生话语风格上的性别差异研究[J]外国语,1997(1):4348

[9]李经伟语言性别差异及其原因解释[J]山东外语教学,1998(3):1216

[10]赵蓉晖语言与性别——口语的社会语言学研究[M]上海:上海外语教育出版社,2003

[11]崔艳英影视剧本中恭维语话题的性别差异——以美国剧本《阴差阳错》为例[J] 中北大学学报:社会科学版,2012(6):4548

[12]Yus,F 2011 Cyberpragmatics : Internetmediated Communication in Context[M]Amsterdam & Philadelphia : John Benjamins Publishing Company.

责任编辑:凤文学

猜你喜欢

文本分类话题语料库
基于语料库翻译学的广告翻译平行语料库问题研究
运用语料库辅助高中英语写作
基于组合分类算法的源代码注释质量评估方法
话题与主语研究
基于贝叶斯分类器的中文文本分类
再论汉语话题与主语
基于蚁群智能算法的研究文本分类
文本分类算法在山东女子学院档案管理的应用
语料库与译者培养探索