APP下载

大数据在社会学中的应用探索

2020-12-02刘哲

数码设计 2020年12期
关键词:数据驱动机器学习大数据

摘要:大数据的出现标志着社会科学的发展来到了一个新的分水岭。大数据不仅规模庞大、数据维度高并且还可能表征社会现象。为了有效处理大数据,新的分析方法应运而生,包括数据降维、识别新的模式和关系、结果预测等,涵盖的领域包括计算语言学、网络科学、机器学习等等,这些技术进步拓展了社会学研究的新方向。本文对大数据技术进行研究,立足其对社会科学发展的影响,分析和阐述了该技术在社会学领域应用中产生的新的研究方向,希望能对社会学未来的理论研究和发展提供帮助。

关键词:大数据;数据驱动;计算社会科学;机器学习

中图分类号:TP311.13   文献标识码:A   文章编号:1672-9129(2020)12-0044-02

1 引言

近年来,随着大数据、深度学习等人工智能技术的蓬勃发展,自然科学、社会科学等各领域的发展都迎来了信息化、智能化的标志性转折点。在社会学中,由大数据技术创新带来的突破被称为“计算社会科学”[1]。随着社会信息化、智能化的不断发展,工程技术、社会科学以及社交媒体之间产生了不同于以往的交集——它们所研究和处理的数据类型高度相似,即社会活动的数字化信息;它们所面临的问题也是类似的,即产生某种特定社会行为的因素有哪些。

面对这些共同的数据和问题,不同专业领域的科学观点、方法和技术出现了潜在的“融合”。这种融合意味着大数据可能成为一个共同的交叉领域,来自完全不同专业领域、不同技术背景的研究人员可以互相协作,进行技术、数据和信息等方面的交流和协作。此外,以大数据和人工智能作为驱动技术,很可能会对以社会学为首的社会学科领域产生重要的理论变化。

由于大数据的出现,社会科学的研究内容正在发生根本性的变化。数据是一种新类型的数据,随之而来的是各种新的分析技术和方法,这些技术和方法将大数据转化为有关社会现象的新信息,即利用现有的信息并将其转化为知识,或解释社会现象的产生原因。

2 大数据

大数据技术相比传统技术的最根本变化在于数据获取和收集的方式以各种数字化记录手段为主,这是由于计算机信息化和智能化技术的发展使得数字记录手段变得无处不在。如今越来越多的企业和机构保存着数千万甚至上亿人的用户数据,社会生活的方方面面都会保存个人行为的数据记录,例如人脸识别门禁、数字支付记录、健康码扫码记录活动轨迹、网络社交媒体操作记录等等。所有这些数据都被收集、分类和存储,构成无数个的持续、动态更新信息的数据源。大部分数据涉及社会系统运行和人们在日常生活中的活动信息,是人类进行各种生产、消费活动的数字足迹。因此,“大数据”一词体现的是目前正在收集的数据的丰富性、动态性和多样性。在大多数情况下,大数据信息不是通过传统的问卷调查人为收集而得的,而是通过计算机技术和智能化设备自动获取的。这些设备不是专门为了社会科学研究而创造的,而是个人或机构为了满足需求而自主选择的,因而可以更加真实地反映社会现象的本质[2]。换句话说,这些数据并不需要一个研究驱动的假设来产生,而应该根据数据中蕴含的潜在关联信息分析出相应的社会科学理论,或者对理论进行客观数据的补充解释。

3 新技术

为了应对大数据时代数据量的指数级增长,能够处理来自多源头、大数据量、多维度且互相关联的数据信息的方法也应运而生。在获得了大数据之后,由于数据量过大导致的对存储容量和计算能力的需求急剧增长,所面临的一个基本问题是如何在不牺牲数据信息量的前提下,将原始数据降维至易于管理且仍然可以被人类理解的维度。随后,再对这些数据进行分析和处理,以便筛选和识别出有意义的社会学行为模式。目前用于实现这些目标的技术包括计算语言学、网络科学、机器学习技术等[3]。

计算语言学是一个存在已久的领域,它起源于语言学、人工智能和认知科学通过建立数学模型来实现机器翻译的共同目标。计算语言学现在为互联网的各种web应用提供了有力的技术支撑。计算语言学不仅可以将语言量化为数字化模型,还能进行文本归类、文本识别等应用。對于社会科学家来说,计算语言学中的许多技术都与社会语言学理论相似相通,因而为语言分析提供了极为便利的智能分析工具。计算语言学与文本相似性度量技术等技术一同被越来越多的社会学家应用于大规模的文本资料分析。

网络科学是一个融合了计算机科学家、物理科学家以及研究社会网络的社会科学家的交叉学科领域。在很多研究中,计算机科学家通过大规模数据集复现了以往的社会网络研究的成果和结论。此外,计算机科学家的研究侧重于团体检测、模拟、数学建模和假设检验,这与社会科学家对观察研究、静态网络、结构特性和小规模设置的传统研究方法相反。在这个交叉学科领域中发现的许多网络理论可适用于各种新型社交媒体和网站数据。这些研究集中在网站点击、即时通信软件和从各种社交平台中提取的关系数据,包括社交平台上的“关注”关系、好友关系和内容发布的点赞情况等。这些技术可用于研究社会互动等问题,并被越来越多地用于分析大规模群体间的关联。

机器学习是一种基于数据驱动、用于预测结果的技术。例如,互联网公司保存了大量的用户行为数据,包括网页点击、文字发布、网络定位、购买记录、质量评价等等。很多公司会利用这些已有的用户数据建立模型,预测其他用户的行为,从而进行合理的引导,以便向用户推销更多商品、浏览更多页面等等。在解决自然科学领域的工程技术问题时,机器学习是一种强有力的分析预测工具。然而,由于它仅利用了既往数据和相关的数学模型(如概率模型等)、缺少社会科学的理论支撑,单纯依靠机器学习技术难以真正有效地准确预测社会科学相关问题的结果。相反,理论研究是聚焦于重点部分的研究手段,可人为地从数以百万计的变量中选取主要特征维度,并对这些特征的相互关联进行合理解释。因此,把基于数据驱动的机器学习技术与社会科学理论相结合时,则可以发挥出意想不到的功效[4]。机器学习的技术视角可以揭示社会学理论没有关注到的行为模式或社会现象,或者以一种新的方式和角度来阐述可能被社会学家忽略的理论。因此,基于大数据计算的机器学习可以和社会学理论研究相辅相成,在社会学家寻找潜在、合理的理论解释时能发挥重要作用。

4 新研究

随着大数据和新方法的出现,学者们可以从新的研究视角重新审视许多旧的社会科学问题。此外,大数据带来的数据量过剩和数据访问的便利性已经创造了一系列全新的值得研究的社会学问题。社会学调查方式的进步使得社会学理论也需要与时俱进[5]。

一个典型的社会学研究问题是公平与贫富差距。研究人员不再局限于人口普查记录和问卷调查,可直接获取人们在日常生活中的行为数据,例如消费记录、手机基站信号接入轨迹等,并且数据采样的规模之庞大是前所未有的。通过这种方式,拥有大数据的研究者可以从行为模式、人口流动等方面评估不平等情况,重新审视区域贫富差距、城乡二元化等问题。

随着新数据和新方法的出现,新的研究问题也被提上议程。信息过载是当前工业界和学术界研究人员面临的一个突出问题。随着公开数据和隐私数据的指数增长,将数据进行分析处理得到的信息量会随之增长,因而从海量数据中挖掘出有用信息变得日趋困难。对于社会学家而言,希望利用大数据来解决公共利益的问题,例如如何令某个政策的实施得到预期的结果。从这个角度来说,大数据的优势在于它可提供更完整的研究视角,从而更全面地观察整个社会系统的运行[6]。就社会系统视角而言,研究者们可以评估各种微观和宏观过程,从而更充分地与社会学理论相联系。这种联系为理解社会系统如何作为系统运行提供了前所未有的崭新视角。大数据提供了在不同的社会环境中观察相同类型的行为人的技术基础,从而方便社会学家在不同的领域中解析出社会制度和社会结构上的差异。

5 结论

大数据技术的出现带来了社会科学的全新分水岭。大数据代表了从各种各样的社會现象和行为的数字记录中获取的一类新型数据,数据规模庞大、涵盖的信息丰富、可动态获取更新并且变量多数据维度高,故难以采用传统方法进行有效处理。因此,需要采用新的方法和技术来进行数据降维、识别新的模式和关系、预测结果和社会现象的发展趋势。这些新的方法与传统的社会调查研究中常用的最小二乘法有本质上的不同。大数据和相应的新方法也引发了社会学家对传统的社会科学问题进行重新审视,并拓展出了新的研究方向。

参考文献:

[1]王国成. 计算社会科学:发展现状与前景展望[N]. 中国社会科学报,2020-08-18(004).

[2]龚为纲. 大数据推动计算社会科学发展[N]. 中国社会科学报,2019-01-30(006).

[3]孟小峰,张祎.计算社会科学促进社会科学研究转型[J].社会科学,2019(07):3-10.

作者简介:刘哲,1989.02,男,汉族,湖北武汉,讲师,博士,主要从事大数据、机器学习、计算机视觉相关领域的教学和研究。

猜你喜欢

数据驱动机器学习大数据
基于网络与数据智能化的数码印花产品设计定制模式研究
数据驱动理念在大学英语课程中的应用
大数据背景下的警务模式创新研究
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于大数据背景下的智慧城市建设研究
《计算机控制技术》课程教改探讨