APP下载

大数据基础上的社会认知

2013-01-28

中国电子科学研究院学报 2013年1期
关键词:个体信息研究

徐 磊

(北京理工大学 软件学院,北京 100081)

0 引 言

分析过社会科学研究方法的人都能够理解,对人的社会行为特征及其交互关系的研究,始终被双重似乎无解的关系所困扰:(1)具有自主意识的人,其行为与意识之间究竟如何关联?对此问题进行细分,会引申出一系列更加复杂的问题,例如:人的意识取决于哪些因素?人的特性与其意识特征之间是什么关系?人际之间的互动又如何影响和改变人的意识取向等等?截至目前,对上述关系的认知,基本上是一些含糊其词的假设。(2)同样,有差异的个体组成了错综复杂的社会,不同的个体在社会结构和社会运行中又发挥着不同的作用,那么如何描述这些关系呢?细分之下,这也是一个问题系列:个体关系及其作用权重如何分布?宏观的资源配置条件和各种显性及隐性的制度和规则又如何作用于不同的社会个体?社会的整体特征与个体的行为和关系之间究竟怎样关联,这种关联如何变化等等?这几乎是天书一样的谜语。

因此,从100 多年前孔德构造社会物理学开始,学者们一直试图寻求社会科学研究方法的突破,以便破解上述谜语。

然而,无论是社会物理学,还是此后统计理论、系统理论、复杂性科学的进展,除了使社会科学的概念元素更为丰富以外,落实到具体问题的研究过程中,人们所得到的依然是平均的、模糊的答案。究其原因,人们也是心知肚明,在借用自然科学方法解读社会问题时,不得不基于简单假设,界定意识对行为的作用,不得不将社会对象同质化,不得不将复杂的非线性的社会关系简化为线性稳定的关系。之所以如此,是因为人们无从获取刻画上述关系的巨量数据,即使获取数据,人们也无从处理,解读并从中挖掘可信的结构关系。

进入21 世纪,传感器网络、物联网和社交媒体的推进,极大地丰富了有关社会形态的数据来源;Hadoop 等大数据计算软件逐步成熟和应用,标志着人类获取,处理并应用数据的能力得到了实质性的提升,许多在小数据背景下无从理解的社会问题,在大数据条件下变得似乎有解。于是,有人惊呼:大数据时代来临了[1]。海量、异构和分散的大数据正在显现其价值,社会科学能够对此寄予期望吗?

1 社会科学的问题是大数据的问题

目前,人们公认大数据研究的进展,至少与三个科学领域的发展密切相关:①天文观测,目前获取信息量的速率至少在1015bit/周的数量级;②粒子物理,高能粒子加速器具有109张图片/秒的信息量;③社交媒体,仅仅短信的数量,也在108~109条/天的数量级。此外,分子生物学不但试图破解大分子的原子构成,而且期望刻画分子长链上原子分布的拓扑结构及其功能,这同样需要大数据的支持。

由此而言,大数据的问题和相应数据获取、集成、计算和存储的技术进展,已经不是今天才有的事情,正是上述研究领域的积累,展现了大数据条件下科学研究的一些新特征:(1)当数据的规模达到一定阈值之后,数据自会发声,并且涌现出在小数据条件下无从显现的性质;(2)因果关系的偏好,可能是小数据条件下人们认知世界不得不选择的一种简化思维的研究模式,大数据时代,与空间分布和时间延续结合的关联关系,可能比传统的因果关系,更精准地解读世界;(3)对数据问题而言,传统的自然科学与社会科学的划界,可能不再具有实质的意义,只要从复杂的关系或复杂的网络中能够获取数据,技术上的处理不再需要更多关于对象特性的假设前提。

仅仅凭借大数据研究的上述特征,人们就有足够的理由期待,大数据的研究范式,可以给社会认知带来根本性的变化。

引言提到社会科学研究的两大疑惑,一是自主意识的问题,在大数据的视野下,意识的问题不再无从解析,脑科学的研究表明,人类的意识活动与大脑皮层1011数量级的神经元及其1015数量级的神经元链接密切相关,神经元经济学就是由此角度剖析人类行为特征的范例。关键在于,人们能否或如何有效获取与此相关的大数据。目前,脑神经元分布及其功能特征的认知科学研究,正在通过fMRI、PE 等探测技术,试图获取神经元网络的大数据[2]。二是个体之间的复杂关系及宏观参量对个体行为的动态影响,同样呈现动态复杂网络的特征,如果能够获取社会网络节点之间的关联关系、作用权重、影响传播和网络进化的相关数据,解读这类问题也不是无从期待[3]。

关键是,传统的技术条件只能使人们获得小样本、静态的个体或社会关系的数据,不得不简化社会研究对象的特征,人们更多地依赖假设、直觉和经验解释社会问题,其准确性和可信度自然大打折扣。

因此,有人认为基于大数据的社会研究,是一种新的研究范式,它代表着全新的研究视野和理论基础,依据截然不同的操作方法,它将重组探索世界的学科分布,从而成为人类继定性研究、定量研究和计算机仿真研究之后的第四种探索世界的研究范式[4]。

2 解读社会问题的大数据类型

既然解读社会问题需要规模、差异性、产生速率和内涵价值全然不同的大数据,那么人为操作的有限样本选取的小数据获取模式,显然不足为据。剖析社会问题的大数据可能的来源在哪里呢?

如果暂时搁置关于数据保护和系统分界的各种制度限制条件,如隐私保护,商业数据保密等,目前或不太远的将来,仅仅讨论在技术上可行的大数据来源有以下几种:

(1)交互数据。基于网络的社交媒体和基于电子信息的各类交易平台,显然能够产生反映社会个体交往和交易的实时数据,目前,网民互动、网购及其金融业务的数据信息量应当不少于1012bit/天的规模,解析这些数据,不但能够反映个体之间的关系及其关系权重和发生频度,还能够反映个体间资产的分布及其流动信息,此类信息,显然能够直接集成社会经济、政治和文化等宏观属性的信息。数据发声不是虚言。

(2)内容数据。其实在网络数据中心,网民浏览网页的信息:如网页内容,访问频度、时长及其时间分布等,通过语义分析或时频结构分析,显然可以获取其IP 地址拥有者知识偏好、起居特征、阅读习惯、文化品位等信息。如果仅从技术角度讲,通话内容,以及QQ、邮件和通话的内容数据,反映个性特征当然更为直接,只是其法律障碍更大。随着历史的推进,人类隐私的界定和公开信息的边界也在不断变化。大数据时代,不管人们愿意不愿意,个体的信息状态实际上更为透明,为了更为便捷和精准的互动,个体实际上需要在虚拟或真实空间中,有效标识其性格特征、消费偏好、价值取向、文化品位等信息,个体信息未必都会划入隐私范畴,其中一部分信息恰恰是需要彰显的个性。因此,内容数据在何种条件下能够转化为识别个体的信息,以及其相应的应用方式,本身也会成为有意思的探讨话题。

(3)时空数据。手机作为移动信息网络的终端,不仅提供了随时、随地、随身交互信息和推送信息服务的界面,它还能够在时间轴线上标识手机拥有者空间位移的变化轨迹。实际上,分布各处的传感器同样可以记录时空数据。如果这类数据与前述的交互数据和内容数据连用,人们可以挖掘出个体和群体特性极为精致的信息和知识。试想,如果今后人们可以向网络数据中心,定制自己在一个时间周期中(月度、季度或年度)的信息报告,其中详尽统计和分析了个体社会交往的结构、对象特征、时间频度,以及空间轨迹等信息,它就有可能比个体自我分析更精确地反映其行为特点,谁能担保未来人类在自我认知的过程中没有这类信息服务的需求呢?关键是,在大数据时代,能够并行地为亿万个体和群体提供这种信息服务,其模式和结果现阶段实在难以想象和估量。当然,不可忽视的是,如果这类信息只为少数社会机构或个人所掌握,那一定是可怕的老大哥统治世界的模式;相反,数据公开、信息透明、相互确认和选择,个体或群体之间就能够衍生出更为有效、丰富的盈利或公益性的交往模式,人类的才智和财富就能够形成更多样化的组合结构和进化路径[5]。

(4)分层互动数据。其实,人类社会的变化及特性,是其个体、群体、社会及其环境等不同系统层面之间复杂互动的涌现性质,理解其性质需要不同层面大数据的支持。第一个层面的大数据,是个体的微观信息,这种信息与个体心理和生理禀赋及其神经元网络的信息流动和功能分布有关,还与DNA基因网络和蛋白质分子结构相关,人类今天或不太远的未来,一定可以获取和分析这类大数据。第二个层面的大数据,是前面已经分析过的三种数据,它可以呈现个体、群体及人类社会的特征及变化方式。第三个层面的大数据,来自自然和工程系统以及它们与社会系统的关联,它包括但不限于物质环境系统、生态系统、物流系统等,环境监测网络、物联网实际上就是获取、处理和应用相关大数据的平台。在今天,不同层面的大数据,尚需要不同专业的分析架构,不同层面数据的关联目前尚不清晰。但是,也许人们不仅可以处理同一层面的数据,也能够处理分层间交互的数据,从而揭示分层交互的机制和原理。至此,社会科学有可能与自然科学、工程科学真正地融为一体。这是后话。

(5)进化数据。上述各类数据按时间序列聚类、存储和分析,将得到社会进化演变的动态信息,人们对历史的呈述,将不再是直觉假设或逻辑推理,而是数据呈现的历史进程,这也是呈现历史最为直接的方式。实际上,基于上述大数据,人们还能够对社会个体、群体乃至社会整体进行复杂程度不同的建模,模型是粒度不同的自适应主体的集合,彼此间受制于博弈的或合作的规则,受制于制度环境和自然环境的约束条件,他们根据博弈策略或价值偏好,选择交互作用的方式,这种模型同样可以自演绎,它可能成为真实社会系统的虚拟的平行系统,如果人们不断用实际系统的数据校正虚拟系统的行为规则和特性假设,平行系统之间就能够形成协同进化的关系,虚拟系统的可信度和仿真性就能够不断升级,以致能够在一定周期内展现未来变化的特性或趋势,至少它可以提前展示未来变化的可能空间[6]。在大数据时代,向未来学习的可能机会是开放的。

总之,人们在技术上可以预期的大数据,将根本改变人类社会认知的研究范式。

3 大数据及其社会认知的展望

如前所述,无论从技术角度还是制度安排的角度讲,基于大数据获取可靠社会认知的努力都还处于尝试性阶段,目前人们用于解析社会的数据规模和处理速率,获取和应用大数据的制度安排和文化认同程度,数据层面和样本范围等,都还有极大的拓展空间。

目前,人类单位时间信息处理速率在Pb(1015bit/s)的数量级,按照摩尔定律2020 年会升级到Zb(1021bit/s)数量级,相对不远的未来,今天所谓的大数据也就是过渡中的小数据。人们如果不怀疑数据规模的跃迁会带来社会解析意义的质变,可以预期未来的大数据将展现更丰富的社会认知。

在实际操作中,由于制度的安排和文化认知方式的限制,今天的大数据分割在不同系统之中,应用数据附加了许多限制条件,数据公开、流动和分享,还必须跨越很多障碍。有些担忧是可以理解的,比如通过控制数据进而控制他人,进而形成新的社会专权模式或损人利己的欺诈模式。数据公开,平等分享,契约规制能否解决问题,尚需认真研究。

由于技术性或制度性的限制,目前人们获取社会认知的大数据还仅仅限于传感器、通讯、网络和交易等有限的窗口,对个体心理、生理和神经系统的探索,还在实验室阶段,数据获取受到诸多限制。进化积累的数据更是刚刚起步,在时间轴线上,还显示不出跌宕起伏的社会历史变化形态。

4 结 语

可以预期,由于处理异构大数据的技术手段的通用性,未来社会科学、自然科学的界线将会淡化,并统一表现为复杂巨系统的认知问题。对此,即使回到社会物理学最初构想的轨迹中,人们也会发现,基于网络科学和大数据应用,社会认知的基础已经全然不同,巴拉巴西关于无标度网络的幂律分布[7]和历史变化的爆发模式[8],给出了认知社会全然不同的时空架构。在这个架构中,社会行为及其社会关系变化的大数据以及据此展现的进化过程,就是复杂巨系统的的典型问题。届时,纠结了100 多年的社会科学研究方法的问题,将彻底归并到更大的复杂系统认知的问题集合中,这种学科交融会产生什么结果,人们只能拭目以待。

[1]V M 舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2012.

[2]R M 哈尼什.心智、大脑和计算机:认知科学创历史导论[M].杭州:浙江人民出版社,2010.

[3]TED G LEWIS.网络科学原理与应用[M].北京:机械工业出版社,2011.

[4] TONY HEY,STEWART TANSLEY,KRISTIN TOLLE.THE Fourth Paradigm:Data-Intensive Scientific Discovery[M]. REDMOND Washington,2009.

[5]涂子沛.大数据:正在到来的数据革命[M]. 南宁:广西师范大学出版社,2012.

[6]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,9(8):8-15.

[7]艾伯特-拉斯洛 巴拉巴西. 链接:网络新科学[M].长沙:湖南科技出版社,2007.

[8]艾伯特-拉斯洛 巴拉巴西.爆发[M].北京:中国人民大学出版社,2012.

猜你喜欢

个体信息研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
关注个体防护装备
明确“因材施教” 促进个体发展
EMA伺服控制系统研究
订阅信息
How Cats See the World
展会信息
健康信息