APP下载

大数据时代背景下统计学的教学与思辨*

2018-07-26何俊寅

楚雄师范学院学报 2018年3期
关键词:现象统计学教学

梅 莹,何俊寅

(楚雄师范学院经济与管理学院,云南 楚雄 675000)

每个教授《社会经济统计学》的老师都会或多或少碰到如下一些矛盾。

第一,社会经济现象与自然现象之间的区别。统计学研究对象除了生物、医学、物理、化学等方面的自然现象,以及控温控热控湿度较容易实现的情景试验现象之外,还有不可控因素较多的社会经济现象。近代统计学的最大特征是将概率理论融入了进来,而概率论起源于赌博问题,研究的是自然界或人类社会活动里的随机现象在大量试验观察过程中的一般规律,所涉及到的例子多半是应用型的计算胜率、检测产品质量和计算工序效率等问题,统计学的发展将这种应用性体现的淋漓尽致,社会学、经济、管理类学生时常会面临质检、报损、效率等问题或环节的统计分析,也离不开对收入、支出、消费、资源配置、效率、强度等问题的数量决策,而这些问题与自然现象是有着本质区别的。例如,我们在研究可支配收入对消费的影响时,总是要先把其他因素,如消费者偏好及特征、消费品价格、相关政策法规甚至是天气变化等因素控制住(不计这些因素变化的影响),然而事实是这样得出的统计模型是完全理想的一个虚假情况,现实世界肯定要包括这些不稳定不可控的因素。

第二,社会经济统计与数理统计之间的平衡。我们在学科教学、研究方面常常喜欢划分体系、派别,自1993年厦门大学杨灿老师对统计学研究的基本问题及统计学理论框架作出阐述之后,统计学界就一直倾向于将社会经济统计学与数理统计学划分为两个性质不同的学派。[1]这样的看法不能称之为偏颇,但却在一段时间内将社会经济统计学完全限制在了描述统计的范畴,从而影响了社会经济统计学的应用和发展。进入二十一世纪,随着经济管理研究中数学模型的应用日益增加,统计学界又出现了一种过分偏向数理统计学的倾向,出版的各种统计学教材中,数理统计的内容所占比重不断增加,甚至到了满书都是数学公式、数学推导的程度。教学过程中是应该更着重统计应用还是统计原理?教学方法上是应该尽量多的进行案例教学还是重视搭建好统计理论框架?如何平衡、拿捏好这二者之间的度,会是摆在所有统计学教师面前的重要问题。

第三,数学专业出身的老师与文科特征显著的学生作搭配。目前社会经济统计学课程的教授对象大多是文科专业类学生,这些专业的学生普遍带有文科类的某些特征:理解应用能力强,但抽象能力弱,对数理推导及证明有着畏难情绪;学生自身对于这门学科价值的认识也与统计学专业学生有很大区别:他们认为统计学的作用是通过厘清现象及结果所表现出来的数量规律,提高对先验现象本质的认识能力;加深对现象与现象、现象与结果之间关联、因果的后验式思考。简言之就是一个“用”字:我可以不知道P值原理,不知道在统计推断中用P值做决策的原因,我只需要知道“P值小于显著性水平就拒绝原假设”即可。而社会经济统计学这门课程的知识体系不可避免的包含有大量数理统计,许多统计学教师也都是数学专业出身,对于严密的数学逻辑框架有着严谨的态度,会认为教学过程中的统计公式推导与证明是理解知识及学会应用的必不可少的步骤。这样的师生搭配在教与学、学与用之间当然需要长时间的、不停的、甚至是艰难的磨合,才会有好的教学效果。

除以上三方面矛盾之外,大数据时代条件下,数据观念也在发生着改变——统计研究对象的基础在改变;社会经济统计人才需求的状况(如下表所示)也显示出对统计学学科的“非传统性”要求——较强的应用性(技能实践能力的培养),与其他学科的较强关联性(自然科学、社会科学及数据科学之间相互渗透、交叉融合)。因此,统计学教学思维和方法也要随之改变。

表1 社会经济统计方面的相关人才需求情况

1.在大数据时代条件下,以数据为导向改革社会经济统计学教学

1.1注重培养学生对于数据质量的认识

社会经济现象不像自然现象一样,结果多半从观察过程或是从实验中来(条件可得到良好控制),因此社会经济统计数据往往都存在着不同程度的质量问题(噪声),数据的质量又直接影响到统计分析的效果。我们考查经济问题(如某区域消费新增长点问题)离不开围绕主题的数据搜集,而大部分数据搜集必须通过全面或非全面的调查才能获取。或者说,调查是所有统计工作的起点,如果学生不了解调查的原理,就很难理解数据中各种错误产生的原因;如果学生不能根据自己的调查目的设计合理、恰当的调查方案,那统计教学的效果就真正脱离了它的应用实质。[2]2015年工商局与淘宝网之间就产品质量抽检这一问题在微博上闹出的舌战,就恰恰体现了对数据质量的错误评估会导致得出错误的分析结论这一事实。

现有的社会经济统计学教材,统计调查内容所占比重很小,章节顺序安排不合理,有的甚至和其他章节合并为一章草草带过,这些不足都急需改变。教学内容也必须包括统计调查的分类、各种抽样调查形式的优缺点、调查误差的来源等等,其核心在于使学生理解影响原始数据质量的各种因素。[3]

1.2以真实数据替代虚拟的教学数据

传统统计学教学侧重对方法的介绍,教材的例子大多用的都是虚拟数据(不含任何现实意义),这会让学生误以为统计学仅仅只是一门利用公式进行计算的学科,而忽略了统计方法的应用本质。其实可以在教学过程中尽量运用真实数据,比如各年份的《中国统计年鉴》,各区域的“消费数据”等,安排学生选取恰当指标分析经济增长、产业结构、劳动力效率、就业、消费等等实际问题。知识就像各式各样的武器一样有各自的优缺点,比如集中趋势的计算中,均值受所有数据信息影响,众数体现普遍水平,中位数处于数据中部有位置代表性等等,我们应该根据实际情况在不同的场合选择最恰当的工具进行分析。教师也可鼓励学生用不同的方法对同一批数据进行反复处理,从中选择最有效的处理方法。

2.与其他学科构建“学科群”,强调自然科学、社会科学及数据科学之间的相互融合与交叉

统计学是一门有着延续性、积累性、复合性及与其他学科的不可分割性的数据科学。“数据科学的两个主要内涵:一是研究数据本身,另一个是为自然科学和社会科学研究提供一种新方法,称为“科学研究的数据方法”。[4]

毫无疑问统计学是众多科学体系中重要的组成部分或构件。如何在教学过程中体现这种与其他学科的关联性呢?我认为可以创造性地将产业集群的概念借鉴、扩展到此处,我们在此提出一个“学科群”的观念,强调统计学同其他自然科学、社会科学、技术科学之间的相互交叉,强调统计学方法论在各个领域应用中的主导性。

厦门大学、上海财大等学校都设有专门的统计应用研究机构,其目的是帮助各学院各领域的教学及科学研究做一些统计学方面的解决工作,数据的处理和分析交给专业的统计学者,而其他学科的知识更会渗透进统计学知识、方法体系中,促进统计理论的进一步完善和革新。这是很好的学科群建设机构,真正把统计学与其他学科沟通连接了起来,值得借鉴。

3.注重统计思维的培养

美国社会学家H.G.Wells认为统计思维总有一天会像读与写一样成为一个有效率的公民的必备能力。穆尔在《统计学的世界》中指出,“不要把统计当作专业的工具,而要当作受过教育的人应有的文化素养,统计是一种独立且基本的思考方法”。美国统计协会和数学会指出:任何统计的入门课程,都应该“强调如何做统计思考”,而且内容应该“多一些数据和观念,少一点公式和推导过程”。这就是说,统计学作为一门专业基础课程,在教学过程中,应着重“观念”和“思考”的培养。[5]

培养什么样的统计思维呢?第一是“不确定思维”。近代以来统计学受概率论影响深远,概率是在告诉你一个结果(或现象)发生的可能性大小,而不是一定会或不一定会发生(1和0)。统计学的重要特点之一也是它从来不绝对地说“是”或者“不是”。[6]找规律、找关联、分析影响、理解不确定性,这是重要的统计思维方式,也是现实世界的真实体现。第二是“系统思维”。统计学理论框架实际也可以看作是一个多种功能综合起来的方法论系统工程,不同的数据类型、特征、规律都有不同的工具和方法来处理,同一问题也有各式各样侧重不同的手段来解决,这就可能导致对同一个问题得出完全不同结论的情况出现,这时有人会质疑是否统计学不是一门“客观”的方法论呢?统计学当然不是“纯客观硬科学”,但只有加入“主观”的系统思维进行合理的方法选择,得出的统计结论和决策才能为研究提供有效的支持。第三是“辩证思维”。从更深远的教育意义上说,统计学还应该教会学生如何去理性地、客观地认识、看待周围事物。一个人的眼界和学识永远是有限的,但一个人的思维和意识,可以是无限的。有了“系统性的思维”及“理解不确定性的意识”,学生自然会尊重规律,包容个体,自然能够与一般现象及个别现象和平共处,自然不会对人、事、物轻易产生极端、偏激的看法,自然能够平衡好“和”与“不同”之间的度。良好的心态、辩证的眼光、包容的心理,是成功者最应该具备的东西。这些都会是统计学的馈赠。

4.和学科竞赛相融合,厘清社会现象、经济现象需要怎样的统计知识

人才需求状况表明,社会经济统计学在教学过程中应注重应用技能的培养。传统的统计学理论教学和学科竞赛这样的具体实践活动相融合,可以帮助学生通过实践厘清各种社会现象、经济现象究竟需要怎样的统计知识。学科竞赛能够补足如下几方面课本无法做到的教学效果。

第一,帮助学生把握不同研究主题的特点,更强调研究对象的个性。这和案例教学的效果相类似,大数据时代的统计教学目的依然是掌握事物发展规律、市场规律,发现社会进步的本质及预测未来趋势,然而在获得这些普遍的规律及趋势的过程中,应用到大数据统计分析的环节和范围,在不同的领域不同的问题上可以是不同的。比如,著名的美剧《纸牌屋》从产品的生产制造环节就用到了大数据统计知识,Netflix网站的用户每天在该网站上产生3000多万个行为,而该网站通过用户点播视频的基础数据,如评分、播放、悬停、快进、回放、时间、地点、终端、储存、下载、评论等信息,计算出有很多用户还在点播1991年BBC经典老片《纸牌屋》,这些用户中大部分人都喜欢大卫芬奇,喜欢看凯文史派西演的作品,因此该网站邀请大卫芬奇当导演,凯文史派西做主演翻拍了《纸牌屋》。毫无疑问这样的精准个性化定制产品收获了大众的欢迎,2013年2月该剧上线后,网站用户增加了300万。而云南省烟草业在利用大数据进行精准营销时,由于烟草产业的烟草商品是具有双重属性的产品,一方面必须遵循市场经济的一般规律,必须洞察消费者的爱好,另一方面作为国家专卖专营的特殊商品,必须严格按国家计划组织生产并由国家垄断经营,所以大数据统计分析环节只能用在客户分析、销售模式制定和终端建设上。

第二,帮助学生深刻认识数据规模、数据颗粒度、数据时效性(活性)、数据多维度、数据关联性的价值。没有“量”的积累,就没有“质”的突破。这句话对于“市场动向是一切决策之准绳”的产品营销问题来说是毫无疑问的金句,不同的业务特征,对规模的理解也可以不同。对于营销来说,以往的经验、直觉→STP分析→4P(7P/5P)等环节后面,可以再加上“用户画像→个性化定制”这两个环节了。这就是数据资产的价值,学生通过一两个大数据营销实例就会发现,大数据本身就是一笔非常丰富的数据资产。颗粒度指标反映数据的精细化程度,在参加市场调查分析大赛、统计建模大赛、创新创业实践活动、校企合作社会实践这些竞赛中,学生会感受到真实企业的大数据需要细化到每一个零售客户的地理位置、兴趣图谱、订货记录品牌偏好,甚至是浏览信息、足迹记录等等,淘宝阿里系的水文图就是数据颗粒度较好的展示。活性原意是指生物体内发生的生理过程或处于活动的状态或属性,数据的活性就是指数据被更新的频率。频率越高,活性越大。而数据的时效性表示数据的时间价值或生命周期。两点特性都表明数据与时间、效率关联紧密,会影响到决策的制定;也决定了数据处理工作的原则是“即时处理”。淘宝网用户在夏天购买了OL风衬衫后会被推荐购买OL半裙做搭配,但抛弃“即时推荐”这个处理原则的话,效果会非常糟糕——五六个月后的冬天再来推荐半裙显然不合适。多维度这一指标借用了空间维度的概念,来指代数据来源及种类、承载信息的丰富性。统计分析每增加一个数据维度,就会大大影响所有原始数据的处理和判断,甚至会带来颠覆性的结论。比如桃园眷村的甜咸豆浆供应和地域区化消费者这一行为只要通过销售数据中增加地域性这一维度就能实现。关联度反映不同数据指标之间的内在联系,关联性的增强可以减少企业内部“孤岛”和不同部门之间积累的数据无法融合的现象,关联性的重要程度甚至超过了因果性。

5.认识数据科学与大数据技术专业

在教授社会经济统计学的过程中,我们还应该关注一个新兴专业的发展——数据科学与大数据技术专业。2017年我国高校中共有35所新增了这一专业。事实上,大数据工作者可以施展拳脚的领域是非常多的,从互联网到金融机构、医疗行业、公共服务业、制造业,几乎所有的企业都需要大数据项目来做创新驱动。而数据分析或数据处理的岗位报酬也是非常丰厚的:在硅谷,入门级的数据科学家的收入已经是6位数了(美元)。国内,以Hadoop开发工程师为例,Hadoop入门月薪已经达到了8K以上,工作1年月薪可达到1.2W以上,具有2―3年工作经验的hadoop人才年薪可以达到30万―50万。至于要求更高的数据挖掘和机器学习职位,2年以上的职位普遍在20K以上。毫无疑问这是一个充满生机的专业,也是具有大热趋势的一个专业。统计学作为其基础必修课,其理论体系、事件操作、教学要求、与传统统计学的异同都应该成为我们关注的重点。

综上,大数据时代条件下,社会经济统计学教学应该做到如下几点:以数据为导向改革教学思维及方法;与其他学科构建“学科群”,加强自然科学、社会科学及数据科学之间的融合与交叉;注重统计思维的培养;与学科竞赛相融合,厘清社会现象、经济现象所需统计知识;深入认识并思考数据科学与大数据技术专业的发展。

猜你喜欢

现象统计学教学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
微课让高中数学教学更高效
本刊对来稿中统计学处理的有关要求
“自我诊断表”在高中数学教学中的应用
它们离“现象级”有多远
对外汉语教学中“想”和“要”的比较
你能解释下面的现象吗
猜谜语