APP下载

R软件在生物统计学教学中的应用

2023-08-30陈凯

安徽农学通报 2023年14期
关键词:生物统计学应用教学

摘要 生物统计学是高等院校生物学、农学、林学等专业的主干课程,然而该课程的教学效果不理想,提高该课程的教学效果意义重大。R软件是一款强大的统计分析工具,使用R软件辅助生物统计学教学,有助于教师展示抽象的统计概念与方法,并激发学生的学习兴趣。R软件在生物统计学教学中可用于运算、抽样、数据可视化以及验证统计学定理等方面。本文介绍了R软件在生物统计学的课堂中的具体应用,以提高教学效果,对R软件在生物统计学课程中的普及具有积极意义。

关键词 生物统计学;R软件;教学;应用

中图分类号 G642.0 文献标识码 A

文章编号 1007-7731(2023)14-0156-05

统计学是大数据时代不可或缺的学问,数据分析是当代专业人才必备的技能之一[1]。生物统计学是研究随机现象的规律性,以概率论为理论基础,通过搜集、整理及分析数据,总结出随机现象变化规律的一门交叉学科[2]。生物统计学是一门应用性很强的基础学科,通过学习生物统计学,学生不仅可以提升试验设计、数据分析的能力,还能形成科学的思维方式。然而,高等院校的生物统计学课程由于包含抽象的概念,存在理论与实践相脱节、授课对象的知识储备不够等问题,是生物学、农学、林学等相关专业公认的授课难度大、学生兴趣低的课程之一[3-4]。因此,如何提高生物统计学课程的教学效果,如何让学生轻松掌握数据分析的基本技能,这是高等院校教学过程中面临的主要问题之一。

R软件是目前全球受欢迎的统计分析与作图工具之一,同时也是非专业人员容易掌握的高级计算机编程语言[5]。R软件免费开源,在其主页(https://www.r-project.org/)上可自由下载,且资源丰富,拥有上万个程序包供用户使用,可满足所有的统计分析[5-6]。在生物统计学教学过程中引入R软件,不仅有助于阐释统计学思想、概念和方法,提高教学效果,也可解决生物学专业长期缺乏有效且广泛使用的非商业统计软件的问题[7]。

R软件在生物统计学的教学过程中有着广阔的使用前景[8],可应用于课堂教学中基本的运算、抽样模拟、数据可视化以及验证统计学定理等诸多方面。在生物统计学的课堂中辅助使用R软件,是理论应用于实践的生动展现,可增强学生实际动手能力、提高学生的学习兴趣、培养良好的统计思维,且有助于抽象理论的具体化[9]。本文现就R软件在生物统计学教学中的具体应用案例进行阐述。

1 基本运算

在生物统计学的入门课程中,经常需要对元素(通常为数值)、向量、矩阵进行数学运算,使用计算器、Excel等工具往往效率低,导致课堂进度被延误,甚至部分复杂运算无法开展;而在高级生物统计学课程中,会涉及比较、逻辑运算,可选择的运算工具有限。R软件包含有特定的运算符号(表1),能处理元素、向量、矩阵、数组、数据框和列表6种对象形式,可快速、方便的进行上述3种运算。其中,数学运算返回数值型对象,比较和逻辑运算返回逻辑型对象[10]:

> x <- c(1, 2, -1, 0)    #创建向量x。

> y <- c(2, 3, 4, 0)    #创建向量y。

> x + y * 2    #数学运算,向量y乘以2后与向量x相加。

[1] 5 8 7 0    #输出结果。

> y > x * 2    #比较运算,向量x乘以2后与向量y比较。

[1] FALSE FALSE TRUE FALSE

> x & y    #逻辑运算中所有非0都是逻辑值TRUE。

[1] TRUE TRUE TRUE FALSE

R軟件不仅可以通过运算符号进行计算,它还包含很多内置函数,借助这些内置函数可快速获得样本统计量[11]:

> mean(x)    #计算向量x的算术平均值。

[1] 0.5

> var(x)    #计算向量x的方差。

[1] 1.666 667

> sd(x)    #计算向量x的标准差。

[1] 1.290 994

2 抽样模拟

生物统计学的主要目的是通过样本推断总体,因而样本是生物统计学最主要的研究对象[12-13]。课堂教学过程中经常要展示样本统计量(如:均值、比例、极差、方差和变异系数等),或者基于样本进行计算后再做推断[14]。课堂中的样本主要来源于教材和教师临时例举的样本,这些样本都存在一定的局限性:教材中的案例样本数量有限,且将数据导入统计软件时需要花费不少时间;临时例举的样本不一定切合主题、学生听起来也比较抽象,并且例举的样本无具体数据,不能进一步演示。如何在课堂中有丰富的样本案例以便于展示,这是生物统计学课堂教学面临的问题之一。

R软件包含很多抽样相关的内置函数,借助这些函数能从理想总体中获得对应的样本,并可通过设置函数参数来获得不同样本:

> set.seed(1)    #设定随机种子。

> sample.1<- rnorm (1 000)   #由标准正态总体中随机抽取1 000个数值作为样本1。

> sample.2<- rbinom (1 000)    #由二项式总体中随机抽取1 000个数值作为样本2。

> sample.3<- rpois (1 000)    #由泊松分布总体中随机抽取1 000个数值作为样本3。

> sample.4<- runif (1 000)    #由均匀分布总体中随机抽取1 000个数值作为样本4。

> sample.5<- runif (500)    #由均匀分布总体中随机抽取500个数值作为样本5。

> mean (sample.5)    #计算样本5的均值。

[1] 0.506 079 9

值得注意的是,上述例举的抽样方法为非放回式抽样,适用于样本量很大的情况;在高级的生物统计学课程中会涉及放回式抽样。R软件只需调整内置函数的参数即可进行放回式抽样,并通过放回式抽样解决复杂的教学问题,比如:计算样本方差95%的置信区间:

> set.seed(1)    #设定随机种子。

> sample.6 <- rnorm(5, mean = 1, sd = 2)

#由均值为1、标准差为2的正态总体中随机抽取5个数值作为样本6。

> sample.v <- numeric(1 000)    #创建能包含

1 000个元素的向量。

> for (i in 1:1 000){sample.v[i] = var(sample(sample.6, 5, replace = T))}

#对样本6进行放回式抽样,每次抽取5个数值,计算每次的样本方差,重复1 000次。

> quantile(sample.v, probs = c(0.025, 0.975))

#计算95%的置信区间。

[1] 2.5%         97.5%

0.504 509 5     18.455 867 5

3 数据可视化

数据工作者在对总体进行推断之前,需要对样本数据的分布状况、离群值等进行描述,最便捷的数据描述方式是可视化[5,15]。数据可视化是生物统计学课程的重要教学内容,有效的可视化不仅有利于展示数据规律,更有助于统计建模[5,15]。图形是数据可视化最有效的工具,教师通常在课堂上绘制直方图、条形图等向学生展示数据。借助Excel、SPSS(Statistical Package for the Social Sciences)、SAS(Statistical Analysis System)等软件都能绘制直方图、条形图,但是这些软件绘制的图形不易修改,且绘制过程相对繁琐。

R软件只需1行代码,即能绘制出高质量的直方图、条形图,若要修改图形,对代码中的参数进行调整即可。不仅如此,R软件还能绘制出更复杂的图形,能更有效实现数据的可视化,比如:R软件绘制的箱线图包含样本数据的分位数信息,能让学生更容易发现数据的变化规律。以下是R软件绘制直方图(图1)、条形图(图2)和箱线图(图3)的方法:

> hist(sample.1, breaks = 10, xlab = “数据取值”, ylab = “频数”)

#绘制直方图。

>type<-c("red", "blue", "green", "yellow", "purple")    #创建1个字符向量。

> number <- c(10, 15, 20, 25, 30)    #创建1个数值向量。

> barplot(number, names.arg = type, xlab = "颜色", ylab = "频数")

#绘制条形图。

> set.seed(1)    #设定随机种子。

> data <- rnorm(1 000)    #由标准正态总体中随机抽取1 000个数值作为样本。

> boxplot(data, breaks = 10, xlab = " ", ylab = "数据取值")

#绘制箱线图。

4 验证统计学定理

中心极限定理解释了正态分布的普遍性,是生物统计学课程中两大基本规律之一[16]。在生物统计学教材中,中心极限定理的内容为:若随机变量X1、X2、…、Xn,獨立、同分布且具有数学期望、方差,则随机变量之和(均值)近似正态分布,n越大、近似程度越高[12,17]。毫无疑问,教材中对于定理的描述是准确、清晰的。然而,由于该定理的内容“随着样本容量n增大,样本的和或均值越接近正态分布”比较抽象,且生物学专业的学生在统计学方面的知识储备不够,中心极限定理一直是生物统计学的教学难点。

若能将中心极限定理的内容,通过案例在课堂教学中进行演示或验证,问题将迎刃而解[18]。针对中心极限定理的内容,借助R软件进行4步操作可验证该定理:①构建μ=1、σ=1的指数分布总体;②由指数分布总体中每次随机抽取2个数→加和→重复1 000次→1 000个和呈偏态分布;③由上述总体中每次随机抽取10个数→加和→重复1 000次→获得1 000个和的近似正态分布;④由上述总体中每次随机抽取30个数→加和→重复1 000次→1 000个和呈正态分布(图4)。具体代码如下:

> set.seed(1)    #设定随机种子。

> sample.1 <- numeric(1 000)    #创建样本1,包含1 000个数值。

> for (i in 1∶1 000){sample.1[i]=sum(rexp(2))}

#样本1的每个数值是2个数值(随机取自指数分布总体)的加和。

> hist(sample.1)    #绘制样本1的频数分布图。

> sample.2 <- numeric(1 000)    #创建样本2,包含1 000个数值。

> for (i in 1∶1 000){sample.2[i]=sum (rexp(10))}

#样本2的每个数值是10个数值的加和。

> hist (sample.2)    #绘制样本2的频数分布图。

> sample.3 <- numeric (1 000)    #创建样本3,包含1 000个数值。

> for (i in 1∶1 000){sample.3[i]=sum (rexp(30))}

#样本3的每个数值是30个数值的加和。

> hist (sample.3)    #绘制样本3的频数分布图。

通过在课堂上运行上述R代码,可向学生清晰展示中心极限定理的内容:①取自指数分布的样本其和可能服从正态分布;②样本量(n)由2增大至30的过程中,样本和的分布不断逼近正态分布(图4)。

在生物统计学课堂教学中,利用R软件进行运算、抽样、数据可视化以及验证定理,可促进教学进程并帮助学生消化课堂知识。然而,这些只是R软件应用的冰山一角。随着教师对R软件的不断熟悉,R语言编程能力不断提升,R软件还可用于交互式数据分析和探索[8]、幻灯片制作、课程资料的搜集与整理、作业修改、课程考试和视频制作等;教师甚至可以根据自己的工作需要,编写相应的R函数与程序包以满足特定的课程需求。

生物统计学课程涉及抽象的数学公式、概率理论和分析方法,对生物学、农学、林学等专业的教师授课亦或是学生学习,都颇具挑战性[3,14]。生物统计学课程的教学过程中引入R软件,可方便教师备课、授课,也能帮助学生理解统计学知识,激发学生使用软件解决统计学问题的兴趣,提高生物统计学课程的教学效率[19]。生物统计学课程与R软件存在相辅相成的关系,软件有益于教学效果的提升,而教学中使用R有助于该软件的推广。

R软件具有强大的统计分析与作图功能,在科学研究领域已逐渐取代Excel、SPSS、SAS等成为数据分析的主流软件[20]。借助R软件的专业功能,能提高教学效率,因而在生物统计学的教学过程中使用R软件将成为趋势[7]。当然,也有观点认为,R软件需要代码驱动,使用门槛相对较高[21];但若能识记R软件的常用函数并掌握其基本语法,就能驾驭好R软件,且经常使用R软件有助于用户学习计算机编程语言,从长远看这反而成为R软件的优点。当然,对于生物统计学入门阶段的学生来说,同时学习统计学理论与R语言,内容较多会略显困難[19]。这就要求教师掌握学生的学习情况、把握好教学进度,并督促学生课外进行自主学习。

参考文献

[1] 王滨生,刘宁宁. 引导就业价值取向 提高就业指导能力——评《人力资源与大数据分析——新时代HR必备的分析技能》[J]. 山西财经大学学报,2020,42(12):134.

[2] JOHNSON R R,KUBY P J. Elementary statistics:a step by step approach[M]. 10th Edition. New York:Thomson Learning,2007.

[3] SONG S. QIAN,著.曾思育,译. 环境与生态统计:R语言的应用[M]. 北京:高等教育出版社,2011.

[4] 朱永平,和凤美,赵自仙,等. 生物统计学教学改革探索与实践[J]. 教育教学论坛,2022(43):77-80.

[5] 赵鹏,谢益辉,黄湘云. 现代统计图形[M]. 北京:人民邮电出版社,2021.

[6] 薛毅,陈立萍. 统计建模与R软件[M]. 北京:清华大学出版社,2007.

[7] 张哲,张豪. 浅谈R语言在生物统计学教学中的应用[J]. 教育教学论坛,2013(27):54-55.

[8] 段炼,张瑞杰,张明明,等. R语言在生物统计学课程教学中的应用[J]. 黑龙江科技信息,2017(8):61.

[9] 陈凯. 基于R语言的《生物统计学》课程教学改革初探[J]. 保山学院学报,2018,37(5):93-95.

[10] ROBERT I. KABACOFF,著.高涛,肖楠,陈钢,译. R语言实战[M]. 北京:人民邮电出版社,2013.

[11] Paradis M. R for Beginners[M]. New York:Thomson Learning,2002.

[12] 盖钧镒. 试验统计方法[M]. 4版. 北京:中国农业出版社,2013.

[13] 杨丽,孙少宁. 浅析“课程思政”理念下《生物统计学》教学改革[J]. 热带农业工程,2022,46(3):118-119.

[14] 陈进卿. 农科生物统计学课程教学改革探讨[J]. 教育教学论坛,2022(6):49-52.

[15] WICKHAM H. Ggplot2:elegant graphics for data analysis[M]. New York,NY:Springer New York,2009.

[16] 王维,向瀚淋,龚雯丽,等. 常见分布中心极限定理适用样本量研究[J]. 高师理科学刊,2021,41(7):20-25.

[17] 陈希孺,倪国熙. 数理统计学教程[M]. 合肥:中国科学技术大学出版社,2009.

[18] 吴婷,普映娟. R语言在概率统计课堂教学中的应用——中心极限定理随机模拟[J]. 保山学院学报,2022,41(5):69-76.

[19] 李兰芝,陈渊,易图永. 浅谈《R语言与生物统计学》的“慕课学习+翻转课堂”教学模式[J]. 教育教学论坛,2019(3):193-194.

[20] 张春龙. 统计分析工具和R语言在科学研究中的应用比较[J]. 科技创新导报,2017,14(31):113-114.

[21] 高天书. 常用金融建模软件:施用意义、使用难点与适用场域——以SPSS、MATLAB、R语言为例[J]. 金融理论与教学,2020(4):48-53.

(责编:张宏民)

猜你喜欢

生物统计学应用教学
“自我诊断表”在高中数学教学中的应用
对外汉语教学中“想”和“要”的比较
Excel在《生物统计学》二项分布概率计算中的应用与探讨
Excel在《生物统计学》配对设计t检验中的应用与探讨
水产类生物统计学课程特色建设与教学改革
注重统计思维培养与应用为主导的生物统计学课程建设
跨越式跳高的教学绝招