APP下载

R语言在医学院校生物信息学实验教学中的应用与探索*

2020-06-03杨俊丽王建文

医学信息学杂志 2020年1期
关键词:信息学实验教学生物

阎 洁 杨俊丽 王建文 杨 帆

(山西医科大学计算机教学部 太原 030001)

1 引言

生物信息学是综合计算机科学、数学、生物学等多门学科理论及方法,通过对研究对象相关数据的采集、处理、计算模拟和分析认识其本质,揭示其内在机理的学科[1-2]。目前生物信息学主要应用于生物学研究中蛋白质组、代谢组、基因组、转录组等各种组学数据的分析和处理。随着各学科数据的积累,运用数据揭示学科中某一类共性问题的本质具有重要意义。医学作为以人体复杂系统为研究对象的科学,在解决具体病症时常需要综合考虑和分析引发某一病症的多维数据[3]。在具体实践中生物信息学综合运用计算机科学、数学对已有的诊断和治疗数据进行深入分析,对相关病症的准确诊断及治疗方案的合理制定和优化具有重要意义[4-5]。生物信息学技术其具有的通过对数据采集、处理、分析以确定研究对象本质的特点,在医学领域中的应用得到逐步推广,各大医学院校相继开设生物信息学课程作为医学专业本科生的必修课或选修课,以培养学生运用现代新技术,提高其在医学实践中准确诊断病症和合理制定治疗方案的能力[6-7]。

随着生物信息学所处理数据的数据量和复杂性增加,需要一种功能全面的专业语言和软件工具,R语言较传统统计软件具有更好的可编程性、体量小、功能强大及易于扩展的特性,在现代生物信息学大数据统计分析中得到广泛应用[8-9]。目前各医学院校为适应大数据时代医学生基于已有诊疗数据进行诊断分析等需求,所开设的生物信息学课程大多以R语言作为相关实验教学工具。因此如何有效地结合R语言设计生物信息学课程实验内容并有效开展,对提高生物信息学课程实验教学效果具有重要意义。本文在借助文献分析生物信息学及R语言特点的基础上,结合医学院校学生在实际工作和研究中对生物信息学的应用需求特点,探讨基于R语言的生物信息学课程实验设计并结合教学实践评价实验设计效果。

2 生物信息学特点[3-6]

2.1 生物医学数据类型复杂,数据量庞大

生物医学数据特点由生命本质所决定,生命体内部运行机理、生理生化反应以及病理变化等是其复杂性的内因。得益于高通量生物技术如二代测序技术的发展,生物医学数据呈现出爆炸性增长趋势。

2.2 学科交叉性强,覆盖面广,综合应用难度大

生物信息学是基于分子生物学和多学科交叉而形成的一门前沿学科,在生物和医学领域有较广泛的研究和应用,国内外众多高校相继开设生物信息学课程。医学院校学生虽然对生物化学、分子生物学、生理学、遗传学、细胞生物学等学科基础知识的掌握较为全面和扎实,但生物信息学课程理论性较强、覆盖面较广,学生认为其与其他生物医学课程结合不够紧密,较难将生物信息学的知识和原理融入到现有的知识体系当中。

2.3 以计算技术为主要工具,算法抽象

生物信息学主要借助于统计算法分析生物大数据所包含的生物学意义,要求学生有一定的计算机技术和数学基础,能够结合计算机编程和算法实现对具体问题的分析。目前在生物信息学相关数据统计和处理中常用的工具有Matlab和开源的R语言,由于Matlab属于商业收费软件,在实际应用尤其是高校教学中受到一定限制;R语言因其自由、免费及源代码开放等优势得到了广泛应用。

3 R语言特点

3.1 概述

生物信息学主要借助计算机,通过统计学方法分析生物学数据以揭示其中包含的内在信息,因此需要一种功能强大的数据处理和分析软件作为工具。R语言具有强大的数据分析能力、简捷高效的编程及用户自定义功能。

3.2 主要特点[8-9]

一是自由。R语言编译软件免费且源代码开放,学习者可在其镜像或学习网站免费下载安装包、源代码及相关学习资料。二是可编程性。R语言与其他统计学软件如SAS,Matlab等相比语法更加通俗易懂且允许使用者编制个人函数以扩展现有语言。三是更新快。R语言软件标准安装包中包含基本常用的程序包,且随着新算法的出现,新版本中会及时更新新算法对应的程序包。四是互动性强。R语言可以实现同窗口输入和输出,且兼容多种图片格式的图形文件输出。五是跨平台性。R语言软件包可在Windows、Linux及Mac OS等系统中兼容运行。此外R语言具有强大的数据分析和处理、整合及图形图像显示功能,对强调训练学生统计、数据分析等能力的专业优势明显。

3.3 应用

R语言应用于生物信息学教学实践中不仅可以很好地结合理论、案例分析,还可极大地调动学生学习积极性,因此R语言在生物信息学相关课程的实践教学中得到广泛应用。目前国外众多大学统计及生物医学和环境科学专业相关课程都将R语言作为教学工具软件。在结合生物信息学课程及R语言特点的基础上,本研究开展基于医学生的生物信息学实验设计和教学工作,通过以学生为中心的实验教学设计提高学生对生物信息学知识应用的掌握。

4 基于R语言的生物信息学实验教学设计

4.1 现状

一是教学内容设置宽泛。由于生物信息学理论知识覆盖面广等特点,目前在实验教学的开展中重点不聚焦、不突出,实验课教学内容、实施方式、教学大纲及实验指导书内容不完善,难以形成具有针对性的教学案例。二是教学方式单一,缺乏培养学生解决问题能力的理念。实验课内容设置较为简单或抽象,常演变为验证性实验或单纯执行教师提供的代码,缺少分析、解决问题的思路和过程,缺乏以解决某个具体问题为目的的设计性或综合性实验。

4.2 设计

4.2.1 教学计划 山西医科大学从2016年开始为生物制药专业本科生开设生物信息学课程,针对开课专业学生的知识背景及培养目标,结合生物信息学课程特点,课程团队结合参考教材、教学经验、学术科研和学生专业背景等因素对生物信息学实验进行综合设计。根据实验教学的12个学时进行教学内容的划分和整合,设计生物信息学教学计划,见表1。

表1 生物信息学实验教学计划

4.2.2 特点 一是以学生为中心的教学设计。使学生充分利用文献检索、网络教学视频、多媒体和技术等学习方式,在掌握基本理论知识的基础上通过自主探索、分析解决实际问题,进一步培养学生学习积极性和主动性,加深对所学内容的理解和应用。二是多种教学模式相结合下以R语言为工具的实验模式设计。根据生物信息学课程特点和R语言功能,采用“教师讲授+案例演示+实验实践+基于问题学习+个性化自学”的生物信息学实验教学模式,以医学相关专业学生在具体工作实践中的需求为导向,通过实验培养学生自主能动性和团队协作能力。三是基于网络平台的扩展训练。针对实验教学学时有限,教学内容从广度和深度均不能满足具体专业学生解决实际问题需求的情况,教学团队在课堂实验的基础上设计基于E-learning教学平台的实验扩展训练,平台整合课程教学课件、相关专业实验数据、实验手册供学生课后练习,进一步巩固其对相关内容的掌握。

4.2.3 实验实例 采用R语言扩展包ggplot2中的函数对生物数据鸢尾花数据集进行分类。所分析数据包含150个数据集,分为3类,每类含50条数据,每条数据包含4个属性。可通过花萼长度和宽度属性预测鸢尾花卉的具体类别,分类结果,见图1。

图1 鸢尾花数据集分类结果

4.2.4 成效 基于上述实验教学方案的改革和设计,经2017、2018级生物制造专业生物信息学实验教学实践,表明两届学生期末实践能力考核成绩较2016级分别提高3.5%和4.25%,进一步说明生物信息学实验实践训练及合理设计实验的重要性。

5 结语

生物研究领域中基因测序技术的发展极大地促素养的评估、评价等方面还有待进一步研究。总之,构建“三位一体”的信息素养教育模式是提高护理人员信息素养的有效途径和方法,但需要不断探索、改进、完善。

猜你喜欢

信息学实验教学生物
生物多样性
生物多样性
上上生物
鸡NRF1基因启动子区生物信息学分析
小议初中化学演示实验教学
电容器的实验教学
对初中化学实验教学的认识和体会
第12话 完美生物
初论博物馆信息学的形成
几何体在高中数学实验教学中的应用