APP下载

从生物样本库到开放数据库

2014-01-23马长生

转化医学杂志 2014年6期
关键词:基因组样本数据库

李 新,杜 昕,马长生

从生物样本库到开放数据库

李 新,杜 昕,马长生

生物样本库建设在国内处于迅猛发展阶段,然而如何有效地将生物样本库中已整合的资源优势转化为科学优势,从而实现生物样本库建设的终极目标,在国内还缺乏成熟机制。建立数据库共享机制,是公益性生物样本库长期可持续发展的有效途径。本文旨在通过对国际著名生物样本库(UK Biobank,英国生物样本库)和遗传变异数据库(HapMap数据库,人类基因组单体型图数据库)的应用情况介绍,阐述生物样本库持续推动科研项目进展、促进科研成果产生的意义。

生物样本库;数据库;共享机制

生物样本库是进行转化医学研究的重要资源,正日益受到各国政府及科研单位的高度重视。生物样本库建设在国内逐渐升温,这也从一个侧面体现出国内对转化医学的高度重视。同时,生物样本库建设的兴起与国内科研经费投入的持续增长密不可分。科研经费的增长使得整体科研规模扩大,而样本是大多数生物及医学类基础研究的根本,因此生物样本库建设对于推动我国科研事业的发展意义重大。国内已出现一些生物样本库规范化建设方面的专著、系列培训和会议,对于我国生物样本库的建设起到了积极的推动作用,其中对生物样本库建设的规范化操作流程和样本收集、储存的技术问题都有大量涉及。本文仅探讨生物样本库资源共享的意义和机制。

1 建立共享生物样本库的意义

要探讨生物样本库共享的意义,首先要回答生物样本库为何要共享这一问题。首先,当前人类单基因遗传病的解析已不再是难题,一个全面揭示所有复杂性疾病相关基因和人类遗传机制的时代已经来临。通常对于复杂疾病的研究需要较大的样本量才能获得有意义的研究结果,单一医院难以在短期内完成全部所需样本收集。2013年在Nature Genetics上发表的对于心率关联位点的研究,共应用了来自多个医院和研究中心的181 171例个体的数据,鉴定出14个与心率相关的新位点[1]。大型研究对于样本的需求量和时效性已经超出了单一医院的能力。其次,生物样本库建设的终极目标不是保存样本,而是通过对其保存样本的应用,开展各类研究,并将研究结果最后转化为可应用的技术成果。虽然人类整体的生物、医疗数据量在增加,可以进行一些规律性分析,但对于每一个体而言只有一个大致的总体规律还远远不够。要想实现个体化医疗,目前的信息和知识都还很匮乏,必须尽可能全面地收集每个患者的各种信息,包括临床诊断、药物反应、长期临床事件追踪、基因组、表观基因组、转录组、蛋白质组和代谢组等信息。在这些生物组学信息中,除了基因组信息比较恒定之外,其他组学信息都是高度可变的。所以,在某些基础研究和临床应用中对同一样本只收集1次信息肯定是不够的,比如人体同一时刻不同组织中或同一组织不同生理阶段下转录组就有较大差异。要收集这样庞大的数据体系,仅通过生物样本库机构本身的力量显然是杯水车薪。因此,生物样本库必须通过样本和数据共享,吸引更多、更有实力科研团体的合作,致力推进科研进展,才能加快解决转化医学中的关键问题,比如实现真正的个体化医疗。

2 生物样本库共享机制

要探讨生物样本库共享的机制,就必然涉及什么是生物样本库共享的最佳方式这一问题。开放数据库则是生物样本库实现共享的最有效途径,也是生物样本库可持续发展的必备条件。大数据时代已经到来,生物技术的迅速发展所产生海量数据必须通过规范化的数据库来实现数据存储与管理。只有建立了规范化的数据库,将来才有可能对接到大型研究中,比如超大规模的分子流行病学研究计划,从而为制定公共卫生政策奠定基础。一个样本收集的信息量越丰富,这个样本的潜在研究价值就越高。通过样本共享和开放数据库的应用,提高样本利用率,并将研究数据反馈给生物样本库,从而不断丰富样本的各类数据,使之能够应用于更多有意义的研究。这是一个良性循环过程,其最终结果是通过加快对样本的透彻研究,产生对样本贡献者及全人类有用的成果。这正符合转化医学“从实验台到病床旁”的目的。

3 典型生物样本库介绍

通过对英国生物样本库(UK Biobank)、国际人类基因组单体型图计划协作组遗传变异数据库(HapMap数据库)应用情况介绍,阐述生物样本库持续推动科研项目进展、促进科研成果转化的意义。3.1 UK Biobank UK Biobank是目前世界上已建成的规模最大的人类遗传队列生物样本库。UK Biobank在2006—2010年完成了全英国范围50万名志愿者样本的收集,占英国总人口的1%,入选的志愿者年龄40~69岁。收集了所有入选志愿者的血液、尿液和唾液样本,经过了系列基本检测,并跟踪记录他们此后医疗档案中的健康资料,最终建成一个国家级的健康资源库。2013年3月,UK Biobank正式宣布将对全部样本进行详细的DNA分析。目前,UK Biobank已与Affymetrix公司合作完成了基因分型芯片的设计,并已在5万份样本中完成了基因分型实验。UK Biobank希望通过开放这些资源,使之能够持续用于研究,最终回答个体之间为何会产生疾病易感性差异这一关乎公共利益的重大问题。

所收集的信息都储存在网络上,免费对经过科学和伦理批准的世界范围内的研究人员开放。当然,为了保护志愿者的隐私权益,在一定安全范围内会隐藏志愿者的个人信息。研究人员希望收集的大量信息能够帮助阐明遗传因素、生活方式及其相互作用对一些常见疾病,如心脏病、癌症、糖尿病和痴呆等产生的影响。UK Biobank现已对研究者正式开放其数据资源[2],从2012年10月—2013年11月,在UK Biobank官网上列出的获批研究有35项,广泛涉及生物、医药领域各方向的研究。比如对抑郁症和双向情感障碍在英国发病率的分析[3]、对骨质疏松的流行病学调查[4]。除了复杂疾病相关研究外,UK Biobank作为一个人口资源库,还可用于对群体性状的研究,比如对人类左右手握力特征的研究[5]。

UK Biobank对资源开放政策的一个原则是任何使用UK Biobank资源的研究其目的都是公益性的,都要将其研究产生的相关数据及分析结果回馈到UK Biobank,并继续用于未来的研究。这一原则确保了资源库的数据越来越丰富,可利用性越来越强,确保了资源库的可持续发展。因此,UK Biobank认为使用资源就是对资源库的投入。

3.2 HapMap数据库 HapMap数据库(http:/www. hapmap.org)是国际人类基因组单体型图计划(简称HapMap计划)将所产生的全部数据对公众免费开放的平台[6]。HapMap计划于2002年启动,是一个多国参与的合作项目,旨在确定和编目人类遗传的相似性和差异性。在2012年3月美国国家卫生研究院(National Institutes of Health,NIH)宣布其千人基因组计划的全部数据将免费对外开放之前,HapMap一直是世界上最大的人类基因变异数据库,得到了广泛应用,尤其推动了人类复杂疾病遗传因素的研究进入新的阶段。

HapMap计划初期收集了非裔、亚裔和欧裔的4个群体(共270份样本),分别是尼日利亚伊巴丹市的约鲁巴人、日本东京市的日本人、中国北京市的汉族人和人类多态性研究中心的样本(祖籍是北欧或西欧的美国犹他州人)[7]。2007年已公布了包含310万个单核苷酸多态性(single nucleotide polymorphisms,SNPs)的第2代人类基因组单体型图谱[8],2010年又增加至全球11个群体1 184份样本的全基因组SNPs基因型数据和其中692份样本的100 kb测序数据[9],进一步丰富了HapMap数据库。HapMap计划不仅通过其国际协作组本身产生数据,同时大力鼓励研究者发表对HapMap数据和其他研究计划的数据相结合的文章,尤其是致力于寻找影响疾病或药物应答的基因;同样鼓励研究者使用HapMap数据来发表分析多态性、连锁不平衡和相关数据的新方法。正是这种数据开放政策使HapMap成为应用最为广泛、最为深入的人类群体基因型数据库。如同人类基因组计划,HapMap计划的完成是一个里程碑式的成就,从研究策略到分析与推算的多种方法,均代表了当时最先进的科研水平,具有极高应用性和创新性。在保证数据和相关研究工具全部免费开放的同时,HapMap计划国际协作组还将本计划采集的全球共11个群体样本的DNA和培养细胞系样本存放在美国国家人类基因组研究中心(NIH的一个分部),可供全球研究者申请使用。唯一遗憾的是,HapMap计划采集的这些样本都是一般意义上的健康、正常个体,没有附带表型信息或任何医疗信息。然而,这丝毫不妨碍HapMap数据库作为一个人类群体遗传资源数据库对于遗传多态性和基因组研究所产生的不可替代的重要意义,HapMap数据库的奠基作用对于后续开展的系列全基因组规模研究的巨大推动大大超出预料。

中国是HapMap计划的参与国,是其中唯一产生数据的发展中国家。我国参与这样大型国际项目的经验有益于国内今后建设类似HapMap的大型公益性科研项目及数据库。

4 面临问题

4.1 UK Biobank和HapMap数据库建设中面临的问题 UK Biobank和HapMap数据库的公益性宗旨和在此宗旨下执行生物实体样本与数据共享或公开政策的成功案例,对国内建设大型公益性生物样本库无疑有借鉴意义。任何大型项目的成功都是多方共同努力的结果,也都历经曲折。UK Biobank目前已获得良好的公众支持和信任,被看作是广泛利用个体数据开展研究的典范[10]。但因涉及大量医疗信息,其数据安全、医学伦理及公众信任度曾引起UK Biobank参与的志愿者、公众和科研工作者热烈讨论[11-13]。UK Biobank获得了政府的广泛支持,但也曾报道因实际操作困难重重而进展缓慢[14]。

与UK Biobank不同,HapMap计划仅采集了入选志愿者的外周血样本用于DNA变异分析,未收集表型和临床信息,其相关的数据安全、伦理信息处理起来相对简单,但是在HapMap计划实施过程中却面临着其他方面的挑战。为了与可能的基因或SNPs专利赶超时间,HapMap计划国际协作组特别采取了根据项目进度随时公布数据的策略,在HapMap计划网站上将所有阶段性数据即时发布供全球研究人员无偿使用。最终HapMap数据库的所有数据,包括低频和罕见SNPs、分型技术、算法与结果等,全部无偿公布。这些举措消除了人们对大规模疾病相关基因和位点的专利被私营集团控制的忧虑。最终受政府支持的公益项目以其无法超越的规模和速度迫使多个启动更早的企业相关项目,特别是针对复杂性疾病的计划放弃对于SNPs的专利尝试。不止一个企业有偿或无偿地将数据纳入到HapMap计划中,甚至从竞争者转为重要参加者[15]。

4.2 我国生物样本库建设面临的资源共享问题

目前我国的生物样本库建设尚处于起步阶段,但迅速升温,尤其是近几年在各级政府、基金委员会相关资源库建设专项的支持下出现了一大批生物样本库建设项目。政府对生物样本库的重视无疑是一件好事,原则上以国家经费为主要投入来源的生物实体样本库及数据库都应遵守公益性原则,对参与者和研究者开放。在实际操作中,因多种原因样本及数据的共享是一个棘手的问题,也是我国生物样本库建设与发展中亟待解决的问题。要真正解决这一问题,必然涉及国家科研经费分配体制、经费使用考核机制的改革。生物样本库的建设尤其需要长期资金支持,在目前追求的“短、频、快”的科研氛围中,如何平衡长期稳定发展和当下利益也是一个问题。

当前,即使中国短期内无法建成UK Biobank那样的大型国家生物样本库,也希望从目前国内正在起步阶段的众多生物样本库中能尽快出现一个公益性质的、对样本捐献者和研究者公开的数据库,无论是人口库或疾病库,无论初始规模大或小,对国内研究者都是一件幸事。呼吁国内分散的生物样本库和数据库能够联合起来,建设成一个国人的大型健康资源库。然而,当下中国的样本库建设,尤其是“生物样本共享机制在中国错综复杂的利益纠葛里走的步履维艰”[16]。无论如何,在现阶段而言,只要能物有所用,能真正用于公益性的科研项目就是好的生物样本库。

生命科学和医学研究都离不开生物样本,“生物银行”既是“当务之急”,又是“百年大计”[16]。希望我国目前已建立的生物样本库中的“所有”能够真正成为国内科研工作者的研究“所用”,并最终将研究结果进一步转化为人类的福祉。

[1]den Hoed M,Eijgelsheim M,Esko T,et al.Identification of heart rate-associated loci and their effects on cardiac conduction and rhythm disorders[J].Nat Genet,2013,45 (6):621-631.

[2]Watts G.UK Biobank opens it data vaults to researchers [J].BMJ,2012,344:e2459.

[3]Smith DJ,Nicholl BI,Cullen B,et al.Prevalence and characteristics of probablemajor depression and bipolar disorder within UK biobank:cross-sectional study of 172,751 participants[J].PLoSOne,2013,8(11):e75362.

[4]Harvey NC,Matthews P,Collins R,et al.Osteoporosis epidemiology in UK Biobank:a unique opportunity for international researchers[J].Osteoporos Int,2013,24(12): 2903-2905.

[5]Spruit MA,Sillen MJ,Groenen MT,et al.New normative values for handgrip strength:results from the UK Biobank [J].J Am Med Dir Assoc,2013,14(10):775.e5-775. e11.

[6]Thorisson GA,Smith AV,Krishnan L,et al.The International HapMap ProjectWeb site[J].Genome Res,2005,15(11):1592-1593.

[7]International HapMap Consortium.The International Hap-Map Project[J].Nature,2003,426(6968):789-796.

[8]International HapMap Consortium,Frazer KA,Ballinger DG,et al.A second generation human haplotypemap of over 3.1 million SNPs[J].Nature,2007,449(7164):851-861.

[9]International HapMap 3 Consortium,Altshuler DM,Gibbs RA,et al.Integrating common and rare genetic variation in diverse human populations[J].Nature,2010,467(7311): 52-58.

[10]Thornton H.The UK Biobank project:trust and altruism are alive and well.Amodel for achieving public support for research using personal data[J].Int JSurg,2009,7(6): 501-502.

[11]Sullivan FM,Pell JP,Sweetland M,et al.How could primary caremeet the informatics needs of UK Biobank?A Scottish proposal[J].Inform Prim Care,2003,11(3): 129-135.

[12]Tutton R,Kaye J,Hoeyer K.Governing UK Biobank:the importance of ensuring public trust[J].Trends Biotechnol,2004,22(6):284-285.

[13]Laurie G.Role of the UK Biobank Ethics and Governance Council[J].Lancet,2009,374(9702):1676.

[14]Watson J,Cyranoski D.Beset by practical hurdles,UK Biobank moves at sluggish pace[J].Nat Med,2005,11 (7):696.

[15]曾长青.HapMap五周年回顾[J].科学观察,2010,5(6): 61-66.

[16]季加孚.生物样本库的能力建设与最佳实践[M].北京:科学出版社,2013.

Resource sharing of biobank through public database

LIXin,DU Xin,MA Changsheng
(Department of Cardiology,Beijing Anzhen Hospital,Capital Medical University,Beijing 100029,China)

Biobank or bioreporsitory construction is fastly developing in China.There are various growing biobanks supported by Chinese government foundations recently.However,almost none of them is currently available to public.Resource sharing can accelerate scientific findings and is necessary for long-term sustainability of the biobank.A mature resource sharing mechanism in China is yet to be developed.In this article,we discussed the way and the advantages of resource sharing through examples of the UK Biobank and the International HapMap Project,to discuss biobank on the research progress of scientific research project promotion and research achievements.

Biobank;Database;Sharingmechanism

R197.38

A

2095-3097(2014)06-0327-04

10.3969/j.issn.2095-3097.2014.06.002

2014-01-10 本文编辑:徐海琴)

北京市科委科技项目(D131100005313007);科技部项目(2011ZX09307-001-09)

100029北京,首都医科大学附属北京安贞医院心内科(李 新,杜 昕,马长生)

马长生,E-mail:chshma@vip.sina.com

猜你喜欢

基因组样本数据库
“植物界大熊猫”完整基因组图谱首次发布
牛参考基因组中发现被忽视基因
用样本估计总体复习点拨
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
规划·样本
数据库
随机微分方程的样本Lyapunov二次型估计
数据库
数据库