生物医学大数据共享中的“信任”与“配享信任”*

2021-12-03陈泓邑

医学与哲学 2021年2期

陈泓邑

不仅仅是上述例子，当代所有基于大数据的生物医学研究要能够得到开展，都要高度的信任。信任包括之前提到的公众对中央机构以及科研机构的信任(公共信任)、传统的人际间信任(具体个人与医生或研究人员之间的信任)、不同机构间的信任，甚至是国家间的信任。但是，不信任阻碍着生物医学大数据的汇聚和利用，我们也经常被告知要重建或维系信任。信任究竟是如何坍塌，以至于需要“重建”，如何重建并维系，就成为亟需回答的问题。

1 传统信任的局限与坍塌

在生物医学大数据的采集与利用中，信任坍塌的一个例子是，随着人们的隐私(在本文的语境下，指限制他人获取自己的个人数据，控制个人数据的流通与使用)观念逐步加强，一些之前能够被生物医学研究人员采集、保存并研究的数据，现在很难再采集到了，如指纹。在指纹能够被用于支付，人们对指纹的隐私属性越来越敏感之后，研究指纹或更大范围内的掌纹的医生或科研人员，越来越难以招募到足够的研究参与者提供其指纹。但是，传统上患者历来就是需要将自己的隐私信息交给医生的，这是社会在传统上赋予医生这一角色独特的、不会赋予其他社会角色的信任。这体现在，在一般生活中，人们不会轻易允许他人接触自己的病历，询问自己的私生活与病史。但在医疗语境中，医生出于其职业要求需要向患者或其家属询问上述信息。医生要维系这一特殊信任，就需要保护患者隐私，情况在医学研究人员那里类似。因而，人们隐私观念的增强并不一定蕴含不愿意将自己的个人数据用于医学研究，困扰数据采集与共享的因素在于信任。

为什么在当代越来越难以实现信任？这是由于传统的医患关系或研究人员与研究参与者之间的关系，与现代职业化医疗机构中的医患关系不同，与大数据背景下科研人员-患者/研究参与者之间的关系又不同。传统的医患以及研究人员与研究参与者之间的关系，体现出熟人社会的典型特征：当事双方互相认识，在长期的相处与了解中培养出了信任。这种信任的具体体现之一，在于信任医生或研究人员不会在未经自己许可的情况下，泄露自己的个人健康相关信息。医生与研究人员的职业道德要求其保护患者或参与者隐私，患者或参与者相信医生或研究人员会遵守职业道德，并向之托付自己的健康相关信息。如果能够建立起人际间信任，患者一般不会要求医生的行为透明化并监督医生的行为——这是出于不认识(因而也就不信任)医生或研究人员，才会做出的要求。

当代的职业医疗机构中为患者提供服务的医生，则绝大部分是“病床旁的陌生人”[2]。现代医疗机构的组织特征明显地体现出所谓的“科层化”，科层组织体系中经过职业训练的陌生人，向来自不同地域的陌生患者提供医疗服务。这在相当多的地区，取代了传统温情脉脉的医患人际间关系。对于大学或科研机构的研究人员来说，当代的技术条件，甚至允许大量与患者在时间和空间上有巨大隔离的无关机构与研究人员，远程通过访问数据库、编写算法、处理数据来获取生物医学与临床知识。患者的数据可以经由网络，通过数据共享平台被全世界患者不认识的医生与科研人员研究，科研人员可以远程操作数据进行研究，不需要与患者或参与者进行接触，“陌生人社会”于是在生物医学大数据中走到了极致，建立人际间的信任关系的可能性，已经事实上被取消了。在这种背景下，在科研语境中追求重建或维持人际间信任，显然是不现实的。

除了上述人际间的不信任，机构与机构之间的不信任也阻碍着数据的汇聚与利用。一家医疗机构的临床数据并不足够达到大数据的“大”，要建立足够大的数据池，必须要数据汇聚和数据共享。但是，即使患者个人愿意共享自己的数据，机构是否愿意共享本机构数据也还是一个问题。对于不同机构而言，小机构更有动机要求数据共享，通过汇聚的数据池获取更多的基础数据开展研究。大机构则更有动机保留数据以促进自身发展。在这种利益冲突的背景下，尽管建立第三方公共平台，各个机构都向其提供数据，并由公共数据平台向各机构共享数据，实际上是既有利于大机构，又有利于小机构的，但是第三方平台往往又由大机构承建，而本机构偏向机构内人员是不成文的潜规则。各机构之间缺乏信任，不相信数据共享后，共享平台会用统一的公正、公平的规则，向每一位申请者共享数据，而会倾向于认为数据共享平台会更倾向于内部研究人员。简言之，利益冲突影响着机构间的信任。在国际层面，各国的不信任更加显著和激烈。

显然，如果缺乏信任，从长远来看，会造成难以形成有临床意义的、能够促进个人和公共健康的知识，无论对于个人，或是对于公众、研究人员，还是对于社会、国家，都是一个多输的局面。在没有信任就没有数据共享利用，不能将数据的科学研究价值最大化，而传统人际间信任又不可能再被建立，机构与机构之间也面临不信任的情况下，我们需要“重建”并维系何种信任？

2 以配享信任扬弃传统信任

在传统人际间信任在生物医学大数据共享利用中不再可能的情况下，建立配享信任就成为一个出路。由于当代生物医学大数据往往存储在生物样本数据库(biobank)中，与不同的人将自己的财产都存入银行(bank)、信任银行有一定的相似性，笔者将从简要考察银行是如何实现配享信任入手，讨论生物样本数据库如何配享信任。粗略地说，客户将财富交给银行保管，根本上是一种对银行的信任，对银行的信任根本上又是对国家的信任。信任银行虽然会将这些汇聚的财富用于投资，但依然能够在客户需要的时候进行兑现，信任国家不会允许银行轻易破产。在对银行及国家的信任中，我们不会去试图控制我们交给银行的钱的投资用途，我们不会亲自去管银行具体将包含我们存款的公共存款贷给了什么人，用作什么具体用途。很多人只关心是否有监管机构在发挥作用，去兑现时能否成功，更多人甚至不关心上述问题，而处在被(国家)保护的状态中。银行遵守国家拟定的存款准备金率，每一笔投资都有相应的负责人监督资金去向，维护客户利益。上述资金流动、去向和经手人信息都记录在案，允许审计和追责，并充分保护客户隐私，就是银行实现配享信任的机制。在科研中，理想状况是人们信任科研机构与科研人员，将个人生物数据提供给生物样本数据库，后者向不同的高校科研机构提供数据、产生知识，最终缓缓回馈于社会大众，且依然有强有力的监管。在上述银行的例子中，如果没有强有力的监管机构，那么人们信任银行就会冒更大的风险，监管机构的存在和良好运作，以及银行所遵守的信息公开、资金流向可审计等因素，可以降低这种风险，表明自己是配享信任的，从而允许人们实际上付出自己的信任。

上述银行实现配享信任的机制，对于生物样本大数据的流通与利用是值得借鉴的。机构需要建立透明的信息政策，透明在这里指数据访问和处理记录、处理目的、处理人员身份这些信息都被记录下来并公共可访问，使得公众或者第三方审计机构在需要的时候，可以方便地查看何人以何种目的处理了自己的数据。如果数据处理记录能够被自动保留并不允许更改，那么也就可以大大打消有人恶意使用数据的动机。在上述基础上，如果进一步实现可问责，在发现数据滥用后能一步步追查到滥用的源头和需要负责任的个人，对之施加相应的惩处，那么也可以进一步打消数据滥用的动机，起到预防性的作用。除此之外，机构还可以专门指定隐私保护专家对数据进行模糊化处理，使其即使泄露，也不能或十分难以被用于识别到数据主体的真实身份，并将负责人及其相应责任也作为公开信息公开。上述要求以及其他可以补充的因素，可以表明对于保护个人隐私而言，机构已经实现了配享信任。

根据地下水赋存条件、含水介质及水力特征，将池州市中心城区地下水划分为松散岩类孔隙水、碎屑岩(红层)孔隙裂隙水、碳酸盐岩类裂隙溶洞水、基岩裂隙水4个类型。依据岩石类型和含水孔隙进一步划分出7个含水岩组，地下水类型及含水岩组划分见表1。

对比传统人际间信任，会发现配享信任和传统信任有如下区别：传统信任蕴含着一定程度的不透明，但对透明等原则的强调却可以帮助达到配享信任。在传统的医患关系中，患者认识并熟悉其医生，相信医生的为人，信任医生不会向第三方透露自己的健康隐私。如果患者要求审计(audit)医生的一言一行，要求严格的可问责，其实是一定程度不信任的体现(值得指出的是，“审计”在汉语语境下一般用于财务金融领域。但“审计”的英文单词audit的适用范围更广，只要能够对某项决策或某个结果的来源进行追溯和审查，都可以被称之为“审计”。例如，当代要求的“自动化决策”的透明性，其中一个方式也是要求决策所依据的推理步骤或代码是可以逐行审计的。本文在之后将表明区块链技术可以使得每一次数据访问与使用的痕迹都被自动记录、不可更改，从而实现高度的可审计)。O'Neill[3]据此提出，“信任”与“公开”“透明”“可问责”等概念之间存在潜在矛盾。强调公开、透明、可问责的学者们不否认O'Neill的分析，但认为在将讨论的语境转移到信任机构时，透明、可问责等特质可以帮助一个机构表明自己是配享信任的[4]。“配享信任”指一个人或者一个机构具有某些特质，这些特质使得当人们对它托付信任时，不会是错误的托付。

“公开”“透明”之所以能帮助实现配享信任，是由于“黑箱”式的机构运作流程，使得它即使出了错，人们也无从评价其错误源自何处，因而很可能会认为向其托付信任是错误的。例如，当代人们手机上会收到的各式各样要求采集个人信息告知同意书，如果缺乏强有力的监管确认运营商会按照告知同意书做，确保运营商采集和处理数据的操作是可审计的，那么数据主体即使点选了同意，也不是出于信任，而是出于“反正隐私已经没有了”的虚无心态。要避免这种后果，除了告知和同意，就还需要信息透明、强监管等因素表明自己是配享信任的。

可见，配享信任不是通过传统的、带有一定不透明性的、温情脉脉的人际间信任来实现的。确实，在传统人际间信任中，要求公开透明，验证对方是否守信，实际上是出于对对方的不信任。同样，在当下个人与组织机构的信任关系中，要求监管和公开透明等，首先也是出于不信任(这是完全合理的)，但辩证地说，不要求信任是为了显示自己是配享信任的：机构通过实现公开、透明等原则显示自己是可信的、值得信任的。在科研语境下，除了公开、透明和可问责，存储数据的健康数据库以及科研机构，还可以通过赋予研究参与者更大的掌控自己个人数据的权利，来显示自己是配享信任的。在之前银行的例子中，我们并不会要求银行每一次将我们的钱用于不同目的时，都要征求我们的同意。但在生物样本数据库中，有相当强大的伦理传统(尊重自主性)要求每一次使用参与者提供的数据，都要征求具体而明确的同意[5]。保存参与者数据的机构，可以通过向参与者提供精细控制自己数据用途的机会，来显示自己是配享信任的。参与者一旦被赋予可以精细控制自己数据用途的权利，使得他们可以随时行使这一权利，也可以随时放弃(之后依然可以行使)这一权利，将会显示出对参与者最大的尊重。参与者可以在想查看自己的数据被用于何种用途时查看，在想要每次数据使用前都要征求同意时设定必须征求同意这一条件，一旦赋予参与者这一权利，有可能可以提升参与者的信任，使其愿意将具体使用数据开展何种研究的权利，转交给科研人员与科研机构，而不再征求自己的同意(宽泛同意)。

3 区块链技术可以进一步强化配享信任

之前提到，配享信任是通过不要求信任达到的，“透明”“可审计”“可问责”等配享信任的特征与蕴含一定不透明性的信任之间存在张力。配享信任既可以通过制度来实现，也可以通过技术来实现。其中一项重要技术即区块链。

在进入对技术的描述之前，我们首先设想传统的人工监管模式将如何确保知情同意对生物医学研究参与者的尊重。由于数据(如电子病历)往往存储在不同的医疗机构，因而如果既想实现数据共享，又想实现保护隐私等伦理目标，就需要多中心合作。这意味着，在我国的很多地区，如果一家高校科研院所中的研究人员，想要基于该高校体系之外的，其他医院中保留的病历数据进行学习，障碍非常之大，需要多中心伦理审查互认，并且不同中心要将自己的伦理审查依据都公开并进行统一。也可以设想由国家出面建立一个中央化的数据库，所有医院产生的电子病历都必须无条件共享至中央数据库(类似FDA设立的覆盖全美不同医疗中心的数据库)，由中央数据库的数据共享机构负责向全国不同机构意图访问数据的科研人员共享数据，其中包括审核资质、数据使用目的等[类似美国国立卫生研究院(National Institutes of Health,NIH)控制共享的全国性数据库，不同研究机构与研究人员向NIH申请，经审核获取数据]。如果能够确保中央机构的组织协调能力，对不同申请者的不偏不倚(公正原则)，确保人员组织不会出现错漏(腐败、偏好本单位)等，以及不同机构、中央机构和公众之间的信任，那么上述中心化的数据共享原则上是可以实现的。如果上述中心化的策略能够得到实现，从信任的角度看，需要包括中央机构在内的机构能够满足公开、透明、可审计、可问责等原则，真正落实隐私保护条款，尽可能使自己成为配享信任的。

除了通过制度实现上述要求，区块链也可以以技术的方式实现上述要求。例如，就知情同意而言，参与者的“同意”可以被记录在区块链中，不同的“区块”既记录参与者的同意，又记录时间信息(时间戳，timestamp)，形成“链”[6]。在对已经保存的数据(如电子病历)的调取与研究中，如果使用人工手段，就需要专业科研伦理委员判断，该研究是否已经征求同意(或豁免同意)？如果是不同于采集数据时的研究，同意的范围是否包含在原始同意中？这整个过程对于患者或参与者来说往往是不透明的，患者或参与者需要信任科研人员与科研伦理委员会的工作，信任其会严格履职保障自己的病历数据不被用于侵犯隐私，不会无端更改操作记录。区块链技术可以利用散列函数(hash function)这一电子化手段实现人工审核的功能，祛除对信任的要求。简单说，经过散列函数处理，两份完全相同的数据会产生完全相同的散列值(hash value)，即使有一个字符或数值发生变化，由之产生的散列值都会发生变化。这使得散列值可以作为验证工具，将研究人员得到的(有新的时间戳)新的知情同意的散列值与原始知情同意的散列值对照，如果出现显著的不同则由系统自动驳回。不同区块自动记录时间戳并产生本区块的散列值，分布式记账(distributed ledger)在不同节点，想要进行恶意修改就必须入侵分布式网络中的大部分节点，使得恶意修改同意记录变得操作上不可行[7]。使用上述方式可以以技术代替人工，强制履行知情同意程序[8]。

上述严格的知情同意要求可以依据参与者个人的偏好进行适当弱化：参与者可以根据自己预先设定的要求，对访问和获取数据设置一定的限制。例如，要求任何人访问自己的电子病历，无论以何种目的，都要再次征求自己的同意，也可以就特定的目的同意“不用再征求自己的同意”，或者同意不再征求自己同意但要求每一次开展研究都向自己发送研究目的等信息。参与者可以在最严格的“总是要求征求同意”到最宽泛的“总是同意”中进行选择，其选择可以戳上时间戳被记录在区块链中，并允许更改(添加新的包含时间戳的区块)，方便其在任何自己改变想法的时候，或者想了解自己的数据究竟被用到了何种用途的时候，查看并审计自己的一系列操作记录以及使用自己数据的研究人员的操作记录。

由于这些记录以分布式存储的方式保留在区块链中，目前在操作层面上是无法被更改的。于是，利用区块链，可以建立一套高度透明、可审计的各节点间的数据行为操作记录，实现了极高程度的可问责。参与者可以不需要再信任任何主体不会出于私利或其他原因，改动或伪造同意书、改动数据操作行为记录等。因此，区块链也被称为具有“去信任化”(trustless)特征。所谓的“去信任化”，即指区块链可以将配享信任实现到技术目前所能达到的最高标准，而配享信任就是不要求信任——整个系统的运作是完全透明的。例如，在基于区块链技术的虚拟货币交易中，由于系统的运作是完全透明的，交易各方也是完全匿名的，因而整个交易可以在无需信任的情况下进行。从传统信任，到不要求信任的配享信任，到以去信任化实现最高程度的配享信任并重建信任，可以被称为是一场“正反合”式的“辩证之旅”。

简言之，依靠人工手段的治理要能够获取信任，需要通过开放的信息政策、训练有素的专业人员以及权力制衡等手段来实现配享信任。区块链技术可以进一步强化配享信任。在民众对中央机构有高度信任，且其人工治理政策高度透明可问责的国家和地区，使用这种技术并不一定是必要的。但如果想要达到更高层次的伦理标准，实现更高程度的配享信任，那么依然可以依据上述伦理的理由选择发展区块链等技术。

4 实现配享信任后的信任

通过上述技术手段实现配享信任，尽管在概念上和技术上都要比中央化的统一管理复杂，但伦理上讲，实现配享信任至少可以在如下三个层面上帮助达到信任。

(1)个人在享有充分地控制自身数据的权利，能够透明地查看自己的数据被何人使用、用于何种用途后，有助于提升个人对整个体系的信任，从而使个人有可能愿意放宽知情同意的要求，不再要求每一次使用数据都向自己征求同意，而愿意选择更宽泛地同意将数据用于各种不确定的研究。这将在个人同意层面大大降低数据共享的障碍。目前，宽泛同意被世界各国广泛施行，宽泛同意要能够得到辩护，一般认为需要有强大而稳健的数据治理做支撑[9]。技术手段能够加固数据治理体系，使得数据主体可以安心选择宽泛同意。

(2)高度的公开透明和可审计，理论上可以提升各机构对系统的信任，使得各机构不至于认为共享数据是自己的数据被“剥夺”了，或者认为数据共享平台会更倾向于本单位而区别对待其他研究人员。在信任数据共享平台的情况下，各机构将会更愿意将本机构数据共享到平台。防止一家独大、大者愈大下数据过分集中现象的恶化，以及机构间不互信的程度加深。

(3)上升到国际层面，在早年的国际人类基因组计划中，由于科学共同体对人类基因的了解还不够全面，没有意识到进一步的挖掘会发现基因隐私属性，以及基因会反映特定地区族群的特征，进一步成为需要保护的“资源”，国际人类基因组计划以及随后的千人基因组计划，采取了极为开放的数据共享策略：参与计划的各实验室在完成各自的基因测序工作后，要立即开放共享自己的测序结果[10]。这一在全球层面高度的开放共享的精神，由于数据的隐私属性越来越强，以及各国的不互信等因素，在当今的生物健康数据领域是不可能实现的。在这种情况下，以技术手段来实现配享信任，是最有可能促进各国对其的信任。在当代如果需要开展媲美国际人类基因组计划，能够在国际层面获得认可，实现各国之间数据共享的生物医学计划，需要贯彻配享信任从而达到信任。如果能够将多方计算(multi party computation)也纳入进来，开展需要国际间数据共享的生物医学计划，将有可能实现所有国家产生的原始数据就保存在本地[6]。这些数据可以被查询，但不出境。当地机构以及所属国家可以对研究人员在查询数据时的问题进行一定的控制，例如，如果研究人员想要研究多个国家人群年龄、运动量和胆固醇的关系，这些数据分布在各国，他可以在查询平台查询按年龄分组显示的运动量和胆固醇的关系，系统进行分布式计算，向研究人员回馈聚合层面(aggregate level)的结果，但各机构可以不允许其查询个人层面的数据(某个具体个人的年龄、胆固醇和运动量)。各国研究人员通过共享算法等，在共享平台上上传自己改进的算法，提升算法的可靠性与计算结果的准确性，而不是以共享原始数据的方式来实现全球合作。上述方法理论上可以充分实现对各国数据主权的尊重，避免贸然开放数据共享和转移导致本国数据全部流向数据处理能力强的强国，进而导致国际间不公平。此外，查询人员的身份以及对数据的操作都会被记录在区块链上，不需要各国再指定、推举或信任一个第三方机构专门负责记录和审计这些数据：各国可以各自审计自动记录在区块链上的公开数据操作等信息，规避国际组织现在也面临的信任难题，从而以不要求信任的方式在理论上提升各国的相互信任。

当然，不可否认的是，即使做到最高程度的公开、透明、可审计，还是不一定能够在实际中获得某些人、机构或国家的信任。近期生物医学以外的一个例子就是典型：Tiktok公司为了证明自己是配享信任的，对其代码、数据运作等实现了高度的公开、透明和可审计，但还是难以获得信任，这是仅仅强调落实配享信任难以避免的状况。在实际情况中，不配享信任的事物或许也能够获得信任，说明在经验层面，要实现配享信任与获得信任之间的一致性，还需要依靠十分多的偶然性因素。但从规范性层面讲，配享信任依然是应该做到的。

5 结语

辩证地说，在当代生物医学大数据共享利用与研究中，需要承认传统信任已经不可能，各方需要通过不要求传统信任，建立配享信任的方式来重新达到信任。达到配享信任意味着要达到与传统信任存在一定张力的公开、透明、可审计、可问责等。这些条件可以通过基于人工的良好治理，也可以通过区块链等技术手段实现。区块链可以将不要求信任的配享信任发展到极致。实现配享信任，可以移除数据共享在个人同意层面的障碍以及机构之间不信任的障碍，甚至移除各国之间不信任的障碍。尽管本文试图从实现配享信任的角度来考察重新建立信任的可能性，但这并不意味着建立配享信任就一定能够实现信任。现实中出于种种偶然因素，人们可能信任不配享信任的人或机构，也可能并不信任配享信任的人或机构，但从规范性的层面讲，配享信任依然是应该达到的，是当今重建信任的必经之路。