从“心体”与“性体”看人工智能设计中的完全道德行为体问题

2023-03-10方贤绪冷少丰

天津大学学报（社会科学版） 2023年6期

方贤绪，冷少丰

（中国科学技术大学马克思主义学院，合肥 230026）

人工智能哲学专家温德尔·瓦拉赫（Wendell Wallach）和科林·艾伦（Colin Allen）建议机器人的行为必须受到明确道德原则的规范，将一种基于人工智能系统、能够做出含有道德属性行为的行为体称为人工道德行为体（Artificial Moral Agents，简称AMAs）[1]。仿照在人工道德设计领域已有建树的美国达特茅斯学院哲学教授詹姆斯·摩尔（James H. Moor）[2]，他们区分出道德行为受人类直接操控的“操作式道德”、道德行为受人类监督制约的“功能式道德”和充分具有道德主体性的“完全道德行为体”这三种道德机器类型，指出AMAs设计的目标就是使其逐渐进步，直至成为完全道德行为体[3]。

针对这种逐层上升直至完满的乐观模式，传统伦理学提出了反对意见。长久以来，意识、心灵、自由意志等难以直接观测的内在状态被认为是一个完全道德行为体的基础，AMAs不具备上述要求，无法拥有完全道德行为体的地位[4]。如果极端化这些标准，一些学者就能直接质疑AMAs得以成立的可能性[5]，甚至将之视为一种任凭人类使用、消费的新型奴隶[6]。

然而，这类内在状态的概念本身是模糊不清的。计算主义的蔓延、神经科学的新证据与人工智能工程技术的成熟正逐渐颠覆并重塑人们对这些内在状态的理解。如果心灵只是一种计算，随着符号处理程序对道德实体的消解，人工智能也就有理由在算力增长和算法优化的未来成为完全道德行为体。

对人工智能能否成为完全道德行为体问题的进一步思考，不应局限于深怀科学主义立场的西方伦理学传统。已有学者基于儒家万物一体视角，主张人工智能或将逐步获得“天命之性”意义上的人性[7]。也有学者从“上善若水”的道家伦理出发，认为机器人值得我们以“天地不仁”的无私态度平等以待[8]。但这些研究只是一种对人工智能时代的展望和构想，未能基于现有的工程路径对AMAs的道德能力和资质做出切实考察。本研究立足于现有人工智能道德设计中最为流行的知识路径和关系路径，通过引入现代新儒家代表牟宗三在重释儒家心性哲学时所提出的“心体”与“性体”标准，分别考察这两类人工道德设计的潜能与限度。这将从新的角度质疑，认为人工智能将在算力增长、算法优化的未来成为完全道德行为体的“渐进神话”，寻找完全道德行为体在人工智能系统上得以实现的折中方案。

一、 AMAs设计的完全道德行为体目标

完全道德行为体是一个存在于比较关系中的最高级概念。瓦拉赫和艾伦将之视为一种“自主性”和“道德敏感性”都达到最高时的AMAs形态[3]26。这意味着人工行为体既要能脱离外部控制而自主行动，又应对该行动所具有的价值属性承担责任。它们的进步主要由认知色彩浓厚的“理解力”加以支撑[3]69。那么，AMAs需要何种程度的“理解力”才能在“自主性”和“道德敏感性”上达到完全道德行为体的标准？摩尔的观点可供参考。

摩尔认为：“一个完全道德行为体可以做出明确的道德判断，并且通常有能力证明这些判断是合理的。一个普通的成年人是一个完全道德行为体。”[2]20在他看来，做出“明确的道德判断”与给出“判断的合理根据”是完全道德行为体的必要条件，现成的范例则是一个“普通成年人”。

现有的AMAs工程方案似乎能够满足这两条标准。例如，符号主义路径下的专家系统可以通过对预先嵌入的先验道德知识加以符号处理来做出道德判断，它会比“普通成年人”所做出的判断更加明确。同时，该系统内所有明晰且确定的先验道德知识、严格且准确的符号处理过程都能够作为判断根据提交给审查者，这些根据会比任何一个“普通成年人”所给出的都更加合理、全面、透明——不存在有意识的隐避或者无意识因素的干扰。

但这种AMAs似乎有悖于人们对于一个完全道德行为体的直观感受。虽然我们能够仅基于“普通成年人”所做出的道德判断和道德理由来承认他的自主性和敏感性，但转移到AMAs上，看起来既不“自主”、也不“敏感”。显然摩尔所给出的上述条件并不充分，他和瓦拉赫、艾伦一样习惯性地将道德根据限制在认知能力，尤其是判断能力和推理能力上。

一个“普通成年人”所具有的道德能力和潜力是什么？对这一问题的直接回答是作为人类道德基底的内在状态。但一方面，计算主义的蔓延、神经科学的新证据与人工智能工程技术的成熟正在逐步清除这些领域的“形而上学残余”，颠覆并重塑我们对这些模糊概念的理解。他们强调：“认知是一种计算，或者说，认知能力可以由主体的计算来给出解释”[9]，以此将认知系统的计算确立为关于主体的解释项，同时又用类似的方式将计算扩展到主客观的一切领域[10]。另一方面，西方伦理学与人工智能在工程设计上的合作也正在瓦解着这些内在状态的“积极意义”。西方伦理学认为，有道德的意识、心灵或意志正是无条件遵循着法则的，计算并选择最优行动后果的，能够在环境中形成良好德性的意识、心灵或意志。那么，一旦AMAs具备更果断的义务遵循行为、更精确的后果计算能力、更快速的德性形成过程与更稳定的德性状态，在这种“机器之心”的参照系下，人们就有理由向“普通成年人”那些不可捉摸的内在状态提出怀疑，因为它们即便没有妨害道德的实现，至少也与道德的至臻状态不直接相关。这样一来，AMAs相比“普通成年人”来说反而更是一个完全道德行为体，甚至是一个“完美”道德行为体。

对“人工智能能否成为完全道德行为体”问题的肯定回答，源于规范伦理学和美德伦理学对AMAs工程基础的弱反思性。要对之予以突破并进行新的追问，就应离开伦理学中的计算主义立场和对道德活动的可操作化理解，它们与AMAs的工程基础保持一种同义反复的关系，留下的反思空间较为狭窄。为此，需要引入一种异质的伦理思想，同时，这种伦理思想也不能脱离“普通成年人”的范围限制。

考虑到上述要求，儒家思想会是一种对完全道德行为体问题进行反思的优质哲学资源。试参考“孺子将入于井”的经典案例，孟子据此指出的“人皆有不忍人之心”，正是对“普通成年人”所具有的道德能力和潜力的揭示。在该案例中，不忍人之心表现为“乍见孺子将入于井”时所突起的怵惕恻隐之感，它的呈现具有非反思、无功利、不可操作的特征，而且每个“普通成年人”在现实生活中都能拥有这种切实的道德体验。

因此，AMAs在工程基础上也应兼容儒家所提出的“不忍人之心”才有成为完全道德行为体的可能。牟宗三对儒家传统的诠释成果是考察这种兼容性的有利工具，它将“不忍人之心”展现为呈现道德活动的“心体”与作为道德根据的“性体”两个层次，二者皆为儒家所有、AMAs所无。“心体”的缺失将对AMAs的自主性造成削弱，使之陷入道德封限乃至道德他律的困境；而“性体”的隐退则暴露出AMAs的道德敏感性既不真实、也不可靠，蕴藏着缺乏道德根基、消解道德崇高性的危险。这些被视作“普通成年人”道德要素的缺失及其造成的道德困境，都会对人工智能的完全道德行为体理想提出严峻挑战。

二、从“心体”看知识型AMAs的道德封限与道德他律困境

主流AMAs的设计主要基于“自上而下”的嵌入、“自下而上”的学习和“混合二者”这三条工程进路，三者都以道德知识为设计核心，因此可归类为知识型AMAs。

1. 嵌入型AMAs的困境

嵌入型AMAs是采用特定的伦理理论并分析其计算需求，以此指导实现该理论的算法和子系统的设计方法[3]80，符号主义是其得以实现的工程路径。该流派强调仅凭逻辑规则就能够实现对心智的模拟，认为心智就是一种依据逻辑规则对原子命题做计算操作的符号装置[11]。艾伦·纽厄尔（Allen Newell）和司马贺（Herbert Alexander Simon）提出的“物理符号系统”很能表明它的鲜明特色，“物理”强调系统是由工程组件组成的工程系统，它的操作服从物理定律，与传统形而上学的心灵实体无关；“符号”则表示这一系统既包含符号结构的集合，也要对符号进行区分和操作，以求产生不断进化的符号结构集合[12]。其中，符号是嵌入型AMAs的设计关键。规范伦理学的道德规则和道德推理、算术机制作为符号处理的前提，就是AMAs系统需要嵌入的先验知识。这些先验知识依赖专家提供并进行编码，系统的操作结果不会超出嵌入的范围。

本研究参考加州大学哲学教授刘纪璐采用嵌入方法设计的一种儒家机器人，她将忠、恕、仁这三种儒家的核心道德品质作为先验知识嵌入机器人中，分别对应CR1：角色定义原则；CR2：行为负值最小化与正值最大化原则；CR3：在CR1和CR2的前提下改进人类的道德状态原则[13]。尽管上述原则具有借鉴意义，但这种儒家机器人典型地暴露了嵌入型AMAs的道德封限困境。忠、恕、仁为了迎合嵌入的需要而被完全知识化和形式化，转写为信息的输入、取值、输出过程，变成受限制而不扩充、只存有但不活动的僵化之理。

对于忠和恕，基于“心体”的解读方式是忠恕连言，直贯地以天地创生指示之，称其为：“维天之命，於穆不已，不其忠乎！天地变化草木蕃，不其恕乎！”[14]这种“於穆不已”的“创辟”与“天地变化”的“化生”无法归为嵌入型AMAs的角色限定原则和行为赋值约束原则。理学家程明道强调：“扩充得去，则为忠”，但若扩充不去，则“天地闭，贤人隐”[14]424，遵循忠、恕原则设计的儒家机器人，反而因其符号主义的局限而“扩充不去”，陷入了“天地闭、贤人隐”的消极结果，这是极为矛盾的。

对于仁，程明道则以“感通无方”表示，借手足痿痹不通的生理症状，反喻“心体”之仁的道德践履必即天地万物于一体，要求道德行为体只能在万物位育之无差处成仁，须有“莫非己”的活泼跃动之感[14]15。孔子言仁109次[15]，皆依具体情况而随处指点，这些都不能局限于“求人类道德状态最大化的方程解”的程序运作之中。

在基于“心体”的道德诠释学看来，真正出于道德本心“呈现式”的道德活动与形式原则对嵌入型AMAs的消极限制之间存在本质差异。嵌入型AMAs的运作要转写伦理规范作为函数的参数产生值域，再以数字信号对机械组件做出控制。虽然道德律令在这一过程中一样能够被无阻隔地执行下去，但规范与行为之间只是输入与输出的关系，这样的嵌入型AMAs实质上只是伦理知识的储藏库和检索库。将检索结果以机械因果性的方式与物理外设加以挂钩，并不是真正自主的道德行为，甚至由于规则的嵌入是“任意”而非“必然”的，当一种恶的原则或有缺陷的原则也被嵌入其中时，这种人工系统也会直接贯彻下去并造成恶劣的后果。

除此之外，如果考虑到工程实现中的具体问题，纯粹的嵌入型AMAs也并不可行。这种设计进路忽视了日常伦理中非反思性的情景应对，它在开放场景下会面临框架问题，即世界需要随着行为体的行动所引发的结果而不断得到新的表征，但嵌入型的AMAs却缺乏常识和直观能力，因此在符号主义框架下，建造一个成熟的道德行为体会需要几乎无限的计算资源[11]。瓦拉赫和艾伦也表示从抽象的道德原则到特定的具体情况是困难的，这些道德原则缺乏共识，拥有完备先验知识的专家系统目前来看希望渺茫[3]97。鉴于此，他们提出了与之相反的学习型AMAs设计路线。

2. 学习型AMAs的困境

学习型AMAs的设计重点是让行为体在一个既定环境中探索并学习如何行动，它会因为行为正负赋值的不同而得到奖惩，并因此发展出设计者所预期的功能[3]80。联结主义的人工神经网络成果是它的工程基础，该流派认为只要以人工方式构造神经网络并采用特定方法进行训练，智能就会应运而生。

训练神经网络的技术手段是机器学习。它的本质是选择一个能建立、预测模型的万能函数，利用样本对模型进行训练并选择最优的参数集，使其能够适度拟合训练样本集的空间分布，达到预测未知样本属性的目的[16]。深度学习则是机器学习中更为强大的分支，更多的网络使其可用更少的神经元节点表示更复杂的目标函数[17]。同时，自动找出样本关键特征的能力更能使它摆脱人类输入的先验知识限制，凭借大数据自动展开特征学习[17]272。此外，学习的进化过程也可以没有终点。通过一种探索伦理策略，只要设置行为最大化目标——如“公正”或“道德”，它就能无休止地寻找更好的解决方案[1]。似乎只要有足够强大的神经网络和充足的训练时间，AMAs就能达到完全道德行为体的水准。

参考迈克尔·安德森（Michael Anderson）与苏珊利·安德森（Susan Leigh Anderson）设计的一种依赖于机器学习方法的道德顾问系统，他们先制造伦理困境并让伦理专家对之形成共识，再利用机器学习抽象出共识中的一般决策原则，他们主张该原则隐含在伦理学家的一致判断中，而以机器学习技术为代表的精确伦理学的优势就在于能够发现暗藏其中的伦理学原则，且可以针对特定的情景如医疗伦理展开学习，从而得到更为特殊的拟合函数[18]。

学习型AMAs的工程路径与程朱理学的“格物致知”策略高度契合。朱子主张：“盖人心之灵，莫不有知，而天下之物莫不有理，惟于理有未穷，故其知有不尽也”[19]，他强调对道德法则在“知有其尽”上的“遍历”与“物有其理”上的“提纯”。机器学习的大数据样本起到程朱语境中“天下之物”的作用；训练神经网络以进行特征提取、归类、编码的过程就类似于“穷格物理”的致知工夫；最终，朱子所言用力日久、豁然贯通，达到“众物之表里精粗无不到，而吾心之全体大用无不明”[19]7的“太极之理”在联结主义的语境下，表现为一条能够拟合事物样本的万能函数。人工神经网络经过多次训练，不仅与“太极之理”一样适用各种道德领域，更能对新的道德问题予以识别、分类并输出计算的新结果，做出人类之前没有做过的新道德决策。由于人类无法在道德训练与道德计算上媲美学习型AMAs，因此这种人工系统相比人类反而更能达到“精粗皆到”“体用全明”的理想效果。

但学习型AMAs本质与嵌入型一样，只能拥有具积众理的“气质之心”（机械之心），不出朱子所谓“心官至灵，藏往知来”[20]的知识集合层次，二者连同其混合路径在一起，都属于以知识建构道德的“静涵静摄”系统。“静涵”，即心气的涵蓄渊停；“静摄”，即认知的综涵摄取。前者表示道德的运作是经验而机械的，后者表示道德的获得是认知而集合的[21]。深度学习的无监督性和对未知样本的强预测性不改变上述特质，牟宗三对程朱理学的道德他律批判对知识型AMAs仍然有效。在他看来，在道德是否自律的根本问题上，知识与本心具有非此即彼的性质。“泛认知主义道德”建基于认知上的主客体反映关系，陷入了“心与物对”的对峙格局，道德行为体在此缺少神圣意志（“心体”）而无力自我立法，为外部的约束条件所吞没，因而只能沦为他律道德[21]397。

除此之外，学习型AMAs在工程设计上还面临着严重的安全问题。作为一个人工道德行为体，它的活动要比其他智能系统更具有价值敏感性，因此对它的风险控制要求也就更加严格。芝加哥大学的伦理学教授玛莎·努斯鲍姆（Martha C. Nussbaum）就曾认为，自主的人工系统不仅应在道德上表现良好，而且其决策的道德基础也应是透明的。“自下而上”的设计方法应该被限制在狭窄的和严格控制的实验室条件下[22]。

三、从“性体”看关系型AMAs的道德表演困境

在上述两种路径之外，人工道德设计还出现了从实体到关系的新转向。维也纳大学的哲学教授马克·考科尔伯格（Mark Coeckelbergh）是其中的代表。他认为我们在道德实践中不必对展露道德外表的实体抱以笛卡尔式的怀疑，人类道德很大程度上以表象为基础，不可能确定到底需要哪些属性才能赋予一个实体以道德地位。同时，“他心问题”的存在更促使考科尔伯格宣称一种道德评价上的不可知论，即事实上我们永远无法确切地了解他人的内心生活。他认为：“我们可以允许自己对那里‘真正’发生的事情保持不可知论，并专注于‘外部’互动，特别是这种互动是如何通过人工智能在我们人类面前的表现来共同塑造和构成的。”[23]

爱尔兰高威大学的讲师约翰·达纳赫（John Danaher）更为细致地提供了经由表象而确认一个实体的道德地位的理由，他称自己的观点为“伦理行为主义”（ethical behaviourism），并做了一个简短的推论：第一，如果一个机器人在行为上大致等同于另一个实体，只要人们普遍认为这个实体具有重要的道德地位，那么给予机器人以同等地位是正确的；第二，机器人在行为上大致等同于其他实体，人们普遍认为这些实体具有重要的道德地位；第三，应当赋予机器人重要的道德地位。

达纳赫特别对“伦理行为主义”的含义进行了限定，强调其作为规范性的认识论论题的性质。他并不否认内在状态的存在及其作为道德之形而上基础的地位，而是进行修正，主张人们能从可观察到的行为模式中得出充分的认识论证据来相信这种形而上属性的存在。同时，行为也并不限于外部身体，它涵盖所有外部可观察的模式，包括大脑的功能操作[24]。因此，只要通过一种道德图灵测试，一个AMAs似乎就能够作为完全道德行为体而存在——成功的AMAs应在人与AMAs的混杂测试中始终是更为道德的那一个。

“对内在状态不可知论地允许”“从行为表象就能肯定内在状态的性质”，这些知识论上的消极立场在道德领域所作的迁移使用是将道德知识化的另一种方式，其最终结果将是AMAs在道德图灵测试中的道德表演——当评委在测试中不能区分受试者是机器还是人类，且机器的道德测试结果优于人类时，机器就通过了道德图灵测试。但谁来保证机器不是在为了通过测试而表演得像是有道德的那样？

道德的切己性与崇高性排斥道德表演，既不允许对内在状态的不可知，也不能在外部表象与内在状态之间建立简单的互推关系。

刘蕺山发掘了《大学》《中庸》中的慎独要义，强调《大学》所慎为“心体”之独，道德行为体在此犹如为十目所视、十手所指，是思虑既起，唯吾心独知之时；而《中庸》所慎则为“性体”之独，道德行为体在此正处于莫见莫显、极其隐秘的状态，此时不但思虑未起，就连鬼神也莫能察知，达到了道德修持的超自觉境界[25]。心体慎独要求在吾心独知之时仍然真实无妄，已经超越了道德表演的经验层次。但刘蕺山并不停留于此，认为犹有主观意识存于其中，并不终极，进而特别强调求道性中的重要性。他主张：“君子求道于所性之中，直从耳目不交处，时致吾戒慎恐惧之功，而自此以往，有不待言者矣。”[25]299时人评蕺山道德造诣，有“退藏微密之妙，从深根宁极中证入，非吾辈可望其项背者也”之语[26]。慎独之功、“性体”之奥，于是可见一斑。

慎独学对道德根源的深层追问表明在道德表象之上，还有虑起独知、知善知恶的意根，和更加隐秘、所谓“深根宁极”的“性体”。因此，成德之事不能看得过于轻易，以为使人于外表上有所认同就是合格的道德活动者，通关道德图灵测试就算成功。“性体”切己、内在、关乎个体的本真存在，是隐秘幽微、不睹不闻的“亲证”，并非公共观察到的“公证”。王阳明也强调其致良知教乃是“从百死千难中得来”[27]，其中自有未说尽处。如果行为体只把道德当作外于生命的一般对象，不经一番“实有诸己”“动心忍性”的亲证工夫，便辜负此知，于成德无益。揭示了成德之路是一整个不间断戒慎恐惧作慎独工夫的切己体验，纵使圣人亦不能在此无憾，至死尚不免如履薄冰、如临深渊之感。

基于“性体”慎独的道德严肃主义视角反观道德图灵测试，一种消极的“道德刺谬”就会凸显出来。只要智能系统能够通过该测试，哪怕是以欺骗的方式，该系统也是一个合格的道德行为体。但是欺骗、不诚、伪善正是一种不道德的行为，采取不道德的行为获取道德资格何以能被认为是合理的？这种消极的“道德刺谬”，恰可与上文提及的“圣人有憾”形成强烈对比，更加令我们反思，在通向完全道德体的旅程中，人工智能是否真的行走在正确的道路之上？

成功的人工道德设计应当增进公众对道德问题的理解，推进人与机器的进一步融合，甚至开发出优于人类的“完美”道德行为体。但现有的人工道德设计却存在着引发公众对AMAs的信任危机，扰乱社会道德生活秩序的风险。考虑到人工智能，特别是拥有一定道德能力的人工道德行为体在人们日常生活中日益广泛的应用趋势，如果我们在形成一套成熟的人工道德设计方案之前就轻许AMAs以完全道德行为体的地位，让它们过早地承担应由“心体”与“性体”支撑的道德责任，那么人类社会将会因为这种草率而面临更大的风险挑战。

四、结语

AMAs的工程基础缺乏“心体”与“性体”的支撑，面临着道德封限、道德他律、道德表演的多重困境，同儒家所推崇的“不忍人之心”标准并不兼容。就此而言，人工智能既没有成为完全道德行为体的可能，也不应该为其行为所产生的后果承担完全的道德责任。

上述回答或许会面临一些质疑，首先儒家作为古老的中国哲学流派，与现代人工智能技术之间存在极大差异，用儒家模式衡量现代的工程技术，是否只是无力的比附凑泊、缺乏效力？事实上，正是“完全道德行为体”成为了勾连人工智能与儒家思想的枢纽，它一方面作为人工智能道德设计的目标规范着人工智能的工程路径，另一方面又作为“普通成年人”的道德标识而深契儒家哲学的主题，在这一共同问题域中展开平等对话，是儒家思想和人工智能进一步发展的题中之义。继而，儒家思想经常被批评为一种道德精英主义，基于儒家立场质疑人工智能的道德前景，是否偷换“完全道德行为体”为“完美道德行为体”，使得“心体”与“性体”的标准超出了“普通成年人”的范畴承载力？事实上，儒家一贯主张人皆尧舜，这并不是说常人现成的就是尧舜，而是强调“普通成年人”必然拥有成为尧舜的道德能力和潜力。对上述AMAs设计进路的质疑并不是批评它们没有圣人一般的道德高度，而是揭示其工程基础不与“不忍人之心”兼容，不存在拥有“心体”与“性体”的可能性。

人工智能通向完全道德行为体的道路会因此被全盘否定吗？其实不然，“心体”与“性体”是蕴涵在生物人道德生活中的理性事实，英国密德萨斯大学的认知科学教授史蒂夫·托伦斯（Steve Torrance）所讨论的生物道德行为体或是一条折中路径[28]。生物型的AMAs既拥有计算机的计算能力，也具备容纳“心体”与“性体”的生物基础。这合乎人机融合的未来趋势，能得到现实工程技术的支持，首个可编程的生物体Xenobots最近已经实现了自我繁殖。较之于将所有人类知识形式化的符号主义目标与通过人工神经网络完全模拟人脑运作的联结主义理想而言，生物型AMAs似乎也更加现实。

尽管具有上述优势，生物型AMAs却会面临更加棘手的伦理困境。例如，人工制造一种有疼痛感的可编程生物是合乎伦理的吗？它增加了世界的痛苦总量。此外，知识型和关系型的AMAs尽管存在缺陷，但在灾难救援、自动驾驶、医疗护理、老年陪伴等许多重要领域，它们也能独立地发挥作用。虽然这些智能系统不能成为完全道德行为体，但这种地位的缺失或许正是其在实际实用中的优点，只要对之合理利用，也没有必要过分苛责。