美国《人工智能风险管理框架》解读

2023-05-30孔勇李美桃王伟鲍旭华

中国信息化 2023年3期

孔勇李美桃王伟鲍旭华

美国人工智能公司OpenAI于2022年11月30日开放测试ChatGPT，此后ChatGPT风靡全球。随着全球人工智能规模化建设和应用加速，人工智能基础设施、设计研发以及融合应用面临的安全风险日益凸显。

2023年1月26日，美国国家标准技术研究院（NIST）正式发布《人工智能风险管理框架》的1.0版本（以下简称“AI框架”），旨在为设计、开发、部署和使用人工智能系统的个人和组织提供指南，以帮助管理人工智能的诸多风险，并促进开发和使用可信赖和负责任的人工智能系统，降低应用人工智能技术的风险。该AI框架从2021年7月开始筹备，历时18个月，经过多次草案修改，最终正式发布。

一、框架概述

AI框架给出了人工智能系统的定义，概述了可信赖人工智能系统的特征，明确了人工智能系统与传统软件相比新增的许多独特的风险。AI框架主要内容包括两部分：第一部分探讨人工智能相关风险的梳理和框架构建方法，第二部分介绍该框架的四个核心功能，即治理、映射、测量和管理，以帮助各个组织在实践中解决人工智能系统存在的风险。

（一）人工智能定义与其独特风险

框架延续了经合组织（OECD）对人工智能的定义，将人工智能系统定义为：一个基于机器的工程或系统，其可以针对特定目标生成预测、建议或决策去影响真实或虚拟环境，并可在不同程度上自治运行。

尽管已经有许多技术标准和最佳实践可以帮助减轻传统软件信息系统的风险，但人工智能系统带来的安全风险在许多方面都是独特的。与传统软件相比，人工智能系统新增的特定风险包括：

用于构建人工智能系统的数据可能不是人工智能系统预期用途的真实或合理表示。此外，有害的偏见和数据质量问题可能会影响人工智能系统的可信度，从而导致负面影响。

人工智能系统很大程度依赖训练任务的数据，通常与此类数据的数量增加具有较大相关性。同时，用于训练人工智能系统的数据集可能会脱离其原始环境，或者可能会相对于应用环境变得陈旧或过时。

人工智能系统增强的数据聚合能力带来的隐私风险。

训练期间有意或无意的改变可能会从根本上改变人工智能系统的性能。使用预先训练的模型来推进研究并提高绩效，也会增加统计不确定性水平，并导致偏差管理、科学有效性和再现性问题。

增加了软件透明度和对再现性的担忧。无法预测或检测基于人工智能的系统超出统计指标的副作用。由于数据、模型或概念漂移，人工智能系统可能需要更频繁地维护和触发来进行纠正性维护。

（二）可信赖人工智能特征

AI框架阐明了可信赖的人工智能系统的7个特点，包括：有效和可靠、功能安全、安全和韧性、负责任和透明、可理解性和可解释性、隐私增强、公平和有害偏見管理。

1. 有效和可靠

有效和可靠是可信的必要条件，也是其他可信特征的基础。国际标准ISO/IEC TS 5723：2022《可信度词汇》中将“有效性”定义为“通过提供客观证据，确认特定预期用途或应用的要求已得到满足”。人工智能系统的应用部署设计本身存在问题，或对超出其训练范围的数据和设置的通用性较差，则会产生人工智能的负面风险，降低其可信度。“可靠性”是人工智能系统在预期使用条件下和给定时间段（包括系统的整个寿命周期）内运行的总体正确性的目标。

2. 功能安全

功能安全是指人工智能系统应“在规定的条件下，不会导致人类生命、健康、财产或环境受到威胁”。不同类型的人工智能安全风险的管理工作需要基于所呈现的潜在风险的背景和严重程度进行定制。构成严重伤害或死亡的潜在安全风险需要最紧急的优先顺序和最彻底的风险管理流程。

3. 安全和韧性

如果人工智能系统及其部署的生态系统能够承受环境或使用中的意外不利事件或意外变化，或者能够在内部和外部变化面前保持其功能和结构，并在必要时能够平稳地降低安全级别，则可以说人工智能系统具有韧性。常见的安全问题涉及对抗性示例、数据中毒以及通过人工智能系统端点过滤模型、训练数据等。

4. 负责任和透明

可信赖的人工智能取决于问责制，问责以透明度为前提。透明度反映了与人工智能系统交互的个人可以获得关于人工智能系统及其输出的信息的程度，无论他们是否意识到自己正在这样做。有意义的透明度提供了基于人工智能生命周期阶段的适当级别的信息访问。当人工智能系统发生不正确或导致负面影响的相关问题时，透明度对于采取何种补救措施是至关重要的。透明系统不一定是准确、隐私增强、安全或公平的系统。然而，一个不透明的系统很难具有以上的准确、安全等特征。因此，负责任和透明的特性与其他特征都相关。

5. 可理解性与可解释性

可理解性指的是人工智能系统运行机制的表示，而可解释性是指人工智能系统输出在其设计功能目的背景下的含义。可理解性和可解释性共同帮助使用或监督人工智能系统的人员以及人工智能系统用户深入了解系统的功能和可靠性，包括其输出的合理性。可理解和可解释的人工智能系统提供的信息将帮助最终用户了解人工智能系统的目的和潜在影响。

6. 隐私增强

隐私增强一般指有助于维护人类自主、身份和尊严的规范和做法。这些规范和做法通常涉及免于入侵、限制观察或个人机构同意披露或控制其身份的各个方面。与隐私相关的风险可能会影响安全性、偏见和透明度，并与这些其他特征进行权衡。人工智能系统的特定技术特征可能会减少隐私保护。人工智能系统还可以通过允许推断来识别个人或关于个人的隐私信息，从而给隐私带来新的风险。

7. 公平和有害偏见管理

人工智能中的公平包括通过解决有害偏见和歧视等问题来关注平等和公平。公平的标准可能很复杂，很难定义，因为不同文化对公平的看法不同，并且可能会因应用而改变。通过认识和考虑这些差异，组织的风险管理工作将得到加强。但是，减轻有害偏见的制度并不一定就是公平的。例如，利用人工智能系统通过数据去预测在不同群体之间可能的特定问题时，由于已有数据无法体现残疾人等未能有效使用数字现代化能力的人的影响，可能加剧现有的差距或系统偏见。

二、框架构建方法

AI框架的主要内容之一就是人工智能相关风险的梳理和框架构建方法，主要有4方面考量。一是风险框架，包括对风险、影响、危害的理解与处理，以及人工智能风险管理在风险度量、风险容忍度、风险等级排序等方面的挑战。二是目标受众，理想情况下，AI框架应当适用于人工智能的全生命周期和多维度活动。三是风险和可信度，AI框架要求可信赖的人工智能系统7个特征条件要在不同情境下需要适当的取舍与平衡，但人工智能系统可信度始终是首要条件和必备基础。四是有效性评估，要求组织和用户定期评估AI框架是否提高了其管理人工智能风险的能力，包括但不限于其政策、流程、实践、实施计划、指标、度量和预期结果。

（一）风险框架

框架将“风险”定义为事件发生概率和相应事件后果的大小或程度的综合度量。人工智能系统的“影响”可能是积极的，也可能是消极的，或两者兼而有之。当考虑潜在事件的负面影响时，风险是：如果情况或事件发生，可能产生的负面影响或危害程度；发生可能性的函数。风险管理是指在风险方面指导和控制组织的协调活动。

在追求人工智能系统可信度时，风险管理应考虑风险度量、风险容忍度、风险等级排序、组织整合四方面因素。

1. 风险度量

人工智能系统风险在没有明确定义或充分理解的前提下，很难定量或定性地衡量。人工智能系统风险度量的挑战主要体现在与第三方软硬件和数据相关的风险、可靠度量的可用性、人工智能生命周期不同阶段的风险、实际操作环境与测量不同、不可分割性等方面。

与第三方软硬件和数据相关的风险：包括来自第三方数据、软件或硬件本身的风险；开发人工智能系统的组织使用的风险度量方法可能与运营和应用的组织所使用的风险度量方法不一致；开发人工智能系统的组织可能对其使用的风险度量方法不透明。使用第三方数据或将第三方软硬件系统集成到人工智能系统中，会使得人工智能系统风险度量和管理变得更复杂。

可靠度量的可用性：目前缺乏对风险和可信度的稳健和可验证的度量方法以及对不同人工智能用例的适用性的共识，这是一个人工智能风险度量挑战。例如，测量方法可能过于简单化、缺乏关键的细微差别、以意想不到的方式被依赖，或者无法解释受影响群体和环境中的差异。

生命周期不同阶段的风险：在人工智能生命周期的早期阶段测量风险可能会产生不同于在后期阶段测量风险的结果；一些风险可能在给定的时间点是潜在的，并且可能随着人工智能系统的适应和发展而增加。此外，人工智能生命周期中的不同人工智能参与者可能具有不同的风险视角。

实际操作环境与测量不同：虽然在实验室或受控环境中测量人工智能风险可能会在部署前产生重要的见解，但这些测量可能不同于实际操作环境中出现的风险。

不可分割性：不可分割的人工智能系统会使风险度量复杂化。不确定性可能是由于人工智能系统的不透明性（可理解或可解释性有限）、人工智能系统开发或部署缺乏透明度，或人工智能系统固有的不确定性。

2. 风险容忍度

风险容忍度是指组织或人工智能参与者为实现其目标而承担风险的意愿。风险容忍度同样受到法律或监管要求的影响。风险容忍度可能受到人工智能系统所有者、组织、行业、社区或决策者制定的政策和规范的影响。随着人工智能系统、政策和规范的发展，风险容忍度可能会随着时间的推移而改变。不同的组织由于其特定的组织优先级和资源考虑，可能具有不同的风险容忍度。

3. 风险等级排序

风险管理的思想可以帮助组织了解并非所有人工智能风险都是相同的，以便可以根据风险等级有目的地分配相应资源。风险管理工作可采取行动为评估组织开发或部署的人工智能系统的可信度制定明确的指南。随后，应根据评估的风险水平和人工智能系统的潜在影响确定政策和资源分配的优先级。

4. 组织整合管理风险

人工智能参与者在生命周期中的角色不同，就有不同的责任和意识。人工智能风险管理应整合并纳入更广泛的企业风险管理战略和流程，将人工智能风险与其他关键风险（如网络安全和隐私）一起处理，则能够产生综合的结果同时提升效率。组织需要建立和维护适当的角色、责任、问责机制、激励政策等，通过高层的重视和管理实现有效的风险管理，同时需要组织内对风险认识的意识文化变革。此外，实施人工智能风险管理框架的中小型组织与大型组织所面临挑战会因其能力和资源的不同而不同。

（二）目标受众

AI框架指出，在人工智能全生命周期的不同阶段会存在不同的风险，人工智能系统全生命周期中的风险还受不同阶段参与人员的影响。因此，框架旨在让所有人工智能参与者在整个人工智能生命周期维度中共同努力管理风险，从而实现可信赖负责任的人工智能。

1. 人工智能系统全生命周期维度

人工智能系统的全生命周期包括规划设计、收集处理数据、建立运用模型、验证和确认、部署使用、运营监控六个阶段。人工智能系统的多维度以人为核心，延伸到数据输入、人工智能模型、任务输出、应用环境4个关键维度，重点是对其进行测试、评估、验证和确认的TEVV流程。

2. 代表性人工智能參与者

代表性人工智能参与者可以描述为社会组织和具有TEVV特定专业知识的人工智能参与者。其中社会组织可能包括行业协会、标准制定组织、研究人员、民间社会组织、最终用户以及潜在受影响的个人和社区。他们能够成为人工智能风险管理的规范和指南的需求来源；指定人工智能运行的边界（技术、社会、法律和道德层面）；促进对公民自由和权利、公平，以及经济相关的社会价值和优先事项等进行讨论。具有TEVV特定专业知识的人工智能参与者定期执行的TEVV任务可以提供与技术、社会、法律和道德标准或规范相关的见解，并可以帮助预测影响、评估和跟踪风险。作为人工智能生命周期中的一个常规过程，TEVV允许进行中期补救和事后风险管理。

总之，成功的风险管理取决于人工智能参与者的集体责任感，多样化的团队有助于更开放地分享人工智能技术的想法和假设。AI框架的成功也需要不同的学科、专业和经验的参与人的视角，只有更广泛的集体视角才能为发现问题和识别现有风险创造机会。

（三）风险和可信度

AI框架概述了人工智能7个可信度特征，它们之间相互影响。任何一个维度的不可信都是不可取的。例如，高度安全但不公平的系统、准确但不可解释的系统、增强隐私但不准确的系统都是不可取的。因此，全面的风险管理方法需要在可信度特征之间进行权衡。所有人工智能参与者都有责任确定人工智能技术能够在特定环境发挥必要的预期作用，以及如何负责任地使用它。

有效和可靠：部署的人工智能系统的有效性和可靠性通常通过持续测试或监控来评估，以确认系统按预期运行。人工智能风险管理工作应优先考虑将潜在负面影响降至最低，并保证在人工智能系统无法自我纠正错误的情况下能够进行人为干预。

功能安全：在生命周期中必须考虑功能安全，并尽早开始规划和设计，以防止可能导致系统危险的安全故障。人工智能系统功能安全的其他实用方法通常涉及严格的模拟和域内测试、实时监控，以及关闭、修改或人为干预偏离预期功能的能力。

安全和韧性：通过防止未经授权的访问和使用的保护机制，可以保持机密性、完整性和可用性的人工智能系统是安全的。NIST网络安全框架和风险管理框架中的指南适用于此处。安全和韧性是相关但不同的特征。虽然韧性是指在发生意外不利事件后恢复正常功能的能力，但安全性包括韧性，还包括避免、防范、响应或从攻击中恢复的能力。

负责任和透明：在寻求对人工智能系统的结果负责时，应考虑人工智能参与者的作用。与人工智能系统相关的风险和责任关系在文化、法律、部门和社会背景中有着广泛的不同。当后果严重时，人工智能开发人员和部署人员应考虑主动调整其透明度和问责制做法。同时，保持训练数据的来源并支持将人工智能系统的决策归因于训练数据子集，可以有助于提高透明度和问责制。

可理解与可解释性：缺乏可解释性可以通过描述人工智能系统的功能来避免该风险发生，并根据用户的角色、知识和技能水平等个人差异进行描述。透明度、可理解性和可解释性是相互支持的不同特征。透明度可以回答系统中“发生了什么”的问题。可理解性可以回答“如何”在系统中做出决策的问题。可解释性可以回答系统做出决策的“原因”及其对用户的意义。

隐私增强：用数据最小化等人工智能的隐私增强技术，可以支持人工智能系统的隐私增强设计。当然，在数据稀疏等特定条件下，隐私保护技术可能会导致准确性的损失，从而影响某些领域中关于公平性和其他值的决策。

公平和有害偏见管理：NIST确定了需要考虑和管理的三大类人工智能偏见：系统性、计算和统计性、人类认知性。偏见以多种形式存在，虽然偏见并不总是一种负面现象，但人工智能系统可能会因数据和算法而增加偏见的速度和规模，使对个人、群体、社会的伤害永久化和扩大化。偏见与社会中的透明度和公平观念密切相关。

（四）有效性评估

AI框架要求组织和用户定期开展有效性评估，涉及对政策、流程、实践、实施计划、指标、度量和预期结果的定期评估，以确定其管理人工智能风险的能力是否提高。NIST将与其他机构合作制定评估AI框架有效性的指标、方法和目标，并广泛分享成果信息。

通过有效性评估，用户将得益于以下方面能力的增强：一是加强人工智能风险的治理、映射、测量和管理流程，并清晰记录结果；二是提高对可信度特征、社会技术方法和人工智能风险之间的权衡；三是制定系统调试和部署应用的明确流程；四是制定政策、职责、实践和程序，以改善与人工智能系统风险相关的组织问责工作；五是加强组织文化，优先识别和管理人工智能系统风险和潜在影响；六是在组织内部和组织之间更好地共享信息，包括风险、决策过程、责任、常见缺陷、TEVV实践和持续改进方法等；七是增强人工智能系统的TEVV和应对相关风险的能力。

三、框架核心功能

AI框架的另一个主要内容就是介绍其4个核心功能，即治理、映射、测量和管理，以帮助组织在实践中解决人工智能系统的风险。这些功能进一步细分为类别和子类别。其中，治理适用于组织人工智能风险管理流程的所有阶段，映射、测量和管理功能可应用于人工智能系统特定环境和人工智能生命周期的特定阶段。

（一）治理

治理是贯穿人工智能系统风险管理全过程、与其他三项功能有交叉的基础性功能，对治理的持续关注是对人工智能系统全生命周期实行有效风险管理的内在要求。强有力的治理可以推动和加强内部实践和规范，以促进组织风险管理。通过治理可以确定使命、目标、价值观、文化和风险承受能力的总体政策；高级领导层为组织内的风险管理以及组织文化奠定基调；建立治理政策中描述的结构、系统、流程和团队；管理层将人工智能风险管理的技术方面与政策和运营保持一致；文档可以提高透明度，改进人工审核流程，并加强人工智能系统团队的问责制。

治理功能具体包括6个类别和19个子类。其中6个类别主要包括：一是与其他三项功能相关的政策、流程、程序和实践均应完善透明且有效实施；二是完善问责机制，便于相关人员获得授权和培训，有效负责其他三项功能开展；三是优先考虑团队的多样性、平等性、包容性和可訪问性；四是建设风险警钟长鸣的管理团队，完善风险信息交流共享；五是保持与人工智能系统用户的密切联系，跟踪并及时反馈对社会和用户的潜在影响；六是完善解决机制，及时处理由第三方软件、数据、供应链引发的风险和潜在影响。

（二）映射

由于人工智能系统的全生命周期涉及众多环节和参与人员，单一环节的负责人很难对最终结果和潜在影响进行通盘考虑，这种复杂性和不可预见性为人工智能系统的风险管理带来了不确定性。映射功能通过整合来自不同内部团队的观点以及与开发或部署人工智能系统的团队人员的互动，收集外部合作者、最终用户、潜在受影响社区等广泛的观点，构建人工智能系统风险管理的背景因素，帮助组织主动预防负面风险。

完成映射功能，框架用户应具有关于人工智能系统影响的充分背景知识，以决策是否设计、开发和部署人工智能系统的初始决定。通过映射会获得如下能力：提高理解人工智能应用背景因素的能力；检查对使用环境的假设；识别系统在其预期环境的功能；确定人工智能系统的积极和有益用途；提高对人工智能和机器学习流程局限性的理解；确定现实应用中可能导致负面影响的约束条件；预测使用超出预期用途的人工智能系统的风险。

映射功能具体包括5个类别和18个子类。其中5个类别主要包括：一是明确系统运行的相关背景因素和预期环境；二是进行系统分类，明确人工智能系统支持的任务和具体方法；三是了解系统功能、目标用途、成本收益等信息；四是将风险和收益映射到系统的所有组件和环节，包括第三方软件和数据；五是评估对个人、群体、组织、社会的潜在有益和有害影响。

（三）测量

测量是指采用定量、定性或混合工具，对人工智能系统的风险和潜在影响进行分析、评估、测试和控制。人工智能系统在部署前和运行中均应当定期测试，对系统功能和可信度的各个方面如實记录。测量职能部门应设置严格的软件测试和性能评估要求，采取不确定性度量、性能基准比较、结果记录和正式报告等方式方法。此外，独立审查可以提高测试的有效性，并可以减轻内部因潜在利益冲突导致的偏见问题。

度量和测量方法应遵循科学、法律和道德规范，并在公开和透明的过程中进行。应考虑不同测量类型为人工智能风险评估提供有意义的信息的程度，开发新的定性和定量测量类型。通过测量功能实施，框架用户将增强其综合评估系统可信度、识别和跟踪风险，以及验证度量有效性的能力。随后，管理功能将利用测量结果来协助风险监测和风险应对工作。

测量功能包括4个类别和22个子类。其中4个类别主要包括：一是确定并采用适当的方法和指标，定期记录、评估和更新；二是评估系统的可信性特征，涉及代表性、有效性、安全性、稳健性和可持续性等；三是完善特定风险识别跟踪机制，有效处理现有的、未知的、紧急的各种风险；四是定期评估和反馈测量功能的有效性，如实记录相关信息和结果。

（四）管理

管理涉及对系统风险因素的定期映射和测量，包括对事故和事件的响应、补救和沟通，以减少系统故障和负面影响的可能性，并根据评估结果制定风险优先等级计划、定期监测和改进计划。通过管理功能实施，框架用户增强了对人工智能系统风险管理的能力，并有效配置风险管理资源。随着人工智能参与者的环境、背景、风险和需求或期望的不断变化，框架用户有责任持续将管理功能应用于已部署的人工智能系统。

管理功能包括4个类别和13个子类。其中4个类别主要包括：一是基于映射和测量功能的评估和分析结果，对系统风险进行判定、排序和响应；二是制定实施最大化收益和最小化负面影响策略，明确风险响应步骤；三是有效管理来自第三方的风险和收益，定期监控记录；四是完善风险响应和恢复机制，对已识别、可测量的系统风险加强沟通交流和记录监控。

四、总结

美国NIST公布的《人工智能风险管理框架》为人工智能治理和人工智能安全风险管理提供了有益参考。AI框架给出了人工智能系统的定义，概述了可信赖人工智能系统的特征，明确了人工智能系统与传统软件相比新增的许多独特风险，重点探讨人工智能相关风险的梳理和框架构建方法，详细介绍了AI框架的“治理、映射、测量、管理”4个核心功能，为设计、开发、部署和使用人工智能系统的个人和组织提供指南，以帮助组织在实践中认识、管理人工智能系统的诸多风险。

通过分析可得，此次正式发布的AI框架主要包括3个特点。一是AI框架并非强制性技术标准，强调自愿使用、支持创新与合作的原则。尤其在风险度量、可信度权衡、框架有效性评估、框架配置文件等方面具有一定不确定性，NIST也明确愿意与相关方共同合作推进框架应用，以增强人工智能系统安全风险管理。二是AI框架重视全局视角的风险管理，包括人工智能系统全生命周期和人工智能全部参与者视角。强调全生命周期的6个阶段4个关键维度和TEVV重点流程，指出成功的风险管理需要人工智能参与者的集体责任感和不同学科、专业和经验的参与人的广泛合作。三是AI框架给出了核心功能、类别和子类的详细功能描述，能够更好地指导风险管理工作落地。AI框架主要介绍了“治理、映射、测量和管理”4个核心功能，明确了各核心功能之间的关系，并通过19个类别和72个子类进行了详细描述。

总之，人工智能逐渐在人类社会场景中发挥作用，其治理与安全仍然处于摸索阶段。人工智能安全的法规、政策、标准是当今世界各国关注的重点，也是实践中亟待解决的关键问题，未来还有很长的路要走。