人工智能透过言语语言识别精神障碍

2023-07-17丁红卫

上海师范大学学报（哲学社会科学版） 2023年4期

丁红卫

摘要：针对精神卫生领域目前面临缺乏早期诊断产品的困境，文章提出使用人工智能分析语言数据识别心理健康问题将是一项可行的方案。神经科学的研究发现，语言是精神的窗户。以常见的抑郁症和典型的精神分裂症为例，表明机器学习可以通过分析语音文字及多模态的语言参数进行智能诊断。一场突如其来的新冠疫情不仅使人们更加清晰地意识到精神健康的重要性，也让人们深刻地认识到可远程采集的语言数据作为精神障碍早期筛查资源具有独特的优势。随着移动设备不断普及，利用语言数据监测心理健康的前景更加广阔。然而语音语言数据要成为诊断精神障碍的生物标记物，还面临算法评估与临床验证的挑战。人工智能的发展需要遵循以人为本的理念。

关键词：精神障碍；孤独症（自闭症）；老年痴呆；语音语言数据；计算精神医学；情感计算；心理健康

中图分类号： TP18 文献标识码：A 文章编号：1004-8634（2023）04-0024-（11）

DOI：10.13852/J.CNKI.JSHNU.2023.04.003

一、引言

习近平总书记指出，“没有全民健康，就没有全面小康”，而精神健康一直是人类健康的重要组成部分。但是现代社会中的各类问题随时都会给人带来各种精神困扰，一旦处理不好，很可能导致心理和精神问题。精神障碍是大脑机能发生紊乱导致认知、情感、行为等精神活动障碍的总称，既包括中青年期可能出现的焦虑与抑郁障碍，也包括儿童期发现的自闭倾向与老年期容易出现的智退现象。1 新的调查显示，青少年抑郁症发病率逐年上升；儿童被诊断为孤独症2 的人数在显著增加；而伴随人类平均寿命延长，老年痴呆症患者人数也大幅上升。包括各类神经类和精神类疾病在内的脑相关疾病已经超过了心血管疾病与癌症，成为所有疾病中社会负担最大的疾病。3 由于目前有关脑疾病治疗还面临致病机理不清楚、药物研发缓慢、失败率高等问题，研发各种脑疾病早期诊断智能产品并进行早期干预将有助于阻止或减缓疾病的发生。2021年上海交通大学携手《科学》杂志发布的125个新科学问题里面也将“我们是否能更有效地诊断和治疗复杂的精神障碍”列为人类目前与未来将致力于解决的最具挑战性的问题之一。1

近年来，随着分子生物学与影像学等学科的快速发展，相关研究在精神卫生领域也取得了诸多研究成果。但中国疾病控制中心精神卫生中心主任陆林院士指出，“目前，精神障碍的诊断缺乏客观、可定量的生物标记物（biomarker）”，2 主要依据国际疾病分类标准、精神障碍诊断与统计手册，3由有经验的医生问诊进行判断。这也表明长期以来语言为诊断精神障碍提供了重要信息。临床经验丰富的精神科医师通过语言这个窗口能够评估患者的心理健康状况。由于人的精神状态往往是从语言行为中表现出来的，而且相对脑影像等数据，语言数据具有采集便捷等优点，是计算精神医学中比较容易大规模开展的研究对象。语言数据作为诊断精神障碍的新型数字生物标记物也具备非常好的发展潜力。4 研发大规模的精神障碍早期诊断技术需要依赖人工智能。人工智能是“利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统”。5 受益于计算机技术的快速发展，人工智能在诸多垂直领域已有非常成熟的应用。虽然人工智能在精神卫生领域的应用还处于起步阶段，但正影响着精神障碍的评估、预测、治疗和康复方式。人工智能科学家使用数据挖掘技术，结合语言学与精神科知识，可以对语言数据（包括语音、语义、词汇、句法等）、副语言数据（譬如情绪韵律、面部表情、肢体动作），以及语言相关数据中所蕴含的生物及社会认知信息等进行分析与建模，从而对精神障碍做到精准预测与评估。

二、言语语言6 表达精神状态

语言是洞察人类天性之窗，7 是人们表达思想和情感的媒介。人们通过言语交流传情达意，交流思想。我们言语中的语音语调、词汇搭配、语句长度、语义逻辑都是理解对方思想的关键线索。语言也是人们大脑功能重要的外在表现形式。精神障碍患者大脑机能发生紊乱，便会在言语交流中表现出思维紊乱及语言异常。语言一直是人们洞察心理健康的窗口。8 当精神科医生问诊时，他们会倾听这些言语语言信号来获取患者的精神健康状况，再凭借其渊博的专业学识与丰富的临床经验来形成对病情的判断。

1.思维紊乱的语言表现及其评估

一般说来，精神障碍个体的思维出现了问题，便能通过很多语言特征表现出来。以典型的精神分裂症为例，根据美国精神障碍诊断与统计手册DSM-5（英文全称Diagnostic and Statistical Manual of Mental Disorders， 5th Edition），诊断标准必须具有5个特征性症状的两项以上，其中前3项阳性症状（即幻觉、妄想、思维或言语紊乱）中至少有一项符合。而这前3项可从患者语言中反映出来。后2项症状（即有明顯紊乱或紧张症行为的阳性症状，以及如情感受限等阴性症状）则可能从言语行为的语音韵律中显露出来。

早在1908年，瑞士精神医学家布洛伊勒第一次提出了“精神分裂症”这个概念，用来描述人格、思想、记忆、知觉之间的功能分离时，就注意到这种思维障碍是如何从语言中表现出来的。1 临床上已有专门评定思维、语言和交流问题症状严重程度的量表TLC（英文全称Thought， Language and Communication）。2 TLC包括18项指标：（1）言语贫乏；（2）言语内容贫乏；（3）言语挤压；（4）离题言语；（5）“擦边”言语；（6）语言脱轨；（7）言语不连贯；（8）思维逻辑障碍；（9）音联；（10）词语新作；（11）字词近似的用法；（12）病理性赘述；（13）谈话主题缺失；（14）持续言语；（15）模仿言语；（16）言语中断；（17）矫饰语言；（18）自我参照的言语。评分按照5级从0分（无症状）到4分（极重度）。定式访谈提纲包括不受干扰的谈话和回答问题，开始时让访谈对象在不受任何干扰的情况下介绍自己，时间不少于5分钟；然后选择有关个人、家庭和既往史提问。一般完成TLC评定约需45分钟，中文译本量表仅对访谈中个别问题依据中国文化背景进行了修正。刘登堂和徐一峰的研究表明中文版本TLC有较好的内在和外在信度，与阳性和阴性症状量表PANSS（英文全称Positive and Negative Syndrome Scale）的总分、阳性量表分、思维障碍分、认知因子和兴奋因子等均呈显著相关，具有较好的效度。3

TLC的普适性归功于科学的理论框架与有效的临床验证。首先，TLC制定的理论依据是精神障碍人群存在认知过程的异常，而内在的精神问题起源会导致外在的语言混乱。通过观察患者语言及言语行为有望辅助诊断内在的心理精神问题。其次，精神障碍核心表现的思维紊乱并非单一症状表现，而是由不同的语言问题/纬度组成。为了能涵盖所有精神障碍引起的语言异常现象，TLC包含了12项交流障碍、4项语言障碍和2项思维障碍。这些分类在临床验证中有很好的信度与效度。TLC中的诸多项目，如言语不连贯、词语新作、模仿言语等症状也适用于其他精神障碍如老年痴呆与孤独症等。从语言学角度来看，TLC也涵盖了语言学的主要分支，如音系的韵律单调乏味，形态的奇异语词新作，句法的复杂句式减少，语义的找词选词困难，语用的脱轨离题话语等。而这些外显语言方面的问题正是其内在大脑认知机能出现异常的表现。因此，TLC不仅可以用来评定精神分裂症患者，而且也可以应用于抑郁及双向情感障碍等其他精神障碍的语言行为评定。

2.语言异常的脑机制研究

随着生物科学与认知神经科学等现代科学技术的迅速发展，人们通过实验手段进一步证实了“人类的言语语言反映了大脑的健康状态”这一论断的科学性。近年来，《自然》与《科学》等权威学术期刊上的研究论文从脑科学方面揭示了语言与大脑之间的密切联系。越来越多的研究表明，人类用语言反映思维，人类的大脑已经是语言化的大脑。4

脑成像技术不但说明语言各层面在大脑中都有相应的加工区域与神经回路，而且发现精神障碍人群的思维紊乱以及语言混乱往往与语言网络中的结构和功能异常密切相关。一项针对精神分裂症的思维紊乱与脑成像关系的系统综述研究整合了61项研究结果，显示患者额下回、颞上回、下顶叶存在缺陷。这些脑区在静息态功能磁共振成像研究中表现出过度活跃，而在功能磁共振成像的语义加工或自由言语产出研究中表现出过多或过少活动的异常现象。此外，扩散张量成像研究则表明连接语言网络的额叶与颞顶叶的纤维束白质也出现病变。5 精神分裂症不仅在大脑语言加工的神经网络出现病变，在大脑感知语言的区域也出现异常。一项神经生理学综述研究，综合了近年来使用具有毫秒级高时间分辨率的脑电图和脑磁图仪器研究精神分裂症语言加工的权威文献，结果显示，精神分裂症患者的听觉、语言与记忆皮层皆受到严重损坏；特别是在言语感知与语言加工过程中出现相互关联的神经震荡缺陷，从而发生语言感知与理解异常。1 语言加工脑影像的临床研究进一步发现，语言加工异常不仅能辅助诊断精神障碍，而且能预测其发生的概率。精神障碍高危人群相对正常对照组在加工自然话语时，相关大脑语言区域网络（如双侧大脑内侧前额叶皮质、左侧额下回和颞中回以及前扣带回）显示出神经活动增强现象，而与语言加工相关的颞上回、尾状核、左侧额下回区域的神经活动增加程度则可预测数月后转化为精神障碍的概率。2

3.语言情感的相互交融

尽管TLC有着较好的适用性，但TLC中的语法语用等评估并不能完全概括精神障碍人群语言表现出的所有问题，语言表现出的社会认知（social cognition）3 问题也应该归于言语交流障碍，其中情感加工尤其重要，在临床研究中表现出与语言交流障碍显著相关。4

语言不仅能交流信息，更能传递情感。如果要充分利用语言相关信息来洞察人的精神状态，除了关注语言的音系、形态、句法、语义等语法问题，以及交际意图等的语用问题，还应关注交际互动时语气、眼神、手势、身体姿态等其他副语言信息传达的社会认知信息。在言语交流中，文字中的语义情感与语音中的韵律情感相互交融，是否能正确理解与表达情感也与大脑的语言、认知与情绪加工的神经网络相关联。而精神障碍的核心问题如认知、情感、行为等精神活动障碍往往可以从情感语言的理解中表现出来。笔者的团队通过对主要精神障碍人群韵律情感感知领域的系统综述分析发现：精神分裂症人群、5 抑郁与双相情感障碍6 以及孤独症人群7 在韵律情感感知方面与正常人群存在显著差异。如果结合面部表情等多模态信息，言语情感的感知能更好地区分精神分裂症、8 孤独症等精神障碍。9 已有的神经心理学研究表明，精神障碍人群由于认知情感相关的大脑神经受损，在情感语言理解中出现偏误，在实际言语交流中也出现情感语言表述异常。精神科医生正是通过问诊来捕捉这些体现在言语交流中的异常从而做出诊断，而人工智能则是学习有经验医生的分析方法，从言语语言数据中提取相关信息，进而做出判断。此外，也有研究表明，仅使用心理量表不能完全捕捉到人类话语的丰富性，特别是未能考虑文化情感等对精神病理学的影响。而利用人工智能与机器学习却能够从语音中捕捉到细微的声学参数，从语音转写的文字中计算出语义连贯性，从而能够更全面地利用语言行为中表现出来的社会认知，更加精确地识别精神障碍。10 因此，正如有学者敏锐地指出的，语音语言数据不只是诊断精神障碍的生物标记物，更是生物社会标记物（biosocial marker）。1 言语语言中所反映的社会认知障碍才是语言数据的宝贵之处，也是人工智能识别精神障碍未来的研究方向。

三、人工智能辅助识别精神障碍

由于目前精神障碍的诊断主要靠有经验的精神科医生通过逐个临床问诊进行判断，加之长期以来人们对精神障碍问题重视不够，还有更多有轻微症状的人群并未主动来医院就医，这就让疾病的诊断变得缓慢且被动。若能使用人工智能产品及早预测到精神疾患潜在的发病危险，及时采取有效措施进行干预，就能把疾病控制在萌芽状态。尽管磁共振成像和功能性近红外光谱等技术的应用在很大程度上能够辅助传统的精神障碍问诊诊断。但若要对那些还未能来医院就诊的潜在人群进行预测，尤其是大面积筛查，脑影像等生物數据的采集难以做到，而语言数据则可以满足这个需求。语言数据能反映大脑健康状况，而且可以廉价、远程、非侵入性地获得，可作为精神障碍人群人工智能早期筛查的潜在资源。因此，针对精神障碍人群语音语言数据的人工智能研究也悄然兴起。

由于现代语音技术可以精确地记录人的言语，而语音语调能直接反映出人的情绪变化，语音分析便成为最早应用于精神障碍诊断中的智能手段；随着语音识别等技术不断成熟，计算语言学家们通过将语音转化为文字，进一步分析词汇、句法、篇章方面的特征，可以发现精神障碍患者情绪与思维等方面的问题；而借助先进的图像处理技术，科学家们还可以通过面部表情和动作手势来分析说话人的情绪状态。因为语言的表达也是多模态的，综合语音、文字与动作表情的多模态语言数据能更加全面地反映人的精神状态。将采集的多模态语言及副语言信息与有经验的精神科专家的诊断结果相关联，可以学习到原本只有训练有素的精神医学家才能从言语交流当中捕捉到的心理健康问题。

用于机器学习的语言数据通常来源于精神科医生的问诊记录以及各类为此研究专门收集的语音等多模态语料库。2 人工智能专家通常基于语言学已有的研究结果，先提取语音或文字中重要的参数，然后将精神障碍人群与正常对照人群的各类参数进行比较，通过深度学习等算法分析语言数据，学习精神科医生的诊断结果。目前的学术研究经常是将已有的数据库分成训练集与测试集两部分，用训练数据获得的最佳算法，去推断测试数据的结果，并与医生的诊断结果相比较来评估算法的精确度。而相关的应用程序则是通过大量的语言数据来学习已有的医生诊断结果，去预测新的语言数据是否呈现精神障碍特有的语音及语言现象，从而给出机器的自动诊断结果。如同人工智能对口语与作文的自动评分无法完全代替人工评分，其对精神障碍的评分目前也只可以作为一个辅助的方式，还无法代替医生的诊断。但是由于语言数据具备针对精神障碍进行大规模早期筛查的独特优势，从而也促使语言学、人工智能与精神科的专家进行跨学科合作，不断改进利用语言数据来识别精神障碍的精准性。

1.语音韵律诊断

由于人的语音当中包含了很多书面语言所不具备的表情达意的情绪信息以及与生理相关的生物学信息，语音信号的情感计算已用于诊断很多精神障碍。2020年，哈佛大学医学院与麻省理工学院脑与认知科学系的科学家对语音自动诊断精神障碍方面的文献做了一项综述研究。3 他们从数据库中找到1395篇近几年发表的相关论文，并从中筛选出127篇进行进一步分析。结果表明，近一半的研究与抑郁症诊断（48.6%）有关，排在第二、第三位的分别是精神分裂症（18.1%）与双相障碍（16.5%）的诊断。近年来，患病率上升相对较快的抑郁症是使用语音参数进行诊断研究最多的精神障碍。

据2018年世界卫生组织公布的数据，全球有3亿多人遭抑郁症的困扰。而且很多患者是中青年群体，不但给病患个人及其家庭带来了极大的痛苦，也给社会造成了巨大损失。根据精神障碍诊断与统计手册的诊断标准，两周以内几乎每天的大多数时间出现持续的抑郁情绪或兴趣快感缺失、体重骤降或骤升、疲惫乏力等几大症状的五种以上，即可被诊断为抑郁。抑郁障碍表现出高患病率、高致残率、高复发率和高自杀率的特点，是当今社会中突出的精神健康问题。因此，将人工智能的语音诊断产品用于抑郁症的早期诊断成为当务之急。

人們进行语音产出时，所需的运动神经纤维间的配合要比人类其他活动更多。语音产出过程涉及的呼吸系统、发音声道、面部口唇等器官的肌肉多达一百多块，是非常复杂的神经学行为。由抑郁引起的大脑神经变化也会在语音产出方面有所表现，2015年发表于语音学权威期刊的一篇综述对历年来基于语音评估抑郁和自杀风险的文献进行了详细梳理。1 分析结果显示，抑郁症患者由于在心理生理方面的障碍，与正常人群相比，在语音方面具有以下共同特征：（1）超音段韵律异常：由于心情低落、兴趣缺失，表现出单调的韵律特征，如音强减弱，音域减小，语速减慢，语调与节奏的单调性增强；（2）发声态异常：由于声带过分紧张，而与之配合的喉部肌肉张力减小，造成声带振动紊乱；（3）共振峰异常：由于面部肌肉紧张加上舌位运动幅度减小，使得声道共振减弱，通常表现为前元音第一共振峰上升，第二共振峰下降；（4）语谱异常：由于抑郁症患者的声道与声带肌肉过分紧张，影响了声道的共振滤波功能，经常会产生嘶哑、紧张的嗓音。由于语音的频谱通常与肌肉张力与控制力密切相关，特别合适捕捉发音动作的详细信息。抑郁症患者在很多频谱参数方面都会出现异常，譬如梅尔倒谱系数特征结合高斯混合模型是检测是否存在抑郁障碍以及区分抑郁程度的一种较流行的语音参数化方法。但这些异常频谱现象与心理生理的关联性还有待进一步考察。目前使用声学特征区分抑郁症患者和非抑郁症患者的语音自动分析结果与专家评估一致性可达75%—80%；语音分析用于预测抑郁高危受试者2年后发病率的准确率达74%。同样，语音声学分析还有可能检测出精神障碍早期幻听的迹象。总之，很多研究表明，语音参数的变化比其他很多生物特征都更适合作为抑郁症和自杀倾向的早期筛查与预测的指标。

语音数据除了可以自动识别抑郁症以外，还被广泛应用于其他精神障碍，如老年痴呆、精神分裂症和孤独症等。特别是老年痴呆的自动识别更是吸引了众多的人工智能专家。2 国际语音领域顶级会议Interspeech自2020年开始，由卡内基梅隆大学与爱丁堡大学的语音学家联合发起国际阿尔茨海默症识别竞赛。而2021年召开的第16届全国人机语音通信学术会议，也启动了由高校与企业联合组织的阿尔兹海默综合症识别竞赛。这些竞赛不仅关注老年痴呆症的识别，更关注老年痴呆到来之前的轻度认知障碍的识别，期望能够尽早研发出有临床应用的智能产品。

2.语言文字诊断

这里的语言文字既包括口语转写的文字，也包括直接书写的文字。语言文字中的词语选择也能精确地反映人的心理健康状况。比较悲观的人倾向于使用孤独、伤心、郁闷等消极情绪的词汇，比较乐观的人则更多使用诸如开心、高兴、幸福等积极情绪的词语。在文本分析中，除了研究词汇表述的情绪，量化语言语义丰富度也是预测精神障碍的一项重要指标。而通过招募精神分裂症谱系障碍和情绪障碍患者与健康被试的临床对照研究，证实了Facebook上发帖的语言与图片可以被认作其心理状态的客观信号。3

计算语言学研究精神障碍人群的语义往往注重测量词汇间语义连贯性，而来自由哈佛等大学的科学家2019年发表的一项研究，针对精神分裂症语义空洞的特征，着重关注语言的语义密度。1他们使用矢量分解技术处理句子中的单词，使得单词语义之间差异的大小能通过“语义空间”中的距离远近得以呈现。研究使用来自Reddit社交平台3万多用户的帖子构建了一种检测语义密度的算法基线，并将这些信息与临床实验数据进行比较。结果表明，只需要对语义密度和声音相关词汇这两种语言变量进行自动分析，就可以预测一个有风险的受试者是否会发展成为精神障碍患者。临床实验中研究者招募了40名受试者参加为期两年有随访的实验，并将受试者访谈的言语转换为文本，输入上述基线算法系统。受试者中30名的文本作为训练数据（其中有7名之后发展成为精神障碍），剩余10名的文本作为测试验证数据（其中有5名之后发展成为精神障碍）。若将语义密度和声音相关词汇作为预测指标，使用验证数据集的预测准确率达90%以上。他们发现更频繁地使用与声音相关的单词（由于患者出现幻听症状）和低语义密度或模糊性语言（由于思维受损）的受试者将来出现精神障碍的可能性更大。虽然参加临床实验的受试者人数还比较有限，但是该项目由于针对精神分裂症幻听的阳性症状与语言内容贫乏的阴性症状展开研究，能较精准地预测精神障碍的发生概率。而且神经科学研究也进一步将言语语言与大脑影像数据相结合，发现精神障碍人群的句法语义等言语语言方面关联度较低与他们脑神经连接障碍高度相关。2计算精神医学中的语言研究不断取得新的进展，让我们更加有信心将语言分析作为精神障碍早期检测手段之一。

3.多模态综合诊断

若将口语的语音与转写的文字相结合，相较于单独使用其中一项，预测评估的准确率会有明显提高。3 而多模态智能预测与评估进一步将语音文字与辅助语言表达的面部表情、注视模式、动作手势等相结合，其预测评估的精准度可与有经验的精神科专家相媲美。4 使用多模态的方式识别评估抑郁症也同时引起了学术界与工业界的重视，科学家联手企业家共同研发利用多模态语言资源的人工智能产品，用于预测精神障碍风险，并促进产品转换。从2011年起，由国际知名大学发起每年一次的视听觉情感计算挑战赛（Audio-Visual Emotion Challenge），这是情感计算领域公认的顶级国际竞赛。该挑战赛近几年将“抑郁、情绪和情感”作为视听情感的挑战内容之一，进一步促进了将语言作为评估预测精神障碍工具的国际研究。5

四、疫情防控凸顯语言优势

尽管人工智能技术在使用言语语言诊断或预测精神障碍方面的研究不断深入，但实际应用场景并不多见。而在此次疫情防控的阻击战中，语言数据驱动的计算精神医学研究的优势得到了凸显。一方面疫情加剧了高危人群心理机能的混乱，使得精神障碍发病和复发的概率显著提高。另一方面疫情防控期间人们大量使用社交媒体。这一切无疑都为利用语言数据促进人工智能发展开辟了丰富的实战场所。

1.疫情引起焦虑情绪

根据世卫组织2022年3月发布的科学简报，在新冠大流行的第一年，全球焦虑和抑郁患病率大幅增加了25%。1 简报分析疫情导致的社会隔离使人们在工作与社交活动方面受限，加上对感染和死亡的恐惧，导致焦虑与抑郁情绪激增。世卫组织各成员国也积极采取行动，向相关人员提供精神卫生和社会心理支持。2021年世卫大会通过了更新后的《2013—2030年精神卫生综合行动计划》，进一步强调在突发公共卫生事件中加强精神卫生服务的重要性。

各类学术研究也表明新冠疫情暴发伊始，各类恐慌情绪给很多人造成了不同程度的负面心理影响。2021年，国际期刊发表了国内专家对新冠肺炎流行期间中国人的心理状况及患病率的综述与元分析。该研究通过对2019年12月新冠肺炎暴发至2020年12月期间文献检索，发现有多达8787篇文章报道相关内容。研究者对其中满足相关信息的66篇论文进行了荟萃分析。分析结果显示，在疫情暴发的早期，应急和恐惧症状属于高发现象；而在疫情流行期间，焦虑和抑郁症状持续高发。研究最后提醒大家需要警惕持续的心理健康问题及创伤后应激障碍和其他精神障碍的风险。2 在2022年3月《科创中国·院士开讲》中精神医学专家陆林院士也指出，新冠疫情给人类的心理健康带来了重大影响，而且这种影响将持续多年。而如何及早发现、及早干预是解决问题的关键所在。

2.防控呼唤远程服务

由于疫情防控形势严峻，计算精神医学可利用的影像学等资源因需要现场采集表现出一定的局限性，因而，可以远程采集的语言数据成为科学家关注的焦点。由于防控隔离需要，线下医院门诊大幅减少，网上的语言交流急速增长，各类使用语言语音大数据信息分析心理状态的研究异军突起。哈佛医学院等多家机构的研究人员通过使用机器学习分析了80多万个社交媒介的帖子，并通过帖子特征将发帖群体进行分类。结果发现，在2020年1月初发布的有关新冠疫情的帖子出现峰值。随着疫情的发展，有关经济压力、孤独之类的群体明显增多。通过独立的有监督和无监督机器学习分析，结果显示，焦虑成为社交平台一个普遍的主题。利用无监督聚类，研究者们还发现了一些与孤独和自杀有关的自然集群出现。而且与前一年同期相比，这些消极的集群中用户数量增加了一倍。3 这项研究表明，自然语言处理技术可以通过社交媒介的文本分析实时有效地发现人们的精神健康问题，准确地识别出风险人群，也能够让国家及时采取措施，为急需帮助的人群提供有效援助。

除了网页的文字帖子，利用语音与多模态的诊断也可以通过远程采集音视频信息，进行人工智能分析与处理，这在疫情防控期间发挥出无与伦比的优势。2022年春季疫情防控期间，各大语音智能公司与高校纷纷研发抑郁症的手机自测功能，将医生的问诊通过手机应用程序搬至线上，并由使用语音合成与语音识别的机器人模拟医生问诊与使用者对话，进行线上智能化心理健康测评。若有足够量的使用者参与，焦虑抑郁早期筛查的人工智能产品将得到不断完善。

五、移动设备助力智能应用

尽管人工智能利用语音及文本信息预测精神障碍的学术研究方兴未艾，但语言数据是否能成为精神障碍临床方面诊断的生物标记物仍处在探索之中。为了采集更多的数据用于智能训练，语音及语言信息识别精神障碍的智能应用程序通常会安装在移动电子设备如智能手机内。1 中国手机的普及率极高，2023年中国互联网络信息中心发布的第51次《中国互联网络发展状况统计报告》显示，截至2022年12月，中国网民规模达10.67亿，手机网民达10.65亿，网民使用手机上网比例高达99.8%。2 可远程采集的语言数据与无处不在的智能手机和社交媒体相结合，使得语言从未像现在这样容易被记录、被数字化。使用移动平台或手机客户端采集语言数据，监控心理健康状态，提供心理服务既有诸多潜在优势，也面临更多挑战。

1.潜在的优势

正如陆林院士指出的，当代精神医学的概念已超越了传统精神医学所涵盖的范畴，不只重视重性精神障碍，对轻性精神障碍也愈加关注。同时也更加注重一般人群的心理健康，从而减少和预防各种心理或行为问题的发生。3 相较于传统精神医学主要依赖于精神医学家的技能、经验和意见的诊断，以人工智能为依托的语言数据分析在精神障碍的预测与评估方面具有诸多潜在的优势。

首先，言语提供了认知功能的丰富信息，因此，言语作为生物标记，受到众多精神医学与神经退行性疾病相关研究的青睐。即使是简短的语音样本也可以为认知情绪等大脑神经活动提供可靠的数据。而且语音还包括很广泛的行为信息，特别是自发对话中产出的自然语言包含了各类生物及社会信息。其次，相对传统的医生问诊，语音数据属于数字生物标记物，可以方便记录与储存，并能由不同的算法进行多次运算与验证，能从不同的角度来研究丰富的细节。最后，相对脑影像等先进技术，语言数据具有远程采集的优势。借助于移动设备与社交平台采集语音与语言数据，使得轻性的精神问题如焦虑抑郁的筛查大面积普及。由于精神障碍人群及对照人群的语音语言采集特别困难，而通过移动设备测试的同时也可以非常便捷地采集海量数据。因为持续性的监测比零星的临床访谈评估能为疾病筛查提供更有用的信号，4 这些大数据又为进一步改善人工智能的算法提供了真实环境中的训练资源。鉴于目前很多有关精神障碍的学术研究及评估还存在一定局限性：譬如很多评估方法生态性较差，通常需要被试者脱离日常生活行为来完成特定的评估任务；评估也存在一定偶发性，包括评估地点及评估人员等有限资源的匮乏，使得相关评估方法的可拓展性较差。对于轻性精神障碍患者，家人或熟人因平时与其有频繁的言语交流行为，能比偶尔问诊的医生更早观察到其心理问题。而移动设备数据则能提供持续性的评估及监测机制，人工智能若能通过对人们平时的言语行为进行监测与评估，就能为轻性心理问题的早期发现与干预提供解决方案。

2.面临的挑战

尽管与传统的诊断方式相比，人工智能对平日语言交流的采集与分析存在生态性强、接近现实、易于推广等优势，但其临床应用依旧面临不少挑战。与其他新型数字生物标记物一样，言语语言作为精神障碍人群的生物标记物目前还缺乏严格的评估与验证。一般说来，为了能有效和安全地使用这些新型的数字生物标记物，必须满足V3框架，5 即验证（verification）、分析确认（analytical validation）和临床确认（clinical validation）三个部分。具体到语音数据，验证包括评估录音设备的声学质量与周围环境对录音质量的影响；分析确认包括对照参考标准，检查语音参数的有效性。临床确认包括对照病情发展与治疗变化，验证相应阶段语音参数的有效性。1

第一步验证主要确保录音设备与录音环境符合要求。有很多研究表明，智能手机的录音质量可以与专业麦克风相媲美；而另一些研究则发现智能手机的录音在某些参数方面稍有逊色。另外，不同的录音设备在音频的采样率、采样精度及存储格式方面也各不相同。关于录音环境设在诊所还是实际生活场景中也有很多研究，不少研究指出背景噪声不超过50分贝的录音才能进行有效的声学分析。以上影响录音质量的因素都需事先进行验证，以确保录音数据真实有效。此外，友好的用户界面对于收集丰富的语音数据也非常重要，譬如使用录音提示音，或使用文字与语音的指导语等，可以帮助收集到更加自然有效的数据。

第二步分析确认必须保证分析的可靠性和有效性。语音语言数据处理前需要大量标注，自动标注需要与人工标注进行比较，以确保一致性与准确性。而言语可分析的参数数量众多、种类繁多，也需要使用可靠的技术进行准确分析。常见的声学参数包括基频、振幅微扰、基频微扰以及梅尔频率倒谱系数等可以通过语音技术提取与分析；反映词汇句法或语义语用等更高层次的语言特征则可以使用自然语言处理技术获得。由于数据处理新算法需要与已有的标准算法进行比较，但此前并没有标准可以参考，也给分析效度验证带来了一定的难度。而最难之处在于言语语言的各类参数受年龄性别、受教育程度、方言口音等社会因素的影响非常大，使得各类语音与语言学参数的标准难以确定，也给数学建模带来了巨大困难。正是由于语言数据蕴含了丰富的社会性因素，长期以来一直是医生问诊诊断可以利用的有效资源。可是如何将语言的社会性在人工智能语言数据处理中得到体现也是听音识障碍的挑战之一。这也同样说明为什么说语言智能是人工智能皇冠上的明珠，因为处理语言数据是人工智能最大的挑战。如果语言智能能实现突破，就能推动整个人工智能体系发展，有更多的场景可以落地。此外，这些语言數据的质量还取决于语言学家与心理学家设计的语言任务，而任务的设计又取决于对精神障碍的了解。因此，需要计算机科学家、语言学家、心理学家、精神医学家共同来完善分析确认步骤。

第三步临床确认是评估语言生物标记物是否能提供有意义的临床症状变化信息。作为新型的数字生物标记物，要求在诊断疾病的程度，监测疾病的变化，预测疾病的发作，测量治疗反应等方面能与已有的临床经验标准进行比较。如前所述，因为缺乏客观标准，目前做法便是将人工智能识别结果与有经验的精神科医生的诊断结果进行比较加以验证。虽然现在越来越多的研究表明，使用语音数据识别抑郁症、精神分裂症、孤独症等精神障碍的准确性可以与专科医生相媲美，但我们还需要这些分类算法模型区分不同的精神障碍，并弄清楚哪些参数在分类中起了作用。目前很多机器算法是黑箱模型，只知结果不知过程。此外，虽然也有很多研究开始使用语音数据对测试者进行跟踪，预测疾病风险，评估疾病进展，检测治疗反应，但是目前大部分情绪预测方面的研究是在实验环境中完成的。通过智能手机或可穿戴设备获得的语言交流大数据还有待证明其临床的有效性。2 尽管新冠疫情的防控战役为人工智能对语言的分析监测提供了一个实战机会，但是数据所带来的决策改善以及效率的提高还有待时间检验。

除语音语言数据作为潜在的精神障碍生物标记物需要满足以上三个验证过程以外，还会遇到一些医学伦理问题。很多研究者担心把医疗信息上传至应用程序，对患者和临床工作者都有潜在风险。相关信息一旦被泄露，将对患者造成更大的打击。很多伦理学家担心，数字化的日常可以像医疗信息一样用来展示人们的精神状态，却很难像医学数据一样进行保护与管理。因此，很多专家呼吁，从事人工智能研究的科技人员需要在科研活动中采取措施来履行前瞻性的道德责任。1

综上所述，在人工智能时代，需要多学科专家共同参与提高全民的健康水平，不仅需要精神科医生、计算机专家、语言学家等合作来分析人们语言交流信息，研发精神障碍早期筛查的智能产品，还需要我们有相应的隐私法与伦理来确保科技以人为本的理念。只有把科学技术与人文精神相结合，才能确保人工智能透过言语行为识别精神障碍的可行性，有效提高全民的健康水平与幸福指数。

Artificial Intelligence Identifies Mental Disorders through

Speech and Language

DING Hongwei

Abstract： In response to the current dilemma of lacking early diagnostic products in the mental health field， the article proposes that using artificial intelligence to analyze linguistic data to identify psychological risks would be a feasible solution. Research in neuroscience has found that language is a window to the mind; taking the common example of depression and classic schizophrenia shows that machine learning can make intelligent diagnoses by analyzing speech-text and multimodal language parameters. A sudden outbreak of COVID-19 has not only increased awareness of the importance of mental health， but also of the unique advantages of remotely collectable language data as a resource for early screening of mental disorders. With the growing popularity of mobile devices， the use of language data to monitor mental health is even more promising. However， speech-language data face challenges of algorithmic evaluation and clinical validation to become a biomarker for diagnosing mental disorders. The development of artificial intelligence needs to follow a human-centered philosophy.

Key words： mental disorders; autism; alzheimers disease; speech-language data; computational psychiatry; affective computing; mental health

（責任编辑：苏建军）