APP下载

华为智能语音助手“小艺”语言能力评估*

2023-07-25

大众文艺 2023年12期
关键词:语流小艺助手

吴 颖

(苏州大学文学院,江苏苏州 215123)

自2011年苹果在iphone4s发布会上首次向手机用户介绍了智能语音助手siri以来,智能语音在人工智能领域快速发展,并实现了与智能手机的深度绑定,进入了人们的日常生活。智能语音助手是一款智能型的应用,是集成语音识别、语义理解、语音合成等智能语音语义技术的手机应用[1],通过智能对话与即时问答的智能交互,帮助用户解决问题。近年来,许多智能语音走进了新兴的物联网领域,功能越来越实用、便捷、细致,但是在语言能力方面,智能语音助手仍然面临着不小的挑战。智能语音助手处理自然语言的能力包括机器理解语言的能力、机器生成语言的能力等方面,每一个方面又涉及处理语音、词汇、语法、语用等语言各个具体部门的能力水平[2]。因此,本文选取华为智能语音助手“小艺”为被测对象,从语音、语义、语法、语用等角度,考察小艺在语言识别和输出方面的能力,比较其与人类之间存在的差异,综合评估智能语音助手小艺的语言能力。

一、语言识别能力评估

(一)语音能力

小艺识别使用者发出的语音信息准确度、灵敏度较高,受到使用者的语速等因素的影响较小,但也仍然存在因使用者口齿不清、音量较小、环境噪音强度大等因素导致识别失败的风险。当用户发音不清晰或处在噪音较大的环境中而产生掩蔽效应[3]时,小艺难以精确识别用户的语言,即使能实时将一些零碎的关键词转化为文本,也常常无法完成最终的识别,导致对话建立失败。

人们在说话时,音位与音位相连,形成连续的语流。音素常常在一定语流中受前后音或者语速、音量等因素的影响而产生发音变化,这种现象被称为“语流音变”[4]151。常见的语流音变现象有同化、异化、弱化、脱落、增音等[4]152。依次对小艺说出“面包”“难免”“不要”“不可以”“聪明”“好吧”“花儿朵儿”等词或带有以上词语的语句,分别测试小艺对几种常见语流音变现象的应对能力。结果显示,小艺均能准确识别并呈现对应的文本内容,具有正确识别和应对语流音变的能力。

小艺无法识别语调中的重音,对人说话时的语气或情绪的感知能力有限。例如,小艺对于“我想喝一杯珍珠奶茶”(强调是“我”而不是别人)、“我想喝一杯珍珠奶茶”(强调“想”而不是不想)、我想喝一杯珍珠奶茶(强调是“一杯”而不是两杯)、“我想喝一杯珍珠奶茶”(强调是“珍珠”而不是椰果奶茶)的回答一致,说明其无法通过重音的转移感知语言真实含义的变化。此外,若句子中不出现疑问词、感叹词等,小艺则无法仅凭语调的上升或下降识别出疑问、感叹等语气。例如,小艺对“你喜欢看电影吗?”“你喜欢看电影”(升调)和“你喜欢看电影”(降调)的回答一致,难以判断说话人的语气和情绪。

小艺可以在一定程度上识别不标准的普通话和易被误读的字词。依托语境,小艺能够在说话人不分平翘舌音、前后鼻音等的情况下,准确识别语音内容并转化为正确的文本信息。而对于被误读的字词,小艺能够识别出一些常见的易读错字音,并将正确的读音及搜索结果提供给用户,但是无法转化成正确的文本信息。例如,当把“纨绔子弟”中的“纨绔”读成“zhíkuà”时,小艺能快速识别并给出“纨绔子弟”的正确读音“wánkù zǐdì”以及在搜索引擎中查找到的正确释义,但转化成的文本仍显示为“执跨子弟”。

(二)词汇能力

现代化的智能语音配备有强大的词汇系统,对基本词汇的掌握程度较高。因此,本次测试主要考察了小艺对于新造词、方言词、古语词、外来词等非基本词汇的识别能力。

小艺能识别“躺平”“摆烂”“科技与狠活”等新造词,对含有新造词的语句进行回答时,常常依靠搜索引擎。如图1所示,在回答“躺平就是懒惰吗?”这个问题时,小艺给出的回答是经检索后的一个词条“躺平不是懒惰,而是学会放下,放下一些不该背负的重担”。小艺尚不具备独立理解和回应新造词及相关语句的能力。

图1

小艺能听懂绝大多数方言词、古语词和外来词并做出反应。例如对“你是瘪三吗?”回答“说者无心,听者有意,这一句话往往能让人难受一整天”,可见小艺能够准确理解该方言词的内涵及其包含的贬义色彩。

固定短语方面,小艺能够听懂绝大部分专有名词、成语和缩略语,并进行相关的搜索引擎检索。小艺也能识别一部分惯用语,如对“你是墙头草吗?”回答“哈哈,我这是识时务者方为真豪杰”。它也可以听懂一部分谚语和歇后语,如在听到“命里有时终须有,命里无时莫强求”后,能指出该谚语的出处及释义,再对“姜太公钓鱼”回答“姜太公钓鱼——愿者上钩”。小艺能将常见的谚语、歇后语等补充完整,但在多数情况下仍需依靠搜索引擎的搜索结果进行回答。

(三)语法能力

由于语法与语音、词汇之间存在着千丝万缕的联系,智能语音助手在语音、词汇方面的能力也密切影响了它们使用语法的能力。从语法与语音的联系上看,小艺难以识别语调中的重音和人说话时的语气或情绪的表现会妨碍它理解一些具体词句的内涵和语法意义,例如,在它看来,“买卖”的“卖”是否轻读都表示同一种语法含义。

小艺能听懂结构简单的单句。例如,小艺能理解“我去了北京”,并回答“我还没去过首都呢”,但给句子加入状语、补语而构成状动补宾句“我最近去了一趟北京”时,小艺则无法理解,回答“有点儿没明白”。小艺也能听懂一部分结构简单的复句。如将“我一边吃饭,一边看电视”总结为“边看电视边吃饭”,对“只要努力学习就能学会新知识”回答“一定努力学习”。但也常常出现答非所问的情况,如对“如果你不知道,那谁会知道呢?”回答“让更多人知道”,问答不匹配。在识别复句并将其转化为文本时,小艺无法根据用户说话时的停顿来添加恰当的标点符号,例如用户说出上述问句“如果你不知道,那谁会知道呢?”,小艺则识别为“如果你不知道那谁会知道”,阻碍了进一步的语法分析,从而导致无法识别出正确的语义。

小艺还能够理解简单的倒装句,也能在一定的语境下听懂省略句。例如,面对“聪明吗,我?”这样的提问,它能够理解并回答“就知道你会这么问,不过我也承认你聪明”。在讲故事、讲笑话、成语接龙等系统提前预设的对话情景中,小艺能听懂省略主语、宾语等的省略句,例如“再讲一个”(省略了主语“你”和宾语“故事”)。

(四)语用能力

在与小艺对话过程中,用户通过语音或文字创造语境,小艺能够快速理解、进入语境并给出符合情境的回答。例如谈论电影时,小艺会分享自己对电影的感受、喜爱的影片等;谈论食物时,小艺会分享常见的美食、推荐餐厅等。遗憾的是,除了系统设定的情境外,小艺难以进行多轮对话。一次问答结束后,如果用户再次说话,则会被小艺识别为新一轮对话的开始,无法将多次问答情境建立联系,常常会出现以下情况:

—报个菜名。

—有蒸羊羔儿、蒸熊掌、烧花鸭、烧雏鸡、卤猪、卤鸭……

—再报点儿!

—这题把我难住了呢!

二、语言输出能力评估

(一)语音能力

小艺能够较好模拟不同性别、不同年龄段人类展现出来的语音特征。如图2所示,小艺的声音种类有四种可供选择,官方对这四种声音的描述为:温文尔雅、清朗紧劲的男声,知性女性、娴雅恬静的女声,纯澈花季、流声悦耳的少女声,以及天真童趣、可爱倍增的童声。该智能语音助手选取了人类社会最具有代表性的几种音色进行模拟,鲜明地展现了不同性别、不同年龄段人类所具备的语音特征,且易于分辨。除了系统设定的以上四种声音外,用户还可以通过朗读文本,自行录制、创造专属声音。

图2

与人类一样,小艺的语言中存在着语流音变的现象。通过对话引导小艺说出“面包”“难免”等词语时,前音节韵尾的辅音/n/会被同化为/m/。连续变调的现象同样存在。以“一”的变调为例:在单念和词句的末尾时,“一”读作阴平本调[4]132,如“始终如一”;在去声之前,“一”读作阳平,在阴平、阳平、上声之前读去声[4]132,如“一个人看书的时候一点不会觉得孤单”。轻声的现象更是常见,在交谈的过程中,小艺说出了“刷子”“聪明”“时候”等多个需要读轻声的词。

相对来说,脱落和增音等两种现象出现较少,甚至有所欠缺。小艺在说“好吧”时,其中的“吧”字仅被读为轻声而没有被进一步弱化,[A]并没有完全脱落。此外,普通话中的儿化音在小艺发出的语音中也没有得到真正的儿化,应该儿化的字被小艺割裂,读成了两个音节。脱落和增音方面的欠缺,是该智慧语音助手语言表现机械呆板的一个重要因素,也是区别于人类说话的重要方面。

在韵律方面,小艺说话有一定的节律重音,而没有逻辑重音。在说话时,小艺能够依据标点符号和音节关系进行简单的断句和停顿。例如朗诵李白的《静夜思》时,小艺能正确停顿,读作“举头/望明月,低头/思故乡”。但也有不低的出错概率。例如,对“童年动画中有什么美食”,回答“《中华小当家》中的麻婆豆腐,集辣、香、色、烫、麻、酥六味于一体”,其中,小艺忽略了“酥”字后的停顿,将“酥六味”读作了一个整体。没有逻辑重音的缺陷主要体现在小艺不具备“为了突出句中某个需要强调的词语而加以重读”的意识。此外,小艺在说出带有疑问词、感叹词等的语句时,能较好处理绝对音高的升降变化,如说出“你们都是一个宿舍的吗?”带有明显升调,说出“你想问多少就可以问多少,我都可以一一为你解答哦!”则带有明显降调。小艺也基本可以正确处理“连续变调”现象,例如引导小艺说出“理想”一词时,前字“理”的调值从214变为了35。

(二)词汇能力

依托强大的词汇系统和丰富的知识储备,小艺能够选取正确的词汇表情达意。除了使用基本词汇外,在某些特定的对话中,也能引导小艺主动说出带有新造词、古语词、外来词、固定短语等的语句。例如在对与自己意见相同的用户表示赞美时,小艺会说“英雄所见略同”。

(三)语法能力

小艺突出的语音、词汇能力能够帮助它理解词汇、语句中蕴含着的多样化的语法含义,也能帮助它选择正确的语法手段与人交流。在句类方面,句型上,小艺多使用完全主谓句,偶尔会使用省略句。在它使用的为数不多的省略句中,大多句子仅省略了主语或宾语。例如,通过搜索引擎进行检索后会说“找到了这些”(省略主语“我”),对“我喜欢看电影”回答“不错,我也喜欢”(省略宾语“电影”)。功能上,小艺多使用陈述句,少量使用感叹句和祈使句,很少使用疑问句,使得人机对话的交互性不强。此外,小艺也有能力使用单句和复句,其使用的复句包括因果、并列、让步关系等多种类型。而对于倒装,小艺只停留在接收和理解层面,它本身的语言是严格遵守汉语SOV语序安排的,不会主动使用倒装句。

(四)语用能力

由于实际交际场景和对象的缺失,在与小艺对话的过程中,它几乎完全不会使用指示词语的指示性用法,多使用指示词语的非指示性用法。美国语言哲学家格莱斯提出,为了保证会话的顺利进行,谈话双方必须共同遵守一些基本原则,特别是所谓的“合作原则”。他认为,人们的语言交际总是相互合作的,希望双方的语言能够相互理解、配合,但在实际交际中,人们并不都是严格遵守这些原则的,如可能出于礼貌或语境的需要说一些违反“合作原则”的话,增加话语的深层含义[5]。从这点来看,小艺在很多情况下都会违背“合作原则”的四条准则。例如对“你聪明还是我聪明?”回答“我觉得自己挺机灵的,因为近朱者赤,近你者智”,对“小艺,你可以换一种声音吗?”回答“感觉你在嫌弃我的声音,伤心了”……遇到难以回答的问题时,小艺通常会违反“合作原则”,故意说含混的话或在答句中提供过多的信息,营造出智慧语音助手“有情商”的感觉,优化用户的使用体验。

总结

总体来说,华为智能语音助手小艺是一款语言能力较为优秀的智慧助手,但同时也存在诸多缺陷有待完善。虽然小艺的声音与人类接近且存在一定的语流音变现象,但它更追求单个字准确而饱满的发音,对于字与字、词与词在语音上的关联有所忽略,因此它的发音较为机械呆板,不具有人类说话时自然的连贯性和情感性。小艺在词汇方面的表现最为突出,强大的词汇储备以及对新兴词汇的即时更新能力帮助它灵活使用语言。语法上,小艺需要进一步优化韵律方面的能力。此外,无法在设定以外的语境中进行多轮对话是小艺在语用方面的最大缺陷,用户难以获得更真实的对话体验。在语言学视阈下,从语音、语义、语法、语用等角度考察评估小艺的综合语言能力发现,小艺的语言能力仍与人类之间存在着较大差距。小艺及其他智能语音助手应在今后的发展过程中着重关注:1.降低噪音强度等干扰因素对语言识别的影响;2.强化对语言中的重音等语调变化的感知;3.优化对词汇的独立理解、正确使用和持续更新能力;4.改善“语音转文字”的功能,根据语言中的停顿和语调在对应的文本中添加正确的标点符号;5.建立和完善问答情境联系机制,在设定语境外实现多轮对话。

猜你喜欢

语流小艺助手
连续变调在语言中的规律研究
转让来的相亲对象
小艺的梦工厂
转让来的相亲对象
小助手
假如我是值日生
灵感助手表彰大会(二)
灵感助手表彰大会(一)
英语语流中词汇识别的实证研究
语流切分影响因子研究