基于智能语音助手的桌面悬浮App的设计及研究

2022-02-17钟璐榕，许哲昊，胡芳雨，乔子怡，黄光莉

电脑知识与技术 2022年35期

钟璐榕，许哲昊，胡芳雨，乔子怡，黄光莉

摘要：智能语音的发展被不断推进，语音助手作为其主流成果备受关注，人机交互讓人们真切地体会到了科技的飞速发展。由于社会的快节奏生活，陪伴成了一个不可忽视的问题，不论是青年人还是老人都渴望获得陪伴，那么运用人工智能来协调这个问题，在一定程度上能够满足人们的需要。对智能语音助手的发展现状和问题进行分析，基于智能语音助手、RAP+AI等技术概念，提出此桌面悬浮App产品的设计和研究。

关键词：智能语音助手；AI；桌面悬浮App设计

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2022）35-0050-03

1 引言

随着时代和科技的高速发展，人们对手机的依靠性越来越强，同时人们越来越缺乏面对面的沟通和交流，而智能语音助手更好的服务和陪伴受到人们的期待。考虑到青年人和老年人是社会的重要群体，因而设计出一款实用性强、操作便捷且能够满足于学生、白领和老年人群体的软件产品将能够拥有广阔的市场发展前景。该文通过查阅相关文献资料和期刊及关注时事新闻等方法来了解AI技术和智能语音助手的发展、软件设计及其开发的流程，从而更加充分地探讨桌面悬浮App的设计与研究。

2 智能语音助手的发展和分析

2.1 国外发展研究

1966年，科学家约瑟夫·魏森鲍姆开发了最早的聊天机器人系统——ELISA，该系统首次应用于医学领域。之后相继有许多科学家和学者纷纷投入聊天机器人系统的研究。目前各大厂商纷纷布局人工智能的市场，如微软的Cortanna、亚马逊（Alexa）、谷歌助手（Google）和苹果语音助手（Siri）。

2.2 国内发展研究

因缺乏理论知识和技术以及创新能力的不足，我国在人工智能领域的发展较晚，面临挑战是不可避免的。近年来，随着快速的科技发展，在聊天机器人的研究方面我国取得了很大的进展。继微软发布的聊天机器人小冰受到人们的关注，之后其他各具特色的机器人相继而出，如阿里巴巴等大型企业。这些企业的发展为机器人领域积累了一定的技术和产品[[1]]。

2.3 分析

目前智能语音助手的研究仍有不足，正是这些不足为语音助手的发展指明了方向。

1）技术方面的限制

技术人才的缺乏已严重制约了我国智能语音助手的开展。一是人工智能技术还处在相对早期的阶段，二是缺乏有效的交际模型。这两方面的技术缺陷在用户的实际使用过程中体现在语音识别错误较多，意图识别准确率较低，多轮对话准确率较差。结果上，用户对于智能语音助手类的产品抱有很高的期待，但最终的使用效果往往令他们感到失望。

2）可靠性有待提高

在外界嘈杂环境中，计算机很难准确捕捉到有效信息，这极大程度上限制了语音识别技术的应用范围。另外人们在日常生活中，说话时的语言习惯也是显而易见的，如明显的地域口音、频繁重复或者是倒装、有时使用错误的语法，这些语言习惯对于标准式的语音助手会很难准确识别。因此，语音智能识别技术的可靠性有待逐步提高。

3）词汇量有待丰富

若使用者想利用语句数据库之外的词汇或者突然从一种语言转换为另一种语言时，用户可能会得到输入错误的提示。因此，需要逐步创新的系统建模、逐步提高的各种技术方法以及逐步开发的相关资源，语音智能识别系统才能够对多种语言进行准确地识别。

3 理论和概念框架

3.1 理论

1）基于深度学习的语音识别技术

语音识别技术被应用到各大行业领域，智能语音带动了技术和产品的创新。目前智能语音识别助手主要以卷积神经网络（CNN）、门控循环单元（GRU）、双向循环神经网络（Bi-RNN）三种声学模型为核心。

此桌面悬浮App基于深度学习的语音识别技术实现信号处理与特征提取。

2）智能语音助手的应用

智能语音助手系统框架：用户通过声音方式所录入的信息均转化为文本形式，交由自然语言处理系统加以管理。语音输入主要依赖于语音识别技术，关系到特征提取方法、模型匹配规则以及模型训练方法。在自然语言处理功能中包含使用意向分析、使用情感分析、具识分析以及自然语言处理等技术。会话管理模块进行会话决策，是整个系统的核心技术所在，包括了说话行为识别、说话状态追踪、说话信息记录以及决策优化等技术。目前，语音助手的对话生成技术主要有检索式、生成式和深度学习[[2]]。该系统框架如图1所示。

在构建智能语音助手系统时，采用多种技术融合构建，目前主流技术构建包括基于检索、人工模板和深度学习的聊天机器人。

智能语音助手的评价标准与评测方法：对于人机对话功能的评价，主要包括了NIPS、ASTC、SMP2017-ECDT，评价标准为全球通用的平均排序倒数MRR（Mean Reciprocal Rank）、准确率P（Precision）、信赖加权评分CWS（Confidence Weighted Score）、召回率R（Recall）和F-MEASURE（F）[[3]]。

3）基于AI个性化语音生成技术制作语音包

基于AI语音生成技术制定个性化的语音包。通过录制目标说话人的少量语句，构建一个较完整的韵律和频谱模型。利用频谱信息的转换，可保留录入者的原声色，通过语音样本的训练，映射规则由条件和操作组成，获得映射规则可以更进一步对发音者的特征进行转变。而利用分类与回归树（CART）可实现韵律转换。建立一个源语库和一个目标语料库之间的映射关系，最后合成系统即可获得具有个性化的声音。

4）语料库的优化

将RPA+AI与Python相结合，进行深度学习，实现自然语言处理NLP，进行文本分词、实体抽取、情感倾向分析和文本相似度分析等应用来优化语料库[[4]]。

5）悬浮球的设计

通过Electron接入API实现悬浮球功能，将App设计为可悬浮在手机桌面上。

3.2 概念框架

利用检索与生成深度融合的对话技术来搭建语音助手，利用RPA+AI技术进行富集数据资源，提取指定业务场景数据，将抽象的相关数据整合到对话日志中，合理使用官方数据库，通过第三方工具实现搭建系统的训练、评估和调优。将搭建好的语言模型通过工程化操作完成系统接入到App中，语音助手通过对技能统一调度，实现多种对话服务，同时接入的还有通用模块，后台管理采取人机协作的模式，来为用户提供更好的服务。

在统计中查看人机互动的沟通情况，根据统计结果对客服工作策略进行调整，甚至对市场宣传的侧重点进行进一步调整。全面了解本语音助手与用户的沟通反应，并通过对用户数据进行沉淀，甚至建立对话漏斗，层层追踪数据的质量，由此来改善语音助手与用户之间的沟通模式。并充分利用通话过程中的对话日志，将对话模型的对话结果和用户在整个通话流程中的纠正和回应加以完善，从而完成通话过程的循环生命周期。

4 产品的设计

4.1 界面设计

考虑到产品定位人群为青年人和老年人以及本产品提供的功能服务，在主界面设计中遵行简洁、实用又美观的原则进行设计。在字体上应用大字体，让用户在视觉上眼球一新，同时更适合老年用户使用，让老年人用户感受到关怀。在主界面中间显示语音助手“宠物”，并在四周各悬浮一个组件，分为“陪伴”“生活”“我的”“办公”四个模块。

用户进入App后，点击“陪伴”，软件即在设备后台运行，进入“宠物”悬浮模式悬浮在手机桌面，在不占用手机桌面的情况下，能与用户进行语音聊天互动。在“生活”模块，具有绑定智能设备的功能，能够对智能设备的运行状态进行操控。在“我的”模块设有“宠物切换”，用户可自定义“宠物”形象、“积分区”“登录或退出”“语音包”。在“宠物切换”即有多种外形的“智能助手”可供用户选择，此外形设计将不断更新。在“积分区”即可进行积分兑换相应商品，积分来源将在后文描述。在“办公”模块具有备忘录，日程安排，任务计划三个组件，此模块的使用可根据用户的语音设置进行信息录入。

4.2 外观设计

“宠物”外观上采取中国文化元素的提取并在此基础上进行创新设计，如“身着汉服的观音”“下象棋的大熊猫”“学汉字的石狮”“穿绣花鞋的大熊猫”“丹凤眼的鲤鱼”“插在彩陶里的牡丹”等各种各样的“悬浮宠物”。设计遵循中国传统艺术的审美，融合具有中国特色的多个元素，展示令人眼前一新的视觉冲击，给予用户更好的使用体验。

4.3 功能设计

1）“智能陪聊”功能

此产品可与用户进行语音聊天，在语音开发上，录取多种大自然的声音作为背景声，声线上可多种变化，具有不同语言沟通能力。在聊天过程中，“悬浮宠物”可呈动态模式，增加用户的体验感。与市场上的语音聊天相比，用户能够在后台运行“陪聊”，即不局限于在App內才可“聊天”。

2）语音包功能

利用AI合成技术，可录入语音转换为语音包，随时可听到远在他方的亲人的声音。软件配有语音包制作的语音操作提醒，让不擅长使用智能设备的老年人也能够迅速上手。

3）绑定智能设备

与智能设备相关联即可对设备的工作状态进行设置。

4）提醒功能

产品有备忘录和日程的语音提醒功能，更加体贴地为用户提供优质的服务。

5）推荐功能

每日有专业的医护人员进行“健康医学知识宣传”推送，还可以根据用户的个性需要，推送“每日名人励志一句”“穿衣推荐”“生活小技巧推荐”“趣味小知识推荐”等内容。

6）其他功能

在完成当天自己制定的任务时可累积一定积分。且在一天中对语音助手说出“今天是美好的一天”可累计1积分。相应经验值可在积分区兑换对应奖品。另具有自定义语音唤醒功能。

4.4 产品运行设计

1）服务器端

编写接口协议文档和API接口，使用阿里云服务器架设服务器环境，设计数据库。

2）App端

页面开发根据UI设计图完成，设计完成后对接服务器界面，通过服务入口获取数据，最后写出服务逻辑编码，通过软件界面测试，完成系统联动。

3）Web管理端

后端的功能必须和最前端的业务逻辑相符，写出逻辑代码并完成测试调试，在软件功能开发完成后，还应调动小组内的各技术人员完成系统性测试。

4）嵌入式系统设计

程序开发基于Android平台，采用Java语言开发软件，利用互联网和服务实现页面跳转，使用SQLite和Shareference实现数据存储，然后集成产品界面、界面控制和测试，接下来进行测试[[5]]。后端管理模块的操作采取人机协作的模式进行运行。

5）应用RPA+AI创建自动化机器人进行自动化运行管理

应用RPA+AI创建自动化机器人进行发送信息、搜集客户资料等工作，来实行自动化运行管理，在一定程度上节省了人力时间、降低了出错风险、扩大了人员工作边界。

5 讨论

5.1 对语音助手发展的建议

1）由于缺乏大规模的训练数据，尝试应用机器人与机器人交互来创建训练。不仅节省人力和时间，也能够达到训练机器人的目的。顺应了将来机器人大规模进入人类生活的景象。

2）目前没有统一的机器人评价标准，需要相关专业人员提出规范。不仅能够确保机器人的安全发展，也能够为机器人相关专业研究者提供更多规范的操作，在一定程度上减轻了人们对人工智能发展的担忧。

3）进一步完善语音助手，提高技术水平，优化语音助手识别准确率，必要时可以开发用户调教的平台，完善基础功能，增强对于复杂指令的识别和执行能力。此过程将会是智能语音助手的一个跨越式进步。这个基于人工智能技术的先进发展，将更加促进国家对人工智能的相关专业人员的大力发展。

4）借助人机协同创新的理念实现智能语音的跨越式发展。

5.2 局限和不足

由于缺乏资金支持，目前项目设计与研究还处于基础理论阶段。因对计算机的研究不够深入，缺乏有深度的见解，本文仍存在许多不足之处，还需要不断深入学习和认真研究该项目领域。

由于经费紧张，目前研究仍处于初步阶段，经过一定的学习和探讨对此项目进行研究，但在许多地方的研究仍有许多不足，且软件开发设计多个领域的同步进行和发展，想要开发出一款能够真正满足人们生活需要的软件需要巨大的投资和精力，仅仅依靠团队微弱的人力无法实施开发。

6 结束语

近年来，人工智能获得前所未有的发展，其相应的技术也获得了不同程度的创新，以语音作为切入口的新时代将推进商业模式的新发展。基于智能语音助手的桌面悬浮App也将在一定程度上丰富不同人群的生活。而在语音识别自然语言、语料库、AI合成技术和深度学习等方面仍需专业的科研工作者进行不断探索。将来定能够拥有新的人机交互模式，实现人机协同创新。

参考文献：

[1] 甘玉珏，苏军根，林健，等.智能语音产品现状及展望[J].广东通信技术，2017，37（12）：66-68.

[2] 张琬，刘春蕾，郭欣然，等.会话代理在精神障碍病人中的应用进展[J].护理研究，2021，35（24）：4437-4441.

[3] 王浩畅，李斌.聊天机器人系统研究进展[J].计算机应用与软件，2018，35（12）：1-6，89.

[4] 刘旭东，苏马婧，朱广宇.基于自然语言处理的多源情报分析系统的研究与设计[J].信息技术与网络安全，2019，38（5）：17-21.

[5] 刘星晨，陈乐生，胡果，等.基于深度学习的挑选礼物App设计与实现[J].物联网技术，2020，10（7）：48-50.

【通联编辑：谢媛媛】

电脑知识与技术

2022年35期

基于智能语音助手的桌面悬浮App的设计及研究

杂志排行

电脑知识与技术的其它文章