语音特征和情感特征的翻译系统与实现

2018-07-10曹春香

现代电子技术 2018年13期

曹春香

摘要：传统在线机器翻译系统存在翻译效率低、翻译效果差等问题，因此设计了基于语音特征和情感特征的翻译系统。系统通过语音情感特征提取模块将识别出的语音情感特征的具体特征提取出来，在模型库中进行特征分类，提取出的特征信息在翻译模块中进行翻译处理。翻译模块由用户监视器、内核监视器、CPU模拟器、指令翻译器、外设模拟器以及翻译处理器构成，实现翻译目标的准确翻译。通过语音特征识别模块的实现完成系统语音和情感特征的准确识别和检测，通过翻译处理器得到准确的翻译结果。实验结果表明该系统翻译准确率高，翻译效果好，系统响应时间短。

关键词：语音特征；情感特征；翻译系统；功能实现；特征识别；翻译模块；翻译处理器；准确率

中图分类号： TN911?34； TP391.2 文献标识码： A 文章编号： 1004?373X（2018）13?0123?05

Abstract： The traditional online machine translation system has low translation efficiency and poor translation effect， therefore a translation system based on speech feature and emotion feature was designed. The recognized specific features of speech and emotion features are extracted by the system with the speech and emotion features extraction module， and classified in model library. The extracted feature information is translated in translation module. The translation module is composed of user monitor， kernel monitor， CPU simulator， instruction translator， peripheral simulator and translation processor， which can realize the accurate translation of translation target. The speech feature recognition module can realize the accurate identification and detection of the system speech and emotion features. The accurate translation results are obtained with translation processor. The experimental results show that the system has high translation accuracy， perfect translation effect， and short system response time.

Keywords： speech feature； emotion feature； translation system； function realization； feature recognition； translation module； translation processor； accuracy

0 引言

语音和情感信息的表达是最直接、有效的交流手段。随着信息技术和社会的高速发展，各民族之间和国家间的交往越来越紧密，人们对翻译系统的要求也越来越高。翻译系统涉及多种学科，翻译系统的实现能够引起社会巨大的变革，使得使用不同语言的人们都能无障碍的进行交流[1]。语音特征和情感特征翻译系统的实现能高效实现人们的无障碍交流，传统在线机器翻译系统存在翻译效率低、翻译效果差且系统整体运行缓慢等问题。因此，本文设计语音特征和情感特征的翻译系统，能够提高翻译的速率，实现语音情感特征的翻译。

1 语音特征和情感特征的翻译系统与实现

1.1 系统总体框架

本文设计的基于语音特征和情感特征的翻译系统的总体框架如图1所示。系统采用语音情况特征识别模块对语音特征和情感特征进行识别，通过语音特征提取模块以及情感特征提取模块将识别出的语音情况特征的具体特征提取出来，在模型库中进行特征分类，提取出的特征信息在翻译模块中进行翻译操作[2]，翻译模块包括翻译处理器和翻译结果检测，翻译处理器可将抽象的语音特征和情感特征以具体的形式翻译出来，加强人们之间的交流和联系。

1.2 语音情感特征识别模块设计

语音情感特征识别模块包括对语音特征和情感特征的提取、模型訓练、模式匹配等。特征的提取主要包括对收集到的语音和情感特征信号的提取，经过计算机模拟数字信号处理后，再通过硬件和软件组件的操作，对采集到的信号中具有明显特征信息的信号进行保存[3]。表1是经过计算机的模拟数字信号处理和系统识别模型后的特征分类情况。模型的训练就是对保存的具有明显特征信息的信号建立模型的过程。模型的匹配是指识别特征与识别模型进行匹配，计算两者之间的距离，匹配距离的大小决定语音情感特征识别模型的种类。语音情感特征识别模型按照特征的匹配可分为模板模型、神经网络模型以及动态贝叶斯模型等。本文系统的语音情感特征识别模块通过计算机模拟数字信号对识别模型与特征信息进行有效分类，提高了语音和情感特征的识别能力。

1.3 语音情感特征提取模块设计

分析图1中的系统结构可以看出，系统通过语音特征提取模块和情感特征提取模块，分别提取语音特征和情感特征，因为两个特征提取模块的结构一致，则本文设计了语音情感特征提取模块，实现语音和情感特征的提取。该模块的设计内容是：将带有语音情感特征信息的信号进行量化、预加重处理、结果加密和特征的提取[4]。信号量化、预加重处理和结果加密都属于对特征的预加工处理，具体流程图如图2所示。

图2描述的语音情感特征的提取过程中，首先对海量的语音情感数据进行量化处理，提取的结果要能代表语音情感特征的信号数据，整个过程叫语音情感特征提取。将语音情感特征信号转换成音频数据，将声音的不同片段截取[5]，投射到多维空间中，得到声音的特征向量以及情感的特征向量。加密处理是将声音片段进行时域和频域分析，得到声音的特征参数。则语音特征的特征参数就能用截取到的音频特征参数表示。采用情感特征向量训练的SVM模型实现情感特征的提取。

与特征提取方法不同，加密处理分为时域、频域和小波域。时域的分析方法简单，运算量小，分析效率高。能够表示人的语音情感的特征有[6]：短时能量特征、短时过零率特征、短时平均特征、线性预测系数特征和倒谱系数特征等。不同的语音情况特征的描述情况如下：

1）短时能量。短时能量特征不仅能反应特征语音信号的强度大小，还能反应出语音的间隔和轻重音。短时能量是语音识别的核心技术，短时能量能够分辨声音的清晰度，清音的声音能量将比浊音能量低。假设一段语音信号为[w（n）]，采用短时能量分析法对移动的窗口进行加权，得到：

特征的维度数如果过高会产生大量的计算步骤，使系统的存储空间变小，减少系统的空间利用率[8]，现实应用不广泛。通过对特征的筛选可以减少大量的冗杂信息，降低维度数，提高预测系数，降低系统空间占有率。所以语音情感特征的提取是语音情感特征翻译实现的关键，为翻译机器对提取特征的翻译打下基础。

1.4 翻译模块设计

翻译模块采用内核动态二进制翻译模块，本文的翻译模块包括：用户监视器、内核监视器、CPU模拟器、指令翻译器、外设模拟器以及翻译处理器。用户监视器功能负责加载用户空间中的应用程序和管理用户空间与内核空间的交互。内核监视器主要为应用程序中的停留模块的翻译指令的执行提供支持。CPU模拟器是整个翻译模块的核心组件，负责应用程序CPU运行环境的模拟[9]，将需翻译的信号传输给指令翻译器。指令翻译器功能包括整个目标机体的指令到宿主机体结构指令的翻译和保存。外设模拟器是将目标机体的应用程序对硬件设施的指令传输到宿主机的硬件当中，翻译处理器对从外设模拟器中获取的翻译指令实施响应，完成指令的翻译和处理。整个翻译模块的设计流程如图3所示。

2 系统实现

2.1 语音特征识别模块实现

系统中语音特征识别分为语音信号前端处理、特征提取和情感模式识别。语音模式识别采用分类器进行组合划分，本文系统采用SVM模型进行语音特征识别，图4为语音特征识别流程图。

分析图4可得，前端的处理包括对带有特征信号的预处理和端点的检测，主要工作是获取有明显可容易识别的信号，减少过多信息带来计算量的增加，为后续特征提取提供优质的数据；特征提取与选择是指提取明显特征，将其导入到特征模式识别中，特征模式识别包括特征的模型训练和模型的测试，模型训练是将已提取出的情感特征划分为不同类别的SVM模型。情感模型测试包括离线和在线测试：离线测试是对已经训练好的SVM模型进行测试，即测试SVM模型的可识别能力；在线测试对正在导入的语音特征信号进行在线测试。

2.2 情感特征识别模块的实现

对产生的特征需要测试其是否能够满足翻译的条件，情感特征测试是对特征向量训练的SVM模型分类效果进行测试，图5为特征检测流程，特征提取后，经过特征模型训练分为三种情绪：情感1、情感2和情感3，通过投票判断特征的识别情况。

2.3 翻译处理器实现

系统翻译模块的翻译处理器实现过程中，采用TranslateServer.java翻译程序接收OCR处理器的翻译请求后，为了实现翻译系统的多线条处理，将翻译请求集合成为Thread，并采用run方法，将得到的函数分配到一个端口9874，利用ServerSocket創建新的服务器，打开9874端口，调用accept（）监听服务器端口，当有需要翻译的数据发送过来时，将数据转换成socker对象，若没有需要翻译的数据，此时翻译过程处于暂停状态。新产生的socker对象当作ocrTranslate的构造方法，9874端口的socker不再接收用户的翻译请求[10]，而是将用户的翻译请求传达给新生成的socker对象，在新的socker对象处于的线程中采用Google TranslateAPI翻译。同时，9874端口的socker对象接收新用户发送的翻译请求，则TranslateServer.java翻译程序接收用户的翻译请求，然后将请求传输给socker对象。翻译处理器的测试结果如图6，图7所示。

3 实验结果与分析

3.1 翻译效果

实验对系统翻译的质量进行量化考核。首先对翻译质量有一个划分标准：A?100分，B?80分，C?60分，D?40分，E?20分，F?0分。每一个经过系统翻译的句子，专家都要根据翻译的质量进行等级评价，然后将等级转化成分数，进行加权求值。专家对系统开放性、封闭性和维护性等方面进行评价，将评价结果进行汇总。译文质量的封闭性测试是从《英汉机器翻译译文质量测试大纲》中随机选取56个句子进行测试。开放性测试由检测小组设计24个句子进行测试，本文系统的翻译质量结果用表2描述。

基于表2可得本文系统具有较高的翻译效果，是有效的。

在Pentium866he 128内存的配置环境下，本文系统在封闭性的测试下共翻译了169个单词，用时4.176 s。开放性的测试总共翻译71个单词，用时1.467 s，本文系统总体翻译时间为5.643 s。分析这些结果可得，本文系统质量良好、翻译速度较快、系统的維护功能良好。

3.2 翻译系统响应时间

本文系统的翻译和传统在线翻译系统测试后响应的差别如表3所示。

从表3数据可以看出，前两次两种系统的响应时间都较长，第一次的调用包括建立信息通道和网络连接，在接收到翻译信号后，对一个对象实现实例化，所以第一次调用时间较长，之后的调用都是对这个对象进行实例化。总体响应时间来看，本文系统的响应时间较短，系统的扩展功能较好。

3.3 翻译准确率

采用本文系统与传统在线机器翻译系统对某大学图书馆中的医学、教育、法律以及数学四种类型的数据库实施中英文翻译，来验证本文系统是否具备较高的翻译准确率，结果用表4描述。从中能够看出，对于不同类型数据库实施翻译过程中，本文系统的翻译准确率高于传统系统，主要是因为本文系统模型库中的语音合成模块可以区分文本框中的字符是中文、英文或其他语言，从而对不同类型语音实施准确翻译。

4 结语

本文设计的语音特征和情感特征的翻译系统可以提高翻译的准确率和翻译效果，实现人与人之间无障碍交流，创建和谐、稳定的交流环境。

参考文献

[1] 宋鹏，金赟，查诚，等.基于稀疏特征迁移的语音情感识别[J].数据采集与处理，2016，31（2）：325?330.

SONG Peng， JIN Yun， CHA Cheng， et al. Speech emotion recognition using sparse feature transfer [J]. Journal of data acquisition and processing， 2016， 31（2）： 325?330.

[2] 李强，刘晓峰，贺静.基于语音特征的情感分类[J].小型微型计算机系统，2016，37（2）：385?388.

LI Qiang， LIU Xiaofeng， HE Jing. Sentiment classification based on voice features [J]. Journal of Chinese computer systems， 2016， 37（2）： 385?388.

[3] 陈俊，王爱国，王坤侠，等.基于类依赖的语音情感特征选择[J].微电子学与计算机，2016，33（8）：92?96.

CHEN Jun， WANG Aiguo， WANG Kunxia， et al. Speech emotional feature selection based on class dependence [J]. Microelectronics & computer， 2016， 33（8）： 92?96.

[4] 唐闺臣，冯月芹，梁瑞宇，等.面向语音情感识别的语谱特征提取算法研究[J].计算机工程与应用，2016，52（21）：152?156.

TANG Guichen， FENG Yueqin， LIANG Ruiyu， et al. Research on algorithm of spectral feature extraction for speech emotion recognition [J]. Computer engineering and application， 2016， 52（21）： 152?156.

[5] 陶华伟，柳晶晶，梁瑞宇，等.面向语音情感识别的Gabor分块局部二值模式特征[J].信号处理，2016，32（5）：505?511.

TAO Huawei， LIU Jingjing， LIANG Ruiyu， et al. Gabor block spectrum features based on local binary pattern for speech emotion recognition [J]. Journal of signal processing， 2016， 32（5）： 505?511.

[6] 刘淼，邵青.基于多译本平行语料库的翻译语言特征研究：对契诃夫小说三译本的对比分析[J].解放军外国语学院学报，2015，38（5）：126?133.

LIU Miao， SHAO Qing. A study of translation language characteristics based on multi?translation parallel corpus： a comparative analysis of three versions of Chekhov′s novels [J]. Journal of PLA University of Foreign Languages， 2015， 38（5）： 126?133.

[7] 刘茂玲，唐友东.英汉互譯中的文化特征与互译解析[J].中南林业科技大学学报（社会科学版），2014，8（3）：117?119.

LIU Maoling， TANG Youdong. Views on the cultural characte?ristics of language and translation [J]. Journal of Central South University of Forestry & Technology （social sciences）， 2014， 8（3）： 117?119.

[8] 刘宇鹏，马春光，刘水，等.大规模特征集翻译系统判别式训练方法综述[J].哈尔滨理工大学学报，2014，19（4）：100?105.

LIU Yupeng， MA Chunguang， LIU Shui， et al. The summary of discriminative training method of large?scale feature set [J]. Journal of Harbin University of Science and Technology， 2014， 19（4）： 100?105.

[9] 毛启容，白李娟，王丽，等.基于情感上下文的语音情感推理算法[J].模式识别与人工智能，2014，27（9）：826?834.

MAO Qirong， BAI Lijuan， WANG Li， et al. Speech emotion reasoning algorithm based on emotional context [J]. Pattern re?cognition and artificial intelligence， 2014， 27（9）： 826?834.

[10] 赵小蕾，毛启容，詹永照.融合功能性副语言的语音情感识别新方法[J].计算机科学与探索，2014，8（2）：186?199.

ZHAO Xiaolei， MAO Qirong， ZHAN Yongzhao. New method of speech emotion recognition fusing functional paralanguages [J]. Computer science and exploration， 2014， 8（2）： 186?199.