APP下载

房产自动应答(FAQ)系统的发展

2012-08-15

赤峰学院学报·自然科学版 2012年8期
关键词:中间件分词密钥

徐 轶

(赤峰学院 国有资产管理处,内蒙古 赤峰 024000)

房产自动应答(FAQ)系统的发展

徐 轶

(赤峰学院 国有资产管理处,内蒙古 赤峰 024000)

本文根据房产中的应答系统的特点,采用了自然语言处理技术,并对关键技术进行了分析.

自动应答系统;分词;数据库加密

1 自动应答系统的发展现状与趋势

自动应答系统(Question Answer System,QAS)是一种基于因特网的高性能的软件系统.随着网络技术的发展和互联网资源的不断完善,自动应答系统广泛应用于数字化城市建设、客户咨询服务、远程教育网的自动答疑、移动无线互联网业务等场合.这一系统的核心技术是基于自然语言理解的相关技术,包括知识信息的语义网络表示、自然语言理解策略等.

自动应答系统在很多方面已经开始取代一些烦琐的业务受理服务.首先在查询方面,如航班查询、电话费查询、高考分数查询等等;其次,在通讯方面,如电话自动应答,传真机应答,数字存储式自动应答录音系统等.这些自动应答式系统从时间上提高了效率,但是这些服务通常是一些比较固定的业务模式,还不能做到根据用户提出的问题,进行理解后再回答相关的业务问题,还不能算得上是真正意义上的自动应答,严格地说应该是一种受限制的自动应答系统.

2 自动应答系统的主要功能

自动应答系统是利用问题的普遍性和共性而提出的.系统首先由经验丰富的专家将大量的常见答案保存在应答系统的答案库中,当用户将想要提出的问题提交给系统时,系统首先去理解这个问题,之后在答案库中找到相关的答案提交给用户进行参考学习.由于用户对同样的问题理解一般有形似之处,提出问题也大多相同,因此当答案库初期建立得比较好时,用户提出的问题的答案也大都能存在答案库中,由系统给出满意的答案,大大减少了答疑专家的工作量,用户的问题也能得到及时回答.随着系统使用时间的增加,答案库将因专家的不断回答新问题而自动扩大,系统也将变得越来越实用和高效,形成可以检索的问答知识库.

3 自动应答系统的关键技术

3.1 C/S体系结构及相关技术

C/S(Client/Server)结构,即是大家熟知的客户机和服务器结构.它是软件系统体系结构,表示着一个应用与一个服务器之间的相关性.随着局域网络和分布式系统结构的迅猛发展,对C/S的理解越来越复杂和深刻.在结构上具有很多差别的许多系统都被称为C/S结构.

C/S技术本身就是一种分布处理技术,通过它可以充分利用两端硬件环境的优势特点,将任务合理分配到Client端以及Server端来实现,降低系统的通讯费用、软件开发与维护成本,增强应用的可移植性,提高用户的使用效率,保护用户的投资,减少对小型计算机和大型计算机的需求.C/S具有以下特征:

C/S是分离的逻辑实体,它们通过网络协同工作来完成一项工作.在C/S环境下,应用成分包括界面表示逻辑、业务逻辑、数据逻辑和DBMS以及数据在网络上的分布.网络节点就可以分为Client和Server,Client是请求服务的节点;Server是执行请求服务的节点.Client和Server通过连接他们的中间件来协作完成某一任务.CIient、Server和中间件就构成了C/S的基本结构.

3.1.1 Client:C/S应用是以Client为中心的,Client运行应用程序的客户部分.它运行于一个支持GUI而且能访问分布式服务的操作系统上.操作系统最常见的情况就是要把工作传递给中间件,让Server处理非本地服务.

3.1.2 Server:运行应用程序的服务器部分.Server依靠操作系统和输入服务器请求的中间件进行联系.Sevrer最典型的分工就是作为数据库的服务器.一般而言,数据库的服务器应能提供高速度大容量的存储能力,还有较强的处理能力,以及并发运行多个应用程序的能力.随着技术的发展,Server的功能与范围将不断地扩大.

3.1.3 中间件:是一种独立的系统软件或服务程序,分布式应用软件利用这种软件在不同的技术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信.中间件处于操作系统软件与用户的应用软件的中间,处于操作系统、网络和数据库之上,应用软件的下层,总的作用是为处于自己上层的应用软件提供运行与开发的环境,帮助用户灵活、高效地开发和集成复杂的应用软件.中间件是C/S基本结构的中枢机构.

最初的信息系统大多采用的是集中式的结构模型,所有的处理和计算都由中心机房的主机完成,用户端是没有处理能力的终端.随着网络技术的发展,人们对信息、资源的共享和充分利用提出了更高的要求,而出现了二层C/S结构模型,随着应用的大型化,二层C/S结构模型越来越不能满足分布式应用的要求,二层C/S结构也逐渐向三层C/S结构过渡.

3.2 中文分词技术

中文自动分词是各种信息检索、机器翻译、语音识别、文本校对、文本挖掘等研究的前提和基础.因汉语句子构成的复杂性,汉语自动分词已经成为目前中文信息自动处理的难点.词语是自然语言中有意义且可独立运用的最基本实体,而汉语文本是以字为单位的,要能使计算机从语义上识别汉语,通常与要对汉语言文本进行切分,而中文信息与英文信息有一个明显的差别:英文单词之间是用空格分开的,而在中文文本里,词与词之间没有天然分隔符,中文词汇大多都是由两个或两个以上的汉字组成的,语句是连续书写的,所以对中文文本分析前,先将整句割成小的词汇单元,即为中文分词(中文切词).从现有的成果看,中文分词可以分为两大类:一类是基于词典与规则的字符匹配算法,另一类是基于统计的无词典切分算法.前者实用高效,因而在实践中应用广泛.

在自动应答系统中,自动分词模块的速度影响整个系统的效率.中文信息检索主要有两种:基于字的检索和基于词的检索和基于字的检索系统建立单字索引.在检索时得到每个字的检索,而后加以适当地逻辑运算,从而得到检索结果.而基于词汇的检索系统对词汇建立索引,检索词汇时一次命中.本系统是采用基于关键词的检索来实现中文信息检索.

自动分词的基本算法有:基于字符串匹配分词方法和基于统计的分词方法.本系统采用了基于字符串匹配的分词.

基于字符串匹配的分词方法:

这种方法又叫做机械分词方法,它是按照一定的方法将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某字符串,则匹配成功.按照扫描方向的不同,字符串匹配分词方法又可分为正向匹配和逆向匹配;按照不同长度优先匹配的原则,可以分为最大匹配和最小匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法.常用的几种机械分词方法如下:

(a)正向最大匹配法(由左到右的方向);

(b)逆向最大匹配法(由右到左的方向);

(c)最少切分(使每一句中切出的词数最小).

字符串匹配的分词还可将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法.由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般使用很少.逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也比较少.统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245.但这种精度还不能满足实际的需要.实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用其它的语言信息来进一步提高切分的准确率.一种方法是改进扫描方式,称为特征扫描或标志切分.就是优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,将原字符串分为较小的串再来进机械分词,继而减少匹配的错误率;另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行调整、检验,从而极大地提高了切分的准确率.

3.3 数据库加密

数据加密就是将明文数据经过一定的交换(一般为变序和代替)变成密文数据.数据解密就是加密的逆过程,即将密文数据转变成可见的明文数据.

一个密码系统包含明文集合、密文集合、密钥集合和算法,其中密钥和算法构成了密码系统的基本单元.算法是一些公式、法则或程序,它规定明文密文之间的变换方法,密钥可以看作算法中的参数.

数据库密码系统要求将明文数据加密成密文数据,数据库中存储密文数据查询时,将密文数据取出并解密即可得到明文信息.

较之传统的数据加密技术,数据库密码系统有其自身的要求和特点.传统的加密以报文为单位,加密解密都是从头至尾顺序进行.数据库数据的使用方法决定了它不可能以整个数据库文件为单位进行加密.当符合检索条件的记录被检索出来后,就必须对该记录迅速解密,然而该记录是数据库文件中随机的一段,无法从中间开始解密.因此,必须解决随机地从数据库文件中某一段数据开始解密的问题.

3.3.1 数据库密码系统应采用公开密钥:传统的密码系统中,密钥是秘密的,知道的人越少越好.而数据库数据是共享的,有权限的用户需要知道密钥以便于随时查询数据.因此,数据库密码系统宜采用公开密钥的加密方法.

3.3.2 多级密钥结构:数据库关系运算中参与运算的最小单位是字段,查询路径依次是库名、表名、记录名和字段名.因此,字段是最小的加密单位.也就是说当查到一个数据后,该数据所在的库名、表名、记录名、字段名都应是知道的.对应的库名、表名、记录名、字段名都应该具有自己的子密钥,这些子密钥组成了一个能够随时加密解密的公开密钥.这样,可以设计一个数据库,其中存放有关数据库名、表名、字段名的子密钥,系统启动后将这些子密钥读入内存供数据库用户使用.与记录相对应的子密钥,一般的方法应是在该记录中增加一条子密钥数据字段.

3.3.3 加密机制:有些公开密钥体制的密码(如RSA密码),其加密密钥是公开的,算法也是公开的,但是其算法是每个人一套.而作为数据库密码的加密算法不可能因人而异,因为寻找这种算法有其自身的困难和局限性,机器中也不可能存放很多种算法,因此这类典型的公开密钥的加密体制不适合于数据库加密.数据库加密解密的密钥应该是相同的、公开的,而加密算法应该是绝对保密的.

目前房产自动应答系统还正处于发展阶段,一些不科学、不完善的地方会在应用中逐步得到解决,相信随着我国房地产市场的不断发展壮大,房产自动应答系统会得到大量推广使用,为我国的房地产事业做出更大的贡献.

TP311.5

A

1673-260X(2012)04-0020-02

猜你喜欢

中间件分词密钥
幻中邂逅之金色密钥
分词在英语教学中的妙用
密码系统中密钥的状态与保护*
结巴分词在词云中的应用
结巴分词在词云中的应用
TPM 2.0密钥迁移协议研究
RFID中间件技术及其应用研究
一种对称密钥的密钥管理方法及系统
基于Android 平台的OSGi 架构中间件的研究与应用
中间件在高速公路领域的应用