APP下载

非结构化大数据技术及创新产品

2016-10-15杨凯程

软件和集成电路 2016年8期
关键词:结构化语义建模

杨凯程

非结构化大数据平台或者技术的建设,其实是现在大数据整个产业链中十分重要的或者说不可缺少的一个环节。今天我重点汇报一下,神州泰岳在非结构化大数据在这个领域中的技术研究以及相关的一些工具方法。

人工智能的兴起

人工智能的发展在近一两年得到了很大关注,很大一部分得益于大数据,它把认知科学、认知技术推到了前台。2016年3月1日,“迎接认知时代,IBM与您智胜未来”主题论坛在京举行。IBM大中华区董事长陈黎明宣布,IBM“认知商业”战略正式在中国启动。IBM认知商业解决方案的愿景是,将高级分析和认知计算从根本上结合在一起,以帮助客户创造企业价值。拳头认知应用—Watson Analytics。美国西部时间2016年3月30日,微软Build 2016开发者大会在旧金山举行。今年的最大亮点,便是微软人机交互平台(Conversations as a Platform)。一是“微软认知服务(Microsoft Cognitive Services)”;另一个功能是“微软机器人框架(Microsoft Bot Framework)”。

2016年4月13日,百度董事长兼CEO李彦宏通过内部邮件宣布百度业务架构重组。自即日起,百度将成立“百度搜索公司”。7月14日在北京举行的“2016年百度云计算战略发布会”上,李彦宏表示:百度将走云计算、大数据和人工智能三者结合的道路。

认知计算最大的挑战之一是对自然语言语义理解能力的提升,具体来说尤其是中文这个领域,比较难的挑战部分是在于追问的歧义性和多义性的问题。在面对这种需要大规模语义理解的时候,深度学习的出现使得这个领域见到了曙光。

深度学习是一种算法,首先需要的是大量的样本,互联网应用中可以看到一些应用,有些效果比较好,有些应用却收效甚微。在我们的行业应用中往往碰到的问题是什么?我认为有三个问题,第一是我们行业的样本数量较缺乏,行业很难提供很多的样本数据学习,且短时间内很难给大家提供样品,这样会造成应用的上线和应用研发有很多困难。另外行业对分析结果的要求比较高,需要准确地分析结果,不可能给出模糊的分析。这是另外一个挑战。此外,中文语义所造成的歧义性,通过深入学习的方法去突破这个领域也需要很多方面的努力。

智慧语义认知技术

对此,神州泰岳有自己的创新,我们把其称为基于概念计算的智慧语义认知技术NLP。这个技术简单来说,通过概念计算,苹果作为水果概念的时候,我们会给他一个符号化的表示,这个概念表示的时候,不可能通过学习,是要通过人工建立起来的。

但是有了NLP语义技术之后,我们发现了另外一个烦恼,我们给客户讲技术、讲分词、讲统计算法,可是我们的客户尤其行业用户更关心他们的业务,因此在这中间就会产生鸿沟:语言一端表现的是多样性和歧义性,业务一端表现的是规范性,这两个之间是有矛盾的,客户不希望去处理语言,希望注意力专注在企业的业务上,让计算机通过业务建模处理复杂的语言,帮助企业专注做业务创新。

大数据分析挖掘平台

神州泰岳基于业务建模,提出了DINFO-OEC非结构化大数据分析挖掘平台,这个平台是面向业务建模的,并在很多行业得到应用。平台主要为用户提供三个非结构化大数据的垂直能力,一个可以提供实时计算的能力、批量计算的能力、交付计算的能力,希望通过三种能力,给上面的应用创新提供支持。

OEC平台有四个特点,首先是业务建模,DINFO-OEC分析挖掘模型实现业务描述与语言表达的分离;支持多语种(新增加语种,不用修改算法)支持多语种复用、支持跨语种建模能力;多算法支持,概念C计算/统计S计算/关联R计算;平台集成能力:支持主流的Hadoop平台、支持主流BI工具集成、TD Aster集成、SAP SAS Oracle集成、Spark集成。

大数据产品战略

基于这样的平台,神州泰岳非结构化大数据的三大产品战略:

平台化:以“平台化”策略驱动核心技术研发,围绕语义认知主题,开放语义认知平台,吸引更多的行业合作伙伴,共同打造语义认知生态链。

智能化:以“智能化”策略驱动人工智能应用产品研发,围绕行业应用中以文字为载体,需要深度语义认知技术的应用场景,推出系列的智能化应用产品。

云服务:以“云计算”策略驱动非结构化大数据应用产品研发,继续整合行业知识,在原有基础云服务基础深挖行业应用内涵,推出系列大数据云服务产品。比如:“智媒”腾讯智慧传播管理平台、证券研报分析云服务等。

神州泰岳在整个大数据的产业链上也做了一些工作,我们鼎富科技专注于非结构化大数据分析结果的提供和相关服务,我们在影视大数据这一块,也有自己的品牌叫智影时代,神州泰岳还有一个品牌叫泰岳数据,泰岳在运营商领域,包括运维领域的表现名列前茅,在与客户合作中,积累了大概3亿以上的用户上网数据,我们希望通过数据进一步拓展在行业的应用。

大数据的行业应用目前呈现出欣欣向荣之势,在金融领域、电信领域、气象和农业等行业,希望通过我们的大数据服务和各种数据分析能力,帮助各行各业实现自己的业务价值,并且在创新方面有所突破。(根据演讲内容整理,未经本人审核)

猜你喜欢

结构化语义建模
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
韩国语“容入-离析”关系表达及认知语义解释
物理建模在教与学实践中的应用
在经历中发现在探究中建模
思维建模在连续型随机变量中的应用
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
求距求值方程建模