APP下载

数据银行:融合和盘活大数据资源

2016-10-15齐红威

软件和集成电路 2016年8期
关键词:小票结构化深度

齐红威

数据堂成立于2011年9月。2014年底,数据堂挂牌新三板,市值为25~28亿元。目前公司拥有45000套数据,已达近2000TB的存储规模,每一套数据可单独完成一件事。

数据堂的商业模式—“数据银行”能够融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。

目前,大数据企业分为三个领域:数据源、数据技术和数据应用。数据堂是做数据源的企业,通过“数据银行”模式,将数据拥有方和数据需求方之间打通,让数据流通起来。解决“有数据的企业不以数据盈利,想做数据的企业又没有数据”的行业痛点。

要打通数据,就要获取数据,并进行分析处理和产品化,再把标准化数据提供给客户。这涉及到三个问题:第一、我们拥有哪些数据,这些数据是怎么获取的?第二、如何进行数据处理?第三、数据是怎样服务的,客户如何享受和应用这些数据?

第一、我们有哪些数据。从2011年开始至今,数据堂整合了5个领域的数据。首先是征信和金融领域。我们拥有一定规模的基础数据,包括身份信息、出行信息、保险信息、金融社交数据和水电数据等;其次是IT智能化领域。我们在人工智能领域积累了有关语音、头像和文本等的大部分数据;再有,数据堂在精准营销、医疗健康和智能交通等领域也获取了大量数据。解决数据源是做大数据唯一出路。在获取数据方面,我们主要有四类来源:众包数据、行业数据、政府数据和互联网数据。

众包大数据。数据堂以众包模式为基础,能大规模、快速地获取线下数据。目前数据堂的众包平台“众客堂”拥有50多万名众客,并有大量实名兼职人员负责采集线下数据。如典型案例“采购小票”是反映线下商业活动的媒介,众客堂用户可以直接扫描小票、拍照给我们,我们运用小票(图像)OCR的核心技术,将小票上的价格、销售关联、时间和地域等数据,提供给政府CPI部门和供应商。

行业大数据。数据堂拥有近300家数据提供伙伴。部分行业在做主营业务时会同时产生很多业务,这些业务对行业本身而言是附产品,但可以释放巨大的价值。我们在2015年所融的资金基本上用于行业大数据,通过与行业客户深度合作,共同挖掘数据的价值。如出租车实时的位置数据对出租行业是一个附产品,但对路况统计或市政规划建设则有着巨大的价值。

政府大数据。从2014年底开始,政府数据逐渐开放。目前政府数据开放的力度和速度超乎想象,政府数据开放是大势所趋,需跟进布局。我们通过和政府部门合作,获取了高速公路、身份、出行数据。另外,政府部门包括工商、税务、交管、民政和卫计的数据,有着巨大的价值,但如何在安全可靠的前提下释放数据的价值,这个问题需要共同探讨。

互联网数据。这个是线上数据,分为开放的数据和非开放的数据。开放的数据都能通过爬虫在互联网上抓取,这类数据只能用于宏观或者中观的分析,数据价值相对较低。如果用于深度分析,需要对数据进行深度清洗和抽取分析,代价较高、挑战也很大。而非开放的数据极具价值,但比政府数据更难开放。

第二、获取数据之后如何处理?可以将我们获取的数据比作原油,需要进行处理才能使用。第一步,对数据进行清洗、脱敏。第二步,非结构化到结构化的处理。这是技术上最为关键而又最具挑战的环节。

80%以上的线上数据是非结构化数据,这是大数据和海量数据、大规模数据的本质区别。这些非结构化数据主要包括图像、语音、视频和文本等数据,在对之进行分析前,需要进行结构化处理或深度处理。数据堂拥有人脸识别,小票识别,物体识别,语音、语义识别等非结构化数据处理的关键技术。

将数据结构化处理之后,要通过融合解决数据孤岛问题,激发数据的关联价值。例如,如果不将出行数据、在线交易数据和银行数据等进行深度关联和融合,就无法对用户进行深度精准画像。

第三、在关联之后,就可将数据标准化对外服务。在这方面,数据堂提供两大自主核心技术:大规模分布处理和非结构化数据处理技术。

在数据服务的过程,我们采用两种模式:一种模式是将数据标准化之后,以API(应用程序编程接口)或者SDK(软件开发工具包)的形式,嵌入客户的应用逻辑。换言之,数据堂只做数据资源,不做数据应用。打个比方,我们是面粉加工场,获取的是五谷杂粮,生产的产品是面粉,而我们的用户是做面包的。

我们每个数据可在不同行业深度应用。如我们高速路数据的应用案例,除西部几个省外,我们拥有26个省的高速路的车辆记录数据,包含上下车时间、车辆类型等。针对这个数据,我们有几个典型应用:

一是和互联网金融客户做货车贷。对象主要是货车司机。货车司机的资金周转极其频繁,需要对其进行评贷。我们和互联网金融客户合作,评判货车司机的行使状况和模式,包括去过哪些城市,满载率、和违章率等。

二是和保险公司、车险公司合作开发新的保费。我们专门针对经常跑高速的车辆开发了一个新的险种“高速险”,并利用高速路数据进行旅游营销。

三是和港口合作。港口企业有两个需求:全国的货物在哪些省市运到他的港口;货物又运到了哪些地方。结合我们的高速路数据,港口能精准地知道货物的去向,并知道旺季消费地点。

我们希望与大家深度合作,尤其是期待未来能在金融、精准营销、人工智能这些领域进行深度合作,共同发掘数据的价值。(根据演讲内容整理,未经本人审核)

猜你喜欢

小票结构化深度
四增四减 深度推进
深度思考之不等式
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
简约教学 深度学习
小票大学问
残缺的购物小票
深度挖掘