APP下载

大数据架构体系下的数据挖掘模型研究

2018-01-03符传健

科技创新与应用 2018年33期
关键词:数据挖掘大数据

符传健

摘 要:在这个时代里,从规模经济到范围经济,从搜索经济再到推荐经济,数据挖掘经营开启了“智”领革新、“智”在发展的新征程。文章以大数据架构体系下的数据挖掘模型为主线,从大数据环境自身的特点、当前典型企业对大数据技术的应用战略模式和数据挖掘模型等方面对大数据技术进行分析。

关键词:大数据;数据挖掘;模型研究

中图分类号:TP315 文献标志码:A 文章编号:2095-2945(2018)33-0071-02

Abstract: In this era, from economies of scale to economies of scope, from economies of search to economies of recommendation, data mining operations have started a new journey in which "wisdom" leads to innovation and "wisdom" is developing. This paper takes the data mining model of big data architecture as the main line, analyzes big data technology from the characteristics of big data environment, the application strategy pattern of current typical enterprises to the technology of big data and the data mining model and so on.

Keywords: big data; data mining; model research

1 研究背景

伴随着互联网、云计算、移动互联网和物联网等一系列ICT技术迅猛发展,用户数以亿计的互联网服务时刻产生巨量的信息交互,类似Web数据、传感数据流等个性化的非结构数据在互联网整个数据量中的比重逐步上升,数据的种类、复杂度都在大大增加,不再仅是处理企业内部结构化的数据,更多是无法用数字或统一的结构标识的非结构化数据,如文本、图像、声音、网页等。诸如以上创新因素,大数据应用与价值挖掘成为产业最为关注的热点课题,“IT”与“经营”的日趋融合,在大数据推动的商业革命与商业竞争暗涌中,要么学会应用大数据杠杆创造商业价值,要么被大数据驱动的新生代商业系统所淘汰。

2 大数据的架构体系与发展特征

大数据技术被称为“地球的神经系统”,它背后蕴藏价值堪比石油,业界将其特性归纳为4个“V”——Volume,Variety,Value,Velocity。其發展从其根本上是从传统的结构化数据处理模式走向现代非结构化的海量数据处理的一次根本性飞跃。目前,以大数据为核心的产业链正在形成,当前主要包括三层:第一层是企业内部交易数据和企业外部的用户行为数据、物联网数据;第二层是信息层,产生如数据包销售、租赁等业务模式;第三层是知识层,需要人工介入,提供融合行业信息。

大数据及其数据挖掘理论体系的创生发展赋予了产业更多的发展特征。(1)以人为中心的全方位需求满足成为产业的价值诉求,互联网生态结构发生再生于重构。全天候、全业务、全生态、全终端、全模式等以客户为中心的全方位需求满足,是大数据发展终始目标,大量智能移动设备接入网络,移动应用爆发性增长对数据进行深入挖掘的需求突显。(2)数据世界技术发展的重点已不再是数据存储,而是数据应用,数据价值挖掘成为数据的应用的关键和核心。从传统互联网到移动互联网,数据时时刻刻、分分秒秒都在成几何级的增长。而诸如twitte、facebook、google等也每天都在为数据的获取与价值挖潜而劳碌奔波。(3)基于用户行为分析,互联网营销趋向“开放-主动-整合”,“搜索+推荐”成为互联网发展的新主导行为模式。

3 “平台聚合+数据挖掘”的创新模式探讨

3.1 以阿里巴巴为领衔的商务平台大数据分享模式

阿里巴巴推出淘宝开放平台,开展“数据分享平台”战略,大数据产生的价值已深入地影响了企业的经营和管理,如何有效管理和应用大数据也为企业提出了巨大的挑战。天猫与阿里云、万网宣布联合推出淘宝开放平台,是基于淘宝各类电子商务业务的开放平台,提供外部合作伙伴参与服务淘宝用户的原始数据分析。为天猫、淘宝平台通过对全平台内的交易信息和用户行为等信息进行分析,为商家提供推荐参考及其他个性化服务,以此进一步加强自身平台和商家之间的粘性。

3.2 以Facebook为领衔的社交平台大数据分析模式

“大数据”技术对于社交网站的核心价值在于数据的挖掘和应用产生的多方位价值。Facebook构筑了多系列化得开放平台,除自身所具备的社交网络属性外,在功能设计和页面更新上均注重获取多维用户信息,力求全程记录和沉淀用户的行为数据。由此获取的大量数据将成为未来Facebook的核心资源与竞争优势。情感分析是近来社会媒体的大热趋势,其目的在于帮助公司了解消费者对于其产品的看法,是一个很有效的实时反馈系统,能够监测广告的有效性进而预测广告投放的结果。

3.3以 IBM为领衔的数据服务分析平台大数据创新模式

大数据时代,如何对极大量的数据进行及时的处理、高效地存储和管理,成为了拥有大量数据的企业所要面临的主要问题。而相应的,这也就为拥有丰富强大数据管理和计算能力的数据服务类企业带来了机会。IBM推出了云计算平台作为一个并行分布式系统,通过低成本和高扩展性的方案对现有数据仓库系统进行增强和延伸,提升了仓库存储和商业决策分析能力,从而支持了大数据处理,为使用大数据的企业带来了方便。

4 数据挖掘典型模型构建:知识发现与价值挖掘的衍生

数据挖掘则将“大数据”转化为“大洞察”的方法论体系,它是一种透过数理模式来分析企业内储存的大量数据资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法,又名“数据库中的知识发现”。通过数据挖掘整合和洞察数据,让企业更全面、更深入、更准确地了解和把握客户的需求特征,企业也就有更多的机会对潜在客兴趣爱好、消费倾向及消费心理等,帮助企业提升运营管理能力和绩效。硅谷的新宠,前有Google,后有Facebook,都是驾驭数据挖掘的大师。数据挖掘中的常用模型有:交叉销售模型、关联推荐匹配模型、互联网信用模型、电商动态定价模型、信息聚合分类模型。

4.1 交叉销售模型

利用关联规则发现两个产品间潜在的相关性,进而进行捆绑与推荐;关联规则可用Apriori等算法实现。交叉销售通过研究客户的产品使用情况、消费行为特点,发现老客户的潜在需求。一方面通过产品之间的关联,寻找实现产品捆绑销售的机会,另一方面,为新产品寻找已有用户中的目标群体。

建立模型的具体步骤为:(1) 以个体用户为单元,收集其订购业务种类,计算其订购比例;(2) 提取订购比例较高的几类业务,计算不同业务两两间的相关性,分组、筛选与分类;(3)针对相关性和替代性高的业务组合进行交叉销售,如绑定销售、精确推荐。

4.2 关联推荐匹配模型

关联推荐匹配模型着眼于用户数据的基础属性、媒体属性等,实现产品精准定位,在广告的定向投放上效果显著。建立该模型需要采集的用户数据有基础属性数据如性别、年龄、收入、学历;环境属性数据如手机上网时间、城市,地点、系统平台、语言环境;媒体属性数据如浏览的媒体、浏览的内容、兴趣关注点、当前的需求;消费属性数据如关注品牌、关注产品、消费水平、消费心态等。

大数据技术使得社交网络数据深度挖掘成为可能,运用计算机智能,通过社交网络API获取用户授权数据,进而对用户数据进行学习和解析,再通过数据挖掘进行建模与推荐(数据量更大);完全的个性化分析可以提供最有价值的产品。例如AppHero经由社交网络数据深挖掘,使用Facebook的数据,让这些数据成为推荐的基准。

4.3 互联网信用模型

传统通用模型存在环境因素难确定、属性单一等缺点,而卖家间的差异巨大;基于APRIORI算法建立互联网信用模型,更准确,并可预测信用趋势。

数据变换(文字评价转变为数字), APRIORI算法挖掘关联生成关联规则,得出:信用值与好评率、行业、性别、违规操作数、婚否、地区、卖家级别、收入、逾期坏账次數相关。按照淘宝网的交易模式来看,信用模型同样可以用于买家,实现买卖双方的公平对等;电信行业也可以参考信用卡模式度,对用户进行信用监管。移动的客户中,曾经有月贡献1000元左右的全球通高端客户因为欠费0.7元而被停机,导致其离网的先例。以信用卡模式建立的基于数据挖掘技术的电信行业用户信用管理,仿照信用卡模式对客户授予一定的话费透支额度,与用户信用度相关联;同时也可以对透支部分的消费加收额外费用。

4.4 电商动态定价模型

传统动态定价方法以拍卖为主,很难收集客户信息;基于数据挖掘的电商动态定价模型则可以充分收集交易交易数据,并能通过自学习对价格进行调整电子商务通用信用模型的缺点主要有:卖家很难搜集全面的客户、竞争对手信息,不能对其进行深度挖掘;不能依据客户特征进行差别化定价,也做不到对不同的商品做出及时、适当的加价幅度的调整;当需求量具有随机性和价格敏感性时,动态定价就成为使利润最大化的有效方法。

4.5 信息聚合分类模型

信息杂志化是近年来的发展趋势,杂志化阅读一方面将社交网站集成一体,个性化定制界面使信息获取更方便;但杂志化阅读应用诸如Flipboard并不具备个体社交网络软件的很多功能,因此其必须要主打方便和效率;但目前为止其模式知识简单的“搬运”——但杂志化并不意味着信息大杂烩,对信息进行聚合分类可以大大提升阅读效率。大数据与Flipboard模式的结合可以很好地解决这一问题。通过社交网站数据的采集并进行特征归类,自动将每一条信息划归最合适的分类区,大大提高了阅读效率。该模型还可以定期对数据进行自学习与更新,产生新的分类建议。大量数据不仅可以通过数据挖掘建立模型供企业/卖家进行内部分析,也可以通过合法交易供其他企业/卖家使用,数据提供者不仅可以从中获益,数据本身也能创造更多价值。在电视广告领域,总部设在纽约的Nielsen已经连续十多年为广告主以及电视台提供了相关数据。

5 结束语

毋庸置疑,大数据将彻底改变人类文明的发展脉络,重塑我们对于世界、对于生活的认知和价值挖潜。但任何事物都具有两面性,大数据也相同,它的应用与现存的伦理还有着不小的冲突,是谁赋予了数据采集者使用个人数据的权利?如何保证个人数据不被别有用心的人利用?“Big brother”和“Big data”可能只有一步之遥,如何让用户在监控社会下寻找到内心期待已久的安全感,或许是大数据在应用时需要妥善解决的问题。

参考文献:

[1]周红红.基于Apriori算法的Weka数据挖掘应用[J].科技信息,2011(39):17.

[2]王菲菲,李晶.基于数据挖掘的电子商务动态定价模型[J].中国信息界,2012(11):179.

[3]漆晨曦.运营商大数据管理及应用体系发展策略[J].通信企业管理,2012,30(3):65-68.

猜你喜欢

数据挖掘大数据
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
基于R的医学大数据挖掘系统研究
数据+舆情:南方报业创新转型提高服务能力的探索
一本面向中高级读者的数据挖掘好书