APP下载

大数据下智能手机用户行为特征与选择偏好预测

2018-03-21程豪吕晓玲范超赵昱

统计与决策 2018年2期
关键词:决策树正确率智能手机

程豪,吕晓玲,范超,赵昱

(1.中国科学技术协会创新战略研究院调查统计中心,北京100012;2.中国人民大学a.应用统计科学研究中心;b.统计学院,北京100872;3.QuestMobile&人大统计移动互联网大数据研究院,北京100015)

0 引言

近年来,“打造智能生活”的理念不断落实到社会各个领域。作为智能化产业之一,智能手机的迅猛发展,影响并改变着人们的生活方式。智能手机的普及和推广直接导致海量数据和信息的产生。比如,越来越多的用户位置信息(GPS轨迹、手机的基站定位数据等)能够被精确地记录和获取[1]。随着日常运营中生成和积累的用户行为数据的逐渐堆积庞大,给人类在这些数量庞杂、种类繁多的资源中甄别并获取有价值的信息资源增加了难度[2]。因此,数据清洗和数据分析显的更为重要。而针对智能手机监测数据的数据清洗方案鲜有人涉及,如何在尽可能保证信息不受损失的同时,清晰条理的提出一套智能手机数据清洗方案显得尤为迫切。

目前有关手机大数据的研究主要集中通过手机GPS或通信基站来获取用户的具体地理位置经纬度数据,以此来分析用户的行为轨迹特征,研究的内容主要集中在智能交通和用户行为两个方面[3]。在智能交通方面,Zhang等[4]研究数据驱动下的智能交通系统,Cao等[5]根据GPS轨迹绘制电子地图等;在用户行为方面,Pablo[6]根据行为理解提炼出用户行为模式、Leskovec等[7]在考虑时间因素下讨论社交关系、David等[8]根据地理信息完成服务推荐研究等。但是,这些研究往往基于用户在生活中进行用餐、购物、旅游等与物理世界紧密相连的行为[1],将用户的生活状态和兴趣习惯毫无保留的予以公开,其敏感性导致研究工作受到局限。此外,将研究关注在用户行为轨迹方面,而非手机属性本身,对手机智能化推广指导借鉴意义不大。在智能手机逐步取代传统功能型手机的大潮中,通过对手机用户群体现在选择偏好和潜在需求的深入研究[9],并提供方法学依据,成为智能手机厂商成功打开市场急需思考的问题。

因此,本文提出以APP应用程序为用户行为标识,分析不同手机属性下的用户行为特征,预测选择偏好,为智能手机监测数据的研究提供一种新思路。

1 数据简介与清洗

1.1 数据简介

本文数据来自QM公司的智能手机监测数据。该数据包括2015年2月1日到5月17日内13余万安卓系统用户,具备数据量巨大(Volume)、增长速度快(Velocity)、内容多样化(Variety)、价值密度低(Value)的4V特征。见表1所示。

1.2 数据提取方案设计

本文以Shell、Python为工具[10],根据手机用户数据特点和分析目的,提取用户ID全集及相关信息表和用户APP使用信息表。其中,用户ID全集及相关信息表包含用户的地理位置和手机型号数据。这两项数据是用户重要的特征标签,但并非所有的用户都存在地理位置和手机型号信息记录,本文提取在106天中同时存在该两项信息记录的人群。

用户ID全集及相关信息表的提取流程如下(流程图见图1):

图1 用户ID全集及其相关信息表的提取流程图

第1步:根据106天每天的地理位置数据表,将用户ID及所在省份合并作为唯一标识,进行word count处理。

第2步:根据106天每天的手机型号信息表,以用户ID、品牌、型号、尺寸、分辨率为唯一标识进行word count处理。

第3步:将106天的word count结果合并,进而得到在Location表和手机信息表中都出现过的所有用户ID,并记录他们被监测的天数、次数。

第4步:106天汇总结果中可能存在用户ID重复的问题,原因是某用户在这106天中出入了多个省份,或者是使用过不同的手机。为解决该问题,本文将用户在106天内停留时间最长的省份作为该用户的常驻省份,将其使用时间最长的手机型号作为该用户的常用手机。

第5步:最后根据用户ID匹配的省份和手机信息,将无法匹配的用户删除,最终得到132845名用户ID全集及相关信息表。

用户APP使用信息表的提取流程如下(流程图见图2):

图2 APP使用信息表的提取流程图

第1步:提取每天的App行为监测表,按用户ID以及打标签后的APP类别作为唯一识别,汇总每人每天每类APP的使用时长,把不属于APP分拣表内的APP标记为ELSE类处理。

第2步:利用第1步得到的汇总数据,根据用户ID将其各类APP使用时间进行连接,进而得到每人每天每类APP使用情况矩阵。该矩阵中每一行代表一个用户,每一列代表一个APP,每个位点的数据代表该用户当天使用该APP的时间。

第3步:根据用户ID将第2步中得到的用户APP使用情况矩阵进行汇总,进而得到106天每人每类APP总使用时间及使用天数矩阵,最后删除ELSE类所在的列。

2 用户行为特征分析

根据数据中的现有信息,以20类APP使用时间(单位:秒)作为用户行为特征的标识,通过研究手机名牌、价格、屏幕大小和分辨率四个属性与20类APP间的关系,对用户进行分类,并为不同类用户贴标签。由于任一属性与APP间的相关系数都较低(大多在0.1以下),故可以推断变量间不存在显著的线性关系。考虑到所选模型要既能够分析数据间的非线性特征,又能对变量间的关系有较强的解释性,因此选择决策树[11]作为分析工具,分析用户行为特征。需要说明的是,本文以使用人数超过100为标准,从3000多款手机型号中选取240个具体型号(涉及用户102614人),通过中关村在线(www.zol.com.cn)网站获得手机价格。

经统计,102614个用户中三星和小米的使用比重最高(分别占43.7%和22.3%)。这两个品牌中国市场也极具代表性,不妨以品牌二分类变量(三星、小米)为因变量,20类APP的使用时间为自变量,构建决策树1(如图3所示)。102614个用户中,手机价格的中位数为1400元,不妨定义小于等于1400元的手机为价格相对便宜的低端手机,大于1400元的手机为价格较贵的高端手机,即把手机价格转换为取值为高端和低端的二分类因变量,构建决策树2(如下页图4所示)。同理,以屏幕尺寸的中位数为5寸为分界,将小于5寸的手机定义为小屏幕手机,大于等于5寸的手机定为大屏幕手机,构建决策树3(如下页图5所示)。设定对角线分辨率<=1500为低分辨率手机,对角线分辨率>1500为高分辨率手机,构建决策树4(如下页图6所示)。

图3 基于手机品牌构建的决策树1

图4 基于手机价格构建的决策树2

图5 基于手机屏幕大小构建的决策树3

图6 基于手机屏幕分辨率构建的决策树

图3表明,区分三星和小米用户的最主要变量是系统工具(手机自带的应用、刷机软件等)。三星手机用户的特征是对系统工具的使用更频繁,且非常喜欢使用通信聊天APP(微信、QQ等),会使用网络金融APP(理财、基金应用等),但对于闹钟、天气预报等实用工具的使用则较少;而部分小米用户非常喜欢滴滴打车等汽车服务类应用,对手机自带的系统工具则使用较少,但对闹钟、万年历等实用工具的使用相对多一些。因此,三星手机的特点是手机内已事先安装了大量质量较好的APP(如日历、闹钟等功能),用户已无需再下载安装这类实用软件,导致对系统工具使用较多而对实用工具APP使用较少。而有些用户可能觉得预装的APP过多,因此会用ROOT系统工具软件来卸载部分APP。小米手机用户追求的是手机性价比,注重价格,使用者多为年轻人,他们易于尝试新鲜事物,因此对滴滴打车这类既方便又省钱的新鲜事物感兴趣。

图4表明,判别用户使用手机价位的最重要变量是实用工具,使用高端机的用户特点是喜欢使用效率办公APP,也会使用新闻资讯APP,相比低端手机用户,游戏软件的使用也更为频繁,但对打车软件(即汽车服务)使用较少;而低端机型用户的特点是基本不使用新闻资讯和效率办公APP,对APP的普遍使用相对较少。因此,中高收入者一般会使用高端机型,他们大多属于社会精英,注重办事效率和时事新闻,而不太关注像滴滴打车这种“占便宜”的行为。高端机通常是大屏幕、高分辨率、运行速度快,适合玩游戏。而低端机配置一般,内置软件的用户体验也一般,使用APP会降低手机运行速度,因此对APP整体使用较少。此外,一般老年人会选择低端机,对APP的整体使用也相对较少。

图5表明,区分用户屏幕大小偏好的最重要变量是系统工具,大屏手机用户更爱玩游戏,爱聊天,使用主题美化APP和效率办公软件。而小屏手机则对这些APP使用较少。因此,大屏手机更适合玩游戏,适合聊QQ,也适合通过主题美化软件为屏幕设定更漂亮的壁纸,且大屏手机可能价格更贵,因此,注重效率的社会精英更青睐这类手机。而小屏手机则不适合玩游戏,不适合长时间看手机屏幕,用户仅是用于最基本的通信功能,较少使用游戏、主题美化等APP。

图6表明,使用高分辨率用户的特点是经常使用通信聊天、游戏和网络视频APP,使用低分辨的用户则不常用这些APP。显然,因为高分辨率的手机屏幕更加清楚,更适合打游戏、看视频及网上聊天。

3 手机选择偏好预测

根据用户行为特征研究建立监督学习下的预测模型,预测不同特征的用户更倾向于选择使用哪类手机,可为手机厂商提供巨大的商业前景。按照Breiman对统计模型的划分[11,12],本文分别选择4个数据模型(线性判别分析、二次判别分析、Probit回归和Logistic回归)和4个算法模型(决策树、Bagging、随机森林和人工神经网络)。其中,判别分析和Logistic回归是统计学中常用的分类方法,应用领域非常广泛,特别在医学生物学领域和经济管理等研究领域。需要说明,线性判别需要假定两类样本的协方差矩阵相同,而二次判别的假定不同。作为最早的组合数方法之一,Bagging实现了从训练集中随机抽取部分样本生成决策树[11]。而在此基础上提出的随机森林在每个分割节点处随机选取一定数量的变量而非所有变量,避免某些“强势”变量支配模型。大量研究表明,随机森林具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合[11]。人工神经网络(NNET)作为一种按照误差逆传播算法训练的多层前馈网络,具有良好的自适应能力和自学习能力[11,13]。人工神经网络可以通过比较模型在测试集和训练集上的分类正确率,以训练集分类正确率最大处为最佳层数(见表2)。

表2 人工神经网络的最佳层数

研究表明,对于价格和分辨率,选取1层最为合适,对于品牌和屏幕大小,选取2层最为合适(见表2)。确定好人工神经网络的最佳层数后,用决策树(DT)、Bagging(BG)、随机森林(RF)、人工神经网络(NNET)、Logistic回归(LR)、Probit回归(PR)、线性判别分析(LDA)和二次判别分析(QDA)进行10折交叉验证,计算测试集和训练集的平均正确率。

显然,两种组合方法(Bagging和随机森林)在训练集上表现最优,手机4个属性的分类正确率几乎均为1(见表3)。但是,测试集上的分类表现才是手机选择偏好预测效果的评判标准。研究表明,根据手机价格预测用户选择偏好效果最好的模型为Bagging(0.662);根据手机品牌预测用户选择偏好效果最好的模型为随机森林(0.858),Bagging(0.857)的表现不差上下;根据手机屏幕分辨率预测用户选择偏好效果最好的模型为Logistic回归(0.696);根据手机屏幕大小预测用户选择偏好效果最好的模型为随机森林(0.628)。

表3 8个模型在测试集和训练集的平均正确率

以测试集上分类正确率为评判标准,预测效果最佳者推荐为手机偏好预测模型。4个手机属性中有2个(手机品牌和手机屏幕大小)推荐随机森林,3个(手机价格、手机品牌和手机屏幕大小)推荐组合算法。因此,应该推荐组合算法(尤其是随机森林)作为手机属性整体意义上的最佳预测模型。4个手机属性中,手机价格、手机分辨率和手机屏幕大小在8个模型下的分类正确率都不是很高(低于0.700)。而8个模型在手机品牌这一属性的分类正确率几乎都在相对较高的水平(80%左右),明显高于其他属性。因此,可以考虑根据手机品牌一个属性对手机选择偏好进行预测,减少获取手机价格、手机分辨率和手机屏幕大小信息的任务量,提高预测效率。综上所述,根据手机品牌,选择组合算法,依次计算随机森林和Bagging的分类正确率,兼顾两种模型的预测效果,为手机生产厂商推测消费者选择偏好提供指导和借鉴。

4 结论

智能手机的推广和普及随时随地产生海量的数据信息。这些数据的清洗会直接影响后续研究结论。就用户ID全集及相关信息表和用户APP使用信息表的数据提取问题,本文提出一套清洗方案,为大数据清洗提供一种思路。智能手机用户行为特征分析揭示了不同手机属性下用户行为规律:(1)三星用户更倾向使用系统工具、通信聊天、网络金融,小米用户更倾向使用汽车服务、实用工具;(2)高端机用户较多使用效率办公、游戏,关注新闻资讯,低端机用户较少使用APP;(3)大屏手机用户喜欢玩游戏、网聊和美化手机,小屏手机用户则对以上行为不感兴趣;(4)高分辨率手机用户较常使用通信聊天、游戏、网络视频,低分辨率手机用户则较少使用上述应用。这些研究结论反馈用户的真实感受与偏好,明确智能手机未来的研发方向,缩短产品更新速率,也为手机生产和销售提供指导和借鉴。以用户行为特征分析为基础,预测手机选择偏好面临模型选择的挑战。通过8大模型的对比研究,选择针对智能手机选择偏好预测效果最好的模型——随机森林和Bagging,为智能手机由研发阶段投入市场环节提供方法学依据,提升整个智能产业的运营效率,为打造智能生活提供基石。

但是,本文以安卓系统的智能手机用户为例,没有涉及苹果用户。用户行为特征与选择偏好预测的相关结论是否适用于所有智能手机数据,有待进一步研究。

[1]张富峥.基于大规模位置和消费数据的用户行为理解[D].合肥:中国科学技术大学博士学位论文,2015.

[2]吕苗.基于情境的商品个性化推荐方法研究[D].大连:大连理工大学博士学位论文,2015.

[3]陈康,黄晓宇,王爱宝等.基于位置信息的用户行为轨迹分析与应用综述[J].电信科学,2013,(4).

[4]Zhang J P,Wang F Y,Wang K F.Data-driven Intelligent Transportation Systems:A Survey[J].IEEE Transations on Intelligent Transportation Systems,2011,(7).

[5]Cao L,Krumm J.From GPS Traces to a Routable Road Map[R].17thACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2009.

[6]PabloBellver A K.Extracting Patterns From Location History[R].In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2011.

[7]Leskovec J,Kleinberg J,Faloutsos C.Graphs Over Time:Densification Laws,Shrinking Diameters and Possible Explanations[R].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,2005.

[8]Crandalla D J,Backstromb L,Cosleyc D.Inferring Social Ties from Geographic Coincidences[J].Proceedings of the National Academy of Sciences of the United States of America,2010,(10).

[9]杨欢.基于联合分析的智能手机购买偏好研究——以北京地区大学生为样本[D].北京:北京工商大学硕士论文,2013.

[10]Miller T W.Modeling Techniques in Predictive Analytics With Python and R[M].London:Pearson Education,Inc.,2014.

[11]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].Heidberg:Springer,2001.

[12]Breiman L.Statistical Modeling:The Two Culture[J].Statistical Science,2001,(16).

[13]刘鹏飞.基于神经网络的数据统计研究[D].西安:西安科技大学硕士论文,2012.

猜你喜欢

决策树正确率智能手机
智能手机是座矿
个性化护理干预对提高住院患者留取痰标本正确率的影响
门诊分诊服务态度与正确率对护患关系的影响
使用智能手机增大肥胖风险?
决策树和随机森林方法在管理决策中的应用
决策树多元分类模型预测森林植被覆盖
生意
热门智能手机应用
生意
基于决策树的出租车乘客出行目的识别