APP下载

浅谈数据挖掘

2019-12-20陈俟伶谢鹏

科教导刊·电子版 2019年29期
关键词:微信公众号大数据时代数据挖掘

陈俟伶 谢鹏

摘 要 本文是基于数据挖掘的微信公众号关注趋势分析。数据挖掘技术能够在海量的数据信息中搜寻出更加有价值的信息,實现数据信息的价值。微信公众平台是微信旗下推出进行信息推送与接收的平台,是自媒体时代的产物,依靠着微信这个大平台展示出了良好的传播效果,其传播路径和方式与以前的媒体形式有所不同。利用数据分析工具对这些数据进行可视化展示,对产生的结果进行分析。

关键词 大数据时代 数据挖掘 微信公众号

中图分类号:TP311文献标识码:A

0绪论

(1)数据挖掘的意义。

在这个大数据的时代,每个人都可以被称为是生产者或是传播者,因此很多互联网信息中都带有这关于潜在消费者的信息,通过对这些数据进行挖掘利用,就能够更加清楚的得知这些潜在客户的真实需求。数据挖掘技术具有比较复杂的特征,无论是应用对象还是应用过程,都涉及到大量因素。因为数据挖掘技术的特殊性,所以最终得到的结果也是存在特殊性质的信息。

(2)数据挖掘的包含方面。

数据挖掘一般包含数据预处理、数据挖掘、后处理这三个方面。

预处理的存在是为了提前将一些无用的数据剔除出去,这些“废物”的存在很可能导致数据模型计算的失败,所以说数据预处理是数据挖掘过程中不可缺失的一部分,虽然这部分会占据数据挖掘的大部分时间,但还是值得我们认真去完成。当我们完成数据的预处理后,接下来的数据挖掘和后处理就变得简单很多,只需要将特定的数据放到特定的模型中去计算,将最合适的移交给后处理。

1算法介绍

1.1数据挖掘的算法

1.1.1经典算法

在如今的国际上认同的算法有:

C2.5算法;Apriori算法;PageRank算法;AdaBoost算法;KNN算法;CART算法;SVM算法;EM算法;K-Means算法;NaiveBayes算法。

1.1.2算法举例

(1)聚类:K均值(Kmeans)、最近邻算法(KNN)、期望最大值算法(EM)、隐含狄利克雷分布(LDA)。

(2)分类:支持向量机(SVM)、逻辑回归(LR)、梯度下降树(GBDT)、随机森林(RF)、朴素贝叶斯(NB)、深层神经网络(DNN)、卷积神经网络(CNN)、LSTM(Long Short-Term Memory)。

(3)回归:普通最小二乘回归(OLS)、梯度下降树(GBDT)。

(4)降维:主成分分析(PCA)、因子分析(FA)、LDA。

(5)时间序列:自回归模型(AR)、滑动平均模型(MA)、自回归移动平均模型(ARMA)。

①Adaboost。Adaboost是将不同的几个弱的分类器相互结合在一起成强分类器算法然后来加快算法的速度。

②PageRank。PageRank的核心最主要的思想是在从一些优质的网页基础上链接过来的网页,所以还是优质网页的回归关系,来判定所有网页的重要性。

1.2微信公众号数据的获取

1.2.1爬虫抓取数据

微信在数据方面来说是一个比较封闭的一个平台,首先从微信的客户端入手,然后通过抓包来进行数据的分析请求,再者使用 Fiddler、Charles 代理工具来进行抓包分析请求的构造原理,然后 Requests 等网络请求的板块来模拟微信向服务器发出请求从而获得响应式数据,接着把抓出来的数据过滤和清洁,最后就可以用 Pandas 来进行数据分析然后就可视化展示出来了。

1.2.2数据挖掘的流程

(1)数据集选择。一般来说数据集就是可获得或者已存在的 (在网上过滤抓取需要的数据或者访问网上的一些资料库和使用软件进行主动收集的数据等)。数据集的选择对数据挖掘起着非常至关重要的作用。

(2)数据预处理。在数据集选取了后,接着就可以对数据进行预处理,这样可以让数据可以被我们使用。数据预处理大大的提高了数据的质量。

①数据清理。首先不看元祖,然后主动填写缺失的值,使用属性的中心度量的填充,给定同一类所有样本的属性均值或中位数填充,最可能的值填充。

②数据集成。实体识别,冗余和相关分析(卡方检验,相关系数,协方差等,用spss比较方便)。

③数据归约。维规约(小波变换和主成分分析,最常用),数量规约(较小的数据替代原始数据),数据压缩(有损无损两种,尤其对于图像视频等多媒体常用)。

(3)数据分析算法。最经典的莫过于频繁模式挖掘了,对象为事物出现的次数。如著名的啤酒尿布。其中最典型的算法为Apriori算法,包括连接和剪枝。其中有置信度,支持度,频繁项集最小置信度阈值等重要概念,到相关分析中还有提升度,全置信度,Kulczy和余弦等判断标准和零不变度量考虑。

2结论

通过对微信公众号推送内容进行数据分析,企业可以编辑与自己企业文化相关的内容发布到微信公众号上,同时也要满足用户的需求,推送用户喜欢的内容,正确认识用户的需求,以恰当的方式展开工作,结合读者的需求为其推送更有价值的文章。同时从根本上提高微信公众号的专业性,以此发挥微信公众号的作用。

参考文献

[1] JiaweiHan, MichelinKamber, JianPei,et al.数据挖掘:概念与技术(第三版)[M].机械工业出版社, 2012.

[2] 胡可云,田凤,董伟峰.数据挖掘理论与应用[M].北京:清华大学出版社, 2008.

[3] 王学鸣,黄秋波.微信公众号的现状、类型及发展趋势研究[J].无线互联科技,2018(05):60-61.

[4] 李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014(03): 45-47.

[5] 黄楚新,王丹.微信公众号的现状、类型及发展趋势[J].新闻与写作,2015(07): 5-9.

[6] 中国产业信息网. 2017年中国微信公众号发展现状及发展趋势分析【图】[EB/OL]. http://www.chyxx.com/industry/201807/656197.html, 2018-07-06.

猜你喜欢

微信公众号大数据时代数据挖掘
基于并行计算的大数据挖掘在电网中的应用
微信公众号在高校“Photoshop图像处理”课程中的应用
从“数据新闻”看当前互联网新闻信息传播生态
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究