APP下载

聚类分析在美职篮数据中的应用

2017-09-03

福建质量管理 2017年10期
关键词:职篮篮球联赛中锋

侯 威

(云南财经大学统计与数学学院 云南 昆明 650000)

聚类分析在美职篮数据中的应用

侯 威

(云南财经大学统计与数学学院 云南 昆明 650000)

聚类分析是机器学习领域、模式识别领域等研究方向的重要研究课题之一,在识别数据内部结构方面具有极其重要的作用。本文选取美国男子职业篮球联赛赛季数据,选取联盟中锋,进行聚类分析。结果发现,全能型中锋球员较少,大部分中锋为蓝领球员。

聚类分析;机器学习;蓝领;中锋

一、研究背景及意义

美国男子职业篮球联赛,即美职篮①,做为全球最顶尖的篮球联赛代表着当今篮球最高的水准,也引领者当今世界篮球发展的潮流,美职篮吸引着世界各地顶尖的篮球选手,美职篮成立近70年来,一个接一个的传奇选手为世界各地球迷奉献了一场接一场的篮球盛宴,在美职篮漫长历史中,不断涌现的伟大的球员一直刷新着美职篮的记录数据,进入21世纪,本世纪前十年随着姚明奥尼尔等一批传奇中锋退役,最近几年,美职篮进入小球时代,中锋的作用被不断看衰,外线后卫等投手不断涌现。虽然,美职篮中的中锋作用在不断看衰,但是中锋在内线的巨大杀伤力,较容易的得分方式,中锋抢篮板为球队创造二次进攻的机会,让我们无法忽视中锋在美职篮中的重要作用。利用机器学习方法,分析美职篮中的中锋数据,探索当今小球当道的时代背景下,美职篮中锋今后的发展趋势,具有重要的研究意义。

二、数据介绍及选取

数据选取自美职篮2016-2017赛季常规赛球员数据,包括美职篮32支球队各个球员在常规赛81场比赛中各个方面的统计数据。里面的数据均是球员在整个常规赛赛季的表现汇总数据。考量一个中锋的数据,主要包括:盖帽次数、篮板数、前场篮板数、后场篮板数、得分。本文选取的指标为场均得分和场均篮板数。

三、算法实现步骤

#第一步:当k=5时,他会随机选取5个点作为中心点,然后计算所有点到这5个点的距离

#第二步:将每一个点划到不同的簇

#第三步:将每一个簇中的点计算横纵坐标的均值,计算出新的中心点(可以是不是实际的点)

#第四步:重新计算每一个点到中心点的距离,重新划分属于不同的簇

#第五步:不断的更新中心点,不断的重新划分簇,直到再怎么更新中心点,簇里的元素都不再发生变化了

四、Kmeans分类算法Python实战

(一)读取数据

选取球员中位置为中锋的远动员,选取球员的本赛季总共的出场次数、赛季总得分和赛季篮板总数三个指标。代码如下:

#取出中锋的数据,“C”就是位置为中锋的球员。

point_guards = nba[nba["pos"]=="C"]

#pts代表是总得分,g代表是打了多少场球

point_guards["ppg"]= point_guards[′pts′]/point_guards[′g′]

point_guards[[′pts′,′g′,′ppg′]].head(5)

#trb代表篮板的次数

point_guards[′ptrb′]= point_guards[′trb′]/point_guards[′g′]

(二)对数据进行聚类

(1)画出散点图

以球员场均得分为横坐标值,场均篮板数为纵坐标值,画出散点图如下图1。

图1 散点图

可以从图中大致看出,能拿到两双数据(场均得分和场均篮板数均为10)的球员 较少,说明在小球背景下,中锋得分和抢篮板能力受到限制。

(2)聚类分析

利用K均值聚类,根据选取的两个指标随机把球员分为5类,结果见下图2。

图2 随机选取质心聚类

经过几次不断计算,一直到得到的分类簇基本不再发生变化,即聚类的结果收敛,结果如下图3。

图3 聚类结果

从最终的聚类结果可以看到,我们把中锋球员分为5类,聚类的最终效果还是比较理想。但是我们只能从上图,大概看到聚类的效果,为了更准确地显示聚类效果,选取原始数据的所有指标进行聚类,打印显示出来。

打印出来的比较理想的最终聚类结果如下。

[′Alexis Ajinca′,′Chris Andersen′,′Aron Baynes′,′Jason Collins′,′Samuel Dalembert′,′Andre Drummond′,′Vitor Faverani′,′Marcin Gortat′,′Josh Harrellson′,′Spencer Hawes′,′Kosta Koufos′,′Ian Mahinmi′,"Kyle O′Quinn",′Daniel Orton′,′Miles Plumlee′,′Robert Sacre′,′Larry Sanders′,′Tiago Splitter′,′Jeremy Tyler′,′Jonas Valanciunas′,′Nikola Vucevic′,′Jeff Withey′,′Cody Zeller′,′Bismack Biyombo′,′Andris Biedrins′]

[′Andrew Bynum′,′Drew Gooden′,′Roy Hibbert′,′Enes Kanter′,′Viacheslav Kravtsov′,′Robin Lopez′,′Timofey Mozgov′,′Mike Muscala′,′Greg Oden′,′Kelly Olynyk′,′Zaza Pachulia′,′Miroslav Raduljica′,′Henry Sims′,′Greg Smith′,′Tyler Zeller′,′Hilton Armstrong′]

[′Andrea Bargnani′,′Chris Bosh′,′DeMarcus Cousins′,′Anthony Davis′,′Melvin Ely′,′Marc Gasol′,′Pau Gasol′,′Justin Hamilton′,′Al Horford′,′Chris Kaman′,′Brook Lopez′,′JaVale McGee′,′Byron Mullens′,′Nikola Pekovic′,′Kevin Seraphin′,′Marreese Speights′,"Amar′e Stoudemire",′Brandan Wright′][′Steven Adams′,′Cole Aldrich′,′Joel Anthony′,′Omer Asik′,′Gustavo Ayon′,′Andrew Bogut′,′Tyson Chandler′,′Dewayne Dedmon′,′Gorgui Dieng′,′Joel Freeland′,′Kevin Garnett′,′Rudy Gobert′,′Bernard James′,′Ognjen Kuzmic′,′Alex Len′,′Meyers Leonard′,′Nazr Mohammed′,′Erik Murphy′,′Kendrick Perkins′,′Greg Stiemsma′,′Hasheem Thabeet′,′Anderson Varejao′]

[′DeAndre Jordan′,′Dwight Howard′,′Joakim Noah′,′Al Jefferson′,′Aaron Gray′,′Chuck Hayes′,"Hamady N′Diaye",′Dexter Pittman′]

从上面聚类结果可以看到,赛季中场均分达到20分以上的同时又能抢下10个篮板以上的中锋比较上,有相当一部分中锋球员属于蓝领,即他们能够抢到较多的蓝板,但是对篮筐的攻击杀伤力没有较小,这说明:随着上世纪模奥拉朱旺,大卫罗宾逊等传奇中锋的谢幕,现在美职篮比赛防守强度下降,同时现在美职篮小球当道,会远投的球员主导球场,中锋球员的篮下勾手等基本功不再被看重,中锋球员的得分能力被削弱,更多的中锋偏向于抢篮板,为球队的投手,得分手们创造更多的投篮机会。

【注释】

①为了方便表述,把美国男子职业篮球联赛简称为美职篮。

[1]朱明.数据挖掘[M].北京:中国科学技术大学出版社,2002.

[2]Willi Richert,Luis Pedro Coelho著.机器学习系统设计[M].刘峰译.北京:人民邮电出版社

[3]张建萍,刘希亚.基于聚类分析的K均值算法研究与应用[J].计算机应用研究,2007,24(5):166-168.

[4]赵法信,王国业.数据挖掘中聚类分析算法研究[J].通化师范学院学,2005,3:11-13.

[5]袁方,周志勇.宋鑫.初始聚类中心优化的K均值算法[J].计算机工程,2007,33(3):65-66.

侯威(1992-),男,汉族,河南许昌人,云南财经大学统计与数学学院,研究方向:经济统计。

猜你喜欢

职篮篮球联赛中锋
南通市部分高校校园篮球联赛开展现状及改进策略
大学生篮球联赛发展困境和路径
斯特恩 不打篮球的篮球人
从公共关系学视角看美职篮成功的原因
美职篮的美学和文化学新思考
蔡中锋小小说三题
蔡中锋微小说二题
蔡中锋闪小说四题
蔡中锋闪小说两篇
广东省第一届高中男子篮球联赛闭幕