机器学习kmeans聚类算法在中国足球现状分析中的应用

中国科技博览 / 2018年10月13日 12:32

品牌

廉政

[摘 要]近年来,人工智能(Artificial Intelligence)大火,而其中机器学习(Machine Learning)领域为其重点。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。本文章中笔者尝试用机器学习经典算法之一——kmeans聚类算法,尝试科学客观分析中国足球现状,希望对如今中国足球有所启发,有十分重要的现实意义。

[关键词]kmeans,中国足球,现状分析,机器学习,聚类分析

中图分类号:S256 文献标识码:A 文章编号:1009-914X(2018)04-0193-02

人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等。笔者对机器学习领域产生了极大的兴趣,利用机器学习处理分析问题越来越成为当今社会发展的需要。笔者也想运用机器学习知识为现实问题提供一些意见和建议。

笔者对中国足球有很大的激情,在国足这些年大刀阔斧的改革以及努力后,结果还是有些令人失望。在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平,希望以此作为科学依据帮助国足认清其现状,帮助其发展。

一.kmeans算法基本介绍

K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

kmeans聚类算法具体流程简要介绍如下:

假设要把样本集分为k个类别,算法描述如下:

(1)随机在数据集中选择k个数据元组作为初始中心;

(2)对任意一个样本,求其到k个聚类中心的距离,将该样本归到距离最近的聚类中心所在的类;

(3)利用均值方法更新该类的中心值;

(4)对于所有的k个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。

本利

二.kmeans算法实际应用过程

在本文中,笔者首先对亚洲国家的足球水平进行量化,根据量化结果使用kmeans算法对亚洲国家足球水平聚类,科学判别中国足球在亚洲到底属于第几梯队,到底属于什么水平。具体做法如下:

首先建立数据模型,即对亚洲各个国家的足球水平进行量化。

整理2010年世界杯以及2014年世界杯亚洲国家最终比赛成绩如表1:

根据以下规则进行量化:

进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋40,预选赛小组未出线的赋予50。为避免取值范围大的属性对距离的影响高于取值范围小的属性,為了更真实的反映真实的相异度,对属性值进行规格化。即将各个属性值按比例映射到相同的取值区间,平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:

Y=(x-min)/(max-min)

量化结果如表2:

kmeans聚类算法分析中国足球现状流程图如图1:

利用kmeans算法进行聚类过程中进行了四次迭代:

第一次三个聚类中心为:

[[0.59624706 0.4547206]

[0.79031384 0.94496331]

[0.50284657 0.41595118]]

第二次三个聚类中心为:

[[1. 0.561]

[0.74625 0.878]

[0.0435 0.427]]

第三次三个聚类中心为:

[[1. 0.691]

[0.6955 0.9024]

[0.0435 0.427]]

第四次三个聚类中心为:

[[1. 0.8455]

[0.565 0.86057143]

[0.0435 0.427]]

最终聚类结果为:

一流队伍:日本,韩国;

二流队伍:伊朗,伊拉克,卡塔尔,黎巴嫩,乌兹别克斯坦,阿曼,印尼;

三流队伍:中国,沙特,泰国,越南,巴林,朝鲜。

图像展示(点为聚类中心,其余为各个国家的数据)(图2):

根据国际比赛数据和kmeans算法科学分析:国足近几年 ‘毋庸置疑的处在亚洲三流水平,以上的分析数据不仅告诉了我们聚类信息,从中还可以定量分析出各个球队之间的差距, 如卡塔尔,黎巴嫩和伊朗是冲击一流队伍最有希望的二流队伍。

根据本次分析尝试,笔者更深刻的了解了K-means算法:

kmeans算法优点无可比拟:该算法本身具有优化迭代功能,为克服少量样本聚类的不准确性,在已经求得的聚类上再次进行迭代修正,优化了初始监督学习样本分类不合理的地方。

但其缺点也很明显:首先,在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;其次,初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;最后,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。

在本实验中,当初始类中心选择不当时出现不同的聚类结果如图3:

总之,人工智能产业发展十分迅速,笔者也对其有强烈的兴趣,本文中笔者尝试应用kmeans聚类算法完成了对中国足球现状的初步分析,可以根据数据来科学准确的得出结论:中国足球目前在亚洲的确处于三流水平。在近几年关于中国足球是否进步的争论一直不停的情况下,本文根据聚类结果显示,中国足球还处于劣势,有助于帮助认清楚中国足球的现状,并且从中可以定量分析出各个球队之间的差距,对国足的进步有促进意义。endprint

1.精品生活网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.精品生活网的原创文章,请转载时务必注明文章作者和"来源:精品生活网",不尊重原创的行为精品生活网或将追究责任;3.作者投稿可能会经精品生活网编辑修改或补充。