机器学习kmeans聚类算法在中国足球现状分析中的应用_品牌_资讯

廉政

[摘要]近年来，人工智能（Artificial Intelligence）大火，而其中机器学习（Machine Learning）领域为其重点。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。本文章中笔者尝试用机器学习经典算法之一——kmeans聚类算法，尝试科学客观分析中国足球现状，希望对如今中国足球有所启发，有十分重要的现实意义。

[关键词]kmeans，中国足球，现状分析，机器学习，聚类分析

中图分类号：S256 文献标识码：A 文章编号：1009-914X（2018）04-0193-02

人工智能是计算机科学的一个分支，该领域的研究包括机器人、语言识别、图像识别、自然语言处理等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，计算机视觉等等。笔者对机器学习领域产生了极大的兴趣，利用机器学习处理分析问题越来越成为当今社会发展的需要。笔者也想运用机器学习知识为现实问题提供一些意见和建议。

笔者对中国足球有很大的激情，在国足这些年大刀阔斧的改革以及努力后，结果还是有些令人失望。在本文中，笔者首先对亚洲国家的足球水平进行量化，根据量化结果使用kmeans算法对亚洲国家足球水平聚类，科学判别中国足球在亚洲到底属于第几梯队，到底属于什么水平，希望以此作为科学依据帮助国足认清其现状，帮助其发展。

一.kmeans算法基本介绍

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

kmeans聚类算法具体流程简要介绍如下：

假设要把样本集分为k个类别，算法描述如下：

（1）随机在数据集中选择k个数据元组作为初始中心；

（2）对任意一个样本，求其到k个聚类中心的距离，将该样本归到距离最近的聚类中心所在的类；

（3）利用均值方法更新该类的中心值；

（4）对于所有的k个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

本利

二.kmeans算法实际应用过程

在本文中，笔者首先对亚洲国家的足球水平进行量化，根据量化结果使用kmeans算法对亚洲国家足球水平聚类，科学判别中国足球在亚洲到底属于第几梯队，到底属于什么水平。具体做法如下：

首先建立数据模型，即对亚洲各个国家的足球水平进行量化。

整理2010年世界杯以及2014年世界杯亚洲国家最终比赛成绩如表1：

根据以下规则进行量化：

进入决赛圈则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋40，预选赛小组未出线的赋予50。为避免取值范围大的属性对距离的影响高于取值范围小的属性，為了更真实的反映真实的相异度，对属性值进行规格化。即将各个属性值按比例映射到相同的取值区间，平衡各个属性对距离的影响。通常将各个属性均映射到[0，1]区间，映射公式为：

Y=（x-min）/（max-min）

量化结果如表2：

kmeans聚类算法分析中国足球现状流程图如图1：

利用kmeans算法进行聚类过程中进行了四次迭代：

第一次三个聚类中心为：

[[0.59624706 0.4547206]

[0.79031384 0.94496331]

[0.50284657 0.41595118]]

第二次三个聚类中心为：

[[1. 0.561]

[0.74625 0.878]

[0.0435 0.427]]

第三次三个聚类中心为：

[[1. 0.691]

[0.6955 0.9024]

[0.0435 0.427]]

第四次三个聚类中心为：

[[1. 0.8455]

[0.565 0.86057143]

[0.0435 0.427]]

最终聚类结果为：

一流队伍：日本，韩国；

二流队伍：伊朗，伊拉克，卡塔尔，黎巴嫩，乌兹别克斯坦，阿曼，印尼；

三流队伍：中国，沙特，泰国，越南，巴林，朝鲜。

图像展示（点为聚类中心，其余为各个国家的数据）（图2）：

根据国际比赛数据和kmeans算法科学分析：国足近几年 ‘毋庸置疑的处在亚洲三流水平，以上的分析数据不仅告诉了我们聚类信息，从中还可以定量分析出各个球队之间的差距，如卡塔尔，黎巴嫩和伊朗是冲击一流队伍最有希望的二流队伍。

根据本次分析尝试，笔者更深刻的了解了K-means算法：

kmeans算法优点无可比拟：该算法本身具有优化迭代功能，为克服少量样本聚类的不准确性，在已经求得的聚类上再次进行迭代修正，优化了初始监督学习样本分类不合理的地方。

但其缺点也很明显：首先，在K-means算法中K是事先给定的，这个K值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；其次，初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果；最后，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。

在本实验中，当初始类中心选择不当时出现不同的聚类结果如图3：

总之，人工智能产业发展十分迅速，笔者也对其有强烈的兴趣，本文中笔者尝试应用kmeans聚类算法完成了对中国足球现状的初步分析，可以根据数据来科学准确的得出结论：中国足球目前在亚洲的确处于三流水平。在近几年关于中国足球是否进步的争论一直不停的情况下，本文根据聚类结果显示，中国足球还处于劣势，有助于帮助认清楚中国足球的现状，并且从中可以定量分析出各个球队之间的差距，对国足的进步有促进意义。endprint