1500字范文 > 输入参数的数目不足_机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明...

输入参数的数目不足_机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明...

时间：2020-09-01 07:00:50

概述：

KMEANS算法又被成为K均值算法，是一种常用的聚类算法，由于不需要根据给定的训练集训练模型因此是一种无监督学习算法。其本质是根据选定的参数K将数据分类成K类，在聚类过程中从单一样本开始通过不断计算聚类数据的均值来作为整个类的中心进而再将距离此类别中心最近的数据纳入同一类。

算法原理：

1、以下图样本散点图展示数据集的整体分布情况

2、K值是KMEANS最重要的选择参数，直接决定着数据聚类的类别数量，在选择K值后，会在数据中随机选择K个数据样本最为初始中心点，如K=3，则结果如下图所示

3、计算和中心点距离最近的点，将其归入同类

4、每个类别当有了两个以上的数据时，类的中心就会发生变化，因此类中一旦有新的数据被划入时就需要重新计算整个类的中心点，这一步的计算也是整个算法的核心，所以称为K均值算法

5、通过几步计算之后的结果，能够更直观的展示出类的聚合情况和中心点的位置情况

6、判断聚类过程结束的标准有两个，一是中心点的位置不再发生变化，即结果收敛；二是执行了最够多次的迭代次数(通俗可以理解为计算了几次中心点位置)

注意事项：

1、K值是整个算法中最重要的参数，但是也是最不好确定的参数，如果需要比较好的确定K值，需要采用其他验证算法，如计算样本离最近聚类中心的总和，总和越小，则聚类的效果越好；轮廓系数，轮廓系数的范围为-1至1之间，数字越大则聚类效果越好；兰德指数，范围为-1至1之间，数字越大则聚类效果越好；同质化得分，如果所有的聚类都只包含属于单个类的成员的数据点则聚类结果将满足同质性，其取值范围为0至1之间，值越大意味着聚类结果与真实情况越吻合。

2、以上验证方法虽然对于确定K值有效，但是验证过程需要额外的计算力资源，并且占用的计算力接近于聚类过程所需要的计算力资源，数据集如果较大，则计算力的消耗会产生叠加效应。

3、较为简易的方法为，从数据集中随机抽取部分小规模数据，以散点图等可视化手段来观察数据的可能聚类数量，以此来判断K的取值。这种方法可以认为是经验法的一种表现形式，相比经验法的完全定性分析，随机抽取数据观察能够在经验的基础上增加定量的分析部分，虽然随机抽取的数据也可能有误差，但是抽取的数据量越多，则准确度越高。

4、因为初始的中心点选择是根据K的值随机选择K个点，所以选择的随机性加上迭代过程造成算法的结果只是局部最优解，毕竟反复的计算最短距离的点和类的中心都是在局部已经聚合的类的基础上进行的，而不是从全局的范围进行。