1500字范文 > K-means 和 K-medoids算法聚类分析

K-means 和 K-medoids算法聚类分析

时间：2018-10-01 18:36:17

1 聚类是对物理的或者抽象的对象集合分组的过程，聚类生成的组称为簇，而簇是数据对象的集合。

（1）簇内部的任意两个对象之间具有较高的相似度。（2）属于不同的簇的两个对象间具有较高的相异度。

2 相异度可以根据描述对象的属性值来计算，最常用的度量指标是距离。

3 聚类最初来自数学，统计学，和数值分析；机器学习领域把聚类描述成隐含模式，发现簇的过程是无监督学习；聚类是模式识别的重要手段。

4 聚类的特点：用少量的簇来描述大量数据的特征：数据简洁，丢失精细部分

5 聚类数据挖掘实践中的应用

（1）数据预处理（2）科学数据探索（3）信息获取与文本挖掘（4）空间数据库应用

（5）客户关系管理（6）市场分析（7） Web分析（8）医学诊断（9）计算生物学。

6 统计学：聚类分析是通过数据建模简化数据的一种方法：包括系统聚类法，分解法，加入法，动态聚类法。有序样品聚类，有重叠聚类和模糊聚类等

7 机器学习：簇相当于隐藏模式。聚类是搜索簇的无监督学习的过程

与分类不同。无监督学习不依赖预先定义的类或者带类标记的训练实例。需要有聚类学习算法自动确定标记。而分类学习

的实例或数据对象有类别标记。聚类是观察试学习，而不是实例式学习。

8 实际应用：聚类分析是数据挖掘的主要任务之一

（1）作为一个独立的工具获得数据的分布状况。观察每一个簇数据的特征，集中对特定的簇集合作进一步地分析。

（2）作为其他数据挖掘任务（如分类，关联规则）的预处理步骤

9 聚类算法的特征：

（1）处理不同类型属性的能力；

（2）对大型数据集的可扩展性；

（3）处理高维数据的能力；

（4）发现任意形状簇的能力；

（5）处理孤立点或“噪声”数据的能力；

对“噪声”数据具有较低的敏感性；

合理地发现孤立点。

（6）对数据顺序的不敏感性；

（7）对先验知识和用户自定义参数的依赖性；

（8）聚类结果的可解释性和实用性；

（9）基于约束的聚类。

10 聚类算法分类：

(1) 基于划分的方法： K-means 算法基于密度的算法

（2）基于层次的方法：凝聚算法分裂算法

（3）基于网络的方法

（4）非数据与数据属性同时出现的方法

（5）基于约束的方法

（6）运用机器学习技术的方法：梯度下降法人工神经网络进化模型

（7）有扩展性的算法

（8）面向高维数据集的算法

10 数据类型

（1）区间标度型：用线性标度描述的连续度量（如高度重量经纬度坐标温度等）

（2）布尔类型：如果两个状态同等重要，称为对称的否则是不对称的

（3）标称型：有若干个离散的取值

（4）序数型：取离散的序数值，序列排序是有意义的

（5）比例标度型：在非线性标度上取正的度量值。

11 数据结构

数据矩阵相异度矩阵

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。