1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > K-means 和 K-medoids算法聚类分析

K-means 和 K-medoids算法聚类分析

时间:2018-10-01 18:36:17

相关推荐

K-means 和 K-medoids算法聚类分析

1 聚类是对物理的或者抽象的对象集合分组的过程,聚类生成的组称为簇,而簇是数据对象的集合。

(1)簇内部的任意两个对象之间具有较高的相似度。(2)属于不同的簇的两个对象间具有较高的相异度。

2 相异度可以根据描述对象的属性值来计算,最常用的度量指标是距离。

3 聚类最初来自数学,统计学,和数值分析;机器学习领域把聚类描述成隐含模式,发现簇的过程是无监督学习;聚类是模式识别的重要手段。

4 聚类的特点:用少量的簇来描述大量数据的特征: 数据简洁,丢失精细部分

5 聚类数据挖掘实践中的应用

(1) 数据预处理 (2) 科学数据探索 (3) 信息获取与文本挖掘 (4) 空间数据库应用

(5) 客户关系管理(6) 市场分析 (7) Web分析 (8) 医学诊断 (9)计算生物学。

6 统计学 : 聚类分析是通过数据建模简化数据的一种方法:包括 系统聚类法,分解法,加入法,动态聚类法。有序样品聚类,有重叠聚类和模糊聚类等

7 机器学习:簇 相当于隐藏模式。聚类是搜索簇的无监督学习的过程

与 分类不同。无监督学习不依赖预先定义的类或者带类标记的训练实例。需要有聚类学习算法自动确定标记。而分类学习

的实例或数据对象有类别标记。聚类是观察试学习,而不是实例式学习。

8 实际应用:聚类分析是数据挖掘的主要任务之一

(1) 作为一个独立的工具获得数据的分布状况。观察每一个簇数据的特征,集中对特定的簇集合作进一步地分析。

(2) 作为其他数据挖掘任务(如分类,关联规则)的预处理步骤

9 聚类算法的特征:

(1)处理不同类型属性的能力;

(2) 对大型数据集的可扩展性;

(3) 处理高维数据的能力;

(4) 发现任意形状簇的能力;

(5) 处理孤立点或“噪声”数据的能力;

对“噪声”数据具有较低的敏感性;

合理地发现孤立点。

(6) 对数据顺序的不敏感性;

(7) 对先验知识和用户自定义参数的依赖性;

(8) 聚类结果的可解释性和实用性;

(9) 基于约束的聚类。

10 聚类算法分类:

(1) 基于划分的方法: K-means 算法 基于密度的算法

(2) 基于层次的方法: 凝聚算法 分裂算法

(3) 基于网络的 方法

(4) 非数据与数据属性同时出现的方法

(5)基于约束的方法

(6) 运用机器学习技术的方法 :梯度下降法 人工神经网络 进化模型

(7)有扩展性的算法

(8) 面向高维数据集的算法

10 数据类型

(1)区间标度型:用线性标度描述的连续度量 (如 高度 重量 经纬度坐标 温度等)

(2) 布尔类型: 如果两个状态同等重要,称为对称的 否则是不对称的

(3) 标称型: 有若干个离散的取值

(4)序数型: 取离散的序数值,序列排序是有意义的

(5) 比例标度型:在非线性标度上取正的度量值。

11 数据结构

数据矩阵 相异度矩阵

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。