25/1/261第6讲:聚类•6.1什么是聚类•6.2聚类算法的评估标准•6.3聚类分析简介•6.4数据挖掘对聚类算法的要求•6.5聚类分析中的数据类型•6.6聚类算法的分类•6.7本讲小结25/1/2626.1什么是聚类•聚类就是将对物理或抽象对象的集合分组成为由类似的对象组成的多个簇的过程。•聚类生成的组称为簇(Cluster),簇是数据对象的集合。簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。•相异度可以根据描述对象的属性值计算,对象间的距离是最常采用的度量指标。25/1/2636.2聚类算法的评估标准•分类精度:聚类的准确程度•loglikelihood25/1/2646.3聚类分析简介•聚类分析是数据分析中的一种重要技术,它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作,如数据挖掘、统计学、机器学习、模式识别、生物学、空间数据库技术、电子商务等。25/1/265聚类分析简介(续)•从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。25/1/266聚类分析简介(续)•从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。25/1/267聚类分析简介(续)•从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。•就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。•聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。•数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。25/1/2686.4数据挖掘对聚类算法的要求•数据挖掘对聚类算法的典型要求包括:–可伸缩性–处理不同类型属性的能力–发现任意形状的聚类–用于决定输入参数的领域知识最小化–处理噪声数据的能力–对输入记录顺序的不敏感性–高维性–基于约束的聚类–聚类结果的可解释性和实用性25/1/2696.5聚类分析中的数据类型•聚类分析主要针对的数据类型包括区间标度变量、二元变量、标称变量、序数...