IBM-SPSS第20章聚类与判别分析1.聚类分析的概念和目的聚类分析是根据某些数量特征将观察对象进行分类的一种数理统计方法。聚类分析属于分类学,它是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划分为不同类别,并探索产生这种类别的原因,进而提出合理、有效的处理该类事物的办法。比如,生物学家根据生物的特点,将它们按照界、门、纲、目、科、属、种进行分类;卫生部门根据医疗水平、工作效率等众多指标,将若干医院分为几个等级类别等。另外,在多元统计分析中,通过聚类分析可以将众多的观测变量分类,确定各类中的典型变量以达到降维目的。2.聚类方法根据聚类的对象不同,聚类可以分为对样品聚类(Q-型聚类)和对变量聚类(R-型聚类);根据聚类方法的不同,聚类分析大致可以归为:系统聚类法、加入法、分解法、动态分类法等。Spss里提供了两种具体的聚类方法:K-中心聚类和系统聚类。3.距离和相似系数聚类分析的实质就是将性质相近的样品或变量聚在一起。在聚类分析中反映样品或变量间性质远近的统计量称为聚类统计量,常用的聚类统计量有距离和相似系数。(1)距离:用于对样品的聚类。距离有绝对值距离,欧式距离,明氏距离,马氏距离等,常用的是欧氏距离,这里只介绍欧氏距离。对于任两个样品i和k可定义欧氏距离(Euclideandistance)其中,Xij和Xkj分别为第i个样品的第j个变量和第k个样品的第j个变量值。为消除各指标量纲不同的影响,在求样品间距离前常常需要把指标标准化,即把每一个观察值转换成标准值其中,和Sj分别为第j个变量的样本均值和样本标准差,标化后的指标的均数为0,标准差为1。用标化值进行聚类分析。3.距离和相似系数(2)相似系数:常用于对变量的聚类。相似系数有夹角余弦、相关系数等。对于连续性资料常用的有Person相关系数;对于分类资料常用的有Person列联系数:Person相关系数:Person列联系数其中,2为RC分类资料的列联表的2值。n为RC分类资料样品总个数。K-中心聚类1.简介K-中心聚类用于对样品进行快速聚类,它的计算量很小,适合对大样本数据进行分析,可以有效减少计算时间;同时可以人为指定初始类中心的位置,这样就可以把已有的聚类分析结果作为初始位置引入分析,可以有效利用前期工作的结果。但是该方法也存在一定局限性:首先需要用户人为指定样品分为多少类,其次该方法只能对样品聚类而不能对变量聚类、所使用的变量必须都...