ClusterAnalysis第五章聚类分析第五章聚类分析第一节什么是聚类分析聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。举例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者得分如下应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例如,对上市公司的经营业绩进行分类;例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。聚类分析内容系统聚类动态聚类模糊聚类图论聚类第二节距离和相似系数描述亲疏程度有两个途径:1、把每个样品看成p维(变量的个数为p个)空间的一个点,在p维坐标中,定义点与点之间的距离。2、用某种相似系数来描述样品之间的亲疏程度。变量的类型变量按测量尺度的不同可以分为以下三类:1、间隔尺度变量(数值型变量)用连续的数量来度量,如长度、重量、产值、成本2、有序尺度变量(有序变量)如一、二、三等品不能用明确的数量度量,用等级表示,有次序关系。3、名义尺度变量用一些类来表示。性别中的男与女,职业的分类。聚类的种类聚类的种类根据分类的对象可将聚类分析分为:(1)Q型(即样品的聚类clusteringforindividuals)(2)R型(即变量或指标的聚类clusteringforvariables)11、对样品分类(、对样品分类(QQ型)型)常用的距离与相似系数的定义常用的距离与相似系数的定义样本资料矩阵样本资料矩阵((11)距离)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij定义距离的准则定义第i个和第j个样品间的距离要求满足如下四个条件(距离可以自己定义,只要满足距离的条件):距离矩阵样品间距离矩阵明氏(明氏(MinkowskiMinkowski)距离)距离qpqjiijxxd11)||(绝对值距离绝对值距离绝对值距离绝对值距离实例实例欧式(欧式(EuclidianEuclidian)距离)距离)()()(12jijipjiijXXXXxxd二维空间...