第第44章聚类分析章聚类分析(clusteranalysis)(clusteranalysis)§4.1样品(变量)相近性度量§4.2谱系聚类法及MATLAB实现§4.3快速聚类法科研交流工作室顾老师统计方法(聚类分析):聚类分析—所研究的样本或者变量之间存在程度不同的相似性,要求设法找出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样本或者变量进行分类系统聚类分析—将n个样本或者n个指标看成n类,一类包括一个样本或者指标,然后将性质最接近的两类合并成为一个新类,依此类推。最终可以按照需要来决定分多少类,每类有多少样本(指标)统计方法(系统聚类分析步骤):系统聚类方法步骤:1.计算n个样本两两之间的距离2.构成n个类,每类只包含一个样品3.合并距离最近的两类为一个新类4.计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中包含的类的距离最小值),若类的个数等于1,转5,否则转35.画聚类图6.决定类的个数和类。系统聚类分析:主要介绍系统聚类分析方法。系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。系统聚类分析用到的函数:函数功能pdist计算观测量两两之间的距离squareform将距离矩阵从上三角形式转换为方形形式,或从方形形式转换为上三角形式linkage创建系统聚类树dendrogram输出冰柱图cophenet计算Cophenetic相关系数cluster根据linkage函数的输出创建分类clusterdata根据数据创建分类inconsistent计算聚类树的不连续系数聚类分析•研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。•聚类分析把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。•职能是建立一种能按照样品或变量的相似程度进行分类的方法。•聚类分析有两种:一种是对样品的分类,称为Q型,另一种是对变量(指标)的分类,称为R型。•R型聚类分析的主要作用:⒈不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。⒉根据变量的分类结果以及它们之间的关系,可以选择主要变量进行Q型聚类分析或回归分析。(R2为选择标准...