第十四章聚类方法相似度或距离•假设有n个样本,每个样本由m个属性的特征向量组成,样本合集可以用矩阵X表示•聚类的核心概念是相似度(similarity)或距离(distance),有多种相似度或距离定义。因为相似度直接影响聚类的结果,所以其选择是聚类的根本问题。闵可夫斯基距离•闵可夫斯基距离越大相似度越小,距离越小相似度越大。•给定样本集合X,X是m维实数向量空间Rm中点的集合,其中•样本xi与样本xj的闵可夫斯基距离(Minkowskidistance)定义为闵可夫斯基距离•当p=2时称为欧氏距离(Euclideandistance)•当p=1时称为曼哈顿距离(Manhattandistance)•当p=时称为切比雪夫距离(Chebyshevdistance)马哈拉诺比斯距离•马哈拉诺比斯距离(Mahalanobisdistance),简称马氏距离,也是另一种常用的相似度,考虑各个分量(特征)之间的相关性并与各个分量的尺度无关。•马哈拉诺比斯距离越大相似度越小,距离越小相似度越大。•给定一个样本集合X,X=,其协方差矩阵记作S。样本xi与样本xj之间的马哈拉诺比斯距离dij定义为相关系数•样本之间的相似度也可以用相关系数(correlationcoefficient)来表示。•相关系数的绝对值越接近于1,表示样本越相似•越接近于0,表示样本越不相似。•样本xi与样本xj之间的相关系数定义为夹角余弦•样本之间的相似度也可以用夹角余弦(cosine)来表示。•夹角余弦越接近于1,表示样本越相似•越接近于0,表示样本越不相似。•样本xi与样本xj之间的夹角余弦定义为相似度•用距离度量相似度时,距离越小样本越相似•用相关系数时,相关系数越大样本越相似•注意不同相似度度量得到的结果并不一定一致。•从右图可以看出,如果从距离的角度看,A和B比A和C更相似•但从相关系数的角度看,•A和C比A和B更相似。类或簇•通过聚类得到的类或簇,本质是样本的子集。•如果一个聚类方法假定一个样本只能属于一个类,或类的交集为空集,那么该方法称为硬聚类(hardclustering)方法。•如果一个样本可以属于多个类,或类的交集不为空集,那么该方法称为软聚类(softclustering)方法。类或簇•用G表示类或簇(cluster),用xi,xj表示类中的样本,用nG表示G中样本的个数,用dij表示样本xi与样本xj之间的距离。•类或簇有多种定义,下面给出几个常见的定义。类或簇类或簇类或簇类或簇类或簇•类的特征可以通过不同角度来刻画,常用的特征有下面三种:类或簇•类的特征可以通过不同角度来刻画,常用的特征有下面三种:类或簇•类的特...