2023.4电脑编程技巧与维护1概述聚类是机器学习中无监督学习的重要内容。聚类是一种根据数据特征和相似性将数据集分组为多个集合(簇)的主动方法。同一个簇中的对象具有较高的相似性,不同簇中的对象具有较高的异质性[1]。根据聚类算法采用的不同策略,将其分为划分聚类、密度聚类、层次聚类、网格聚类和模型聚类5大类[2]。近年来,聚类被划分为层次聚类和分区聚类两大类,其中,层次聚类细分为分裂式层次聚类和凝聚式层次聚类,分区聚类细分为图论聚类、子空间聚类、基于密度的聚类、基于模型的聚类、基于搜索的聚类、平方误差聚类、杂项聚类、混合模型分离聚类和模糊聚类[3]。聚类算法目前广泛应用于人工智能、医学、金融、城市发展、隐私保护、营销、工业制造、航空和汽车系统领域[3],ELGÜZEL等[4]人使用K-means聚类算法对全球受自然灾害的影响,进行聚类及聚类评价指标的分析。一个好的聚类算法可以将具有相似特征的样本数据划分为同一类,可以将具有不同特征的数据划分为不同的类,那么评价聚类结果的好坏就显得尤为重要。评价聚类效果的好坏称为有效性指标(ValidityEvaluation)。常用的聚类有效性指标分为两大类:内部指标和外部指标。其中,内部指标不需要任何外部信息,根据聚类结果便可以计算得出:外部指标会事先给出各数据的标签[5]。对于聚类算法的性能,可以通过9个属性进行评价。这些属性是构成评估任何聚类算法性能的重要标准[6]。内部指标是在聚类算法自身产生的结果基础上评价聚类质量的指标,其优点是独立于真实标签之外,适用于无法获取真实标签的聚类问题;而外部指标则需要将已知的真实标签作为评价依据,其优点是更加直观,但需要有已知标签作为前提。在很多应用场景中,数据集是没有标签的,那么评价聚类结果的性能只能依靠内部指标。因此,内部指标的应用场景具有一般性。在聚类算法中有很多聚类方法可供选择,由于实际数据集的成分和结构是复杂的,还没有一种可以适用于所有类型数据的聚类方法。因此,在应用聚类算法时,选择适合输入数据集的聚类算法是关键。此外,聚类评价的重要性已被证明与算法本身同样重要。由于缺乏统一的评价原则,研究人员可能会不确定在哪些情况下应该使用哪种评价指标[7]。研究表明,现有的聚类有效性指标不可能在所有数据集上都能表现出良好的性能[8],因此对内部指标特点的研究在正确评价聚类结果方面有重要意义。2聚类评价指标聚类评价指标是用于评估聚类算法效果的度量方法,簇内对象...