2023.7电脑编程技巧与维护1概述在高速发展的互联网大数据时代,信息超载问题(InformationOverload)日益显现,过量的信息使得用户获取有效信息的难度增大。信息的消费者在信息超载的时代,面临庞大的数据量时,难以定位到有效的信息。信息的生产者在面临庞大的数据量时,往往难以快速地挖掘到用户的兴趣偏好和行为习惯,进而无法精准地分析出用户的需求,无法使自己的产品脱颖而出,这极大地降低了服务的质量与销售量。针对上述问题,推荐算法应运而生,推荐算法之一的协同过滤算法则是目前推荐算法中研究受众较多、较成熟的算法。但随着近些年来用户和物品资源的急剧增加,不可避免地导致传统的协同过滤算法推荐质量降低且系统开销增大。针对随之而来的问题,各位学者在协同过滤算法基础上进行改进。Leban等[1]提出结合K-Means聚类的协同过滤算法,用于对传统的协同过滤算法数据集进行先聚类后计算,对推荐质量和推荐性能得以改善;赵伟等[2]提出了一种新的改进的K-Means聚类协同过滤算法,在原有算法的基础上较好地优化了用户聚类问题;施天虎等[3]提出一种基于改进K-Means和优化评分的用户协同过滤算法;李艳娟等[4]提出了基于蜂群K-Means聚类模型的协同过滤推荐算法,根据用户属性信息,使用改进蜂群K-Means算法对用户聚类,在聚类簇中构建用户—项目评分矩阵计算相似度,有效地提升了推荐质量和推荐效率。综合上述学者研究思路,结合Canopy聚类算法和K-Means聚类算法的特性,提出Canopy+K-Means混合聚类模型。(1)使用SlopeOne算法弥补评分矩阵中的缺失值,解决评分矩阵的稀疏性问题;其次,Canopy算法进行粗聚,类获得簇心作为K-Means算法的初始K值和聚类中心,在此基础上使用K-Means算法进行细聚类;再次,考虑用户兴趣偏好随时间发生变化,运用时间加权相似度计算方法进行相似矩阵计算;最后,采用MovieLens-1M数据集测试,实验数据显示改进后的算法推荐质量得以提升。2理论知识2.1协同过滤算法协同过滤算法是一种基于用户历史行为和偏好,预测用户可能感兴趣的商品或服务的推荐算法。协同过滤算法主要基于两个思想是用户的喜好更偏向于他们曾经喜欢或购买的物品,以及偏好相似的用户倾向于喜欢相似的物品。2.2K-Means算法K-Means算法是一种以欧式距离(EuclideanDis-tance)作为衡量数据对象间相似度指标的无监督的学习算法。如公式(1)所示:(1)其中,X、Y为两个向量样本;n为特征数。K-Means算法通过预先指定初始聚类个数与簇心,...