2023.6电脑编程技巧与维护1概述在网络大数据的背景下,各行各业都积累了海量的数据。特别是三大运营商,运营商以基础设施网络收集用户的移动数据。以用户的上网流量日志来说,一个省每月的存储量级可以达到PB级别,再加上其他的用户数据,数据量之大可想而知。运营商以海量用户移动数据为基础,分析用户的行为,以此来提供精准服务,提高自己的经济效益。因此有许多学者从不同方面对运营商用户的行为进行分析研究,以此进一步推动5G的发展。谭广基于运营商大数据中的海量数据,分析5G套餐用户与非5G套餐用户之间的行为差异或共性特征。并利用数据挖掘技术构建5G套餐潜在客户识别模型,预测在未来特定时间内具有5G套餐办理倾向的潜在需求用户[2];张浩基于移动用户行为数据建立一个用于解决数据不平衡的模型教师辅助提升算法,以此提升5G潜在客户的识别率,进而帮助企业在精准营销上提供参考方案[3]。徐泓使用3种采样方法进行数据平衡化,构建不同参数下的k-prototype聚类、逻辑回归、随机森林和LightGBM模型,发现其具有较高的准确率和召回率[4];周庆梅利用Smote处理4G和5G数据不平衡问题,然后通过模型融合进行分类预测,发现其效果明显优于单一算法模型[5]。2理论知识2.1SOM算法SOM聚类算法是一种竞争型的无监督神经网络,它的结构和DNN很相似,只存在一个隐藏层的区别。SOM算法改进了Kohonen规则,其优点是将高维数据转映射到低维空间,SOM算法的原理图如图1所示。Kohonen规则首先选择k个聚类中心点,通过计算比较样本点的位置远近来更新聚类中心点的位置,循环往复,以此来确定最终的聚类。Kohonen规则表达式为:wk=wk+lr·(x-wk),其中,wk为聚类中心点;lr为学习率。SOM算法在使用Kohonen规则更新聚类中心时,将当前聚类中心的邻近聚类中心也进行更新。输入层的形式与BP网相同,节点数与样本维数相同。输出层也是竞争层,其神经元的排列形式有多种。分为一维线阵、二维平面阵和三维栅格阵,其中最典型的结构是二维形式。SOM的模型数学表达式为y=compet(-dist(x,W)),其中,dsit为x和W的欧氏距离;compet为竞争函数,它将向量最大的值置为1,其余置为0。SOM算法的缺点在于在算法实现过程中可能会出现部分神经元始终不能胜出的现象,从而影响聚类的准确性,且网络不保证收敛,因此SOM算法不一定比K-Means聚类算法好。2.2凝聚层次聚类算法常见的聚类算法有层次聚类算法和K-Means聚类算法,在这两个算法中,层次聚类算法的执行时间比K-Mea...