数据库系统设计DatabaseSystemDesign电子技术与软件工程ElectronicTechnology&SoftwareEngineering204数据丢失会影响半失能老人远程健康监测大数据质量控制。在远程健康监测数据传输、存储等转移过程中发生丢失,导致数据缺失[1],数据缺失问题是数据质量问题中的关键因素[2]。填充缺失数据时通常会选取多重填补、聚类填充、期望最大值填充等策略,对于不同的数据集,不同的填充策略通常会影响填充效果的好坏。多重填补基于随机缺失假定,通过现有数据值来进行评估,先生成多个估计填补值,产生相应完整数据集,再确定估计填充值[3]。多重填补法应用的例子有:V.Anand[4]等人在20个真实世界营销数据集上评估了平均插补、多元填补、顺序回归树插补和顺序随机森林插补。结果表明,多重填补和顺序随机森林插补比所考虑的其他方法表现更好。聚类填充先通过聚类的方法把数据集分类成不同的簇,接着按照不同的分类情况进行相似填充[5]。对于每一个缺失数据,选取和它最为相似的分组,然后把组内数据的属性均值填充给该缺失数据。聚类填充法应用的例子有:因为高维空间的聚类计算复杂度高,卢继哲[6]等人采取自编码器来降低维度,解决长时间序列导致的聚类困难问题,提高了聚类性能。EM算法有两个步骤。期望步,通过隐藏变量的现有估计值,计算最大似然估计值。最大化步,求出模型参数。重复交替进行期望步和最大化步,不断更新缺失数据值[7]。期望最大值填充法应用的例子有:文献[8]通过插补不同程度的缺失数据,旨在比较EM算法和矩阵补全算法的性能。结果表明,EM算法在理论和应用模型均优于矩阵补全。一般情况下,聚类填充可以有效地填充缺失数据,但是半失能老人远程健康监测大数据的维度较高,无法衡量数据间的相似度。由于EM填充策略具有很好的随机性,不会过度破坏数据集的变异程度,本文采用聚类填充结合EM填充的缺失数据填充算法。1基于改进K-means蚂蚁聚类算法蚂蚁聚类算法将数据集分类,但其易出现早熟和收敛速度慢的问题[9]。可以利用K-means算法先将数据集聚类分组,得到粗略的聚类结果,并用于蚁群聚类算法,进行更精确的聚类操作,从而提高分类精度。数据集X有n个数据样本,对应n只蚂蚁,每只蚂蚁有m个属性,聚类个数为K,数据样本记为xi={xi1,xi2,…,xij},(i=1,2,...,n),(j=1,2,...,m);数据集X={x1,x2,…,xn};聚类中心w={w1,w2,...,wk};聚类结果W={W1,W2,...,Wk}。基于改进K-means蚂蚁聚类算法步骤如下:(1)利用K-means算法先将数据...