本期推荐本栏目责任编辑:唐一东ComputerKnowledgeandTechnology电脑知识与技术第18卷第35期(2022年12月)基于机器学习的白洋淀生态数据的异常检测吴琼,李永飞(华北科技学院计算机学院,河北三河065200)摘要:异常数据检测的问题近年来日益成为统计分析、机器学习、数据挖掘等诸多领域的研究热点之一,异常数据检测是实现数据质量提升的一个关键。异常数据检测中存在物联网数据来源不可靠、异常数据检测结果不稳定和不准确等问题,实验采用基于机器学习的异常数据检测算法,通过python数据分析,采用真实的数据即白洋淀生态物联网数据进行实验验证,对比几种基于机器学习的异常检测算法的异常检测效果,采用真实数据具有一定的应用意义。关键词:真实数据;异常数据检测;聚类分析;K-means算法;DBSCAN算法中图分类号:TP181文献标识码:A文章编号:1009-3044(2022)35-0007-03开放科学(资源服务)标识码(OSID):1概述白洋淀是华北地区最大的湿地生态系统被称为“华北之肾”,多年来由于上游生活污水和工业污水的排放、机械船只增多等因素,白洋淀水质不断恶化。自2017年4月1日起,白洋淀生态环境治理和保护攻坚战打响。修复白洋淀生态的关键在于水域环境,改善水域内水体环境才能保障和恢复生物的多样性。白洋淀的生态数据通过物联网传感器实时采集,为了保证白洋淀生态物联网数据的真实性和可信性,需要对采集到的数据做出预处理。异常数据影响数据质量,异常数据检测能实现数据质量的提升与潜在信息的挖掘。在当前生态环境监测中应用物联网技术,建立自动监测站实现全天实时监测。物联网技术可以对数据信息精准识别和快速传递,让生态监测的整个过程变得系统化和透明化。异常数据检测方法是通过统计分析、数据挖掘等技术来识别数据中的“异常点”,是指从数据中找出明显与其他数据不同的数据。离群点检测的概念最早由Hawkins在1980年提出,异常是指非随机产生的不同于数据集其他数据的数据[1]。异常数据可能是噪声,也可能是有价值的数据。异常数据检测是数据挖掘应用中的一项关键技术,是指从数据集中找出与预期行为不符的模式。异常数据检测对保障数据的可信性有重要作用,异常数据通常占比可能较小但可能蕴含丰富的内容。因此异常数据检测方法具有重要的研究意义和实践应用,并且其对保障检测数据可行性方面也有积极的作用。异常数据检测作为数据分析的任务模块之一,数据分析工作进行异常数据检测的价值在于及时发现异常,进而准确发出...