引言随着信息技术的不断发展,信息系统及数据库系统在许多领域得到了广泛应用[1]。从相对宏观的角度分析,数据挖掘本身在学科构成上具有较强的交叉性[2],正是因为这一特点,使得其能够在种类繁多的数据中实现对隐藏信息的有效提炼[3]。将数据隐藏信息转化为一种可以被理解的结构形式,可以对相关工作的开展起到重要的指导作用[4]。如王营等通过对FP-growth算法进行改进,提出了一种以售后服务数据为目标的数据挖掘方法,提高了数据挖掘的全面性,使运算效率存在提升空间[5]。李瑞峰等以具有离群属性的数据为研究对象,通过将加权深度森林融入到数据挖掘的过程中,实现对数据的有效分类[6]。但是,上述文献涉及的方法难以满足大规模数据的计算需求。李珺等通过对K-means算法进行改进,以具有关联规则的数据为研究目标,设计的数据挖掘算法,提高了算法的运算效率[7]。但受数据规模的影响,该算法与实际需求之间仍存在差距。在数据挖掘算法可靠性相对完善的背景下,运行效率是现阶段数据挖掘算法需要重点攻克的难题之一[8]。为此,本文提出基于hadoop平台的数据挖掘算法,借助于hadoop平台的并行属性,使得算法能够实现多节点并行运算,以此提高其计算效率。一、数据挖掘算法设计(一)基于hadoop平台的数据挖掘流程设计在传统的数据挖掘算法中,主要是采用基于深度优先的策略来构建数据分析决策树。这种方式需要优先为在每个节点创建对应的子树,在此基于hadoop平台的数据挖掘算法实证研究*高飞(广西现代职业技术学院,广西河池547000)[摘要]在数据挖掘过程中,由于决策树在分析阶段存在单一递进关系,会导致数据的分析效率不高。针对这一问题,文章提出了基于hadoop平台的数据挖掘算法,并展开了相关实证研究。首先,采用广度优先策略对数据集挖掘算法决策树展开设计,将节点之间的最小加权欧氏距离作为划分基准,利用hadoop平台中的MapReduce程序实现对决策树节点分枝操作的并行处理,以此建立决策树的层级关系,实现对待处理数据集的逐层分析。然后,对数据挖掘算法的Map函数展开设计,以待分析数据键值对与分类基准参量之间的关系实现对数据的分类挖掘。测试结果表明,该算法的运算效率和加速比均处于较高的水平,能够满足海量数据的处理需求。[关键词]hadoop平台;数据挖掘算法;实证研究[中图分类号]TP391[文献标识码]A[文章编号]1008-7656(2022)06-0024-05*[基金项目]2022年度广西高校中青年教师科研基础能力提...