数据挖掘概念与技术第一章引言本章目标•理解对大型的、复杂的和信息丰富的数据集进行分析的必要性。•明确数据挖掘过程的目标和首要任务。•描述数据挖掘技术的起源。•了解数据挖掘过程所具有的迭代过程和基本步骤。•解释数据的质量对数据挖掘过程的影响。•建立数据仓库和数据挖掘之间的联系。1.1概述•数据化信息产业的发展引发了数据的大量聚集,而如何将这些数据转化成有用有信息和知识是信息领域所面临的问题。•在数据库开发设计中经历了二个阶段的演化:•第一阶段:数据收集和数据库创建,数据管理引发了数据存储和检索,数据库事务处理技术研究。•第二阶段:数据分析与理解引发了数据仓库和数据挖掘技术的研究。△数据仓库和数据挖掘技术的出现从根本上是为了解决这样一个问题:在创建一个数据集,考虑数据的存储效率的时候,同时考虑数据最终如何被使用和分析•例如,数据收集和数据库创建机制为数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统(如医院中使用的各种信息系统)广泛应用,数据分析和理解自然成为下一个目标。•数据挖掘的两个根本目标:预测和描述预测涉及到使用数据集中的一些变量或域来预测其他我们关心的变量的未知或未来的值;描述关注的则是找出描述可由人类解释的数据格式。1)预测性数据挖掘:生成已知数据集的系统模型。2)描述性数据挖掘:在数据集上生成新的、非同寻常的信息。–数据挖掘的基本任务:1.分类:2.回归:3.聚类:4.总结概括:5.关联建模:6.变化与偏差检测:–大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。–数据挖掘起源于多种学科,主要是统计学和机器学习。–统计学起源于数学,它强调数上精确;机器学习主要起源于计算机实践,它侧重于对事物的检验,确定它表现的好坏。1.2数据挖掘的起源–数据挖掘中的基本模型法则起源于控制理论,控制理论主要应用于工程系统和工业过程。–在控制理论中通过观察一个未知系统的输入输出信息,来决定其数学模型的问题常被称为系统识别。–系统识别是多样化的,从数据挖掘的立场出发是预测系统的行为,并解释系统变量之间的相互作用和关系。定义:数据挖掘是一个从已知数据集合中发现和种模型、概要和导出值的过程。1.3数据挖掘过程1.3.1陈述问题和阐明假设大多数基于数据的模型研究都是在一个特定的应用领域里完成的。为了的提出一个有意义的问题的陈述,需要拥有该领域内丰富的知识和经验,着...