第第39讲讲统计与统计数据(三)统计与统计数据(三)五、数据科学与大数据五、数据科学与大数据(一)数据科学(一)数据科学1、含义:数据科学是一门通过系统性研究获取与数据相关的知识体系的学科。2、研究对象:数据科学研究是从“数据数据”整合成“信息信息”进而组织成“知识知识”的整个过程,包含对数据进行采集、存储、处理、分析、表现等一系列活动。数据科学的研究对象是数据。数据。研究目标是获得洞察力洞察力和理解力理解力,通过对数据的分析,来解释、预测、洞见和决策,为现实世界服务。(二)大数据(二)大数据大数据具有大数据具有“4V”特性:特性:1、数据量大数据量大(Volume)2、数据多样性数据多样性(Variety):大数据类型繁多,包括结构化数据、非结构化数据、半结构化数据。((1))结构化结构化数据:数据:可以用二维表结构实现表达的数据;简单来说就是数据库。比如ERP系统、教育一卡通。【例如】(2)非结构化数据:是指数据结构不规则或不完整,没有预定义的数据,包括文档、文本、图片、报表、图像、音频信息、视频信息、地理位置等;(3)半结构化数据:是介于完全结构化数据和完全非结构化数据之间的数据,包括邮件、员工简历等。3、价值密度低价值密度低(Value):价值密度的高低与数据总量的大小成反比反比。以视频为例,在连续不间断的监控中,有用数据可能仅有一两秒。4、数据的产生和处理速度快数据的产生和处理速度快(Velocity):符合“1秒定律”(三)数据挖掘(三)数据挖掘1、数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义:(1)数据源必须是真实的、大量的、有噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识是可接受、可理解、可运用的;(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。2、数据挖掘以解决时间问题为出发点,融合了很多学科领域的知识,核心任务是对数据关系和特征进行探索是对数据关系和特征进行探索。常见的数据挖掘方法可分为监督监督学习、无监督无监督学习和半监督半监督学习。经济师-中级经济基础知识1/4监督监督学习学习根据已有的数据集,训练出模型训练出模型可以根据自变量数据得到因变量预测结果的过程。监督学习中有两大类典型任务:①分类①分类:通过特征变量确定观测单位所属的类别所属的类别,因变量是分类变量。分类变量。...