1学员专用请勿外泄课程咨询:环球网校学员专用第二十三章统计与统计数据第五节数据科学与大数据【本节知识点】【知识点】数据科学【知识点】大数据【知识点】数据挖掘【本节内容精讲】【知识点】数据科学数据科学项目内容提出者数据科学这个词最早由丹麦的计算机科学领域先驱“彼得•诺尔”提出。含义是一门通过系统性研究获取与数据相关的知识体系的学科。研究对象数据,即从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、储存、处理、分析、表现等一系列活动。(1)一方面研究数据本身的特性和变化规律(2)另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律。研究目标获得洞察力和理解力,通过对数据的分析、来解释、预测、洞见和决策,为现实世界服务。涉及领域统计学、机器科学、计算机科学、可视化、人工智能、领域知识等。例题精讲【真题•2021多选】关于数据科学的说法,正确的有()A.数据科学主要涉及统计学的范畴B.数据科学是一门通过系统性研究获取与数据相关的知识体系的学科C.数据科学研究的是从“数据”整合成“信息”进而组织成“知识”的整个过程D.数据科学的研究对象是数据E.数据科学包含对数据进行采集、储存、处理、分析、表现等一系列活动【答案】BCDE【解析】数据科学涉及统计学、机器科学、计算机科学、可视化、人工智能、领域知识等很多领域。A项错误。【知识点】大数据一、大数据的含义:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2课程咨询:环球网校学员专用学员专用请勿外泄二、大数据的特性——4V特性内容数据量大Volume大数据的起始计量单位是PB(1024TB,大约50多万部电影)、EB(约100万TB)或ZB,未来甚至会达到YB或BB。【补充知识:数据的计量单位由小到大是B、KB、MB、GB(大概一部普通电影2GB)、TB(1024GB,大约存储500部电影)、PB、EB等】数据多样化Variety类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。(1)结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据。(2)非结构化数据是指数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等;(3)半结...