专栏SPECIALCOLUMN17初遇数据科学体分布的估计、总体期望值和方差的估计。选修II中包括离散型随机变量的分布列、离散型随机变量的期望值和方差、抽样方法、总体分布的估计、正态分布和线性回归。可以看出,尽管没有概率论的公理化框架,基本的概率统计概念已经具备了,我们可以在此基础上进行课程设计。课程内容数据科学的内涵虽然目前没有共识,但各领域科学家们研究的范畴已经逐渐明晰。在之前的文章中我们把数据科学定义为“关于收集数据、处理数据、分析数据的科学与艺术,其中处理包括整理、存储、提取和运算。”虽然这与美国自然科学基金委在2014年的定义“对数据进行规划、获取、管理、分析和推断的科学”没有本质差别,但我们的定义与人们熟悉的统计学经典定义形式更相像。美国计算机协会数据科学教育工作组在2019年给出了数据科学专业的九项核心能力:编程计算能力;数据搜集和清洗;数据管理、存储和检索;数据隐私、安全和完整性;机器和统计学习;数据挖掘;大数据;分析和展示;专业领域知识。很有意思的是,该工作组还建议了完整的数据科学课程应该整合微积分、离散数学、概率论、基本统计学、高级统计学和线性代数等课程,众所周知,这些课程本质上就是统计学专业的传统核心课程。这些认识虽然没有被完全接受,但其中的大部分内容是没有争议的。数据在我们当代人的生活中发挥着越来越重要的作用,无论走到哪里,只要一个手机号码或者身份证号码就可以辨识一个人,人的体貌和身份特征、社会关系、衣食住行等内容也可以通过数据表示出来。把数据作为主要研究对象的统计学和数据科学成为了受人瞩目的学科。大学生们无论专业如何,都想了解和掌握一些这方面的知识。为满足这些需求,国内外很多大学都开设了数据科学导论课程。一般情况下,这门课程会有多个不同专业的新生选修,他们仅具有中学数学基础。其中部分学生想通过这个课程对统计学和数据科学进行初步了解,以后还会学习一些更深入的课程。另一部分学生想通过这门课程直接掌握一些实用的技术和技能,可以用来分析他们各自专业领域的一些实际问题。本文试图探讨这门课程的知识基础、内容选择和授课安排等方面,以期避免重复教学、增加学习兴趣并提高学习效率。课程起点导论性的课程往往没有太多深奥的理论证明,大多以技术和应用为主。但概率统计初步知识在高中阶段已经教给学生们了。所以数据科学导论课程要根据这种情况进行安排。在高中阶段的必修内容包括随机事件的概率、等可...