3.2独立性检验的基本思想及其初步应用课前导引问题导入在现实生活中,存在大量分类变量,它们之间到底存在什么关系?两个变量之间是否有影响,这是我们所关心的问题,解决这类问题可用独立性检验的基本思想.知识预览1.分类变量对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人):吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965像上表这样列出的两个分类变量的频数表,称为列联表.3.独立性检验这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小.如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理.4.判断结论成立的可能性的步骤一般地,假设有两个分类变量X和Y,它们的值域分别为[x1,x2]和[y1,y2],其样本频数列联表(称为2×2列联表)为:2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d若要推断的论述为H1:“X与Y有关系”,可以按如下步骤判断结论H1成立的可能性:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.①在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.②在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例.两个比例的值相差越大,H1成立的可能性就越大.(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:根据观测数据计算由K2=给出的检验随机变量K2的值k,其值越大,说明“X与Y有关系”.成立的可能性越大.当得到的观测数据a,b,c,d都不小于5时,可以通过查阅下表来确定结论“X与Y有关系”的可信程度.P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828说明:当观测数据a,b,c,d中有小于5时,需采用很复杂的精确的检验方法.