第4节列联表与独立性检验
【课标要求】(1)掌握分类变量的含义;(2)通过实例,理解2×2列联表的统计意义;(3)通过实例,了解独立性检验的基本思想、方法及其简单应用.
知识点一分类变量与列联表
1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.2×2列联表
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,X表示相互对立的两个事件{X=0}和{X=1},Y表示相互对立的两个事件{Y=0}和{Y=1},其中a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的频数,n是样本容量,其样本频数列联表(称为2×2列联表)如表所示:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
3.等高堆积条形图
(1)等高堆积条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征;
(2)如果通过直接计算或等高堆积条形图发现aa+b和cc
(1)〔多选〕根据如图所示的等高堆积条形图,下列叙述正确的是(ABC)
A.吸烟患肺病的频率约为0.2
B.吸烟不患肺病的频率约为0.8
C.不吸烟患肺病的频率小于0.05
D.吸烟与患肺病无关系
解析:(1)从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A、B、C都正确.
(2)假设有两个变量x与y的2×2列联表如表:
y1
y2
x1
a
b
x2
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为(D)
A.a=9,b=3,c=2,d=1
B.a=9,b=2,c=3,d=1
C.a=2,b=3,c=1,d=9
D.a=3,b=1,c=2,d=9
解析:(2)根据观测值求解公式及a+b+c+d=15可得,当n相等时,|ad-bc|越小,说明x与y之间的关系越弱;|ad-bc|越大,说明x与y之间的关系越强,经过逐一验证,可知选D.
规律方法
分类变量的两种统计表示形式
(1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联性的强弱;
(2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联性的强弱.
练1(1)(2024·江西模拟)在某次独立性检验中,得到如下列联表:
A
A
合计
B
200
800
1000
B
180
a
180+a
合计
380
800+a
1180+a
最后发现,两个分类变量没有关联,则a的值可能是(B)
A.200 B.720
C.100 D.180
(2)如表是一个2×2列联表,则m+n=62.
X
Y
合计
y1
y2
x1
a
35
45
x2
7
b
n
合计
m
73
s
解析:(1)∵两个分类变量没有关联,∴2001000≈180180+a,解得a≈
(2)根据2×2列联表可知a+35=45,解得a=10,则m=a+7=17,又由35+b=73,解得b=38,则n=7+b=45,故m+n=17+45=62.
知识点二独立性检验
1.概念:利用随机变量χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.χ2的计算公式:χ2=n(ad
3.基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立(其中xα为α的临界值).
4.独立性检验中几个常用的小概率值和相应的临界值:
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
角度1分类变量关联性的判断
(1)(2024·盐城模拟)根据分类变量Ⅰ与Ⅱ的统计数据,计算得到χ2=2.954,则(B)
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
A.变量Ⅰ与Ⅱ相关
B.变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1
C.变量Ⅰ与Ⅱ不相关
D.变量Ⅰ与Ⅱ不相关,这个结论犯错误的概率不超过0.1
解析:(1)零假设为H0:变量Ⅰ与Ⅱ不相关,因为χ2=2.954>2.706,依据α=0.1的独立性检验可知,推断H0不成立,即认为变量Ⅰ与Ⅱ相关,这个结论犯错误的概率不超过0.1,故选B.
(2)根据分类变量X和Y的样本观察数据的计算结果,有不少于95%的把握认为X和Y有关,则χ2的值不可能为(A)
α
0.150
0.100
0.050
0.010
0.00