第4课时列联表与独立性检验
[考试要求]1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解独立性检验及其应用.
考点一列联表与χ2的计算
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.分类变量X,Y的2×2列联表:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则χ2=nad
注:χ2即K2,α即P(K2≥k),xα即k,不同版本教材所用符号有所不同.
[典例1](2024·苏州统考)为了解喜爱足球是否与性别有关,随机抽取了若干人进行调查,抽取女性人数是男性的2倍,男性喜爱足球的人数占男性人数的56,女性喜爱足球的人数占女性人数的13,若本次调查得出“依据小概率值α=0.005的独立性检验,认为喜爱足球与性别有关”的结论,则被调查的男性至少有(
附:χ2=nad-bc2a+bc+da
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
A.11人 B.12人
C.13人 D.14人
B[设男性人数为k,依题意,得2×2列联表如下:
单位:人
性别
喜爱足球
合计
喜爱
不喜爱
男性
5k
k6
k
女性
2k
4k
2k
合计
3k
3k
3k
依据列联表中数据计算得到
χ2=3k5k
因为本次调查得出“依据小概率值α=0.005的独立性检验,认为喜爱足球与性别有关”的结论,
于是χ2≥7.879=x0.005,即2k3≥
解得k≥11.8185,而k是6的正整数倍,因此kmin=12.]
反思领悟2×2列联表是4行4列,关键是对涉及的变量分清类别,χ2的计算要准确无误.
巩固迁移1(2025·南阳模拟)某人工智能服务商提供了A,B两种会员服务套餐,购买会员服务的既有个人用户也有公司用户.后台随机调取m名会员的基本信息,统计发现购买B套餐的用户数占总用户数的710,购买B套餐的用户中公司用户数是个人用户数的43倍,购买A套餐的用户中公司用户数是个人用户数的一半.依据小概率值α=0.005的独立性检验,认为购买的套餐类型与用户类型有关系,则m的最小值为
附:χ2=nad-bc2a+bc+da
α
0.050
0.010
0.005
0.001
xα
3.841
6.635
7.879
10.828
170[由题意可得用户类型与购买的套餐类型2×2列联表如下:
单位:名
用户类型
套餐
合计
A
B
个人用户
210
310
12
公司用户
110
410
12
合计
310
710
m
零假设为
H0:购买的套餐类型与用户类型无关.
χ2=m×210
因为依据小概率值α=0.005的独立性检验,认为购买的套餐类型与用户类型有关,
所以χ2=m21≥7.879,解得m≥165.459,又因为m必须是10的倍数,所以m的最小值为170.
考点二列联表与独立性检验
1.利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.χ2独立性检验中几个常用的小概率值和相应的临界值.
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
3.两个分类变量之间关联关系的定性分析的方法
(1)利用等高堆积条形图直观判断:
如图,在等高堆积条形图中,下方同一颜色区域的两个高度相差比较明显时,可以判断两个分类变量之间有关联性.
(2)频率分析法:在2×2列联表中,aa+b与cc+d或
[典例2](2025·八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:
药物
疾病
合计
未患病
患病
未服用
100
80
s
服用
150
70
220
合计
250
t
400
(1)求s,t;
(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;
(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效?
附:χ2=nad
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
[解](1)由列联表知,s=100+80=180,t=80+70=150.
(2)由列联表知,未服用药物A的动物有s=180(只),
未服用药物A且患疾病B的动物有80只,
所以未服用药物A的动物患疾病B的频率为80180=4
所以未服用药物A的动物患疾病B的概率的估计值为p=49
(3)零假设为H0:药物A对预防疾病B无效.
根据列联表中的数据可求得
χ2=400×1