统计与统计案例
用样本估计总体、统计图表
命题角度:(1)扇形图;(2)折线图;(3)条形图和直方图;(4)用样本估计总体.
典例1(2023·新高考Ⅱ卷T19)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c).当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.
命题立意
信息提取
本题以流行病研究为背景,考查频率分布直方图的相关计算、函数的解析式及最值,体现了数据分析、数学运算等核心素养,属于生活实践情境和探索创新情境融合试题.
(1)由频率分布直方图可知,样本中患病者的指标区间分别为[95,100),[100,105),[105,110),[110,115),[115,120),[120,125),[125,130],对应的频率组距分别为0.002,0.012,0.034,0.036,0.040,0.040,0.036;未患病者的指标区间分别为[70,75),[75,80),[80,85),[85,90),[90,95),[95,100),[100,105],对应的频率组距分别为0.038,0.040,0.040,0.036,0.034,0.010,
(2)确定临界值c,指标大于c判定为阳性,小于或等于c判定为阴性.
(3)漏诊率是将患病者判定为阴性的概率,记为p(c),误诊率是将未患病者判定为阳性的概率,记为q(c).
(4)f(c)=p(c)+q(c),c∈[95,105].
思维拆解
解题思路
名师点拨
(1)第1步:求c的值.
第2步:求q(c).
解:(1)由题图知(100-95)×0.002=1%>0.5%,
所以95<c<100,
设X为患病者的该指标,
则p(c)=P(X≤c)=(c-95)×0.002=0.5%,
解得c=97.5.
设Y为未患病者的该指标,
则q(c)=P(Y>c)=(100-97.5)×0.01+5×0.002=0.035=3.5%.
(1)易错:频率分布直方图中,易误以为纵坐标是频率.
(2)第1步:求f(c)的解析式.
第2步:根据一次函数的单调性求最小值.
(2)当c∈[95,100]时,
f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01+5×0.002=-0.008c+0.82≥0.02;
当c∈(100,105]时,
f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105-c)×0.002=0.01c-0.980.02.
故f(c)=
-0.008c+0.82
所以f(c)在区间[95,105]的最小值为f(100)=0.02.
(2)要结合问题背景,理解图表意义.
(3)从频率分布直方图中正确读取相关数据是求解问题的关键.
(4)注意分类讨论思想的应用.
(5)对于一次函数y=kx+b(k≠0),当k0时,函数单调递增;当k0时,函数单调递减.
归纳总结:频率分布直方图中的常用结论
(1)最高的小长方形底边中点的横坐标即为众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
(4)频率分布直方图中各小长方形的面积之和为1.
(5)频率分布直方图中纵轴表示频率组距,故每组样本的频率为组距×频率
(6)频率分布直方图中每组样本的频数为频率×总数.
回归分析
通过观测数据,进行回归分析,并预测结果.
典例2(2022·全国乙卷理T19文T19)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得
(1)估计该林区这种树木平均