; 9.1基本概念
9.1.1总体和样本
在数理统计中,把所研究的对象的全体称为总体;组成总体的每个基本单位称为个体.例如,某灯泡厂一天生产一万只电灯泡,要考察这批灯泡的寿命,此时“该天生产的一万只灯泡的全体”构成一个总体,而每只灯泡就是总体中的一个个体.
从总体中按照一定的方式抽取一部分个体的过程称为抽样;从总体中抽出若干个个体而组成的集合称为样本;样本中所含个体的个数称为样本容量.;在抽样时,样本的选取必须是随机的,即总体中每个个体都有同等的机会被选入样本.抽样有不重复抽样和重复抽样两种.如果总体个数是无限的,抽取有限个后不会影响总体的分布,这时,不重复抽样与重复抽样可看做是没有区别的.
实际中,如果总体所含的个体的数量很大,而样本容量又相对较小,例如不超过总体的5%,即可认为总体是无限的.
进行重复抽样所得到的随机样本称为简单随机样本.因此,有放回地随机抽取得到的是简单随机样本.在实际中,如果样本容量相对于总体来说是很小的,即使是无放回的抽取,也可以近似地看做是一个简单随机样本.以后我们所说的样本,都是简单随机样本,也简称为样本.;简单随机样本具有以下两个性质:
(1)独立性:x1,x2,…,xn中各个随机变量的取值互不影响,即x1,x2,…,xn是相互独立的随机变量.
(2)代表性:x1,x2,…,xn中每一个都与总体X有相同的概率分布.;9.1.2数据的整理
从实验或调查得到的一组实际数字叫做数据,亦称样本观察值.将数据列成的表称为原始数据表.为了对总体进行估计和推断,必须对数据进行整理.为了了解数据的分布情况,通常利用频率直方图和累积频率直方图.组频率是组频数除以观察数据的个数(总频数)所得的比值;而累积频率是将相应的一些组频率累加起来的和.
下面通过例题说明数据整理的主要步骤和方法.
例9-1从某超市过去一年中每天商品零售额的统计资料中抽出120天的零售额,其结果数字(单位:万元)参见表9-1,试求该超市商品零售额的近似概率分布密度.;表9-1;解(1)找最值.当n不大时??可直接从样本观察值(x1,x2,…,xn)中找最值;当n较大时,可在数据表的左、右两侧分别加上每行的最小和最大值形成列,如表9-1所示,以便迅速、准确地找到整个数据的最大、最小值,以及数据的大致范围.这里;(2)将数据分组.将数据的范围分成k个相等的小区间,每个小区间中至少有一个xi(i=1,2,…,n)落入.一般地,当n≤20时,取k=5~6;当n=40~60时,取k=6~8;当n=60~100时,取k=8~10;当n=100~500时,取k=10~20.本例可取k=13.;(3)定组距.设分点为t0t1…tk-1tk.t0和tk的选取应分别比最小值略小和比最大值略大,且必须比样本值多一位小数,这是为了避免样本值位于分组的分点上.其组距为;(4)列频数、频率表,如表9-2所示.;(5)画频率直方图.根据表9-2画出的频率直方图如图9-1所示,在横坐标轴上标出各组的分点,以每两点间线段为底作矩形,其高为该组的频率/组距.
画一条曲线,让它大致经过各小矩形上边的中点,便可得到随机变量X密度曲线的近似曲线.从图9-1中的曲线可以估计该超市商品的零售额X服从正态分布.;图9-1;9.1.3统计量
为了对总体分布中的未知参数进行估计、推断,需要利用样本构造出某些函数作为推断的基础(X1,X2,…,Xn),这种由样本构造出来的函数称为统计量.
定义9.1设(X1,X2,…,Xn)是来自总体X的一个样本,g(X1,…,Xn)是一个连续函数,且不包含任何未知参数,则称
g(X1,…,Xn)为样本(X1,…,Xn)的一个统计量.;;事实上,可以证明X是服从正态分布的随机变量.又因为;所以;例9-4求λ的值,使P(Uλ)=0.025.
解因为U~N(0,1),所以
P(Uλ)=1-P(U≤λ)
=1-Φ(λ)=0.025
于是,有
Φ(λ)=1-0.025=0.975
查正态分布表,得λ=1.96.
一般地,若已知α,查正态分布表求λ,使
P(|U|λ)=1-α;反查正态分布表,即得λ.通常记,并称为临界值,即;图9-2;2.χ2分布
如果总体X~N(μ,σ2),(X1,X2,…,Xn)为来自总体X的样本,样本方差为;;;3.t分布
在统计量中,当总体X的方差σ2未知时,可用样本方差S2代替,从而得到统计量;;