总体分布与总体参数

2014-05-12 04:53阅读:31

作者 : 千讯咨询   来源 / 本站整理

字号

总体分布是总体中所有观测值所形成的分布。

总体参数是对总体特征的某个概括性的度量。通常有总体平均数()、总体方差()、总体比例(π)等。

二.统计量和抽样分布

总体参数是未知的,但可以利用样本信息来推断。

统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。

统计量是样本的函数,如样本均值()、样本方差(s2 )、样本比例(p)等。

构成统计量的函数中不能包括未知因素。

由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。抽样分布是样本统计量所形成的概率分布,如样本均值的分布、样本比例的分布等。

在现实中,一个样本的统计量我们可以观察到,但不能观察到所有可能的统计量值,抽样分布是一种理论分布。

统计量的取值是依据样本而变化的,不同的样本可以计算出不同的统计量值。那么,根据统计量来推断总体参数就必然具有某种不确定性。但我们可以给出这种推断的可靠性,而度量这种可靠性的依据是统计量的概率分布,并且我们确知这种分布的某些性质。因此,统计量的概率分布提供了该统计量长远而稳定的信息,它构成了推断总体参数的理论基础。

(一)样本均值的抽样分布

设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有Nn 种抽法,即可以组成Nn不同的样本,在不重复抽样时,共有个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:

即样本均值的均值就是总体均值。

在重置抽样时,样本均值的方差为总体方的1/n,即

在不重置抽样时,样本均值的方差为

其中,为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,N比较大而n/N≥5% 时,修正系数可以简化为1-n/N,当N比较大,而n/N<5%时,修正系数可以近似为1,即可以按重置抽样计算。

当总体服从正态分布时,样本均值一定服从正态分布,即有X~N(,)时,

若总体为未知的非正态分布时,只要样本容量 n足够大(通常要求n ≥30),样本均值仍会接近正态分布。样本分布的期望值为总体均值,样本方差为总体方差的1/n 。这就是统计上著名的中心极限定理。该定理可以表述为:从均值为,方差为的总体中,抽取样本量为n的随机样本,当n充分大时(通常要求n ≥30),样本均值的分布近似服从均值为,方差为的正态分布。

如果总体不是正态分布,当n为小样本时(通常n<30),样本均值的分布则不服从正态分布。

(二)样本比例的抽样分布

比例是指具有某种属性的单位占全部单位数的比重。

总体比例(通常用表示)是总体中具有某种属性的单位数占全部总体单位数的比例,是一个参数,通常是未知的,也是我们想通过抽样得到的说明总体特征的数据。

样本比例(通常用p表示)是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例,是一个样本统计量,是随机变量,对于一个已经抽取出来的样本来讲,是可以观察到的。描述所有可能样本比例的概率分布就是样本比例的抽样分布。

当样本容量比较大时,样本比例p近似服从正态分布,且有p的数学期望就是总体比率π,即

而P的方差与抽样方法有关,在重置抽样下为,在不重置抽样下为

即在重置抽样时, p的分布为p~N

在不重置抽样时, p的分布为p~N

一般讲,当 np≥5,并n(1-p)≥5时,就可以认为样本容量足够大。对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,当N比较大,而n/N 5%时,修正系数可以近似为1,这时也可以按重置抽样计算。

从上述分析可以看出,随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。

三.统计量的标准误差

统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。

样本均值的标准误差计算公式为:

当总体标准差未知时,可用样本标准差s代替计算,这时计算的标准误差称为估计标准误差。

相应地,样本比例的标准误计算公式为

同样,当总体比例的方差 π(1-π)未知时,可用样本比例的方差p(1-p)代替。

第二节参数估计

参数估计是用样本统计量去估计总体的参数。

用样本统计量来估计总体参数有两种方法:点估计和区间估计

一.点估计与区间估计

点估计,是用样本统计量的实现值来近似相应的总体参数。

区间估计,是根据估计可靠程度的要求,利用随机抽取的样本的统计量确定能够覆盖总体参数的可能区间的一种估计方法。

区间估计是包括样本统计量在内(有时是以统计量为中心)的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。

标准正态分布为N(0,1)分布,将概率分布标准化的公式为:

将z所对应的概率称为置信度或置信水平,将表示的范围称为置信区间。

以68.73%的置信水平推断总体参数推断总体参数的置信区间为(z=1)

以95.45%的置信水平推断总体参数推断总体参数的置信区间为(z=2)

以99.73%的置信水平推断总体参数推断总体参数的置信区间为(z=3)

二.评价估计量的标准

用于估计总体参数的估计量可以有很多,如何选择估计效果最好的那种估计量,评价估计量的好坏的标准具体有:

1.无偏性,是指估计量抽样分布的期望值等于被估计的总体参数。

2.有效性,是指估计量的方差尽可能小。

有效性是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。

3.一致性,是指随着样本量的增大,点估计量的值越来越接近被估计总体的参数。

即大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。从这个意义上说,样本均值是总体均值的一个一致估计量。

三.一个总体均值的区间估计

在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知,用于估计的样本是大样本还是小样本等情况。但不管哪种情况,总体均值的置信区间都是由样本均值加减估计误差得到的。一般将置信水平表示为1-α ,统计量分布两侧面积各为 α/2的分为数值,它取决于事先所要求的置信度(或可靠程度)。因此总体均值在1-α 置信水平下的置信区间可一般性地表达为:

(-分为数值* 的标准误差,+分为数值* 的标准误差)

(一)大样本的估计

(二)小样本的估计

小样本(n<30)情况下,对总体均值的估计都是建立在总体服从正态分布的假定前提下。

当总体方差已知时,样本均值经过标准化后仍服从标准正态分布,此时总体均值μ在1-α置信水平下的置信

总体比例的置信区间是由样本比例和估计误差两部分组成的

广告、内容合作请点这里:
关于我们| 组织与团队| 产品与服务| 客户案例| 媒体合作| 寻求报道| 加入我们| 常见问题| 联系我们| About Us

全国统一热线:400-650-6508 / 400-118-6508 / 400-835-6608 / 010-58769018 / 010-58769098

可行性研究/商业计划书专线:400-650-6508    IPO咨询专线:400-118-6508    产业园区咨询专线:400-835-6608

地址:北京市朝阳区光华路5号世纪财富中心西座六层    邮编:100020

版权所有 千讯(北京)信息咨询有限公司 [京ICP备09012209号]

Copyright © 2002-2025 Qianinfo.com Inc. All Rights Reserved.

法律顾问:北京市隆安律师事务所|周日利律师    媒体合作:010-58769098