统计量
一、定义
在实际应用中,当我们从某总体中抽取一个样本 \(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\) 后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,首先必须把分散在样本中我们关心的信息集中起来,针对不同的研究目的,构造不同的样本函数,这种函数在统计学中称为统计量。
定义:设 \(X_{1}, X_{2}, \cdots, X_{n}\) 是从总体 $X$ 中抽取的容量为 $n$ 的一个样本,如果由此样本构造一个函数$T(X_1,X_2,.,X_n)$ ,不依赖于任何未知参数,则称函数 $T(X_1,X_2,.,X_n)$ 是一个统计量。
通常,又称 $T(X_1,X_2,.,X_n)$ 为样本统计量 ,当兵获得样本的一组具体观测值 \(x_{1}, x_{2}, \cdots, x_{n}\) 时,代入 $T$ 计算出 $T(X_1,X_2,.,X_n)$ 的数值,就获得一个具体的统计量值。
二、常用的统计量
-
样本均值:\(\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}\)
它反映出总体X数学期望的信息。样本均值是最常用的统计量。
-
样本方差: \(S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\)
它反映的是总体 $X$ 方差的信息。样本方差 $S^2$及样本标准差 $S$ 也是最常用的统计量。
-
样本变异系数:\(V=S / \bar{X}\)
它反映出总体变异系数 $C$ 的信息。其中变异系数定义为 \(C=\sqrt{D(X)} / E(X)\),它反映出随机变量在以它的均值为单位时取值的离散程度。此统计量消除了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度。在投资项目的风险分析中、不同群体或行业的收人差距描述中有着广泛的应用。
-
样本 $k$ 阶矩:\(m_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}\)
它反映出总体 $k$ 阶矩的信息。显然,$m_1 = \bar{X}$ 就是样本均值
-
样本 $k$ 阶中心距: \(v_{k}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}\)
它反映出总体 $k$ 阶中心矩的信息。显然,$v_2$ 就是样本方差。
-
样本偏度: \(\begin{equation}\alpha_3=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right)^{3 / 2}}\end{equation}\)
它反映出总体偏度的信息。偏度反映了随机变量密度函数曲线在众数 (密度函数在这一点达到最大值) 两边的对称偏斜性。如果$X \sim N(\mu, \sigma^2)$, 则偏度 $\alpha_3 = 0$。
-
样本峰度:
\[\begin{equation}\alpha_4=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right)^{2}}-3\end{equation}\]它反映出总体峰度的信息。峰度反映了密度函数曲线在众数附近的“峰”的尖峭程度。正态随机变量$X \sim N(\mu, \sigma^2)$ 的峰度 $\alpha_4 = 0$。
偏度和峰度的概念在质量控制和可靠性研究中有着极其广泛的应用。
抽样分布
渐进分布
样本均值分布与中心极限定理
一、正态分布的样本均值分布
中心极限定理
实际中心极限定理的提出和应用却早于正态分布,而正态分布恰恰是运用中心极限定理证明出来的。
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
举个栗子
现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。 然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。 最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。
注意的几点:
- 总体本身的分布不要求正态分布 上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)
- 样本每组要足够大,但也不需要太大 取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。
由正太分布导出的几个重要分布
一般来说总体的均值、标准差和比例是常量,用μ、σ 和 π 表示,称为参数,这大家都知道。样本计算出来的均值、标准差和比例(用 $\bar{x}$、S 和 p 表示,称为统计量)仍然是随机变量,因为每次抽样的结果可能都会有所不同,因此样本的均值、标准差和比例也有分布,这就是抽样分布。我们就是用抽样分布来判断样本的统计量在多大程度上逼近总体的参数。
随机变量的分布多种多样,已知的就有几十种,还不排除以后还会有新的分布发现。但抽样分布只有四种,正态分布、t-分布、$\chi^{2}$ - 分布、$F$ -分布。
一、卡方分布
卡方分布(chi-square distribution, $\chi^{2}$ -distribution)是概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。
定义
若 k 个随机变量 $Z_1$、……、$Z_k$ 相互独立,且数学期望为0、方差为 1(即服从标准正态分布),则随机变量 $X$
\[\begin{equation}X=\sum_{n=1}^{k} Z_{n}^{2}\end{equation}\]被称为服从自由度为 k 的卡方分布,记作
\[\begin{equation}X \sim \chi^{2}(k)\end{equation}\]自由度
自由度是统计学中常用的一个概念,它可以解释为独立变量的个数,还可解释为二次型的秩。例如,$Y=X^2$ 是自由度为 1 的 $\chi^2$ 分布,$rank(Y)=1$;\(Z=\sum_{i=1}^{n} X_{i}^{2}\) 是自由度为 $n$ 的 $\chi^2$ 分布,$rank(Z)=n$ 。
卡方分布也可以表示为:
\[\begin{equation}\chi^{2}=\sum_{i=1}^{n}\left[\frac{\left(f_{i}-F_{i}\right)^{2}}{F_{i}}\right]\end{equation}\]其中:$f_i$是实际观察到的量,$F_i$ 是运用目标分布计算出的量。
卡方分布的期望与方差
\(E\left(\chi^{2}\right)=n, D\left(\chi^{2}\right)=2 n\) ,其中 $n$ 为卡方分布的自由度。
$\chi^2 $ 分布具有可加性,即若 \(\chi_{1}^{2} \sim \chi^{2}\left(n_{1}\right), \chi_{2}^{2} \sim \chi^{2}\left(n_{2}\right)\) 且独立,则 \(\chi_{1}^{2}+\chi_{2}^{2} \sim \chi^{2}\left(n_{1}+n_{2}\right)\)
案例
例1:某个城市在某一时期内共发生交通事故600次,按不同颜色小汽车分类如下
问:交通事故是否与汽车的颜色有关?
解:如果交通事故与汽车的颜色无关,则每种颜色的小汽车发生交通事故的可能性是一样的。即
\[\begin{equation}P_{i}(\text { 汽车颜色 })=\frac{1}{6}, \quad i=1,2, \cdots, 6\end{equation}\]下面计算统计量
\[\begin{equation}\chi^{2}=\sum_{i=1}^{n}\left[\frac{\left(f_{i}-F_{i}\right)^{2}}{F_{i}}\right]\end{equation}\]上表计算出 $\chi^{2}$ =40,取 α =0.05,因没有估计参数,则自由度为6-0-1=5,查表得 \(\chi_{0.05}^{2}(5)=11.071<40\) ,因此我们可以认定交通事故与小汽车的颜色有关。
二、t-分布
理论基础
数理统计学中的两大基石般的定理:大数定理与中心极限定理,
- 大数定理。不管是强大数定理还是弱大数定理,都表达着这样一个意思:当样本数量足够大时,这些样本的均值无限接近总体的期望。
- 中心极限定理。不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。
t 统计量
假设是呈正态分布的独立的随机变量(随机变量的期望值是,方差是但未知)。 令:
\[\begin{equation}\bar{X}_{n}=\frac{X_{1}+\cdots+X_{n}}{n}\end{equation}\]为样本均值。
\[\begin{equation}S_{n}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}_{n}\right)^{2}\end{equation}\]为样本方差。
注:$s^2$ 计算时, 分母为 $n-1$ 而非 $n$ 的原因就是为了纠正使用样本均值算出的方差总比实际方差小的问题。
$ t $ 统计量的定义为
\[\begin{equation}Z=\frac{\bar{X}_{n}-\mu}{\frac{\sigma}{\sqrt{n}}}\end{equation}\]式中 $\bar{X}$ 为样本的均值,$\mu$为总体的均值,$\sigma$ 为总体标准差,$n$ 为样本个数,由于总体标准差无法得知,因此一般用样本标准差 $S$ 来估计总体标准差。
从而构造统计量
\[\begin{equation}T=\frac{\bar{X}_{n}-\mu}{\frac{S_{n}}{\sqrt{n}}}\end{equation}\]$T$ 的分布称为 $t$ -分布
定义
设随机变量 \(X \sim N(0,1), Y \sim \chi^{2}(n)\) ,且 $X$ 和 $Y$ 独立,则
\[\begin{equation}t=\frac{X}{\sqrt{Y / n}}\end{equation}\]其分布称为 $t$ 分布,记为 $t(n)$ 其中 $n$ 为其自由度。
t 分布的期望与方差
当 $n>=2$ 时,$t$ 分布的数学期望 $E(t)=0$
当 $n>=3$ 时,$t$ 分布的方差 \(D(t)=\frac{n}{n-2}\)
三、F分布
F分布定义
设 \(X \sim \chi^{2}\left(n_{1}\right), Y \sim \chi^{2}\left(n_{2}\right)\) ,且 $X,Y$ 相互独立,则称随机变量服从
\[F=\frac{X / n_{1}}{Y / n_{2}}\]自由度为 $(n_1,n_2)$ 的 $F$ 分布,记为\(F \sim F\left(n_{1}, n_{2}\right)\) 。其中 $n_1$ 称为第一自由度,$n_2$ 称为第二自由度。
有 $F$ 分布的定义可知,当 $F\sim F(m,n)$ 时,则随机变量 $1/F$ 所服从的分布为自由度为$(n,m)$ 的 $F$ 分布,即 $1/F \sim F(m,n)$ .
F 分布用处
- 对于正态总体来说,两个总体的方差比较可以用F-分布来检验:
四、定理
五、总结
抽样分布可以分为两类:一类是关于均值的分布:正态分布和 $t$ -分布;另一类是关于方差的分布:$\chi^{2}$ -分布和 $F$ -分布。
首先要明确的是,所有分布的前提是所收集的样本要服从正态分布,这需要首先进行正态分布的拟合检验,即使是大样本的情况下,样本正态的情况下分析结论也要更准确一些。
均值的分布
这要分两种情况:总体方差 $\sigma^{2}$ 是否已知。
如果总体方差已知则样本均值可以构建下面的统计量
\[\begin{equation}Z=\frac{\bar{x}-\mu}{\sigma / \sqrt{n}}\end{equation}\]这个统计量服从标准正态分布 $N(0,1)$。
如果总体方差未知则可以用样本方差代替总体方差,构建下面的统计量
\[\begin{equation}t=\frac{\bar{x}-\mu}{S/ \sqrt{n}}\end{equation}\]这个统计量服从 $t$ -分布 $t(n-1)$,n-1为自由度。$t$ -分布的形状与自由度有关,自由度越小,则分布曲线越“胖”,自由度越大,分布曲线约接近正态分布。一般在自由度超过30时,基本上就和正态分布差不多了,也可以用正态分布来分析。
方差的分布
- $\chi^{2}$ -分布是针对单个正态总体的样本方差分布,依据总体均值 $\mu$ 是否已知分为两种情况。
如果总体均值 $μ$ 已知样本方差可以构建以下的统计量
\[\begin{equation}\chi^{2}=\sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)^{2}}{\sigma^{2}}\end{equation}\]这个统计量服从 $\chi^{2}(n)$ 分布,自由度为 $n$ 。
如果总体均值 $μ$ 未知则用样本均值 $\bar{X}$ 来代替,这样上述统计量就改为
\[\begin{equation}\chi^{2}=\sum_{i=1}^{n} \frac{\left(x_{i}-\bar{x}\right)^{2}}{\sigma^{2}}=\frac{(n-1) s^{2}}{\sigma^{2}}\end{equation}\]这个统计量服从 $\chi^{2}(n-1)$ 分布,自由度为 n-1。两个统计量自由度差1个,是因为在总体均值未知时需要用样本均值来估计,用掉了1个自由度。
- $F$ -分布是针对两个正态总体的样本方差之比的分布。
假设两个独立的正态总体方差相等,在这两个总体中分别抽取1个样本,样本量分布为m、n,用两个样本方差构建以下的统计量
\[\begin{equation}F=\frac{S_{1}^{2}}{S_{2}^{2}}=\frac{\frac{1}{m-1} \sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2}}{\frac{1}{n-1} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}\end{equation}\]这个统计量服从分子自由度为 $m-1$,分母自由度为 $n-1$ 的 $F(m-1,n-1)$ 分布。
F-分布应用非常广泛,尤其是在判断两总体方差是否相等以及方差分析中。
扩展
当样本量很大时,三大抽样分布趋于正态分布,但不一定是标准正态分布,这个是要注意的。
-
当自由度n非常大时,$t$ 分布渐趋$N(0, n/(n-2))$,而$n/(n-2)$趋于1,因此可以用 $N(0,1)$也就是标准正态分布来近似。
-
当自由度 $n$ 非常大时,卡方分布渐趋$N(n, 2n)$。
-
在分子和分母的自由度分别为m、n且非常大时,F分布渐趋以下的正态分布
\(\begin{equation}N\left(\frac{n}{n-2}, \frac{2 n^{2}(n+m-2)}{m(n-2)^{2}(n-4)}\right)\end{equation}\)
假设 $m=n$ 且非常大时,上式可简化为$N(1,4/n)$。
样本比例的抽样分布
一、样本比例的定义
二、例题
0.070 之间的概率为 19.02%