错位的梦寐

推断统计学基本概念

2020-02-14


推断统计学基本概念

推断统计学(inferential statistic):是研究如何根据样本数据推断总体数量特征的方法,是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出概率形式表述的推断

总体与样本

总体(population)与样本(sample)

  • 总体:研究对象的整个群体
  • 样本:从总体中选取的一部分数据
  • 样本数量:有多少个样本
  • 样本大小(样本容量):每个样本包含多少个体
  • 抽样分布:将样本平均值的分布可视化

中心极限定理(central limit theorem)

什么是中心极限定理

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。

举个 :chestnut: :

现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。 然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。 最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。

其中要注意的几点:

  1. 总体本身的分布不要求正态分布 上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)
  2. 样本每组要足够大,但也不需要太大 取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。

中心极限定理说明了

  1. 样本均值约等于总体均值
  2. 不管总体呈何种分布,任意一个总体的样本平均值都会围绕在总体均值周围,并呈正态分布

中心极限定理作用

  1. 在无法获取数据总体情况下,用样本(平均值)来估计总体(平均值),例如民意调查。
  2. 根据总体信息(平均值和标准差),判断某个样本属于该总体的概率大小。

大数定律(law of large numbers)

大数定理简单来说,指得是某个随机事件在单次试验中可能发生也可能不发生,但在大量重复实验中往往呈现出明显的规律性,即该随机事件发生的频率会向某个常数值收敛,该常数值即为该事件发生的概率。

大数定律说明了

n个独立同分布的随机变量的观察值的均值依概率收敛于这些随机变量所属分布的总体均值。另一种表达方式为当样本数据无限大时,样本均值趋于总体均值。大数定律告诉我们能用频率近似代替概率;能用样本均值近似代替总体均值。

如何用样本估计总体

1)选用正确的抽样方法,得到样本数据

在实际情况中,通常我们无法对所有数据进行调查,此时一般采用从整体中抽取样本的方法进行调研,具体选用的抽样方法依数据本身特点而异。 常用的抽样方法有:简单随机抽样、分层抽样、整群抽样、系统抽样等。

简单随机抽样

即从总体N个单位中任意抽取n个单位作为样本,使每个样本被抽中的可能性相等的一种抽样方式。

简单随机抽样有两种具体做法:重复抽样和不重复抽样。

  • 重复抽样:有放回的抽样,即在选取一个抽样单位并记录下这个抽样单位的相关信息后,再将其放回总体中。
  • 不重复抽样:无放回的抽样,即选取抽样单位后不再将其放回总体中。

分层抽样

在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。

整群抽样

亦称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群,然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位差异大,但群间差异小。

系统抽样

亦称机械抽样、等距抽样,当总体中个体数量较多时,可将总体均衡地分为几个部分,按照预先定出的规则,从每一部分抽取一个 个体,得到所需样本的方法。(如按照100或50的间隔进行取数)

整群抽样与分层抽样的区别

  1. 分成抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;
  2. 分层抽样的样本使从每个层内抽取若干单元或个体构成,而整群抽样则是或整群抽取,或整群不被抽取。

2)利用样本平均值约等于总体平均值(依据中心极限定理)

3)利用样本标准差估计总体标准差

  • 数据标准差
\[\begin{equation}\sigma=\sqrt{\frac{\sum(x-\mu)^{2}}{n}}\end{equation}\]
  • 用样本标准差估计总体标准差(因为样本数量少,有可能将极端的数值排除在外):
\[\begin{equation} s=\sqrt{\frac{\sum(x-\mu)^{2}}{n-1}}\end{equation}\]
  • 标准误差(样本平均值的标准差):

\(S E=\frac{S }{\sqrt{n}}\) $s$ : 总体标准差,$n$ : 样本大小

  • 标准差和标准误差的差别

标准差(standard deviation)和标准误差(standard error)

标准差 = 一次抽样中个体分数间的离散程度,反映了个体分数对样本均值的代表性,用于描述统计标准误 = 多次抽样中样本均值间的离散程度,反映了样本均值对总体均值的代表性,用于推论统计

参考

  1. 推断统计学基本概念
  2. 中心极限定理通俗介绍

下一篇 参数估计

Comments

Content