概率与概率分布

一、试验结果及其关系
描述试验结果的若干概念
二、试验结果随机不确定性的度量
随机变量
- 随机变量的概率分布
离散型随机变量
几种常见的离散型随机变量的概率分布
连续型随机变量
几个常用统计量
- 样本均值
- 样本方差
样本标准差

概率与概率分布，概率，概率分布，数字特征

一、试验结果及其关系

概率论的研究目的

探寻随机现象在一定概率意义下的变化规律，即统计规律

概率论的研究方法

随机试验：是导致所有可能观测中有且仅有一个出现的过程。其特点表现为

可以在相同的条件下重复地进行（重复性）
每次试验的可能结果不止一个，并且能事先明确试验的所有可能结果（明确性）
进行一次试验之前不能确定哪一个结果会出现（随机性）

概率论通过观察试验结果，探寻随机现象的统计规律

概率论的逻辑思路

首先，描述试验的结果及其关系
其次，度量试验结果的随机不确定性
最后，描述出随机现象变化的统计规律

描述试验结果的若干概念

基本事件（样本点） – 随机试验的每一个“不可能再分”的可能结果
样本空间 – 随机试验的所有基本事件构成的集合，用 $\Omega$ 表示
随机事件 – 常简称事件，指每次试验可能出现也可能不出现的试验结果，样本空间中的某些样本点组成的集合，是样本空间的一个子集，用大写英文字母A、B、C等表示
必然事件 – 每次试验一定出现的试验结果，样本空间的最大子集，用 $\Omega$ 表示
不可能事件 – 每次试验一定不出现的事件，样本空间的最小子集，用 $\Phi$ 表示
随机变量 – 取值不确定的变量，试验的每一个“不可能再分”的可能结果，即样本点的数值性描述，用英文大写字母 X、Y、Z等表示

二、试验结果随机不确定性的度量

基本度量方法——概率
什么是概率？
- 概率与某事件发生的机会、可能性或确定程度有关。
- 概率(probability) 就是一个数字。介于0和1之间，描述一个事件发生的可能性大小。
- 事件A的概率表示为P(A) – 小概率(接近零)的事件很少发生，而大概率(接近1)的事件则经常发生。

概率的加法公式

公式一

两个互斥事件之和的概率，等于两个事件概率之和。设A和B为两个互斥事件，则
\[\begin{equation}\boldsymbol{P}(A \cup \boldsymbol{B})=\boldsymbol{P}(A)+\boldsymbol{P}(\boldsymbol{B})\end{equation}\]
事件 $A_1, A_2, ...,A_n$ 两两互斥，则有
\[\begin{equation}\begin{array}{l} \boldsymbol{P}\left(\boldsymbol{A}_{1} \cup \boldsymbol{A}_{2} \cup \ldots \cup \boldsymbol{A}_{\mathrm{n}}\right) \\ =\boldsymbol{P}\left(A_{1}\right)+\boldsymbol{P}\left(A_{2}\right)+\ldots+\boldsymbol{P}\left(A_{\mathrm{n}}\right) \end{array}\end{equation}\]

公式二

对任意两个随机事件A和B，它们和的概率为两个事件各自概率的和减去两个事件交的概率，即

\[\begin{equation}P(A \cup B)=P(A)+P(B)-P(A \cap B)\end{equation}\]

条件概率

conditional probability

在事件B已经发生的条件下，求事件 A发生的概率，称这种概率为事件B发生条件下事件A发生的条件概率，记为

\[\begin{equation}P(A | B)=\frac{P(A B)}{P(B)}\end{equation}\]

[例] 100件产品中，有80件正品，20件次品；而 80件正品中有50件一等品，30件二等品。现从这 100件产品中任取1件，问：它是正品的概率？它是一等品的概率？已知它是正品，是一等品的概率？

解：设事件A表示“取到一等品”，事件B表示“取到正品”。

\[\begin{equation}\begin{array}{c} P(B)=80 / 100=0.8 \\ P(A B)=50 / 100=0.5 \\ P(A | B)=\frac{50}{80}=\frac{50 / 100}{80 / 100}=\frac{P(A B)}{P(B)} \end{array}\end{equation}\]

概率的乘法公式

用来计算两事件交的概率 2. 以条件概率的定义为基础
以条件概率的定义为基础
设 A 、 B 为两个事件，若 P(B)>0 ，则 $P(AB)=P(B)P(A|B)，或P(AB)=P(A)P(B|A)$

事件的独立性

independence

一个事件的发生与否并不影响另一个事件发生的概率，则称两个事件独立
若事件 A 与 B 独立，则 $P(B\|A)=P(B) ， P(A\|B)=P(A)$
此时概率的乘法公式可简化为 $P(AB)=P(A)·P(B)$
推广到多个独立事件，对于任何的$n<N$
\[P(A1 A2 …An)=P(A1)P(A2) … P(An)\]

全概率公式

设事件$A1，A2，…，An$ 两两互斥， $A1+A2+…+ An=\Omega$（满足这两个条件的事件组称为一个完备事件组），且 $P(Ai)>0(i=1,2, …,n)$，则对任意事件B，有

\[\begin{equation}P(B)=\sum_{i=1}^{n} p\left(A_{i}\right) P\left(B | A_{i}\right)\end{equation}\]

我们把事件$A_1，A_2，…，A_n$看作是引起事件B发生的所有可能原因，事件B 能且只能在原有 $A_1， A_2，…，A_n$ 之一发生的条件下发生的结果，求事件B 的概率就是上面的全概率公式

贝叶斯公式(逆概公式)

与全概公式解决的问题相反，贝叶斯公式是建立在条件概率基础上的寻找事件发生的原因
设 n 个事件 $A1 ， A2 ， … ， An$ 两两互斥，$A1+A2+…+ An=\Omega$(满足这两个条件的事件组称为一个完备事件组)，且$P(Ai)>0(i=1,2, …,n)$，则
\[\begin{equation}P\left(A_{i} | B\right)=\frac{P\left(A_{i}\right) P\left(B | A_{i}\right)}{\sum_{j=1}^{n} p\left(A_{j}\right) P\left(B | A_{j}\right)}\end{equation}\]

贝叶斯公式 (例题分析)

【例】某车间用甲、乙、丙三台机床进行生产，各种机床的次品率分别为5%、4%、2%，它们各自的产品分别占总产量的 25%、35%、40%，将它们的产品组合在一起，如果取到的一件产品是次品，分别求这一产品是甲、乙、丙生产的概率

解：设 A1表示“产品来自甲台机床”， A2表示“产品来自乙台机床”， A3表示“产品来自丙台机床”， B表示“取到次品”。根据贝叶斯公式有：

\[\begin{equation}\begin{array}{l} P\left(A_{1} | B\right)=\frac{0.25 \times 0.05}{0.0345}=0.3623 \\ P\left(A_{2} | B\right)=\frac{0.35 \times 0.04}{0.0345}=0.406 \\ P\left(A_{3} | B\right)=\frac{0.4 \times 0.02}{0.0345}=0.232 \end{array}\end{equation}\]

随机变量

一次试验的基本结果（样本点）的数值性描述，是试验结果的函数。
一般用 X、Y、Z 来表示
例如: 投掷两枚硬币出现正面的数量 4. 根据取值情况的不同分为离散型随机变量和连续型随机变量

随机变量的概率分布

含义
- 随机变量在其取值范围内，取值与取值概率之间一一对应的关系，称之为随机变量的概率分布，简称分布。
- 注意：概率分布是就样本空间中所有样本点而言的
意义
- 描述随机变量变化的统计规律。
- 方便地计算任一事件发生的概率。

离散型随机变量

随机变量 X 取有限个值或所有取值都可以逐个列举出来 $X1 , X2，…$
以确定的概率取这些不同的值

离散型随机变量的概率分布

列出离散型随机变量X的所有可能取值
列出随机变量取这些值的概率
通常用下面的表格来表示
$P(X =x_i)=p_i$ 称为离散型随机变量的概率函数
\[\begin{equation}p_{i} \geq 0 \quad \sum_{i=1}^{n} p_{i}=1\end{equation}\]

(0—1分布)

一个离散型随机变量X只取两个可能的值例如，男性用 1表示，女性用0表示；合格品用 1 表示，不合格品用0表示
列出随机变量取这两个值的概率
\[\begin{equation}P(X=k)=p^{k}(1-p)^{1-k}, k=0,1\end{equation}\]

均匀分布

一个离散型随机变量取各个值的概率相同
列出随机变量取值及其取值的概率
例如，投掷一枚骰子，出现的点数及其出现各点的概率

离散型随机变量的数学期望

数学期望(expected value)

在离散型随机变量 $X$ 的一切可能取值的完备组中，各可能取值 $x_i$与其取相对应的概率 $p_i$乘积之和
描述离散型随机变量取值的集中程度
计算公式为

\[\begin{equation}\begin{aligned}&E(X)=\sum_{i=1}^{n} x_{i} p_{i} \quad(X \text { 取有限个值 })\\&E(X)=\sum_{i=1}^{\infty} x_{i} p_{i} \quad(X \text { 取无穷个值 })\end{aligned}\end{equation}\]

离散型随机变量的方差

方差(variance)

随机变量 $X$ 的每一个取值与其期望值离差平方和的数学期望，记为 $D(X) $
描述离散型随机变量取值的分散程度
计算公式为、

\[D(X)=E[X-E(X)]^{2} \\若是离散型随机变量，则\\D(X)=\sum_{i=1}^{\infty}\left[x_{i}-E(X)\right]^{2} \cdot p_{i}\]

几种常见的离散型随机变量的概率分布

二项分布

二项分布(Binomial distribution)

二项试验(贝努里试验)

二项分布与贝努里试验有关
贝努里试验具有如下属性
- 试验包含了 n 个相同的试验
- 每次试验只有两个可能的结果，即“成功”和 “失败”
- 出现“成功”的概率 p 对每次试验结果是相同的；“失败”的概率 q 也相同，且 p + q = 1
- 试验是相互独立的
- 试验“成功”或“失败”可以计数

二项分布(Binomial distribution)

进行 n 次重复试验，出现“成功”的次数的概率分布称为二项分布

二项分布的概率函数

设 X 为 n 次重复试验中事件 A 出现的次数， X 取 $x$ 的概率为

\[\begin{equation}\begin{array}{l} P\{X=x\}=C_{n}^{x} p^{x} q^{n-x} \quad(x=0,1,2, \cdots, n) \\ \text { 式中: } C_{n}^{x}=\frac{n !}{x !(n-x) !} \end{array}\end{equation}\]

二项分布简记为：$X \sim B(n, p)$

二项分布的数学期望和方差

二项分布的数学期望为: $E(X) = np$
方差为 : $D(X) = npq$

泊松分布

泊松分布(Poisson distribution)

用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
泊松分布的例子
- 一个城市在一个月内发生的交通事故次数
- 消费者协会一个星期内收到的消费者投诉次数
- 人寿保险公司每天收到的死亡声明的人数

泊松分布的概率函数

\[\begin{equation}P\{X=x\}=\frac{\lambda \mathrm{e}^{-\lambda}}{x !} \quad(x=0,1,2, \cdots, n)\end{equation}\]

$\lambda$ — 给定的时间间隔、长度、面积、体积内“成功”的平均数

e = 2.71828

x —给定的时间间隔、长度、面积、体积内“成功”的次数

泊松分布简记为：$X \sim P(\lambda)$

泊松分布的期望和方差

数学期望为 : $E ( X ) = \lambda$
方差为 : $D( X ) = \lambda$

泊松分布 (作为二项分布的近似)

当试验的次数 n 很大，成功的概率 p 很小时，可用泊松分布来近似地计算二项分布的概率，即

\[\begin{equation}C_{n}^{x} p^{x} q^{n-x} \approx \frac{\lambda \mathrm{e}^{-\lambda}}{x !}\end{equation}\]

实际应用中，当 $P \leq 0.25, \quad n>20, \quad n p \leq 5$ 时，近似效果良好

超几何分布

超几何分布（hyper geometric distribution）

设有一批产品500个，其中次品有5个。假定该产品的质量检查采取随机抽取20个产品进行检查。如果抽到的20个产品中含有 2个或更多不合格产品，则整个500个产品将会被退回。
这时，人们想知道，该批产品被退回的概率是多少？
这种概率就满足超几何分布。

连续型随机变量

连续型随机变量可以取某一区间或整个实数轴上的任意一个值
因为它取任何一个特定的值的概率都等于0，所以不能列出每一个值及其相应的概率。因此，通常研究它取某一区间值的概率
用密度函数和分布函数的形式来描述

想象连续变量观测值的直方图；如果其纵坐标为相对频数，那么所有这些矩形条的高度和为1；完全可以重新设置量纲，使得这些矩形条的面积和为1。

不断增加观测值及直方图的矩形条的数目，直方图就会越来越像一条光滑曲线，其下面的面积和为1。

该曲线即所谓概率密度函数(probability density function，pdf)，简称密度函数或密度。下图为这样形成的密度曲线。

概率密度函数

概率密度函数 (probability density function)

设 $X$ 为一连续型随机变量，$x$ 为任意实数，$ X$的概率密度函数记为$f(x)$，它满足条件

\[(1) f(x) \geq 0 \\ (2) \int_{-\infty}^{+\infty} f(x) \mathrm{d} x=1$\]

注意：$f(x)$ 本身不是概率，是连续型随机变量取某一区间值的一种间接表述形式

连续型随机变量的概率

在平面直角坐标系中画出 $f(x)$ 的图形，则对于任何实数$a<b, \quad P(a<X \leq b)$ 是该曲线下从$a$ 到$ b$的面积

分布函数

分布函数(distribution function)

分布函数的来源 – 如前所述，离散型随机变量的分布用概率函数来描述，连续型随机变量的分布用密度函数来描述，两者形式不同，表现各异。为了更方便地表现随机变量的分布，下面引入分布函数。

分布函数定义为

\[\begin{equation}F(x)=P(X \leq x)=\int_{-\infty}^{x} f(t) \mathrm{d} t \quad(-\infty<x<+\infty)\end{equation}\]

根据分布函数，$P(a<X<b)$ 可以写为

\[\begin{equation}P(a<X<b)=\int_{a}^{b} f(x) \mathrm{d} x=F(b)-F(a)\end{equation}\]

分布函数与密度函数的图示

密度函数曲线下的面积等于1
分布函数是曲线下小于 $x_0$ 的面积

分布函数本身是概率，即事件 $X < x_0$ 发生的概率

连续型随机变量的期望和方差

连续型随机变量的数学期望为

\[\begin{equation}E(X)=\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x=\mu\end{equation}\]

方差为

\[\begin{equation}D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^{2} f(x) \mathrm{d} x=\sigma^{2}\end{equation}\]

几种常见的连续型随机变量的概率分布

正态分布

正态分布(normal distribution)

描述连续型随机变量分布中最重要的分布

正态分布的重要意义

在随机理论中，正态分布是最重要的一种分布，理由如下

它是最常见的一种分布，现实中许多随机变量服从或近似服从正态分布。
在一定的条件下，正态分布是其他分布的近似分布。
许多有用的分布，特别是小样本的精确分布是由正态分布推导出来的。
是经典统计推断的基础。

正态分布的概率密度函数

\[\begin{equation}\begin{array}{l} f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}, \quad-\infty<x<+\infty \\ f(x)=\text { 随机变量 } X \text { 的频数 } \\ \sigma^{2} \text { = 随机变量 } X \text { 的方差 } \\ \pi=3.14159 ;\;\; \mathrm{e}=2.71828 \\ x=\text { 随机变量 } X \text { 的取值 }(-\infty<x<+\infty) \\ \mu=\text { 随机变量 } X \text { 的均值 } \end{array}\end{equation}\]

正态分布密度函数的性质

概率密度函数在x 轴的上方，即 $f (x)>0$
正态曲线的最高点在均值 $\mu$ 处，它也是分布的中位数和众数
正态分布是一个分布族，每一特定正态分布通过均值$\mu$ 和标准差$\sigma$ 来区分。$\mu$ 决定了图形的中心位置, $\sigma$ 决定曲线的平缓程度，即宽度
曲线 $f(x)$ 相对于均值$\mu$ 对称，尾端向两个方向无限延伸，且理论上永远不会与横轴相交
正态曲线下的总面积等于 1
随机变量的概率由曲线下的面积给出

正态分布的概率

标准正态分布

标准正态分布 (standard normal distribution)

一般的正态分布取决于均值$\mu$ 和标准差 $\sigma$
计算概率时，每一个正态分布都需要有自己的正态概率分布表，这种表格是无穷多的
若能将一般的正态分布转化为标准正态分布，计算概率时只需要查一张表

标准正态分布的密度函数

任何一个一般的正态分布，均可通过下面的线性变换转化为标准正态分布

\[\begin{equation}Z=\frac{X-\mu}{\sigma} \sim N(0,1)\end{equation}\]

标准正态分布的概率密度函数

\[\begin{equation}\varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}} \quad, \quad-\infty<x<+\infty\end{equation}\]

标准正态分布的分布函数

\[\begin{equation}\Phi(x)=\int_{-\infty}^{x} \varphi(t) \mathrm{d} t=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{d} t\end{equation}\]

标准正态分布表的使用

将一个一般的转换为标准正态分布
计算概率时，查标准正态概率分布表
对于负的 $x$ ，可由$\Phi(-x)=1-\Phi(x)$ 得到
对于标准正态分布，即$X \sim N(0,1)$，有

\[\begin{equation}\begin{array}{l} P(a \leq \mathrm{X} \leq b)=\Phi(b)-\Phi(a) \\ P(|\mathrm{X}| \leq a)=2 \Phi(a)-1 \end{array}\end{equation}\]

对于一般正态分布，即$X \sim N(\mu, \sigma)$ 有

\[\begin{equation}P(a \leq X \leq b)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)\end{equation}\]

几个常用统计量

设 $X_{1}, X_{2}, \cdots, X_{n}$ 是来自总体的一个样本,$\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \cdots, \boldsymbol{x}_{n}$是这一样本的观察值

样本均值

\[\begin{equation}\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}\end{equation}\]

其观察值 $\begin{equation}\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}\end{equation}$

样本方差

修正后的样本方差：

\[\begin{equation}S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\frac{1}{n-1}\left(\sum_{i=1}^{n} X_{i}^{2}-n \bar{X}^{2}\right)\end{equation}\]

其观察值

\[\begin{equation}s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=\frac{1}{n-1}\left(\sum_{i=1}^{n} x_{i}^{2}-n \bar{x}^{2}\right)\end{equation}\]

样本标准差

\[\begin{equation}S=\sqrt{S^{2}}=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}\end{equation}\]

其观察值

\[\begin{equation}s=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\end{equation}\]

协方差

标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集。比如，一个人的身高和体重是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量

协方差(covariance)表达了两个随机变量的协同变化关系。

\[\begin{equation}\operatorname{Cov}(X, Y)=E\left[\left(X-\mu_{x}\right)\left(Y-\mu_{y}\right)\right]\end{equation}\]

如果有X,Y两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值，

协方差的定义基于期望。根据期望的定义，协方差可以直接用于离散随机变量和连续随机变量。

根据期望的性质，我们可以改写协方差的表达形式:

\[\begin{equation}\begin{aligned} \operatorname{Cov}(X, Y) &=E\left(X Y-X \mu_{X}-Y \mu_{X}+\mu_{X} \mu_{Y}\right) \\ &=E(X Y)-E(X) \mu_{X}-E(Y) \mu_{Y}+\mu_{X} \mu_{Y} \\ &=E(X Y)-E(X) E(Y) \end{aligned}\end{equation}\]

当X和Y独立时，有 $E(X Y)=E(X) E(Y),\operatorname{Cov}(X, Y)=0$

样本 k 阶(原点)矩

\[\begin{equation}A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}, k=1,2, \cdots\end{equation}\]

其观察值

\[\begin{equation}\alpha_{k}=\frac{1}{n} \sum_{i=1}^{n} x_{i}^{k}, k=1,2, \cdots\end{equation}\]

样本 k 阶中心矩

\[\begin{equation}\boldsymbol{B}_{k}=\frac{1}{\boldsymbol{n}} \sum_{i=1}^{n}\left(\boldsymbol{X}_{i}-\overline{\boldsymbol{X}}\right)^{k}, \boldsymbol{k}=\mathbf{2}, \mathbf{3}, \cdots\end{equation}\]

其观察值: $\begin{equation}\boldsymbol{b}_{k}=\frac{1}{\boldsymbol{n}} \sum_{i=1}^{n}\left(x_{i}-\overline{\boldsymbol{x}}\right)^{k}, \boldsymbol{k}=2,3, \cdot\end{equation}$

1阶原点矩 A1 就是样本均值

2阶中心矩 B2 不是样本方差 ,而是未修正的样本方差

参考

概率与概率分布

一、试验结果及其关系

概率论的研究目的

概率论的研究方法

概率论的逻辑思路

描述试验结果的若干概念

二、试验结果随机不确定性的度量

概率的加法公式

条件概率

概率的乘法公式

事件的独立性

全概率公式

贝叶斯公式(逆概公式)

随机变量

随机变量的概率分布

离散型随机变量

离散型随机变量的概率分布

离散型随机变量的数学期望

离散型随机变量的方差

几种常见的离散型随机变量的 概率分布

二项分布

二项分布的概率函数

二项分布的数学期望和方差

泊松分布

泊松分布的概率函数

泊松分布的期望和方差

超几何分布

连续型随机变量

概率密度函数

连续型随机变量的概率

分布函数

分布函数与密度函数的图示

连续型随机变量的期望和方差

几种常见的连续型随机变量的概率分布

正态分布

正态分布的概率密度函数

正态分布密度函数的性质

正态分布的概率

标准正态分布

标准正态分布的密度函数

标准正态分布表的使用

几个常用统计量

样本均值

样本方差

样本标准差

协方差

相关系数

样本 k 阶(原点)矩

样本 k 阶中心矩

Comments

几种常见的离散型随机变量的概率分布