多元回归分析简介
用回归方程定量地刻画一个应变量与多个自变量间的线性依存关系,称为多元回归分析(multiple linear regression),简称多元回归(multiple regression)
多元回归模型与回归方程
设因变量为 $y,k$ 个自变量分别为 $x_1,x_2,…,x_k$,描述因变量 $y$ 如何依赖于自变量 $x_1,x_2,…,x_k$和误差项 ε 的方程称为多元回归模型( multiple regression mod l)。其一般形式可表示为
\(\begin{equation}y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+\varepsilon\end{equation}\) 式中 $\beta_{0}+\beta_{1} +\beta_{2} +\cdots+\beta_{k} $ 是模型参数;$\varepsilon $ 为误差项;
表明:$y$ 是 $x_1,x_2,…,x_k$ 的线性函数$\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}部分)$加上误差项 ε。误差项反映了除 $x_1,x_2,…,x_k $与 $y$ 的线性关系之外的随机因素对 $y$ 的影响,是不能由 $x_1,x_2,…,x_k$ 与 $y$ 之间的线性关系所解释的变异性。
与一元线性回归类似,在多元线性回归模型中,对误差项c同样有三个基本假定:
(1)误差项 ε 是一个期望值为 0 的随机变量,即 $E(ε)=0$. 这意味着对于给定 $x_1,x_2,…,x_k$ 的值,y的期望值为 $E(y)=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}$ (2)对于自变量 $x_1,x_2,…,x_k$ 的所有值, ε 的方差 $\sigma^2$都相同。 (3)误差项ε是一个服从正态分布的随机变量,且相互独立,即 \(\varepsilon \sim N\left(0, \sigma^{2}\right)\)。
独立性意味着自变量 $x_1,x_2,…,x_k$ 的一组特定值所对应的 ε 与 $x_1,x_2,…,x_k$ 任意一组其他值所对应的 ε 不相关。正态性意味着对于给定的 $x_1,x_2,…,x_k$ 的值,因变量 y 是一个服从正态分布的随机变量。
根据回归模型的假定,有: \(\begin{equation}E(y)=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}\end{equation}\) 为多元回归方程
估计的多元回归方程
回归方程中的参数\(\beta_{0}, \beta_{1}, \beta_{2}, \cdots, \beta_{k}\) 是未知的,需要利用样本数据去估计它们。当用样本统计量\(\hat{\beta}_{0}, \hat{\beta}_{1}, \hat{\beta}_{2}, \cdots, \hat{\beta}_{k}\) 去估计回归方程中的未知参数\(\beta_{0}, \beta_{1}, \beta_{2}, \cdots, \beta_{k}\) 时,就得到了估计的多元回归方程( estimated multiple regression equation),其一般形式为: \(\begin{equation}\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}+\cdots+\hat{\beta}_{k} x_{k}\end{equation}\)
式中,\(\hat{\beta}_{0}, \hat{\beta}_{1}, \hat{\beta}_{2}, \cdots, \hat{\beta}_{k}\) 是参数\(\beta_{0}, \beta_{1}, \beta_{2}, \cdots, \beta_{k}\) 的估计值;$\hat{y}$ 是因变量 y 的估计值。其中的\(\hat{\beta}_{0}, \hat{\beta}_{1}, \hat{\beta}_{2}, \cdots, \hat{\beta}_{k}\) 称为偏回归系数。$\hat{\beta}{1}$ 表示当\(x_{2}, x_{3}, \cdots, x_{k}\)不变时,$x_1$ 每变动一个单位因变量 $y$ 的平均变动量;$\hat{\beta}{2}$ 表示当 $x_1,x_3,…,x_k$不变时,$x_2$每变动一个单位因变量 y 的平均变动量;其余偏回归系数的含义类似。
参数的最小二乘估计
回归方程中的 \(\beta_{0}, \beta_{1}, \beta_{2}, \cdots, \beta_{k}\) 仍然是根据最小二乘法求得,也就是使残差平方和 \(\begin{equation}Q=\sum\left(y_{i}-\hat{y}_{i}\right)^{2}=\sum\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{1}-\cdots-\hat{\beta}_{k} x_{k}\right)^{2}\end{equation}\)
最小。由此可以得到求解\(\hat{\beta}_{0}, \hat{\beta}_{1}, \hat{\beta}_{2}, \cdots, \hat{\beta}_{k}\) 的标准方程组为 \(\begin{equation}\left\{\begin{array}{l} \left.\frac{\partial Q}{\partial \beta_{0}}\right|_{\beta=\hat{\beta}_{0}}=0 \\ \left.\frac{\partial Q}{\partial \beta_{i}}\right|_{\beta_{i}=\hat{\beta}_{i}}=0, \quad i=1,2, \cdots, k \end{array}\right.\end{equation}\) 对每一个需要估计的参数求偏导
写成矩阵的方式:
如果我们设
\(\begin{equation}\hat{y}_{i}=\beta_{0}+\beta_{1} x_{i 1}+\ldots+\beta_{p} x_{i p}\end{equation}\)
那么相当于每一个元素的残差求和为0。也就是说,\(\sum e_{i}=0\) ,把它写成矩阵形式,也就是 \(e^{T} \mathbf{1}=0\) 这里 \(e=\left(e_{1}, e_{2}, \ldots, e_{n}\right)^{T}\)
回归方程的拟合度
多重判断系数
\[SST=SSR-SSE\]其中:
\[\mathrm{SST}=\sum\left(y_{i}-\bar{y}\right)^{2} \text { 为总平方和; }\] \[\mathrm{SSR}=\sum\left(\hat{y}_{i}-\bar{y}\right)^{2}=\sum \hat{y}_{i}^{2}-n \bar{y}^{2} \text { 为回归平方和; }\] \[\mathrm{SSE}=\sum\left(y_{i}-\hat{y}_{i}\right)^{2} \text { 为残差平方和。 }\]有了这些平方和,可以将多重判定系数定义如下 \(\begin{equation}R^{2}=\frac{\operatorname{SSR}}{\operatorname{SST}}=1-\frac{\operatorname{SSE}}{S S T}\end{equation}\) 多重判定系数( multiple coefficient of determination)是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量 $y$ 的变差中被估计的回归方程所解释的比例。
对于多重判定系数还有一点需要注意:自变量个数的增加将影响到因变量中被估计的回归方程所解释的变差数量。当增加自变量时,会使预测误差变得较小,从而减少残差平方和SSE。由于回归平方和$SSR=SST-SSE$,当 $SSE$ 变小时,$SSR$ 就会变大,从而使 $R^2$变大。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,$R^2$也会变大。因此,为避免增加自变量而高估$R^2$,统计学家提出用样本量 $n$ 和自变量的个数 $k$ 去调整 $R^2$,计算出调整的多重判定系数( adjusted multiple coeffi cient of determination),记为$R_{a}^{2}$,其计算公式为: \(\begin{equation}R_{a}^{2}=1-\left(1-R^{2}\right)\left(\frac{n-1}{n-k-1}\right)\end{equation}\) $R_{a}^{2}$ 的解释与 $R^2$ 类似,不同的是:$R_{a}^{2}$ 同时考虑了样本量(n)和模型中自变量的个数(k)的影响,这就使得$R_{a}^{2}$ 的值永远小于 $R^2$ ,而且$R_{a}^{2}$ 的值不会由于模型中自变量个数的增加而越来越接近1.因此,在多元回归分析中,通常用调整的多重判定系数。
$R^2$ 的平方根称为多重相关系数,也称为复相关系数,它度量了因变量同 k 个自变量的相关程度。
若有:多重判定系数( R Square)$R^2=0.797604=79.7604%$。其实际意义是:在不良贷款取值的变差中,能被不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元回归方程所解释的比例为79.7604%
调整的多重判定系数( Adjusted R Square)$R_{a}^{2}=0.757125=75.7125%$,其意义与 $R^2 $类似。它表示:在用样本量和模型中自变量的个数进行调整后,在不良贷款取值的变差中,能被不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元回归方程所解释的比例为75.7125%。
估计标准差
同一元线性回归一样,多元回归中的估计标准误差也是误差项 ε 的方差 $\sigma^2$ 的一个估计值,它在衡量多元回归方程的拟合优度方面起着重要作用。计算公式为: \(\begin{equation}s_{e}=\sqrt{\frac{\sum\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k-1}}=\sqrt{\frac{\mathrm{SSE}}{n-k-1}}=\sqrt{M S E}\end{equation}\) 式中,$k$ 为自变量的个数。 多元回归中对 $s_e$的解释与一元回归类似。由于 $s_e$ 所估计的是预测误差的标准差,其含义是根据自变量$x_1,x_2,…,x_k$来预测因变量 $y$ 时的平均预测误差.
显著性检验
多重共线性
多重共线性的判别
检测多重共线性的方法有多种,其中最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数是显著的,就表示模型中所使用的自变量之间相关,因而存在多重共线性问题具体来说,
如果出现下列情况,暗示存在多重共线性: (1)模型中各对自变量之间显著相关。 (2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数A的t检验却不显著。 (3)回归系数的正负号与预期的相反。 (4)容忍度( tolerance)与方差扩大因子( variance inflation factor,VF)。某个自变量的容忍度等于1减去该自变量为因变量而其他 $k-1$ 个自变量为预测变量时所得到的线性回归模型的判定系数,即 $1-R_{i}^2$.容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数,即\(\mathrm{VIF}=\frac{1}{1-R_{i}^{2}}\).显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。