变量间的关系有两类:一类可用函数关系表示,称为确定性关系;另一类关系不能用函数来表示,称为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但可以借助函数关系来表示它们之间的统计规律。回归分析方法是处理变量之间相关关系的一种统计方法,它不仅提供建立变量间关系的数学表达式—经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性。
如果已知实际检测数据 $\left(x_{i}, y_{i}\right)(i=1,2, \cdots, n)$ 大致成为一条直线, 则变量 $y$ 与 $x$ 之间的关系大致可以看作是近似的线性关系。一般来说,这些点又不 完全在一条直线上,这表明 $y$ 与 $x$ 之间的关系还没有确切到给定 $x$ 就可以唯 一确定 $y$ 的程度。事实上,还有许多其他不确定因素产生的影响, 如果主要 是研究 $y$ 与 $x$ 之间的关系,
则可以假定有如下关系: $$ y=\beta_{0}+\beta_{1} x+\varepsilon, $$ 其中 $\beta_{0}$ 和 $\beta_{1}$ 是未知知待定常数, $\varepsilon$ 表示其他随机因素对 $y$ 的影响, 并且服 从于 $N\left(0, \sigma^{2}\right)$ 分布。上述模型称为一元线性回归模型, $x$ 称为回归变量, $y$ 称为响应变量, $\beta_{0}$ 和 $\beta_{1}$ 称为回归系数。
定一元线性回归模型, 首先是要确定回归系数 $\beta_{0}$ 和 $\beta_{1}$ 。 以下用最小二乘法 估计参数 $\beta_{0}$ 和 $\beta_{1}$ 的值, 即要确定一组 $\beta_{0}$ 和 $\beta_{1}$ 的估计值, 使得回归模型与直线方程 $y=\beta_{0}+\beta_{1} x$ 在所有数据点 $\left(x_{i}, y_{i}\right)(i=1,2, \cdots, n)$ 都比较“接近”。
为了刻画这种“接近”程度, 只要使 $y$ 的观察值与估计值偏差的平方和最 小, 即只需求函数 $$ Q=\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2} $$ 的最小值,这种方法叫最小二乘法。
为此, 分别对上式求关于 $\beta_{0}$ 和 $\beta_{1}$ 的偏导数, 并令它们等于零, 得到正规方程组 $$ \left\{\begin{array}{l} n \beta_{0}+\left(\sum_{i=1}^{n} x_{i}\right) \beta_{1}=\sum_{i=1}^{n} y_{i}, \\ \left(\sum_{i=1}^{n} x_{i}\right) \beta_{0}+\left(\sum_{i=1}^{n} x_{i}^{2}\right) \beta_{1}=\sum_{i=1}^{n} x_{i} y_{i} . \end{array}\right. $$
求解得 $$ \hat{\beta}_{1}=\frac{L_{x y}}{L_{x x}}, \quad \hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}, $$ 其中 $\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}, \bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}, \quad L_{x y}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right), \quad L_{x x}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$ 。
于是, 所求的线性回归方程为 $$ \hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x . $$ 若将 $\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}$ 代入上式,则线性回归方程变为 $$ \hat{y}=\bar{y}+\hat{\beta}_{1}(x-\bar{x}) . $$
建立一元线性回归模型的目的, 就是试图以 $x$ 的线性函数 $\left(\hat{\beta}_{0}+\hat{\beta}_{1} x\right)$ 来解释 $y$ 的变异。那么, 回归模型 $\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x$ 究竟能以多大的精度来解释 $y$ 的变异呢? 又有多大部分是无法用这个回归方程来解释的呢? $y_{1}, y_{2}, \cdots, y_{n}$ 的变异程度可采用样本方差来测度, 即 $$ s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2} . $$
得拟合值 $\hat{y}_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i}=\bar{y}+\hat{\beta}_{1}\left(x_{i}-\bar{x}\right)$, 所以拟合值 $\hat{y}_{1}, \hat{y}_{2}, \cdots, \hat{y}_{n}$ 的均值也是 $\bar{y}$, 其变异程度可以用下式测度 $$ \hat{s}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2} . $$ 下面看一下 $s^{2}$ 与 $\hat{s}^{2}$ 之间的关系,有 $$ \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}+\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+2 \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)\left(\hat{y}_{i}-\bar{y}\right) . $$
由于 $$ \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)\left(\hat{y}_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)\left(\hat{\beta}_{0}+\hat{\beta}_{1} x_{i}-\bar{y}\right) $$ $$ =\hat{\beta}_{0} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)+\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)-\bar{y} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0, $$ 其中, 由正规方程组的第 2 个式子, 知 $\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0$ 。
因此, 得到正交分解式为 $$ \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2} . $$ 记 $S S T=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=L_{y y}$, 这是原始数据 $y_{i}$ 的总变异平方和, 其自由 度为 $d f_{T}=n-1$; $\operatorname{SSR}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}$, 这是用拟合直线 $\hat{y}_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i}$ 可解释的变异平方和 其自由度为 $d f_{R}=1$ ; $\operatorname{SSE}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}$, 这是残差平方和,其自由度为 $d f_{E}=n-2$ 。
所以, 有 $$ S S T=S S R+S S E, d f_{T}=d f_{R}+d f_{E} . $$ 从上式可以看出, $y$ 的变异是由两方面的原因引起的;一是由于 $x$ 的取 值不同, 而给 $y$ 带来的系统性变异; 另一个是由除 $x$ 以外的其它因素的影响。
注意到对于一个确定的样本 (一组实现的观测值), SST 是一个定值。 所以, 可解释变异 $S S R$ 越大, 则必然有残差SSE 越小。这个分解式可同时从 两个方面说明拟合方程的优良程度:
因此, 可以定义一个测量标准来说明回归方程对原始数据的拟合程度, 这就是所谓的判定系数,有些文献上也称之为拟合优度。 判定系数是指可解释的变异占总变异的百分比, 用 $R^{2}$ 表示, 有 $$ R^{2}=\frac{S S R}{S S T}=1-\frac{S S E}{S S T} . $$
从判定系数的定义看, $R^{2}$ 有以下简单性质:
判定系数是一个很有趣的指标,一方面它可以从数据变异的角度指出 可解释的变异占总变异的百分比,从而说明回归直线拟合的优良程度; 另一 方面, 它还可以从相关性的角度, 说明因变量 $y$ 与拟合变量 $\hat{y}$ 的相关程度, 从这个角度看, 拟合变量 $\hat{y}$ 与因变量 $y$ 的相关度越大, 拟合直线的优良度就 越高。
定义 $x$ 与 $y$ 的相关系数 $$ r=\frac{L_{x y}}{\sqrt{L_{x x} L_{y y}}}, $$ 它反映了 $x$ 与 $y$ 的线性关系程度。可以证明 $|r| \leq 1$ 。 $r=\pm 1$ 表示有精确的线性关系。如 $y_{i}=a+b x_{i}(i=1,2, \cdots, n)$, 则 $b>0$ 时 $r=1$, 表示正线性相关; $b<0$ 时 $r=-1$, 表示负线性相关。 可以证明, $y$ 与自变量 $x$ 的相关系数 $r=\pm \sqrt{R^{2}}$, 而相关系数的正、负号 与回归系数 $\hat{\beta}_{1}$ 的符号相同。
在以上的讨论中,我们假定 $y$ 关于 $x$ 的回归方程 $f(x)$ 具有形式 $\beta_{0}+\beta_{1} x$ 。 在实际中, 需要检验 $f(x)$ 是否为 $x$ 的线性函数, 若 $f(x)$ 与 $x$ 成线性函数为真, 则 $\beta_{1}$ 不应为零。因为若 $\beta_{1}=\mathbf{0}$, 则 $y$ 与 $x$ 就无线性关系了。因此我们需要做假 设检验。
提出假设 $H_{0}: \beta_{1}=\mathbf{0}, H_{1}: \beta_{1} \neq \mathbf{0}$. 若假设 $H_{0}: \beta_{1}=0$ 成立, 则 $S S E / \sigma^{2}$ 与 $S S R / \sigma^{2}$ 是独立的随机变量, 且 $$ \operatorname{SSE} / \sigma^{2} \sim \chi^{2}(n-2), S S R / \sigma^{2} \sim \chi^{2}(1), $$ 使用检验统计量 $$ F=\frac{S S R}{\operatorname{SSE} /(n-2)} \sim F(1, n-2) . $$
对于检验水平 $\alpha$, 按自由度 $\left(n_{1}=1, n_{2}=n-2\right)$ 查 $F$ 分布表, 得到拒绝 域的临界值 $F_{\alpha}(1, n-2)$ (这里 $F_{\alpha}(1, n-2)$ 为 $F(1, n-2)$ 分布的上 $\alpha$ 分位数, 即 $\left.P\left\{F>F_{\alpha}(1, n-2)\right\}=\alpha\right)$ 。决策规则为
适量饮用葡萄酒可以预防心脏病,下表是19个国家每人平均所饮用葡萄酒中所摄取酒精升数,以及一年中因心脏病死亡率(每10万人死亡人数)
解
为了得到线性回归模型的一些检验统计量,我们可以使用statsmodels库函数进行计算。statsmodels可以使用两种模式求解回归分析模型,一种是基于公式的模式,另一种是基于数组的模式。
参考文献
import matplotlib.pyplot as plt
import numpy as np
x=[2.5, 3.9, 2.9, 2.4, 2.9, 0.8, 9.1, 0.8, 0.7,7.9, 1.8, 1.9, 0.8, 6.5, 1.6, 5.8, 1.3, 1.2, 2.7]
y=[211, 167, 131, 191, 220, 297, 71, 211, 300, 107,
167, 266, 277, 86, 207, 115, 285, 199, 172]
plt.plot(x,y,'+k', label="原始数据点")
p=np.polyfit(x,y,deg=1) #拟合一次多项式
print("拟合的多项式为:{}*x+{}".format(p[0],p[1]))
拟合的多项式为:-23.950588628514122*x+266.166255059977
plt.rc('font',size=16); plt.rc('font',family='SimHei')
plt.plot(x, np.polyval(p,x), label="拟合的直线")
print("预测值为:", np.polyval(p, 8)); plt.legend()
plt.savefig("images/stat1802.png", dpi=500); plt.show()
预测值为: 74.56154603186403
import statsmodels.api as sm
x=[2.5, 3.9, 2.9, 2.4, 2.9, 0.8, 9.1, 0.8, 0.7,7.9,
1.8, 1.9, 0.8, 6.5, 1.6, 5.8, 1.3, 1.2, 2.7]
y=[211, 167, 131, 191, 220, 297, 71, 211, 300, 107,
167, 266, 277, 86, 207, 115, 285, 199, 172]
df={'x':x,'y':y}
res=sm.formula.ols('y~x',data=df).fit()
print(res.summary(),'\n')
ypred=res.predict(dict(x=8))
print('所求的预测值为:',list(ypred))
OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.721 Model: OLS Adj. R-squared: 0.705 Method: Least Squares F-statistic: 43.99 Date: Fri, 17 Jun 2022 Prob (F-statistic): 4.23e-06 Time: 16:59:42 Log-Likelihood: -95.241 No. Observations: 19 AIC: 194.5 Df Residuals: 17 BIC: 196.4 Df Model: 1 Covariance Type: nonrobust ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ Intercept 266.1663 14.044 18.953 0.000 236.537 295.796 x -23.9506 3.611 -6.633 0.000 -31.569 -16.332 ============================================================================== Omnibus: 2.827 Durbin-Watson: 2.120 Prob(Omnibus): 0.243 Jarque-Bera (JB): 1.192 Skew: -0.076 Prob(JB): 0.551 Kurtosis: 1.783 Cond. No. 6.45 ============================================================================== Notes: [1] Standard Errors assume that the covariance matrix of the errors is correctly specified. 所求的预测值为: [74.56154603186403]
D:\software_install\anaconda\lib\site-packages\scipy\stats\stats.py:1541: UserWarning: kurtosistest only valid for n>=20 ... continuing anyway, n=19 warnings.warn("kurtosistest only valid for n>=20 ... continuing "
import statsmodels.api as sm
import numpy as np
x=np.array([2.5, 3.9, 2.9, 2.4, 2.9, 0.8, 9.1, 0.8, 0.7,
7.9, 1.8, 1.9, 0.8, 6.5, 1.6, 5.8, 1.3, 1.2, 2.7])
y=np.array([211, 167, 131, 191, 220, 297, 71, 211, 300,
107, 167, 266, 277, 86, 207, 115, 285, 199, 172])
X=sm.add_constant(x)
md=sm.OLS(y,X).fit() #构建并拟合模型
print(md.params,'\n--------\n') #提取回归系数
print(md.summary2())
ypred=md.predict([1,8]) #第一列必须加1
print("预测值为:",ypred)
[266.16625506 -23.95058863] -------- Results: Ordinary least squares ================================================================= Model: OLS Adj. R-squared: 0.705 Dependent Variable: y AIC: 194.4811 Date: 2022-06-17 16:59 BIC: 196.3700 No. Observations: 19 Log-Likelihood: -95.241 Df Model: 1 F-statistic: 43.99 Df Residuals: 17 Prob (F-statistic): 4.23e-06 R-squared: 0.721 Scale: 1478.3 ------------------------------------------------------------------ Coef. Std.Err. t P>|t| [0.025 0.975] ------------------------------------------------------------------ const 266.1663 14.0437 18.9527 0.0000 236.5365 295.7960 x1 -23.9506 3.6110 -6.6327 0.0000 -31.5691 -16.3321 ----------------------------------------------------------------- Omnibus: 2.827 Durbin-Watson: 2.120 Prob(Omnibus): 0.243 Jarque-Bera (JB): 1.192 Skew: -0.076 Prob(JB): 0.551 Kurtosis: 1.783 Condition No.: 6 ================================================================= 预测值为: [74.56154603]
D:\software_install\anaconda\lib\site-packages\scipy\stats\stats.py:1541: UserWarning: kurtosistest only valid for n>=20 ... continuing anyway, n=19 warnings.warn("kurtosistest only valid for n>=20 ... continuing "