我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 诊断模型 >

处理多元线性回归中自变量共线性的几种方法 详细??

归档日期:08-11       文本归类:诊断模型      文章编辑:爱尚语录

  包括筛选变量法, 岭回归分析法, 主成分回归法和偏最小二乘回归法。关键词: 回归、SASSTAT、共线性、筛选变量、岭回归、主成分回归、偏最小二乘回归。中图分类号: 0212; C8 文献标识码: A 回归分析方法是处理多变量间相依关系的统计方法。它是数理统计中应用最为广泛的方法之一。在长期的大量的实际应用中人们也发现: 建立回归方程后, 因为自变量存在相关性, 将会增加参数估计的方差, 使得回归方程变得不稳定; 有些自变量对因变量(指标) 影响的显著性被隐蔽起来; 某些回归系数的符号与实际意义不符合等等不正常的现象。这些问题的出现原因就在于自变量的共线性。本文通过例子来介绍自变量共线性的诊断方法以及使用SA SSTA T 软件6. 12 版本中REG 等过程的增强功能处理回归变量共线性的一些方法。一、共线性诊断共线性问题是指拟合多元线性回归时, 自变量之间存在线性关系或近似线性关系。共线性诊断的方法是基于对自变量的观测数据构成的矩阵X′X 进行分析, 使用各种反映自变量间相关性的指标。共线性诊断常用统计量有方差膨胀因子V IF (或容限TOL )、条件指数和方差比例等。方差膨胀因子V IF 是指回归系数的估计量由于自变量共线性使得其方差增加的一个相对度量。对第i 个回归系数, 它的方差膨胀因子定义为 V I F i = 第i 个回归系数的方差自变量不相关时第i 个回归系数的方差 = 1 1 - R 2 i = 1 TOL i 其中R 2 i 是自变量xi 对模型中其余自变量线性回归模型的R 平方。V IFi 的倒数TOL i 也称为容限( To lerance )。一般建议, 若V IF 10, 表明模型中有很强的共线性问题。若矩阵X′X 的特征值为d 2 1 ≥d 2 2 ≥…≥d 2 k, 则X 的条件数 d1 dk 就是刻划它的奇性的一个指标。故称 d1 dj (j= 1, …, k) 为条件指数。一般认为, 若条件指数值在10 与30 间为弱相关; 在30 与100 间为中等相关; 大于100 表明有强相关。对于大的条件指数, 还需要找出哪些变量间存在强的线性关系。因为每个条件指数对应一 9 4 处理多元线性回归中自变量共线- 性的几种方法个特征向量, 而大的条件指数相应的特征值较小, 故构成这一特征向量的变量间有近似的线性关系。在统计中用方差比例来说明各个自变量在构成这个特征向量中的贡献。一般建议, 在大的条件指数中由方差比例超过0. 5 的自变量构成的变量子集就认为是相关变量集。二、筛选变量的方法变量筛选的一些方法除了把对因变量Y 影响不显著的自变量删除之外, 还可以从有共线关系的变量组中筛选出对因变量Y 影响显著的少数几个变量。例 1 (水泥数据) 某种水泥在凝固时放出的热量Y (卡克) 与水泥中下列四种化学成份有关: x1 ( 3CaO. A l2O3 的成份)、x2 (3CaO. SiO2 的成份)、x3 (4CaO. A l2O3. Fe 2 O3 的成份) 和x4 (2CaO. SiO2 的成份)。共观测了13 组数据(见表1) , 试用REG 过程分析水泥数据, 求出Y 与 x1, x2, x3, x4 的最优回归式。 表1 水泥数据序号 x1 x2 x3 x4 Y 1 2 3 4 5 6 7 8 9 10 11 12 13 7 1 11 11 7 11 3 1 2 21 1 11 10 26 29 56 31 52 55 71 31 54 47 40 66 68 6 15 8 8 6 9 17 22 18 4 23 9 8 60 52 20 47 33 22 6 44 22 26 34 12 12 78. 5 74. 3 104. 3 87. 6 95. 9 109. 2 102. 7 72. 5 93. 1 115. 9 83. 8 113. 3 109. 4 解 (1) 首先用REG 过程对自变量的共线性进行诊断, 只需在MODEL 语句的斜杠() 后使用选项V IF 和COLL INO IN T (或 COLL IN ) , 以下SA S 程序输出的部分结果见输出1. 1 (假设表1 中的数据已生成SA S 数据集D1)。 p roc reg data= d1; model y= x1- x4 vif co llino int; run; 由输出1. 1 的参数估计部分, 可以得出: ① 4 个自变量的方差膨胀因子( V IF ) 均大于10, 最大为282. 51, 表示变量之间有严重的多重共线关系。② 回归方程的截距项= 0 的假设是相容的( p 值= 0. 3991) ; ③ 所有自变量在Α= 0. 05 的显著水平下对因变量的影响均不显著(有三个变量的p 值大于0. 5) , 而回归方程是高度显著的(p 值= 0. 0001, 输出1. 1 没有显示) , 这说明自变量对因变量的显著影响均被变量间的多重相关性隐藏了。由输出1. 1 的共线性诊断部分, 可以得出: ① 最大条件指数37. 1 30, 说明4 个自变量间有中等相关关系; ② 与最大条件指数在一行的4 个变量的方差比例均大于0. 5, 这说明这4 个变量就是一个具有中等相关的变量集。 输出1. 1 水泥数据共线) 用逐步回归方法从相关变量集中选出“最优”回归子集, 当引入和删除的显著性水平Α取为0. 05 时, 入选的自变量为x1 和 x4; 当显著性水平 Α取为 0. 10 或0. 15 时, 则入选的自变量为x1 和x2。可见用逐步筛选的方法得到的回归子集与显著水平的选取 0 5 数理统计与管理 20 卷 5 期 2000 年9 月有关, 选出的子集是某个较优的回归方程。容易验证这里得到的两个子集中变量对Y 的影响都是高度显著的, 且自变量的方差膨胀因子V IF 值都小于1. 1, 表明已没有共线) 用全子集法计算所有可能回归, 从中选出最优的回归方程。以下 SA S 程序中, MODEL 语句斜杠() 后的选项指出用R 2 选择法, 要求对每种变量个数输出二个最佳的回归子集, 并输出均方根误差、CP、A IC 和修正R 2 统计量, 产生的结果见输出1. 2。 p roc reg data= d431; model y= x12x4 select ion= rsquare best= 2 cp aic rm se adjrsq; run; 输出1. 2 对水泥数据计算所有可能回归的部分结果 在模型中变量个数固定为2 的回归子集中选出的最优回归子集是x1 和x2, 其次是x1 和 x4。如果按均方根误差最小的准则、修正R 2 最大准则及A IC 最小准则, 选出的最优子集都是 x1、x2 和x4。但在回归系数的显著性检验中, x4 对Y 的作用不显著( p= 0. 2054) ; 且x2 和x4 的方差膨胀因子V IF 值 10, 共线 是相关的变量集。而按CP 统计量最小淮则选出的最优回归子集为x1 和x2。综合以上分析可得出Y 与x1、x2 的回归方程是可用的最优方程。用筛选变量的方法从有共线性的变量组中筛选出对因变量Y 影响显著的若干个变量来建立最优回归式, 不仅克服了共线性问题, 且使得回归式简化; 但有些实际问题希望建立Y与 给定自变量的回归式, 既使自变量有共线性问题, 如经济分析中的问题。下面三种方法都是针对这类问题而给出的方法。三、岭回归方法在经典多元线性回归分析中, 参数Β= ( Β0, Β1,. . . , Βm ) ′的最小二乘估计b= ( b0, b1,. . . , bm ) ′的均方误差为E{ ( b- Β) ′(b- Β) }, 当自变量存在多重共线关系时, 均方误差将变得很大, 故从均方误差的角度看, b 不是Β的好估计。减少均方误差的方法就是用岭回归估计替代最小二乘估计。设k≥0, 则称 b (k) = (X ′X + k I ) - 1 X ′Y为Β的岭回归估计。用岭回归估计建立的回归方程称为岭回归方程。当k= 0 时b (0) = b 就是Β的最小二乘估计。从理论上可以证明, 存在k 0, 使得b (k) 的均方误差比b 的均方误差小; 但使得均方误差达到最小的k 值依赖于未知参数Β和Ρ 2 。因此k 值的确定是岭回归分析中关键。在实际应用中, 通常确定k 值的方法有以下几种: ① 岭迹图法, 即对每个自变量xi, 绘制随k 值的变化岭回归估计bi (k) 的变化曲线图。一般选择k 使得各个自变量的岭迹趋于稳定。②方差膨胀因子法, 选择k 使得岭回归估计的V IF 10。③ 控制残差平方和法, 即通过限制b 1 5 处理多元线性回归中自变量共线- 性的几种方法 ( k ) 估计的残差平方和不能超过cQ (其中c 1 为指定的常数, Q 为最小二乘估计的残差平方和) 来找出最大的k 值。下面通过例子来介绍岭回归分析。例2: 经济分析数据的岭回归分析 考察进口总额Y 与三个自变量: 国内总产值x1, 存储量x2, 总消费量x3 (单位均为十亿法郎) 有关。现收集了1949 年至1959 年共11 年的数据(见表2)。对表2 的数据试用REG 过程求进口总额与总产值、存储量和总消费量的定量关系式。 表2 经济分析数据序号 x1 x2 x3 Y 1 2 3 4 5 6 7 8 9 10 11 149. 3 161. 2 171. 5 175. 5 180. 8 190. 7 202. 1 212. 4 226. 1 231. 9 239. 0 4. 2 4. 1 3. 1 3. 1 1. 1 2. 2 2. 1 5. 6 5. 0 5. 1 0. 7 108. 1 114. 8 123. 2 126. 9 132. 1 137. 7 146. 0 154. 1 162. 3 164. 3 167. 6 15. 9 16. 4 19. 0 19. 1 18. 8 20. 4 22. 7 26. 5 28. 1 27. 6 26. 3 解 (1) 使用REG 过程来建立 Y 与x1、x2、x3 的回归关系式。以下 SA S 程序产生的完整输出结果这里省略了( 假设表 2 中的数据已生成 SA S 数据集D2)。 p roc reg data= d2 co rr; model y = x1 - x3 vif co llin; run; 由REG 过程得到的回归方程为: Y = - 10. 128 - 0. 051 x 1 + 0. 587 x 2 + 0. 287 x 3 变量x 1 的系数为负值, 这与实际情况不符。出现此现象的原因是变量x 1 与x 3 线。在MOD EL 语句后加上选项V IF 和COL L IN 产生的输出(省略了) 可以更清楚地看出x 1 和x 3 是多重相关的变量集。为了消除变量之间的多重共线关系, 岭回归就是一个有效的方法。 (2) 在MOD EL 语句的斜杠() 后由选项R IDGE = 指定一组k 值来完成岭回归分析。在 PL OT 语句中由选项R IDGEPL OT 要求绘制岭迹图。PROC R EG 语句的选项OU T ES T = OU T 2 要求把这一组k 值的岭回归估计送到输出数据集OU T 2 中, 选项OU TV IF 还要求把岭回归估计的方差膨胀因子( V IF ) 送到输出集中。以下SA S 程序的部分输出结果见输出2. 1 和输出2. 2。 p roc reg data= d2 outest= out2 graphics outvif; model y= x1- x3 ridge= 0. 0 to 0. 1 by 0. 01 0. 2 0. 3 0. 4 0. 5; p lo t ridgep lo t; p roc p rint data= out2; run; 输出2. 1 经济分析数据的岭迹图 2 5 数理统计与管理 20 卷 5 期 2000 年9 月 由岭迹图可以看出, 当k≥0. 02 后, 岭迹曲线 的岭回归估计来建立岭回归方程, 由输出2. 2 可以写出岭回归方程式为: Y = - 8. 9277 + 0. 057 x 1 + 0. 59542 x 2 + 0. 127 x 3 这时得到的岭回归方程中回归系数的符号都有意义; 各个回归系数的方差膨胀因子均小于3 (见输出2. 2 中OBS 为6 的那一行) ; 岭回归方程的均方根误差(- RM SE- = 0. 57016) 虽比普通最小二乘回归方程的均方根误差( - RM SE- = 0. 48887) 有所增大, 但增加不多。输出2. 2 经济分析数据的输出数据集(部分) 四、主成分回归法主成分分析是将具有多重相关的变量集综合得出少数几个互不相关的综合变量——主成分的统计方法。主成分回归首先找出自变量集的主成分, 然后建立Y 与互不相关的前几个主成分的回归关系式, 最后还原为原自变量的回归方程式——主成分回归式。例3: 经济分析数据的主成分回归分析 解 使用REG 过程做主成分回归。在SA SSTA T 软件的6112 版本中, 用REG 过程提供的选项可完成主成分回归的计算。SA S 程序如下: p roc reg data= d2 outest= out3 ; model y= x1- x3 pcom it= 1, 2 outvif; p roc p rint data= out3; run; 在MODEL 语句的斜线() 后通过选项PCOM IT = 1, 2 表示要求删去最后面(即最不重要) 的1 个或2 个主成分之后, 用前面m - 1 个主成分或前面m - 2 个主成分( m 为自变量的个数, 此例中m = 3) 进行主成分回归。主成分回归的结果存放在SA S 数据集OU T3 中。由输出3. 1 可以得出删去第三个主成分(PCOM IT= 1) 后的主成分回归方程(见输出3. 1 中OBS 为3 的那一行) 为 Y= - 9. 1301+ 0. 07278 x1+ 0. 60922 x2+ 0. 10626 x3 输出3. 1 经济分析数据主成分回归的结果 这个主成分回归方程中回归系数的符号都是有意义的; 各个回归系数的方差膨胀因子均小于1. 1 (见输出3. 1 中OBS 为2 的那一行) ; 主成分回归方程的均方根误差( - RM SE- = 0. 55) 虽比普通回归方程的均方根误差( - RM SE- = 0. 48887) 有所增大, 但增加不多。 3 5 处理多元线性回归中自变量共线- 性的几种方法五、偏最小二乘回归法偏最小二乘( PL S ) 回归是工业应用中用于软建模的流行方法。当多个因变量间以及多个自变量间存在严重的多重相关时, PL S 是构造预测模型的一种有效方法。偏最小二乘回归的基本作法是首先在自变量集中提取第一潜因子 t1 ( t1 是x 1, x 2, …, xm 的线性组合, 且尽可能多地提取原自变量集中的变异信息, 比如第一主成分) ; 同时在因变量集中也提取第一潜因子u1, 并要求t1 与u1 相关程度达最大。然后建立因变量Y 与 t1 的回归, 如果回归方程已达到满意的精度, 则算法终止。否则继续第二轮潜在因子的提取, 直到能达到满意的精度为止。若最终对自变量集提取l 个潜因子 t1, t2, …, tl , 偏最小二乘回归将通过建立Y与t1, t2, …, tl 的回归式, 然后再表示为Y 与原自变量的回归方程式。 SA S S TA T 软件6. 12 版本提供一个试验性过程PL S (在SA S 系统8. 0 版本中PL S 已作为正式过程提供给用户) 可完成偏最小二乘回归。以下仍以经济分析数据为例介绍偏最小二乘回归。例4: 经济分析数据的偏最小二乘回归分析 解 使用PL S 过程做偏最小二乘回归。以下SA S 程序中选项M ETHOD= 规定抽取因子的方法为SIM PL S, 这是一个比标准PL S 更有效的算法; 选项CV = ON E 要求用删去一个观测的交叉确认方法决定抽取潜在因子的个数; OU TMODEL = 命名存放模型信息的输出数据集为O454 (输出的部分结果见输出4. 1)。 p roc p ls data= d2 outmodel= out4 cv= one method= simp ls ; model y= x1- x3 ; p roc p rint data= out4; run; 输出4. 1 经济分析数据偏最小二乘回归的结果 输出4. 1 的第一部分给出抽取潜在变量的个数及相应的用于度量拟合效果的预测残差平 4 5 数理统计与管理 20 卷 5 期 2000 年9 月方和( PRESS ) 的均方根值, 并指出在L = 2 时预测残差平方和的均方根达最小。输出的第二部分给出第一、二个潜在变量所解释的变差的百分数(包括自变量和因变量两方面) ; 输出的第三部分给出所拟合的模型的信息(数据集OU T4 的内容)。其中OBS 为2 和3 的行给出自变量和因变量的均值和标准差; OBS 为7 的行给出抽取二个潜在因子时的偏最小二乘估计, 由估计值可以写出标准化回归方程为( Y 和xζ表示Y 和x 的标准化变量) : Y = 0. 477 x 1 + 0. 2212 x 2 + 0. 486 x 3 用原始变量可表示为 Y = - 8. 2486 + 0. 0677 x 1 + 0. 6094 x 2 + 0. 1070 x 3 以上偏最小二乘回归方程中回归系数的符号都是有意义的。偏最小二乘回归的均方根误差 (0. 5872) 比普通最小二乘回归的均方根误差(- RM SE- = 0. 48887) 有所增大, 但增加不多。偏最小二乘回归对研究很多因变量及很多自变量的相依关系时更能显示其特点, 此例变量个数少, 故没能看出太多的优点。

本文链接:http://cheffroque.com/zhenduanmoxing/338.html