应用回归分析
实验报告六
学生姓名
李梦
学
号
20111315046
院
系
数学与统计学院
专
业
统计学
课程名称
应用回归分析
任课教师
尚林
二O一三 三 年 六 月 十二 日 日
1.Logistic 函数常用于拟合某种消费品的拥有率,表 8.17 是北京市每百户家庭平均拥有的照相机数,试针对以下两种情况拟合 Logistic 回归函数。
tb buy1 011
(1)已知 ,用线性化方法拟合 (2)u 未知,用非线性最小二乘法拟合。从经济学的意义知道,u 是拥有率的上限,初值可取为 100;b0>0,0<b1<1,初值请读者自己选择。
表 8.17 年份 t y 年份 t y 1978 1 7.5 1988 11 59.6 1979 2 9.8 1989 12 62.2 1980 3 11.4 1990 13 66.5 1981 4 13.3 1991 14 72.7 1982 5 17.2 1992 15 77.2 1983 6 20.6 1993 16 82.4 1984 7 29.1 1994 17 85.4 1985 8 34.6 1995 18 86.8 1986 9 47.4 1996 19 87.2 1987 10 55.5
:
解:(1)u=100 时的线性拟合,对tb buy1 011 函数线性化得到:1 0ln ln )1 1ln( b t bu y
作 y1 关于 t 的线性回归分析
R 2 =0.988 趋于 1,进一步计算得到:
768 . 0 , 157 . 01 0 b b ,ty768 . 0 * 157 . 010011^
由图可知回归效果比较令人满意。
(2)u 未知,用非线性最小二乘法拟合。从经济学的意义知道,u 是拥有率的上限,初值可取为 100;b0>0,0<b1<1,初值请读者自己选择。
R 2 =0.995>0.988,得到回归效果比线性拟合要好,u=91.062,b0=0.211,b1=0.727 回归方程:ty727 . 0 * 211 . 0062 . 9111
2 .某省统计局 1990 年 9 月在全省范围内进行了一次公众安全感问卷调查,参考文献【10】选取了调查表中的一个问题进行分析。本题对其中的数据做了适当的合并。对 1391 人填写的问卷设计:“一人在家是否害怕生人来”。因变量 y=1 表示害怕,y=2 表示不害怕。2 个自变量:x1 是年龄,x2 是文化程度。各变量的取值含义如表 9.10 所示。
表 9.10
是否害怕 y 年龄 x1 文化程度 x2 害怕
1 不害怕
0 16——28 岁
22 29——45 岁
37 46——60 岁
53 61 岁以上
68 文盲
0 小学
1 中学
2 中专以上
3 现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄 x1、文化程度 x2 有没有关系呢?调查数据见表 9.11。
表 9.11 序号 x 1
x 2
n i
y=1 y=0 p i
1 22 0 3 0 3 0.12500 2 22 1 11 3 8 0.29167 3 22 2 389 146 243 0.37564 4 22 3 83 26 57 0.31548 5 37 0 4 3 1 0.70000 6 37 1 27 18 9 0.66071 7 37 2 487 196 291 0.40266 8 37 3 103 27 76 0.26442 9 53 0 9 4 5 0.45000 10 53 1 6 3 3 0.50000 11 53 2 188 73 115 0.38889 12 53 3 47 18 29 0.38542 13 68 0 2 0 2 0.16667
14 68 1 10 3 7 0.31818 15 68 2 18 7 11 0.39474 16 68 3 4 0 4 0.10000 其中,p i 是根据(9.44)式计算的。
(1)
把公民的年龄 x1、文化程度 x2 作为数值型变量,建立 y 对 x1、x2 的 logistic 回归。
(2)
把公民的年龄 x1、文化程度 x2 作为定性型变量,用 0-1 变量将其数量化,建立 y对公民的年龄和文化程度的 logistic 回归。
(3)
你对回归的效果是否满意,你认为主要的问题是什么? :
解:(1)先对 Pi 进行逻辑变换,令 ),1ln("iiippp 则 "ip β 0 +β 1 x 1 +β 2 x 2
F=0.002,P=0.962 都大于 0.05,所以回归方程不显著。说明回归参数未通过显著性检验。
由于 logistic 回归模型存在异方差,所以采用加权最小二乘法重新拟合 wi=nipi(1-pi)
回归方程:
"ip 0.146+0.002x 1 -0.331x 2
原回归方程:p=) 331 . 0 002 . 0 146 . 0 exp( 1) 331 . 0 002 . 0 156 . 0 exp(2 12 1^x xx xp
由方差分析表结果知:F=4.304,P=0.037,小于 5%,说明回归方程显著;
x1 对应的回归系数相应的 P=0.697>0.05,说明 x1 对应的回归系数没有通过检验,不显著;
x2 对应的回归系数相应的 P=0.013<0.05,说明 x2 对应的回归系数通过检显著性验,且该回归系数为-0.331,表明文化程度越高越不害怕。
(2)把公民的年龄 x1、文化程度 x2 作为定性型变量,引入 6 个 0-1 变量表示年龄 x1 1 1 111 12 131 1 12 2 221 22 232 2 222, 22 37, 37 53, 530, 22 0, 37 0, 531, 0 1, 1 1, 20, 0 0, 1 0, 2x x xx x xx x xx x xx x xx x x , ,, , 1) 直接进行 y 与 6 个虚拟变量的未加权的 logistic 回归,SPSS 输出结果如下:
由方差分析表知 F=2.472,P 值=0.106,大于 5%,说明回归方程不显著;且除了12x 外,其它自变量对应的回归系数都没通过检验。
ANOVA b4.743 4 1.186 2.472 .106 a5.277 11 .48010.020 15RegressionResidualTotalModel1Sum ofSquares df Mean Square F Sig.Predictors: (Constant), x13, x2, x12, x11a. Dependent Variable: ppib.
Coefficients a-1.044 .417 -2.505 .029-.136 .155 -.193 -.881 .397.220 .490 .120 .449 .6621.273 .490 .697 2.600 .025.969 .490 .530 1.979 .073(Constant)x2x11x12x13Model1B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: ppia.
通过后退法选择变量对上述模型改进
ANOVA d4.743 4 1.186 2.472 .106 a5.277 11 .48010.020 154.647 3 1.549 3.459 .051 b5.374 12 .44810.020 154.274 2 2.137 4.835 .027 c5.746 13 .44210.020 15RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123Sum ofSquares df Mean Square F Sig.Predictors: (Constant), x13, x2, x12, x11a. Predictors: (Constant), x13, x2, x12b. Predictors: (Constant), x13, x12c. Dependent Variable: ppid.
Coefficients a-1.044 .417 -2.505 .029-.136 .155 -.193 -.881 .397.220 .490 .120 .449 .6621.273 .490 .697 2.600 .025.969 .490 .530 1.979 .073-.934 .326 -2.865 .014-.136 .150 -.193 -.912 .3801.163 .410 .636 2.838 .015.859 .410 .470 2.097 .058-1.139 .235 -4.846 .0001.163 .407 .636 2.857 .013.859 .407 .470 2.110 .055(Constant)x2x11x12x13(Constant)x2x12x13(Constant)x12x13Model123B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: ppia.
后退法的过程中剔除了2 11 ,xx ,留下了13 12 ,xx ,但是13x 对应的回归系数未通过检验,将其剔除,最后留下了12x ;而且回归方程显著,
2) 加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了2x 。
ANOVA e,f9.979 4 2.495 2.475 .106 a11.090 11 1.00821.069 159.526 3 3.175 3.301 .058 b11.543 12 .96221.069 158.870 2 4.435 4.726 .029 c12.199 13 .93821.069 158.238 1 8.238 8.989 .010 d12.831 14 .91621.069 15RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel1234Sum ofSquares df Mean Square F Sig.Predictors: (Constant), x13, x2, x11, x12a. Predictors: (Constant), x13, x2, x12b. Predictors: (Constant), x2, x12c. Predictors: (Constant), x2d. Dependent Variable: ppie. Weighted Least Squares Regression - Weighted by wif.
Coefficients a,b-.092 .425 -.217 .832-.344 .118 -.641 -2.901 .014.263 .392 .490 .671 .516.379 .389 .737 .975 .351.376 .402 .570 .936 .370.131 .258 .510 .619-.332 .115 -.620 -2.902 .013.132 .122 .257 1.086 .299.129 .156 .195 .826 .425.177 .248 .713 .489-.334 .113 -.623 -2.950 .011.089 .109 .173 .820 .427.220 .240 .915 .375-.335 .112 -.625 -2.998 .010(Constant)x2x11x12x13(Constant)x2x12x13(Constant)x2x12(Constant)x2Model1234B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst Sig.Dependent Variable: ppia. Weighted Least Squares Regression - Weighted by wib.
从上表可以看出,最后只保留了变量2x (P 值小于 0.05),回归方程为:2ˆ 0.22 0.335 p x
Model Summary.688 a .474 .282 1.00408.672 b .452 .315 .98078.649 c .421 .332 .96870.625 d .391 .348 .95732Model1234R R SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x2, x13, x11, x12a. Predictors: (Constant), x2, x13, x12b. Predictors: (Constant), x2, x12c. Predictors: (Constant), x2d.
从模型概要表中可以看出模型四的回归方程的拟合优度不佳。
(3)满意。变量 x1 在不同的回归方法下显著性不同,对该变量的显著性判定还有待改进。如果能获得年龄的准确值做 Logistic 回归的极大似然估计,可能会改进回归效果。
3. 研制一种新型玻璃,对其做耐冲击试验。用一个小球从不同的高度 h 对玻璃做自由落体撞击,玻璃破碎记 y=1,玻璃未破碎记 y=0,试对表 9.12 数据建立玻璃耐冲击性对高度 h 的 Logistic 回归,并且解释回归方程的含义。
表 9.12 序号 h(m)
y 序号 h(m)
y 1 1.50 0 14 1.76 1 2 1.52 0 15 1.78 0 3 1.54 0 16 1.80 1 4 1.56 0 17 1.82 0 5 1.58 1 18 1.84 0 6 1.60 0 19 1.86 1 7 1.62 0 20 1.88 1 8 1.64 0 21 1.90 0 9 1.66 0 22 1.92 1 10 1.68 1 23 1.94 0 11 1.70 0 24 1.96 1 12 1.72 0 25 1.98 1 13 1.74 0 26 2.00 1 解:
回归方程:) 981 . 7 592 . 14 exp( 1) 981 . 7 592 . 14 exp(^hhp
h 对应的回归系数相应的 P=0.024<0.05,说明 h 对应的回归系数通过检显著性验,且该回归系数为 7.981。
相关热词搜索: 回归 实验 分析