当前位置:党团工作 > 第3节,相关性、最小二乘估计与统计案例

第3节,相关性、最小二乘估计与统计案例

时间:2025-08-02 01:49:28 浏览次数:

 第 第 3 节

 相关性、最小二乘估计与统计案例 考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2 列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.

  知 识 梳 理 1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.回归分析 对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:

 (ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报. (1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线. (2)回归直线方程的求法——最小二乘法. 设具有线性相关关系的两个变量 x,y 的一组观察值为(x i ,y i )(i=1,2,…,n),则回归直线方程 y=a+bx 的系数为:

 其中 x = 1n i = 1nx i ,y= 1n i = 1ny i ,(x,y)称为样本点的中心. (3)相

 当 r>0 时,表明两个变量正相关

 当 r<0 时,表明两个变量负相关.

 r 的绝对值越接近于 1,表明两个变量的线性相关性越强.

 r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75 时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)设 A,B 为两个变量,每一个变量都可以取两个值,变量 A:A 1 ,A 2= 1 A ;变量 B:B 1 ,B 2= 1 B . 2×2 列联表

 B A

 B 1

 B 2

 总计 A 1

 a b a+b A 2

 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量 χ 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 ,其中 n=a+b+c+d 为样本容量. (2)独立性检验 利用随机变量来判断“两个变量有关联”的方法称为独立性检验. (3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断 ①当 χ 2 ≤2.706 时,没有充分的证据判定变量 A,B 有关联,可以认为变量 A,B是没有关联的; ②当 χ 2 >2.706 时,有 90%的把握判定变量 A,B 有关联; ③当 χ 2 >3.841 时,有 95%的把握判定变量 A,B 有关联; ④当 χ 2 >6.635 时,有 99%的把握判定变量 A,B 有关联.

 [常用结论与微点提醒]

 1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本点的中心(x-,y-). 2.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值. 3.根据 χ 2 的值可以判断两个分类变量有关的可信程度,若 χ 2 越大,则两分类变量有关的把握越大. 诊 断 自 测

 1.判断下列结论正误(在括号内打“√”或“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(

 ) (2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.(

 ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(

 ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 χ 2 值越大.(

 ) 答案 (1)√ (2)√ (3)√ (4)√

 2.(老教材选修 1-2P21 问题提出改编)为调查中学生近视情况,测得某校在 150名男生中有 80 名近视,在 140 名女生中有 70 名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力(

 ) A.回归分析

 B.均值与方差 C.独立性检验

 D.概率 解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C 3.(老教材选修 1-2P7 讲解改编)两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关系数 r 如下,其中拟合效果最好的模型是(

 ) A.模型 1 的相关系数 r 为 0.98 B.模型 2 的相关系数 r 为 0.80 C.模型 3 的相关系数 r 为 0.50 D.模型 4 的相关系数 r 为 0.25 解析 在两个变量 y 与 x 的回归模型中,它们的相关系数 r 越近于 1,模拟效果越好,在四个选项中 A 的相关系数最大,所以拟合效果最好的是模型 1.

 答案 A

 4.(2019·濮阳一模)根据下表中的数据,得到的回归方程为y=bx+9,则b=(

 )

 x 4 5 6 7 8 y 5 4 3 2 1 A.2

  B.1

  C.0

  D.-1 解析 由题意可得x-= 15 ×(4+5+6+7+8)=6,y-= 15 ×(5+4+3+2+1)=3,∵回归方程为y=bx+9 且回归直线过点(6,3),∴3=6b+9,解得b=-1. 答案 D 5.(2020·陕西联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了 100 位育龄妇女,结果如下表.

  非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 由 χ 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 , 得 χ 2 = 100×(45×22-20×13)265×35×58×42≈9.616. 则正确的结论是(

 ) A.有 95%的把握认为“生育意愿与城市级别有关” B. 有 95%的把握认为“生育意愿与城市级别无关” C.有 99%的把握认为“生育意愿与城市级别有关” D.有 99%的把握认为“生育意愿与城市级别无关” 解析 ∵χ 2 ≈9.616>6.635.∴有 99%的把握认为“生育意愿与城市级别有关”.

 答案 C 6.(2020·昆明一中联考)x 和 y 的散点图如图所示,在相关关系中,若用 y=c 1 e c2x拟合时的相关指数为 R 2 1 ,用y=bx+a拟合时的相关指数为 R 2 2 ,则 R 2 1 ,R 2 2 中较大的是______.

 解析 由散点图知,用 y=c 1 e c2x 拟合的效果比y=bx+a拟合的效果要好,所以R 2 1 >R 2 2 ,故较大者为 R 2 1 . 答案 R 2 1

 考点一 相关关系的判断

 【例 1】

 (1)下列四个散点图中,变量 x 与 y 之间具有负的线性相关关系的是(

 )

 (2)在一组样本数据(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x n ,y n )(n≥2,x 1 ,x 2 ,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i=1,2,…,n)都在直线 y=- 12 x+1 上,则这组样本数据的样本相关系数为(

 ) A.-1

  B.0

  C.- 12

 D.1 解析 (1)观察散点图可知,只有 D 选项的散点图表示的是变量 x 与 y 之间具有负的线性相关关系.故选 D.

 (2)完全的线性关系,且为负相关,故其相关系数为-1,故选 A. 答案 (1)D (2)A 规律方法 判断相关关系的两种方法:

 (1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系. (2)相关系数法:利用相关系数判定,|r|越趋近于 1,相关性越强. 【训练 1】

 在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).

 ①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于 20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于 20%; ③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于 20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于 20%. 解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%. 答案 ② 考点二 回归分析

 多维探究 角度 1 线性回归方程及应用 【例 2-1】

 (2020·南昌统考)某互联网公司为了确定下一季度的前期广告投入计划,收集了近 6 个月广告投入量 x(单位:万元)和收益 y(单位:万元)的数据如下表:

 月份 1 2 3 4 5 6 广告投入量/万 2 4 6 8 10 12

 元 收益/万元 14.21 20.31 31.8 31.18 37.83 44.67 他们用两种模型①y=bx+a,②y=ae bx 分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:

 x- y- ∑6i = 1 x i y i

 ∑6i = 1 x2i

 7 30 1 464.24 364

 (1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由. (2)残差绝对值大于 2 的数据被认为是异常数据,需要剔除:

 (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)广告投入量 x=18 时,(1)中所选模型收益的预报值是多少? 附:对于一组数据(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x n ,y n ),其回归直线y=bx+a的斜率和截距的最小二乘估计分别为:b=∑ni = 1

 (x i -x-)(y i -y-)∑ni = 1

 (x i -x-)

 2= 错误! ! , 错误! ! = 错误! ! -bx-. 解 (1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高. (2)(ⅰ)剔除异常数据,即 3 月份的数据后,得 x-= 15 ×(7×6-6)=7.2, y-= 15 ×(30×6-31.8)=29.64.

 ∑5i = 1 x i y i =1 464.24-6×31.8=1 273.44, ∑5i = 1 x2i =364-6 2 =328. b= 错误! ! = 错误! ! = 错误! ! =3, a=y--bx-=29.64-3×7.2=8.04. 所以 y 关于 x 的回归方程为y=3x+8.04. (ⅱ)把 x=18 代入(ⅰ)中所求回归方程得y=3×18+8.04=62.04, 故预报值为 62.04 万元. 角度 2 非线性回归方程及应用 【例 2-2】

 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响,对近 8 年的年宣传费 x i 和年销售量 y i (i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.

  x- y- w- ∑8i = 1

 (x i -x-) 2

 ∑8i = 1

 (w i -w-) 2

 ∑8i = 1

 (x i -x-)·(y i -y-) ∑8i = 1

 (w i -w-)·(y i-y-) 46.6 563 6.8 289.8 1.6 1 469 108.8 表中 w i = x i ,w-= 18 ∑8i = 1 w i . (1)根据散点图判断,y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型(给出判断即可,不必说明理由)? (2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x.根据(2)的结果回答下列问题:

 ①年宣传费 x=49 时,年销售量及年利润的预报值是多少?

 ②年宣传费 x 为何值时,年利润的预报值最大? 附:对于一组数据(u 1 ,v 1 ),(u 2 ,v 2 ),…,(u n ,v n ),其回归直线 v=α+βu 的斜率和截距的最小二乘估计分别为:

 β=∑ni = 1

 (u i -u-)(v i -v-)∑ni = 1

 (u i -u-)

 2,α=v--β u-. 解 (1)由散点图可以判断,y=c+d x适宜作为年销售量 y 关于年宣传费 x 的回归方程类型. (2)令 w= x,先建立 y 关于 w 的线性回归方程,由于 d=∑8i = 1

 (w i -u-)·(y i -y-)∑8i = 1

 (w i -w-)

 2= 108.81.6=68, c=y--dw-=563-68×6.8=100.6, 所以 y 关于 w 的线性回归方程为y=100.6+68w,因此 y 关于 x 的回归方程为y=100.6+68 x. (3)①由(2)知,当 x=49 时,年销售量 y 的预报值 y=100.6+68 49=576.6, 年利润 z 的预报值z=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润 z 的预报值 z=0.2(100.6+68 x)-x=-x+13.6 x+20.12. 所以当 x= 13.62=6.8,即 x=46.24 时,z取得最大值. 故年宣传费为 46.24 千元时,年利润的预报值最大. 规律方法 1.对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程. 2.回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时,两变量的线性相关性越强. 【训练 2】

 (2019·马鞍山二模)某班的健康调查小组从所在学校共选取 15 名男同学,其年龄、身高和体重数据如表所示(本题中身高单位:cm,体重单位:kg).

 根据表中数据,设计了两种方案预测学生身高.方案①:建立平均体重与年龄的线性回归模型,表中各年龄的体重按三名同学的平均体重计算,数据整理如下表:

 i 1 2 3 4 5 年龄 t i

 15 16 17 18 19 平均体重 s i

 59 63 63.3 70 69.7 方案②:建立平均体重与平均身高的线性回归模型,将所有数据按身高重新分成6 组:[153,158),[158,163),[163,168),[168,173),[173,178),[178,183],并将每组的平均身高依次折算为 155,160,165,170,175,180,各组的体重按平均体重计算,数据整理如下表.

 i 1 2 3 4 5 6 平均身高 x i

 155 160 165 170 175 180 平均体重 y i

 48 57 63 68 74 82 (1)用方案①预测 20 岁男同学的平均体重和用方案②预测身高 168 cm 的男同学的平均体重,你认为哪个更合理?请给出理由; (2)请根据方案②建立平均体重 y 与平均身高 x 的线性回归方程 y=bx+a (数据精确到 0.001). 附:b=∑ni = 1

 (x i -x-)(y i -y-)∑ni = 1

 (x i -x-)

 2= 错误! ! , 错误! ! = 错误! ! - 错误! ! 错误! ! , 错误! ! x i y i =66 225,∑6i = 1 x2i =168 775,x-= 3352,y-= 1963. 解 (1)对比两种方案,用方案②预测身高 168 cm 的男同学的平均体重更合理.

 因为身高和体重的相关关系强于年龄与体重的相关关系. (2)b= 错误! ! = 错误! ! ≈1.291, 又因为(x-,y-)在回归直线上, 所以a=y--bx-= 1963-1.291× 3352≈-150.909. 故平均体重 y 与平均身高 x 的线性回归方程为 y=1.291x-150.909. 考点三 独立性检验 【例 3】

 (2020·汉中检测)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机地从这两条流水线上生产的大量产品中各抽取 50 件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.甲流水线样本的频数分布表和乙流水线样本的频数分布直方图如下:

 甲流水线样本的频数分布表

 质量指标值 频数 (190,195] 9 (195,200] 10 (200,205] 17 (205,210] 8 (210,215] 6 乙流水线样本频率分布直方图

 (1)根据乙流水线样本频率分布直方图,估计乙流水线生产产品的该项质量指标值的中位数; (2)若将频率视为概率,某个月内甲、乙两条流水线均生产了 5 000 件产品,则甲、

 乙两条流水线分别生产出不合格品约多少件? (3)根据已知条件完成下面 2×2 列联表,并回答是否有 90%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?

  甲生产线 乙生产线 合计 合格品

 不合格品

 合计

 参考公式:χ 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 , 其中 n=a+b+c+d. 解 (1)设乙流水线生产产品的该项质量指标值的中位数为 x, 因为(0.012+0.032+0.052)×5=0.48<0.5 <(0.012+0.032+0.052+0.076)×5=0.86, 则(0.012+0.032+0.052)×5+0.076×(x-205)=0.5, 解得 x= 3 90019. (2)由甲、乙两条流水线各抽取的 50 件产品可得:

 甲流水线生产的不合格品有 15 件, 则甲流水线生产的产品为不合格品的概率为 P 甲 = 1550 =310 ; 乙流水线生产的产品为不合格品的概率为 P 乙 =(0.012+0.028)×5= 15 . 于是,若某个月内甲、乙两条流水线均生产了 5 000 件产品,则甲、乙两条流水线生产的不合格品件数分别为 5 000×310 =1 500,5 000×15 =1 000. (3)2×2 列联表:

  甲生产线 乙生产线 合计 合格品 35 40 75 不合格品 15 10 25

 合计 50 50 100 则 χ 2 = 100×(35×10-40×15)250×50×75×25= 43 ≈1.3<2.072. 所以没有 90%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”. 规律方法 1.在 2×2 列联表中,如果两个变量没有关系,则应满足 ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:

 (1)根据样本数据制成 2×2 列联表:

 (2)根据公式 χ 2 =n(ad-bc)

 2(a+b)(a+c)(b+d)(c+d)

 计算 χ2 值; (3)比较 χ 2 与临界值的大小关系,作统计推断. 【训练 3】

 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50名学生,得到如下 2×2 列联表:

  理科 文科 男 13 10 女 7 20 根据表中数据,得到 χ 2 = 50×(13×20-10×7)223×27×20×30≈4.844.则有_________的把握认为选修文科与性别有关系. 解析 χ 2 ≈4.844,根据假设检验的基本原理,则有 95%的把握认为是否选修文科与性别之间有关系. 答案 95%

  A 级 基础巩固 一、选择题 1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确

 的是(

 )

 A.r 2 <r 4 <0<r 3 <r 1

  B.r 4 <r 2 <0<r 1 <r 3

 C.r 4 <r 2 <0<r 3 <r 1

  D.r 2 <r 4 <0<r 1 <r 3

 解析 由散点图知图(1)与图(3)是正相关,故 r 1 >0,r 3 >0,图(2)与图(4)是负相关,故 r 2 <0,r 4 <0,且图(1)与图(2)的样本点集中在一条直线附近,因此 r 2 <r 4 <0<r 3 <r 1 ,故选 A. 答案 A 2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关系数 r 来刻画回归的效果,r 值越接近于 1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是(

 ) A.①②

  B.②③

  C.①③

  D.①②③ 答案 D 3.如表是 2×2 列联表:

 y

 x

 y 1

 y 2

 总计 x 1

 a 21 73 x 2

 2 25 27 总计 b 46

 则表中 a,b 处的值分别为(

 ) A.94,96

 B.52,50 C.52,54

 D.54,52

 解析 由 2×2 列联表知  a+21=73,a+2=b,解得  a=52,b=54. 答案 C 4.为考察高中生的性别与是否喜欢数学课程之间的关系,利用 2×2 列联表进行检验,经计算 χ 2 =7.069,则有__________的把握认为“性别与是否喜欢数学课程有关”.

 A.没有充分证据

 B.90% C.95%

 D. 99% 解析 χ 2 =7.069>6.635,认为“性别与是否喜欢数学课程有关”. 答案 D 5.(2020·衡水中学调研)已知变量 x,y 之间的线性回归方程为y=-0.7x+10.3,且变量 x,y 之间的一组相关数据如下表所示,则下列说法错误的是(

 )

 x 6 8 10 12 y 6 m 3 2 A.变量 x,y 之间呈负相关关系 B.可以预测,当 x=20 时,y=-3.7 C.m=4 D.该回归直线必过点(9,4) 解析 由-0.7<0,得变量 x,y 之间呈负相关关系,故 A 正确;当 x=20 时,y=-0.7×20+10.3=-3.7,故 B 正确;由表格数据可知x-= 14 ×(6+8+10+12)=9,y-= 14 (6+m+3+2)=11+m4,则 11+m4=-0.7×9+10.3,解得 m=5,故 C 错;由m=5,得y-= 6+5+3+24=4,所以该回归直线必过点(9,4),故 D 正确.故选 C. 答案 C 二、填空题 6.(多填题)某市居民 2015~2019 年家庭年平均收入 x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:

 年份 2015 2016 2017 2018 2019 收入 x 11.5 12.1 13 13.3 15 支出 y 6.8 8.8 9.8 10 12 根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系(填“正”或“负”). 解析 中位数是 13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系. 答案 13 正 7.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到如下数据:

 天数 x/天 3 4 5 6 7 繁殖个数y/万个 2.5 3 4 4.5 c 若已知回归直线方程为y=0.85x-0.25,则表中 c 的值为________. 解析 x-= 3+4+5+6+75=5,y-= 2.5+3+4+4.5+c5= 14+c5,代入回归直线方程中,得 14+c5=0.85×5-0.25,所以 c=6. 答案 6 8.某医疗研究所为了检验某种血清预防感冒的作用,把 500 名使用血清的人与另外 500 名未使用血清的人一年中的感冒记录作比较,提出假设 H 0 :“这种血清不能起到预防感冒的作用”,利用 2×2 列联表计算得 χ 2 ≈3.918,则下列结论中,正确结论的序号是________. ①有 95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有 95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为 5%. 解析 χ 2 ≈3.918>3.841,所以有 95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆. 答案 ① 三、解答题

 9.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第 x 年与年销售量 y(单位:万件)之间的关系如下表:

 x 1 2 3 4 y 12 28 42 56 (1)在图中画出表中数据的散点图;

 (2)根据散点图选择合适的回归模型拟合 y 与 x 的关系(不必说明理由); (3)建立 y 关于 x 的回归方程,预测第 5 年的销售量. 参考公式:回归直线 x 的斜率和截距的最小二乘估计分别为 b=∑ni = 1

 (x i -x-)(y i -y-)∑ni = 1

 (x i -x-)

 2= 错误! ! , 错误! ! = 错误! ! - 错误! ! 错误! ! . 解 (1)作出的散点图如图:

 (2)根据散点图观察,可以用线性回归模型拟合 y 与 x 的关系. (3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:

 I x i

 y i

 x 2 i

 x i y i

 1 1 12 1 12 2 2 28 4 56 3 3 42 9 126 4 4 56 16 224

 ∑ 10 138 30 418 可得x-= 52 ,y-= 692,所以b= 错误! ! = 错误! ! = 错误! ! , a=y--bx-= 692- 735× 52 =-2. 故回归直线方程为y= 735x-2. 当 x=5 时,y= 735×5-2=71. 故预测第 5 年的销售量大约为 71 万件. 10.某城市地铁将于 2020 年 6 月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了 50 人,他们的收入与态度如下:

 月收入(单 位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75] 赞成定价 者人数 1 2 3 5 3 4 认为价格偏 高者人数 4 8 12 5 2 1 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留 2 位小数); (2)由以上统计数据填下面 2×2 列联表,分析是否有 99%的把握认为“月收入以55 百元为分界点对地铁定价的态度有差异”.

  月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者

 赞成定价者

 总计

 附:χ 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 解 (1)“赞成定价者”的月平均收入为 x 1 = 20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56. “认为价格偏高者”的月平均收入为 x 2 = 20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75, ∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x 1 -x 2 =50.56-38.75=11.81(百元). (2)根据条件可得 2×2 列联表如下:

  月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计 10 40 50 χ 2 = 50×(3×11-7×29)210×40×18×32≈6.27<6.635, ∴没有 99%的把握认为“月收入以 55 百元为分界点对地铁定价的态度有差异”. B 级 能力提升 11.(2019·黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是(

 ) A.若 χ 2 =6.635,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,那么在 100 个吸烟的人中必有 99 人患有肺癌 B.由独立性检验可知,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有 99%的可能患有肺癌 C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得判断出现错误

 D.以上三种说法都不正确 解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得判断出现错误.故选 C. 答案 C 12.(2020·咸阳检测)某城市收集并整理了该市 2019 年 1 月份至 10 月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.

 已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是(

 ) A.最低气温与最高气温为正相关 B.10 月的最高气温不低于 5 月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在 1 月 D.最低气温低于 0 ℃的月份有 4 个 解析 在 A 中,最低气温与最高气温为正相关,故 A 正确; 在 B 中,10 月的最高气温不低于 5 月的最高气温,故 B 正确; 在 C 中,月温差(最高气温减最低气温)的最大值出现在 1 月,故 C 正确; 在 D 中,最低气温低于 0 ℃的月份有 3 个,故 D 错误.故选 D. 答案 D 13.在一组样本数据(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x 6 ,y 6 )的散点图中,若所有样本点(x i ,y i )(i=1,2,…,6)都在曲线 y=bx 2 - 12 附近波动.经计算∑6i = 1 x i =12,∑6i = 1 y i =14,∑6i = 1 x2i=23,则实数 b 的值为________.

 解析 令 t=x 2 ,则曲线的回归方程变为线性的回归方程,即 y=bt- 12 ,此时t-=错误! ! = 错误! ! , 错误! ! = 错误! ! = 错误! ! ,代入 y=bt- 错误! ! ,得 错误! ! =b× 错误! ! - 错误! ! ,解得 b= 1723 . 答案 1723

 14.某地级市共有 200 000 名中小学生,其中有 7%的学生在 2017 年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为 5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000 元、1 500 元、2 000 元.经济学家调查发现,当地人均可支配收入较上一年每增加 n%,一般困难的学生中有 3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有 2n%转为一般困难,特别困难的学生中有 n%转为很困难.现统计了该地级市 2013 年到 2017 年共 5 年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份 x 取 13 时代表2013 年,x 与 y(万元)近似满足关系式 y=C 1 ·2C 2 x,其中 C 1 ,C 2 为常数(2013 年至2019 年该市中小学生人数大致保持不变).

 y- k- ∑5i = 1

 (k i -k-) 2

 ∑5i = 1

 (y i -y-) 2

 ∑5i = 1

 (x i -x-)(y i -y-) ∑5i = 1

 (x i -x-)(k i -k-) 2.3 1.2 3.1 4.6 2 1 其中 k i =log 2

 y i ,k-= 15 ∑5i = 1 k i . (1)估计该市 2018 年人均可支配收入; (2)求该市 2018 年的“专项教育基金”的财政预算大约为多少. 附:①对于一组具有线性相关关系的数据(u 1 ,v 1 ),(u 2 ,v 2 ),…,(u n ,v n ),其回归 直 线 方 程 v = β u + α 的 斜 率 和 截 距 的 最 小 二 乘 估 计 分 别 为 β =

 ∑ni = 1

 (u i -u-)(v i -v-)∑ni = 1

 (u i -u-)

 2,α=v--βu-. ②

 2- 0.7

 2- 0.3

 2 0.1

 2 1.7

 2 1.8

 2 1.9

 0.6 0.8 1.1 3.2 3.5 3.73 解 (1)因为x-= 15 ×(13+14+15+16+17)=15,所以∑5i = 1

 (x i -x-) 2 =(-2) 2 +(-1) 2+0 2 +1 2 +2 2 =10. 由 k=log 2

 y 得 k=log 2

 C 1 +C 2 x, 所以 C 2 =∑5i = 1

 (x i -x-)(k i -k-)∑5i = 1

 (x i -x-)

 2=110 , log 2

 C 1 =k--C 2 x-=1.2-110 ×15=-0.3, 所以 C 1 =2- 0.3 =0.8,所以 y=0.8×2 x10 . 当 x=18 时,y=0.8×2 1.8 =0.8×3.5=2.8(万元). 即该市 2018 年人均可支配收入为 2.8 万元. (2)由题意知 2017 年时该市享受“国家精准扶贫”政策的学生有 200 000×7%=14 000 人, 一般困难、很困难、特别困难的中学生依次有 7 000 人、4 200 人、2 800 人,2018年人均可支配收入比 2017 年增长 0.8×21.8 -0.8×2 1.70.8×2 1.7=2 0.1 -1=0.1=10%, 所以 2018 年该市特别困难的中学生有 2 800×(1-10%)=2 520 人. 很困难的的学生有 4 200×(1-20%)+2 800×10%=3 640 人, 一般困难的学生有 7 000×(1-30%)+4 200×20%=5 740 人. 所以 2018 年的“专项教育基金”的财政预算大约为 5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元). C 级 创新猜想 15.(多填题)从某居民区随机抽取 10 个家庭,获得第 i 个家庭的月收入 x i (单位:千

 元)与月储蓄 y i (单位:千元)的数据资料,计算得∑10i = 1 x i =80,∑10i = 1 y i =20,∑10i = 1 x i y i =184,∑10i = 1 x2i =720.已知家庭的月储蓄 y 关于月收入 x 的线性回归方程为y=bx+a,则变量x 与 y________(填“正相关”或“负相关”);若该居民区某家庭月收入 7 千元,预测该家庭月储蓄________千元. 解析 由题意,知 n=10,∴x-=110 ∑10i = 1 x i =8010 =8,y-=110 ∑10i = 1 y i =2010 =2, ∴b= 错误! ! = 错误! ! =0.3, a=y--bx-=2-0.3×8=-0.4,∴y=0.3x-0.4. ∵0.3>0,∴变量 x 与 y 正相关. 当 x=7 时,y=0.3×7-0.4=1.7(千元). 答案 正相关 1.7

相关热词搜索: 相关性 小二 估计