第 第 1 1 讲
统计与统计案 【典例】
【要点提炼】
考点一 统计图表 1.频率分布直方图中横坐标表示组距,纵坐标表示 频率组距 ,频率=组距×频率组距 . 2.频率分布直方图中各小长方形的面积之和为 1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等. (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. 【热点突出】
【典例】1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续 11 天复工复产指数折线图,下列说法正确的是(
)
A.这 11 天复工指数和复产指数均逐日增加 B.这 11 天期间,复产指数增量大于复工指数的增量 C.第 3 天至第 11 天复工复产指数均增大都超过 80% D.第 9 天至第 11 天复产指数增量大于复工指数的增量
(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了 100 名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:
将阅读时间不低于 30 分钟的学生称为“阅读霸”,则下列结论正确的是(
) A.抽样表明,该校约有一半学生为阅读霸 B.该校只有 50 名学生不喜欢阅读 C.该校只有 50 名学生喜欢阅读 D.抽样表明,该校有 50 名学生为阅读霸 【拓展训练】1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中 A 点表示十月的平均最高气温约为 15 ℃,B 点表示四月的平均最低气温约为 5 ℃.下面叙述不正确的是(
)
A.各月的平均最低气温都在 0 ℃以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温不低于 20 ℃的月份有 5 个 (2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始
卷面分数由高到低进行排序,评定为 A,B,C,D,E 五个等级,再转换为分数计入高考总成绩.某试点高中 2020 年参加“选择考”总人数是 2018 年参加“选择考”总人数的 2 倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校 2018 年和 2020 年“选择考”成绩等级结果,得到如图所示的统计图.
针对该校“选择考”情况,2020 年与 2018 年比较,下列说法正确的是(
) A.获得 A 等级的人数增加了 B.获得 B 等级的人数增加了 1.5 倍 C.获得 D 等级的人数减少了一半 D.获得 E 等级的人数相同 【要点提炼】
考点二 回归分析 在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心( x , y ),并且可通过线性回归方程估计预报变量的值. 【热点突破】
【典例】2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中 x i 和 y i 分别表示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 i =60, i =1 200,(x i - x )2 =80, (y i - y )2 =9 000,(xi - x )(y i - y )=800. (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数); (2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到 0.01); (3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
【拓展训练】2 (1)已知某产品的销售额 y 与广告费用 x 之间的关系如下表:
x(单位:万元) 0 1 2 3 4 y(单位:万元) 10 15 20 30 35
若求得其线性回归方程为y^=6.5x+a^,则预计当广告费用为 6 万元时的销售额为(
) A.42 万元
B.45 万元
C.48 万元
D.51 万元 (2)(2020·河北衡水中学月考)有一散点图如图所示,在 5 个(x,y)数据中去掉 D(3,10)后,下列说法正确的是(
)
A.残差平方和变小 B.相关系数 r 变小 C.相关指数 R2 变小 D.解释变量 x 与预报变量 y 的相关性变弱 【 要点提炼 】
考点三 独立性检验 假设有两个分类变量 X 和 Y,它们的取值分别为{x 1 ,x 2 }和{y 1 ,y 2 },其样本频数列联表(称为2×2 列联表)为:
y 1
y 2
总计 x 1
a b a+b x 2
c d c+d 总计 a+c b+d a+b+c+d
K2 =n ad-bc2a+b a+c b+d c+d(其中 n=a+b+c+d 为样本容量). 【热点突破】
【典例】3 (2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空
气质量进行调研,随机抽查了 100 天空气中的 PM2.5 和 SO 2 浓度(单位:μg/m3 ),得下表:
SO 2 PM2.5
[0,50] (50,150] (150,475] [0,35] 32 18 4 (35,75] 6 8 12 (75,115] 3 7 10
(1)估计事件“该市一天空气中 PM2.5 浓度不超过 75,且 SO 2 浓度不超过 150”的概率; (2)根据所给数据,完成下面的 2×2 列联表:
SO 2 PM2.5
[0,150] (150,475] [0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO 2 浓度有关? 附:K2 =n ad-bc2a+b c+d a+c b+d, P(K2 ≥k0 ) 0.050 0.010 0.001 k 0
3.841 6.635 10.828
【拓展训练】3 (1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了 100 位育龄妇女,结果如下表.
非一线城市 一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100
附表:
P(K2 ≥k0 ) 0.100 0.050 0.010 0.001 k 0
2.706 3.841 6.635 10.828
由 K2 =n ad-bc2a+b c+d a+c b+d计算得, K2 的观测值 k= 10045×22-20×13258×42×35×65≈9.616, 参照附表,得到的正确结论是(
) A.在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别无关” C.有 99%以上的把握认为“生育意愿与城市级别有关” D.有 99%以上的把握认为“生育意愿与城市级别无关” (2)某校团委对“学生性别和喜欢某视频 APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频 APP 的人数占男生人数的 16 ,女生喜欢某视频 APP 的人数占女生人数的 23 ,若有 95%的把握认为喜欢某视频 APP 和性别有关,则男生至少有(
)
附:
P(K2 ≥k0 ) 0.050 0.010 k 0
3.841 6.635
K2 =n ad-bc2a+b c+d a+c b+d. A.12 人
B.6 人
C.10 人
D.18 人 专题 训练
一、单项选择题 1.某人 5 次上班途中所花的时间(单位:分钟)分别为 x,y,10,11,9,已知这组数据的平均数为 10,方差为 2,则|x-y|的值为(
) A.4
B.3
C.2
D.1 2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了 100位学生,其中阅读过《西游记》或《红楼梦》的学生共有 90 位,阅读过《红楼梦》的学生共有 80 位,阅读过《西游记》且阅读过《红楼梦》的学生共有 60 位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为(
) A.0.5
B.0.6
C.0.7
D.0.8 3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位:℃)的关系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:
由此散点图可以看出,在 10℃至 40℃之间,下面四个回归方程类型中最适宜作为发芽率 y和温度 x 的回归方程类型的是(
) A.y=a+bx
B.y=a+bx2
C.y=a+bex
D.y=a+bln x 4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为 85 mm,现分别从他们生产的零件中各随机抽取 8 件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计(
)
A.甲、乙生产的零件尺寸的中位数相等 B.甲、乙生产的零件质量相当 C.甲生产的零件质量比乙生产的零件质量好 D.乙生产的零件质量比甲生产的零件质量好 5.某校进行了一次创新作文大赛,共有 100 名同学参赛,经过评判,这 100 名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是(
)
A.得分在[40,60)之间的共有 40 人 B.从这 100 名参赛者中随机选取 1 人,其得分在[60,80)之间的概率为 0.5 C.估计得分的众数为 55 D.这 100 名参赛者得分的中位数为 65 二、多项选择题
6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了 50 名男生和50 名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算 K2 的观测值 k≈4.762,则可以推断出(
)
满意 不满意 男 30 20 女 40 10
P(K2 ≥k0 ) 0.100 0.050 0.010 k 0
2.706 3.841 6.635
A.该学校男生对食堂服务满意的概率的估计值为 35
B.调研结果显示,该学校男生比女生对食堂服务更满意 C.有 95%的把握认为男、女生对该食堂服务的评价有差异 D.有 99%的把握认为男、女生对该食堂服务的评价有差异 7.(2020·河北衡水中学月考)5G 时代已经到来,5G 的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对 GDP 增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的 5G 经济产出所做的预测.
结合上图,下列说法正确的是(
) A.5G 的发展带动今后几年的总经济产出逐年增加
B.设备制造商的经济产出前期增长较快,后期放缓 C.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 D.设备制造商在各年的经济产出中一直处于领先地位 8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90 后从事互联网行业岗位分布条形图,则下列结论正确的是(
) 注:90 后指 1990 年及以后出生,80 后指 1980-1989 年之间出生,80 前指 1979 年及以前出生.
A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上 B.互联网行业中从事技术岗位的人数超过总人数的 20% C.互联网行业中从事运营岗位的人数 90 后比 80 前多 D.互联网行业中从事技术岗位的人数 90 后比 80 后多 三、填空题 9.某企业的一种商品的产量与成本数据如下表:
产量 x(万件) 14 16 18 20 22 成本 y(元/件) 12 10 7 a 3
若根据表中提供的数据,求出 y 关于 x 的线性回归方程为y^=-1.15x+28.1,则 a 的值为________. 10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.
11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88 元,标准差为 2.04 元;股票乙的极差为 27.47 元,标准差为 9.63 元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)
12.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是________.(填序号) ①y 与 x 具有正的线性相关关系; ②回归直线过样本点的中心( x , y ); ③若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg; ④若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg. 四、解答题 13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入 3.5 万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从 0 开始计数的.
(1)根据频率分布直方图计算图中各小长方形的宽度; (2)估计该公司投入 3.5 万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值); (3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:
广告投入 x(单位:万元) 1 2 3 4 5 销售收益 y(单位:万元) 2 3 2
7
表中的数据显示,x 与 y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算 y 关于 x 的线性回归方程.
14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次 空气质量等级
[0,200] (200,400] (400,600] 1(优) 2 16 25 2(良) 5 10 12 3(轻度污染) 6 7 8 4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率; (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表); (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3或 4,则称这天“空气质量不好”.根据所给数据,完成下面的 2×2 列联表,并根据列联表,判断是否有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400 空气质量好
空气质量不好
附:K2 =n ad-bc2a+b c+d a+c b+d. P(K2 ≥k0 ) 0.050 0.010 0.001 k 0
3.841 6.635 10.828
相关热词搜索: 统计 案例 专题