第六章
数理统计的基本概念
一、教学要求
1.理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。
2.了解 分布、t 分布和 F 分布的定义和性质,了解分位数的概念并会查表计算。
3.掌握正态总体的某些常用统计量的分布。
4.了解最大次序统计量和最小次序统计量的分布。
本章重点:统计量的概念及其分布。
二、主要内容
1 .总体与个体
我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。在实际问题中,通常研究对象的某个或某几个数值指标,因而常把总体的数值指标称为总体。设 x 为总体的某个数值指标,常称这个总体为总体 X。X 的分布函数称为总体分布函数。当 X 为离散型随机变量时,称 X 的概率函数为总体概率函数。当 X 为连续型随机变量时,称 X 的密度函数为总体密度函数。当 X 服从正态分布 时,称总体 X 为正态总体。正态总体有以下三种类型:
(1) 未知,但 已知;
(2) 未知,但 已知;
(3) 和 均未知。
2.简单随机样本
数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。要作统计推断,首先要依照一定的规则抽取 n 个个体,然后对这些个体进行测试或观察得到一组数据 ,这一过程称为抽样。由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为,n 维随机向量( )称为样本。n 称为样本容量。
( )称为样本观测值。
如果样本( )满足
(1)
相互独立;
(2) 服从相同的分布,即总体分布;
则称( )为简单随机样本。简称样本。
设总体 X 的概率函数(密度函数)为 ,则样本(
)的联合概率函数(联合密度函数为)
3. 统计量
完全由样本确定的量,是样本的函数。即:设 是来自总体 X 的一个样本, 是一个 n 元函数,如果 中不含任何总体的未知参数,则 称 为 一个 统 计量, 经 过抽样 后 得到一 组 样本观 测 值,则称 为统计量观测值或统计量值。
4. 常用统计量
(1)样本均值:
(2)样本方差:
(3)样本标准差:
它们的观察值分别为:
这些观察值仍分别称为样本均值、样本方差和样本标准差。
(4)样本( k 阶)原点矩
11, 1,2,nkk iiA X kn (5)样本( k 阶)中心矩
11( ) , 2,3,nkk iiB X X kn
其中样本二阶中心矩211( ) ,nk iiB X Xn 又称为未修正样本方差。
(6)顺序统计量
将样本中的各个分量由小到大的重排成 (1) (2) ( ) nX X X 则称(1) (2) ( ), ,nX X X 为样本顺序统计量,( ) (1) nX X 为样本的极差。
(7)样本相关系数:
1 12 21 1( )( ) ( )( )1 1( ) ( )n ni i i ii ixyn nx yi ii ix x y y x x y yrS Sx x y yn n 其中:
, x y 分别为数据 ,i ix y 的样本均值, ,x yS S 分别为样本 a 标准差。
5、直方图与箱线图
(1)直方图
先将所有采集的数据进行整理,得到顺序统计量,找出其中的最小值(1)x ,最大值( ) nx ,即所有的数据都落在区间(1) ( ),nx x 上,现取区间(1) ( ),nx k x k (其
中 k 可取 0.5,1.5 等),该区间能覆盖区间(1) ( ),nx x ,将区间(1) ( ),nx k x k 等分为 m 个小区间(先取一个区间,其下限比最小的数据稍小,其上限比最大的数据稍大,然后将这一区间等分为 m 个小区间,通常 n 较大时 m 取 10 20 ,当50 n 时则 m 取 5 6 。若 m 取得过大,则会出现某些区间内频数为零,分点通常取比数据精度高一位,以避免数据落在分点上),小区间的长度记为 ,(1) ( )( ) ( )nx k x klm , 称为组距,小区间的端点称为组限,数出数据落在每个小区间内的数据的频数if ,算出频率 ( 1,2, )ifi ln ,然后自左至右依次在各个小区间上做以 ( 1,2, )ifni l 为高的小矩形,这样的图形就称其为频率直方图。显然这种小矩形的面积就等于数据落在该小区间的频率 ( 1,2, )ifi ln ,直方图的外廓曲线接近于总体 X 的概率密度曲线。
(2)
p 分位数 定义
设有容量为 n 的样本观察值1 2, , ,nx x x ,样本 (0 1) p p 分为数记为px ,它具有以下性质:(1)至少有 np 个观察值小于或等于px ;(2)至少有 (1 ) n p 个观察值大于或等于px
样本 p 分位数可按以下法则求得:
将1 2, , ,nx x x 按从小到大的顺序排成(1) (2) ( ) nx x x
01 ,若 np 不是整数,则只有一个数据满足定义中的两点要求,这一数据位于大于 np 的最小整数处,即为位于 1 np 处的数。
02 ,若 np 是整数,则1,np npx x都符合性质要求,故px 取1,np npx x的平均值。
综上可得: ( 1)( ) ( 1)12nppnp npxxx x
npnp不是整是整 特别的:1( )20.51( ) ( )2 212nn nxx medx x
nn奇偶
0.25 分位数又称为第一四分位数,又记为1Q ;0.75 分位数又称为第三四分位数,又记为3Q
(3)箱线图:
数据集的箱线图是由箱子和直线组成的图形,它是在基于以下 5 个数据的图形概括:最小值1 3, , , , Min Q M Q 最大值 Max ,做法如下:
(1)画一水平数轴,在轴上标记最小值1 3, , , , Min Q M Q 最大值 Max ,在数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于1 3, Q Q 的上方,在 M 点的上方画一条垂直线段,线段位于箱子的内部; (2)自箱子的左侧中点引一条水平线直至最小值上方;在同一水平高度自箱子右侧引一条水平线直至最大值上方。箱线图完成。
在数据集中某一个观察值不寻常的大于或小于该数集中的其他数据,称为疑似异常值。
第一四分位数1Q 与第三四分位数3Q 之间的距离:3 1IQR Q Q 称为四分位数间距,若数据小于1 31.5 1.5 Q IQR Q IQR 或大于 ,就认为他是疑似异常值。
将上述箱线图的做法修改如下:
(1’)同(1)
(2’)计算3 1IQR Q Q ,若一个数据小于1 31.5 1.5 Q IQR Q IQR 或大于 ,则认为它是一个异常值,并以 表示; (3’)
自箱子的左侧中点引一条水平线直至数据中除去疑似异常值之后的最小值上方,再自箱子的右侧中点引一条水平线直至数据中除去疑似异常值之后的最大值上方;
这样做出的箱线图称为修正箱线图。
6 关于 分布 (1)
(Gamma)函数
10( ) ,( 0)xx e dx s
它具有以下运算性质:
( 1) ( ); ( ) ( 1)!, ; n n n N
特别地:
(1) 1
1( )2
1201( )2xx e dx
令2 ,2 x t x t dx tdt
2 2 2120 0 01 1( ) 2 22x t t tx e dx e tdt e dt e dtt
令2 2 2 22 2( ) ( )( )t t s tI e dt I e dt e ds e dt
2 20 0rd e rdr I
所以
1( )2
(2)设随机变量 X 服从 分布,即:
( , ) X ,其密度函数为:
11( ) ( )0xx ef x 0 xqita 0, 0
定理:设随机变量 X , Y 都服从 分布且相互独立,即:
( , ) X ,( , ) X 其密度函数分别为:
11( ) ( )0xXx ef x 0 xqita 0, 0
11( ) ( )0yYy ef y 0 yqita 0, 0
则 Z X Y 服从参数为 , 的 分布,即:
( , ) X Y
7、经验分布函数
设1 2, ,nX X X是 总 体 F 的 一 个 样 本 , 用 ( ),( ) S x x 表 示1 2, ,nX X X中不大于 x 的随机变量的个数,定义经验分布函数为:
1( ) ( ) , ( )nF x S x xn
例题 1:设总体 F 有一个样本值 1,2,3,则经验分布函数为:
30 , 11, 1 23( )2,2 331, 3xxF xxx
例题 2:设总体 F 有一个样本值 1,1,2,则经验分布函数为:
30 , 12( ) , 1 231, 2xF x xx 格里汶科定理:(1933 年)
对于任意一实数 x ,当 n 时, ( )nF x 以概率 1 收敛于分布函数 ( ) F x
l i m s u p ( ) ( ) 0 1nnxP F x F x
8. 三个重要分布 ( (1)
)
分布
设 为独立标准正态变量,称随机变量 的分布为自由度为 n 的 分布,记为 。
其密度函数为:
112 221( ) 2 ( )20nxnx enf x 00xx 性质:(1)若2 2 ( ),n 则2 2( ) , ( ) 2 E n D n
因为 (0,1)iX N
所以:
( ) 0, ( ) 1i iE X D X
2( ) ( ) 1i iE X D X
2 21( ) ( )niiE E X n
又 2 4 2 2 4( ) ( ) ( ( )) ( ) 1 3 1 2,( 1,2, )i i i iD X E X E X E X i n
其中:
2 2 224 4 3 32 2 21 1 1( ) ( )2 2 2 2t t titE X t e dt t e d t de 2 2 2 23 3 3 22 2 2 21 1 3( )2 2 2t t t tt de t de e dt t e dt 2 2 2 22 2 2 23 3 3( ) 32 2 2t t t ttde te e dt e dt (2)2 分布的可加性
设2 2 2 21 1 2 2( ), ( ) n n ,并且相互独立,则有:
2 2 21 2 1 2( ) n n
(3)2 分布的分位点
对于给定的正数 (0 1) ,称满足条件
22 2( )( ( )) ( )nP n f x dx 的点2 ( )n 为2 ( )n 分布的上 分位点。
(2 2)
)t 分布
设随机变量 X 与 Y 独立, ,则称
的分布为自由度 n 的 t 分布,记为 。
t 分布又称为学生氏分布,其密度函数为:
1 22( 1) 2( ) (1 ) ,( 2)nn th t tn n n
t 分布的分位点:对于给定的正数 (0 1) ,称满足条件
( )( ( )) ( )t nP t t n h t dt 的点 ( ) t n 为 ( ) t n 分布的上 分位点。其中:1( ) ( ) t n t n
(3)F 分布
设随机变量 U 与 V 相互独立, ,则称
的分布为自由度 的 F 分布,记为 。
密度函数为:
12 22( )2( )( ) ( ) 12 20n nn mn m nymyn m nym
00yy 由定义知:若
则 1( , ) F m nF F 分布的分位点 对于给定的正数 (0 1) ,称称满足:
( , )( ( , )) ( )F n mP F F n m y dy 的点 为 F 分布的 上分位点,且有
9. 抽样分布 (1) 有限总体的抽样分布
定理 1、设总体中个体总数(也称总体大小)为 N ,样本容量为 ( ) n n N 且总体有有限均值 ,方差2 ,则
( ) ( ) i E X
( ) ii 当抽样是有放回时
( ) Xn
当抽样是无放回时
( )1N nXN n
其中 ( ) X 即为 X 的标准差。
(2) 单正态总体的抽样分布
设总体 X (不管服从什么分布,只要均值和方差存在)的均值为 ,方差为2 ,1 2, ,nX X X 是来自 X 的一个样本,2, X S 分别是样本均值和样本方差,则有:
2( ) , ( ) E X D Xn
而22 2 21 1222 2 2 2 21 12 21 1( ) ( ) ( )1 11 1( ) ( ) ( ) ( )1 1( )n ni ii in nii iE S E X X E X nXn nE X nE X nn n nE S
定理 2、设1 2, ,nX X X 是来自正态总体2( , ) X N 的一个样本, X 是样本均值,则有:
2( ) ( , );( ) (0,1)Xi X N ii Nnn
定理 3、设1 2, ,nX X X 是来自正态总体2( , ) X N 的一个样本,2, X S 分别是样本均值和样本方差,则有:
2 2 22 21( 1) 1( ) ( ) ( 1)niini S X X n
2( ) ii X S 与 相互独立。
定理 4、设1 2, ,nX X X 是来自正态总体2( , ) X N 的一个样本,2, X S 分别是样本均值和样本方差,则有:
2 2 22 21( 1) 1( ) ( ) ( )( ) ( 1)niini S X nXii T t nSn 注:2 221(0,1), ( 1)X nN S nn
221( 1)( 1)X nT S t nnn (3) 双正态总体的抽样分布
定 理 5 、 设1 21 2 1 2, , , ,n nX X X Y Y Y 与 分 别 是 来 自 正 态 总 体2 21 1 2 2( , ) ( , ) N N 和 的 样 本 , 且 这 两 个 样 本 相 互 独 立 , 设1 21 11 21 1,n ni ii iX X Y Yn n 分 别 是 这 两 个 样 本 的 样 本 均 值 ;1 22 2 2 21 21 11 21 1( ) , ( )1 1n ni ii iS X X S Y Yn n 分别是这两个样本的样本方差。则有:
(1)
2 21 21 22 21 2( 1, 1);S SF n n
(2)
当2 2 21 2 时
1 21 21 2( ) ( )( 2)1 1wX Yt n nSn n
其中:2 22 21 1 2 21 2( 1) ( 1),2w w wn S n SS S Sn n
证明:(1)2 22 21 1 2 21 22 21 2( 1) ( 1)( 1), ( 1)n S n Sn n
因为2 21 2, S S 相互独立,则由 F 分布定义
21 1212 21 1 21 2 1 22 2 22 2 1 2222( 1)( 1)( 1, 1) ( 1, 1)( 1)( 1)n Sn S SF n n F n nn Sn (2)
2 21 21 21 2( , ) X Y Nn n
所以
1 21 2( ) ( )(0,1)1 1X YU Nn n 又因为
2 22 21 1 2 21 22 21 2( 1) ( 1)( 1), ( 1)n S n Sn n
由2 分布的可加性
2 221 1 2 21 22 21 2( 1) ( 1)( 2)n S n SV n n
由于 , U V 相互独立,由 t 分布定义:
1 21 21 21 22 21 1 2 22 21 2 1 21 2( ) ( )1 1( ) ( )( 2)1 1( 1) ( 1)22wX Yn n X Y Ut n nVn S n SSn n n nn n
三、小结 四、作业
P181
4
P182
9
13
相关热词搜索: 第六章 数理 统计学