第15讲(总体、样本、统计量)

发布于:2021-08-04 22:35:25

概率论与数理统计 第十五讲

数理统计学是一门应用性很强的学科.它研 究怎样以有效的方式收集、 整理和分析带有随 机性的数据,以便对所考察的问题作出正确的 推断和预测,为采取正确的决策和行动提供依 据和建议.

数理统计不同于一般的资料统计,它更 侧重于应用随机现象本身的规律性进行资料 的收集、整理和分析.

第六章 样本与统计量 §6.1 引言
由于大量随机现象必然呈现出其规律性, 因而从理论上讲,只要对随机现象进行足够多 次的观察,随机现象的规律性就一定能够清楚 地呈现出来. 但是,客观上只允许我们对随机现象进行 次数不多的观察或试验,也就是说:我们获得 的只能是局部的或有限的观察资料.

数理统计以概率论为基础,根据实验所得 的数据,对研究对象的客观规律尽可能作出合 理的估计与推断. 根据数据,对分布中的未知参数 参数估计: 进行估计; 假设检验: 根据数据,对分布中的未知参数 的某种假设进行检验. 参数估计与假设检验是统计推断的两种 基本形式.

§6.2 总体与样本
6.2.1 总体、个体与样本 定义1 在数理统计中,把所研究对象的全体 称为总体,总体中的每个元素为个体. 如: 研究某厂生产的电视机显像管的*均寿命. 该厂生产的所有显像管组成总体,每一个 显像管就是一个个体.

实际上,我们关心的并不一定是研究对 象的总体或个体本身,而是总体或个体的某 项(或几项)数量指标. 如:对电视机显像管,只关心其*均寿命指标. 再如:某电子产品的使用寿命,某天的最高气 温,加工出来的某零件的长度等数量指标. 因此,有时也将总体理解为那些研究对象 的某项数量指标的全体. 这些指标(总体)可用随机变量X 表示. 为方便,把总体与随机变量X 等同.

这样,总体是某随机变量X 可能取值的全体. ● 如果总体所包含的个体数量是有限的, 称该总体为有限总体. ● 如果总体所包含的个体数量是无限的, 称该总体为无限总体. 说明:在数理统计中,研究有限总体比较 困难. 因为其分布是离散型的,且分布律与总 体中所含个体数量有关系.

通常在总体所含个体数量比较大时,将其 *似地视为无限总体,并用连续型分布* 体的分布,这样便于做统计分析.

为了解总体性质,需要对个体进行观察统计:

全面观察: 往往行不通,要么有破坏性,要么 总体包含个体数量很大,不可能全检查.
抽样统计:从总体中抽取n个个体,根据个体性 质推断总体性质. 定义2

在总体X中随机地抽取n个个体

X 1 , X 2 ,?, X n,称X 1 , X 2 ,?, X n 是总体X 的一个样本. n : 样本容量.

定义3 设X 1 , X 2 , ?, X n 是总体X的一个

样本,若X 1 , X 2 ,?, X n 相互独立且与 X有相同的分布,称X 1 , X 2 ,?, X n 是 来自总体X的简单随机样本,简称样本.
同样,我们也将样本的数量指标称为样本. 因此,今后当我们说到总体及样本时,既指研 究对象又指它们的某项数量指标.

样本的二重性
● 假设

X1, X2, …, Xn 是总体X中的样本,在一 次具体的观测或试验中,它们是一批测量值, 是已经取到的一组数.这就是说,样本具有 数的属性. ● 由于在具体试验或观测中,受各种随机因素 的影响,在不同试验或观测中,样本取值可 能不同. 因此,当脱离特定的具体试验或观 测时,我们并不知道样本 X1,X2,…,Xn 的具 体取值到底是多少.因此,可将样本看成随 机变量.故,样本又具有随机变量的属性..

样本X1,X2,…,Xn既被看成数值,又被 看成随机变量,这就是所谓的样本的二重 性.

样本X 1 , X 2 ,?, X n的观测值x1 , x2 ,?, xn 称为总体X的n个独立观测值(样本观测值).

6.2.2 总体分布 对一个总体,如果用X表示, 则X是一个随机变量. 既然总体X是随机变量,自然就有其概 率分布. 我们把X的分布称为总体分布. 总体的特性是由总体分布来刻画的.因 此,常把总体和总体分布视为同义语.

例1 研究某大城市年龄在1岁到10岁之间 儿童的身高. 显然,不管城市规模多大,这个年龄段的 儿童数量总是有限的.因此,该总体X只能是 有限总体.总体分布只能是离散型分布. 然而,为便于处理问题,我们将有限总体 *似地看成一个无限总体,并用正态分布来逼 *这个总体的分布. 当城市比较大,儿童数量比较多时,这种 *吹奈蟛睿佑τ霉鄣憷纯矗梢院 略不计.

6.2.3 样本分布 既然样本 X1,X2,…,Xn 被看作随机变量, 自然需要研究其联合分布. 假设总体 X 具有概率密度函数 f (x),因 样本X1,X2,…,Xn独立同分布于 X,于是,样 本的联合概率密度函数为
g ( x1 , x2 , , xn ) ? ? f ( xi ).
i ?1 n

例2 假设某大城市居民的收入 X 服从正态分 布N(?,?2), 概率密度为
f ( x) ? 1 2? ? e
? ( x?? )2 2? 2

,

x ? R.

现从总体 X 中随机抽取样本 X1,…,Xn , 因其独立同分布于总体 X,即: Xi ? N(?,?2), i=1,2,…,n. 于是,样本X1,X2,…,Xn 的联合概率密度为
g ( x1 , x 2 , ?, x n ) ? 1 (2? )
n/2 ?

?

n

e

2 ( x ? ? ) i ? 2? 2 i ?1

1

n

.

§6.3 统计量
6.3.1 统计量 由样本推断总体的某些情况时,需要构 造出若干个样本的已知 ( 确定 ) 的函数,其作 用是把样本中所含的某一方面的信息集中起 来. 这种不含任何未知参数的样本的函数称 为统计量.它是完全由样本所决定的量.
定义1 设X 1 , X 2 ,?, X n 是总体X的一个样本, f ( X 1 , X 2 ,?, X n )是X 1 , X 2 ,?, X n的连续函数,且 不含未知参数,称f ( X 1 , X 2 ,?, X n )是统计量.

当样本X 1 , X 2 ,?, X n 取一组观测值 x1 , x 2 ,?, x n 时,统计量f ( X 1 , X 2 ,?, X n ) 便得一观测值f ( x1 , x 2 ,?, x n ).
由样本有二重性,统计量作为样本 的函数也有二重性,既是数又是随机变量.

几个常见统计量 样本均值 样本方差
1 n X ? ? Xi n i ?1
n 1 2 S2 ? ( X ? X ) ? i n ? 1 i ?1

反映总体 均值的信息

样本标准差 1 n 2 S? ( X ? X ) ? i (均方差) n ? 1 i ?1

反映总体 k 阶矩的信息

样本 k 阶原点矩

1 k Ak ? ? X i n i ?1

n

1 n k 样本 k 阶中心矩 M k ? ? ( X i ? X ) n i ?1
反映总体k 阶 中心矩的信息

k=1,2, …

6.3.2 抽样分布 统计量是随机变量,自然有一定的分布, 这个分布称为统计量的抽样分布.原则上可借 助样本的概率分布来计算,但是,一般来说, 统计量的抽样分布的计算很困难,可借助中 心极限定理推出统计量的*似分布. 抽样分布定理 定理1 设 X1,X2,?,Xn是来自均值为? 、 方差为 ?2 的总体的样本,则当 n 充分大时, * 2 似地有 X~N ? , ? / n .

?

?

证明 因X1,X2,…,Xn是来自均值为? 、方差 为?2 的总体的样本.故 X1,X2,…,Xn 独立同分 布, 且 E(X)=?,D(X)=?2, i=1,2,…,n.
据中心极限定理,有

?X
i ?1

n

i

? n?

n?



X ??

?/ n

*似~N (0,1).

当n充分大时,*似地有

X~N ?? , ? / n?.
2

定理应用


样本均值分布函数的*似计算
X ??



?/ n

*似~N (0,1),

所以 ?a ? R, 有
?X ?? a?? ? P{ X ? a} ? P ? ? ? ?? / n ? / n ?

? a?? ? ? ?? ?. ?? / n ?

2.3.1 频率直方图 例1 某工厂生产一种零件,由于生产过程中各 种随机因素的影响,零件长度不尽相同。现测 得该厂生产的100个零件长度(单位: mm)如下:
129, 132, 136, 145, 140, 145, 147, 142, 138, 144, 147, 142, 137, 144, 144, 128 143, 144, 148, 139, 143, 142, 135, 142, 134, 149, 142, 137, 137, 155 155, 128, 148, 137, 142, 144, 141, 149, 132, 134, 145, 132, 140, 142, 130, 145, 148, 143, 148, 135, 136, 152, 141, 146, 138, 131, 138, 136, 144, 142, 142, 137, 141, 134, 142, 133, 153, 143, 145, 140, 137, 142, 150, 141, 139, 139, 150, 139, 137, 139, 140, 143, 149, 136, 142, 134, 146, 145, 130, 136, 140, 134, 142, 142, 135, 131, 136, 139, 137, 144, 141, 136.

这100个数据中,最小值是128,最大值是155.

作频率直方图的步骤 (1) 先确定作图区间 [a, b] ; a = 最小数据-ε/ 2,b = 最大数据+ε/ 2,

ε 是数据的精度. 本例中 ε = 1, a = 127.5, b = 155.5 .
(2) 确定数据分组数 m = [1.87×(n?1)2/5 + 1], 组距 d = (b ? a) / m, 子区间端点 ti = a + i d, i = 0, 1, · · · , m;

(3) 计算落入各子区间内观测值的频数 ni = xj 的个数,xj ∈ (ti?1, ti), j = 1,2, · · · ,n. 频率 fi = ni / n, i = 1, 2, · · · , m;
子区间 (127.5, 131.5) (131.5, 135.5) (135.5, 139.5) (139.5, 143.5) (143.5, 147.5) (147.5, 151.5) (151.5, 155.5) 频数 6 12 24 28 18 8 4 频率 0.06 0.12 0.24 0.28 0.18 0.08 0.04

(4) 以小区间 [ti-1,ti] 为底,yi=fi / d ( i=1, 2, …, m) 为高作一系列小矩形,组成了频 率直方图,简称直方图.

由于概率可以由频率*似, 因此这个直 方图可*似地刻画零件长度的概率分布情况. 用上述直方图刻画随机变量 X的概率分布 情况是比较粗糙的 . 为更加准确地刻画 X 的概 率分布情况,应适当增加观测数据的个数, 同 时将数据分得更细一些. 当数据越来越多, 分 组越来越细时, 直方图的上方外形轮廓就越来 越接*于某一条曲线, 这条曲线是随机变量X 的概率密度曲线 . 可用来准确地刻画 X的概率 分布情况.

小结
本讲首先介绍了样本与统计量的基本概 念,包括:总体、个体、样本、总体分布与 样本分布;然后介绍了统计量的概念和几个 常见的统计量:样本均值、方差、标准差、 k 阶原点矩和k 阶中心矩;最后介绍了抽样 分布的概念与抽样分布定理.


相关推荐

最新更新

猜你喜欢