本文最后更新于 2024年10月9日 晚上
题目
设 x1,⋯,xn 是来自某一总体的样本,其算术平均值称为样本均值,用xˉ表示,即
xˉ=nx1+⋯+xn=n1i=1∑nxi.
在分组样本场合,均值的近似公式为:
xˉB=nx1f1+⋯+xnfn,n=k=1∑Bfk.
其中 k 为组数,xk 为第 k 组的组中值 (分段的中点,xk=2bk+bk+1),fk 为第 k 组的频数。
请证明: xˉB 是 E(X) 的一种良好近似,并说明这种近似是在何种意义下成立的。
证明
依题意,设分布函数为 F(x),将样本分为 B 组。其中,第 k 组的两端分别为 bk,bk+1,xk 为第 k 组的组中值,fk 为第 k 组的频数。
则有,
b1≤b2≤⋯≤bB+1
首先,考虑频率对第 k 组概率的逼近。对于任意一种给定的分组方式,设数据点落入第 k 组的概率为 pk,取一列随机变量 an∈{0,1} 用于表征数据点是否落入第 k 组中。由伯努利大数定律,对任意给定的 ϵ>0,
n→∞limP(nfk−pk<ϵ)=n→∞limP(na1+a2+⋯+an−pk<ϵ)=1
对于 ∀δ>0 有下式成立,
P(∣E(X)−xˉB∣≥δ)=P((∣E(X)−xˉB∣≥δ)∩(nfk−pk<ϵ))+P((∣E(X)−xˉB∣≥δ)∩(nfk−pk≥ϵ))≤P((∣E(X)−xˉB∣≥δ)∩(nfk−pk<ϵ))+σ=σ+P((∣E(X)−xˉB∣≥δ)∣(nfk−pk<ϵ))P(nfk−pk<ϵ)≤σ+P((∣E(X)−xˉB∣≥δ)∣(nfk−pk<ϵ))
当 nfk−pk<ϵ 时,按如下定义第 k 组的宽度 Δk,
Δk=bk+1−bk,k=1,2,…,B.
注意到,第 k 组之中的任意数据 x 与其组中值 xk 间的误差有如下上界,
∣x−xk∣=x−2bk+bk+1≤2bk+1−bk=21Δk
定义宽度上界 Δmax 以及数据点绝对值的上界 A,
Δmax=1≤k≤Bmax{Δk},A=1≤k≤Bmax{∣xk∣}
此时有,
∣E(X)−xˉB∣=∫−∞∞xdF(x)−k=1∑Bnfkxk≤k=1∑B∫bkbk+1xdF(x)−nfkxk≤k=1∑B∫bkbk+1(x−xk)dF(x)+ϵk=1∑B∣xk∣≤k=1∑B(∫bkbk+1∣x−xk∣dF(x))+ϵk=1∑B∣xk∣≤k=1∑B21Δk⋅(F(bk+1)−F(bk))+ϵk=1∑B∣xk∣=k=1∑B21Δk⋅nfk+ϵk=1∑B∣xk∣≤21Δmax⋅k=1∑Bnfk+ϵk=1∑BA=21Δmax+ϵAB
其中,上式第二行是因为:
nfk−pk=nfk−(F(bk+1)−F(bk))=nfk−∫bkbk+11dF(x)<ϵ
取
ϵ=4(AB+1)Δmax,σ=Δmax
则
∣E(X)−xˉB∣≤21Δmax+ϵAB=21Δmax+4(AB+1)ΔmaxAB≤43Δmax
由于
B→∞limΔmax(B)=0
因此 ∃B0>0,使得对 ∀B>B0,有 Δmax<δ
∣E(X)−xˉB∣≤43Δmax≤43δ
故
P((∣E(X)−xˉB∣≥δ)∣(nfk−pk<ϵ))=0
代回原式可得,
P(∣E(X)−xˉB∣≥δ)≤σ+P((∣E(X)−xˉB∣≥δ)∣(nfk−pk<ϵ))=σ+0=Δmax
至此,实现了 Δmax 对逼近误差的控制。
综上,当样本中 分组充分多(B>B0)、分组充分细(Δmax充分小)、数据点充分多 (n>NB)的情况下,可以实现 xˉB 对 E(X) 的充分逼近。